Berdasarkan apa yang kita lihat setakat ini pada tahun 2022, Datanami yakin ia boleh membuat lima ramalan ini untuk sepanjang tahun ini.
Separuh pertama tahun ini adalah besar untuk kebolehmerhatian data, membolehkan pelanggan memahami situasi aliran data dengan lebih baik dan membangunkan penunjuk yang berkaitan. Apabila data menjadi lebih penting untuk membuat keputusan, begitu juga kesihatan dan ketersediaan data tersebut.
Kami telah melihat beberapa syarikat permulaan pemerhatian data menerima ratusan juta dolar dalam modal teroka, termasuk Cribl ($150J Siri D) ($135 juta Siri D) ; ); dan lain-lain. Syarikat lain yang membuat berita termasuk Bigeye, yang melancarkan metrik metadata, yang diperoleh oleh Software AG untuk $580 juta dan IBM, yang memperoleh Databand permulaan pemerhatian;
Momentum ini akan berterusan pada separuh kedua 2022, apabila lebih banyak syarikat pemerhatian data muncul dari hutan dan syarikat permulaan sedia ada berusaha untuk mengukuhkan kedudukan mereka dalam pasaran baru muncul ini.
Data masa nyata telah berada di penunu belakang selama bertahun-tahun, menyediakan kes penggunaan khusus tetapi sebenarnya tidak digunakan secara meluas dalam perusahaan biasa. Walau bagaimanapun, terima kasih kepada pandemik COVID-19 dan penyusunan semula rancangan perniagaan yang berkaitan sejak beberapa tahun lalu, keadaan kini sudah matang untuk data masa nyata untuk memasuki kancah teknologi arus perdana.
"Saya rasa penstriman akhirnya berlaku," kata Ketua Pegawai Eksekutif Databricks Ali Ghodsi pada Sidang Kemuncak Data + AI baru-baru ini, sambil menyatakan bahawa beban kerja penstriman meningkat sebanyak 2.5% pada masa platform data berasaskan awan syarikat. "Mereka mempunyai lebih banyak kes penggunaan AI yang memerlukan masa nyata."
Pangkalan data dalam memori dan grid data dalam memori juga bersedia untuk mendapat manfaat daripada kebangkitan masa nyata (jika itu berlaku). RocksDB, pangkalan data analitik pantas yang meningkatkan sistem berasaskan acara seperti Kafka, kini mempunyai pengganti yang dipanggil Speedb. SingleStore, yang menggabungkan keupayaan OLTP dan OLAP dalam rangka kerja perhubungan tunggal, mencapai penilaian $1.3 bilion dalam pusingan pembiayaan bulan lepas.
Terdapat juga StarRocks, yang baru-baru ini menerima pembiayaan untuk pangkalan data OLAP baharu yang pantas berdasarkan Apache Doris; menambah Apache Pulsar pada kit alat Apache Cassandranya, mengumpul $115 juta untuk memacu pembangunan aplikasi masa nyata. Datanami menjangkakan tumpuan ini pada analisis data masa nyata akan diteruskan.
Sudah empat tahun sejak GDPR berkuat kuasa, meletakkan pengguna data besar dalam perhatian dan mempercepatkan peningkatan tadbir urus data sebagai komponen penting bagi inisiatif data yang bertanggungjawab. Di Amerika Syarikat, tugas mengawal selia akses data telah jatuh kepada negeri-negeri, dengan California mendahului dengan CCPA, yang dalam banyak cara dimodelkan selepas GPDR. Tetapi lebih banyak negeri mungkin akan mengikutinya, merumitkan persamaan privasi data untuk syarikat A.S.
Tetapi GDPR dan CCPA hanyalah permulaan peraturan. Kami juga berada di tengah-tengah kehancuran kuki pihak ketiga, yang menjadikannya lebih sukar bagi syarikat untuk menjejaki tingkah laku dalam talian pengguna. Keputusan Google untuk menangguhkan penamatan kuki pihak ketiga pada platformnya sehingga 1 Januari 2023 memberi pemasar masa tambahan untuk menyesuaikan diri, tetapi maklumat daripada kuki itu sukar untuk ditiru.
Selain peraturan data, kami juga berada di puncak peraturan baharu berkenaan penggunaan kecerdasan buatan. EU memperkenalkan Rang Undang-undang Kecerdasan Buatan pada 2021, dan pakar meramalkan ia boleh menjadi undang-undang pada penghujung 2022 atau awal 2023.
Perang teknologi klasik sedang terbentuk apabila format jadual data baharu akan menentukan cara data disimpan dalam sistem data besar, siapa yang boleh mengaksesnya dan siapa yang menggunakannya Apa yang boleh selesai dengannya.
Dalam beberapa bulan kebelakangan ini, Apache Iceberg telah mendapat momentum sebagai standard baharu yang berpotensi untuk format jadual data. Gergasi gudang data awan Snowflake dan AWS tampil awal tahun ini untuk menyokong Iceberg, yang menyediakan kawalan transaksi dan data lain dan telah muncul daripada kerja di Netflix dan Apple. Bekas pengedar Hadoop Cloudera juga menyokong Iceberg pada bulan Jun.
Tetapi orang di Databricks menawarkan alternatif jadual kepada Tasik Delta yang menawarkan fungsi yang serupa dengan Iceberg. Penyokong Apache Spark pada asalnya membangunkan format jadual Delta Lake secara proprietari, yang membawa kepada tuduhan bahawa Databricks telah menetapkan kunci masuk untuk pelanggan. Tetapi pada Sidang Kemuncak Data + AI pada bulan Jun, syarikat itu mengumumkan bahawa ia akan menjadikan keseluruhan format sumber terbuka, membolehkan sesiapa sahaja menggunakannya.
Tersesat dalam shuffle ialah Apache Hudi, yang turut menyediakan ketekalan data kerana ia berada dalam repositori data besar dan boleh diakses oleh pelbagai enjin pengkomputeran. Onehouse, sebuah perniagaan yang disokong oleh pencipta Apache Hudi, melancarkan platform Lakehouse berasaskan Hudi awal tahun ini.
Ekosistem data besar menyukai persaingan, jadi menarik untuk melihat format ini berkembang dan bersaing sepanjang tahun 2022.
Sempadan AI semakin tajam dan tajam setiap bulan, dan hari ini, peneraju AI ialah model bahasa yang besar, yang semakin baik dan lebih baik. Malah, model bahasa yang besar telah menjadi begitu baik sehingga pada bulan Jun seorang jurutera Google mendakwa bahawa sistem perbualan LaMDA syarikat telah menjadi sensitif.
Kecerdasan buatan masih belum peka, tetapi itu tidak bermakna ia tidak berguna kepada perniagaan. Sebagai peringatan, Salesforce mempunyai projek pemodelan bahasa (LLM) besar yang dipanggil CodeGen, yang direka untuk memahami kod sumber dan juga menjana kodnya sendiri dalam bahasa pengaturcaraan yang berbeza.
Bulan lepas, Meta (syarikat induk Facebook) melancarkan model bahasa besar-besaran yang boleh menterjemahkan 200 bahasa. Kami juga telah melihat usaha untuk mendemokrasikan AI melalui projek seperti Model Bahasa Berbilang Bahasa Akses Terbuka Sains Terbuka Besar BigScience atau BLOOM.
Atas ialah kandungan terperinci Ramalan Teknologi Data dan Kepintaran Buatan untuk Separuh Kedua 2022. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!