Walaupun kecerdasan buatan (AI) telah menjadi lebih maju disebabkan perkembangan eksponen, batasan teknologi moden ini masih wujud.
Jadi, bolehkah data sintetik menjadi penyelesaian kepada semua masalah berkaitan AI?
Dalam revolusi industri keempat, setiap industri telah menemui potensi teknologi moden seperti kecerdasan buatan (AI) dan pembelajaran mesin (ML).
Hampir setiap organisasi lain menggunakan AI untuk mencipta proses perniagaan yang lebih cekap dan memastikan kepuasan pelanggan yang lebih baik. Walau bagaimanapun, syarikat pemula, SOHO dan perniagaan kecil dan sederhana (PKS) menghadapi masalah besar apabila menggunakan AI - ia dikenali sebagai masalah permulaan dingin. Walaupun syarikat pemula dan PKS secara amnya tidak mempunyai sumber untuk mengumpul data besar, masalah permulaan dingin pada dasarnya adalah kekurangan data yang relevan.
Sebaliknya, gergasi industri sudah mempunyai sumber untuk mengumpul data dunia sebenar dan menggunakannya untuk melatih sistem AI mereka. Oleh itu, peluang untuk menang bagi perusahaan kecil dan sederhana adalah besar. Dalam kes ini, data sintetik mungkin merupakan pemboleh yang diperlukan.
Data sintetik boleh menjadi kuasa penggerak di sebalik model perniagaan terdorong data. Tambahan pula, kajian telah menunjukkan bahawa data sintetik menghasilkan keputusan yang sama seperti data sebenar. Data sintetik dianggap lebih murah dan mengambil sedikit masa untuk diproses daripada data sebenar. Oleh itu, kemunculan data sintetik boleh menyamakan kedudukan yang kini dikuasai oleh syarikat besar yang memihak kepada PKS dan syarikat permulaan.
Data sintetik ialah data tiruan yang dijana komputer berdasarkan parameter yang ditentukan pengguna untuk memastikan data itu sedekat mungkin dengan data sejarah dunia sebenar. Biasanya, enjin permainan seperti Unreal Engine dan Unity sering digunakan sebagai persekitaran simulasi untuk menguji dan melatih aplikasi berasaskan AI seperti kereta pandu sendiri. Terdapat banyak kelebihan untuk membangunkan aplikasi dipacu AI berdasarkan data sintetik. Beberapa kelebihan termasuk:
Mencari, mengagregat dan memodelkan sejumlah besar data dunia sebenar yang berkaitan adalah proses yang membosankan. Oleh itu, menjana data sintetik mungkin merupakan penyelesaian terbaik. Data sedemikian akan membolehkan membina prototaip dan menguji prototaip tersebut untuk mendapatkan hasil yang diinginkan sebelum pengeluaran besar-besaran. Membina prototaip menggunakan data sintetik adalah lebih cekap dan kos efektif daripada data sebenar.
Open AI, sebuah syarikat penyelidikan kecerdasan buatan bukan untung, sedang membangunkan beberapa aplikasi berasaskan kecerdasan buatan. Antara aplikasi ini, penyelidik telah membangunkan robot yang dilatih dengan data sintetik yang boleh mempelajari tugas baharu selepas melihat tindakan dilakukan sekali sahaja. Permulaan teknologi California sedang membangunkan platform kecerdasan buatan dengan visi yang serupa dengan Amazon Go. Permulaan ini bertujuan untuk menyediakan penyelesaian bebas pembayaran untuk kedai serbaneka dan peruncit dengan bantuan data sintetik. Mereka juga telah memperkenalkan sistem pintar berkuasa AI untuk memantau setiap pembeli di kedai untuk mengenal pasti dan menganalisis corak pembelajaran mereka.
Pada November 2018, 500 juta pelanggan Marriott terjejas dalam pelanggaran data berprofil tinggi. Daripada 500 juta orang itu, 327 juta pengguna telah mencuri data mereka termasuk maklumat pasport, alamat e-mel, alamat surat-menyurat dan maklumat kad kredit. Disebabkan insiden sedemikian, orang ramai bimbang tentang keselamatan dan privasi data mereka.
Data sintetik boleh menyelesaikan isu privasi sedemikian dengan berkesan. Data sintetik tidak termasuk sebarang data peribadi. Oleh itu, privasi data boleh dipastikan dengan mudah. Data sintetik amat berguna dalam melatih sistem AI untuk aplikasi penjagaan kesihatan. Sistem AI selalunya memerlukan data pesakit sebenar. Ini mengancam privasi pesakit. Data sintetik membolehkan pembangunan aplikasi kecerdasan buatan termaju dalam penjagaan kesihatan sambil mengekalkan kerahsiaan pesakit.
Sebagai contoh, penyelidik dari Nvidia, bekerja dengan Mayo Clinic di Minnesota dan Pusat Sains Data Klinikal MGH dan BWH di Boston, menggunakan rangkaian musuh generatif untuk menjana data sintetik untuk melatih rangkaian saraf. Data sintetik yang dijana mengandungi 3,400 MRI daripada dataset Inisiatif Neuroimaging Penyakit Alzheimer dan 200 MRI otak 4D dan tumor daripada dataset Penanda Aras Segmentasi Imej Tumor Otak Multimodal. Begitu juga, sinar-X simulasi boleh digunakan bersama sinar-X sebenar untuk melatih sistem AI untuk mengenali pelbagai keadaan kesihatan.
Salah satu proses yang paling penting dalam membangunkan aplikasi dipacu AI ialah menguji prestasi sistem. Jika sistem tidak menghasilkan output yang diingini, ia perlu dilatih semula. Dalam kes ini, data sintetik boleh terbukti bermanfaat. Data sintetik boleh menjana senario untuk menguji sistem AI dan bukannya menggunakan data sebenar atau menguji sistem dalam persekitaran sebenar. Kaedah ini lebih murah dan kurang memakan masa daripada mendapatkan data sebenar.
Begitu juga, data sintetik juga boleh melatih sistem baharu atau sedia ada untuk senario yang mungkin timbul pada masa hadapan yang kekurangan data atau peristiwa sebenar. Dengan pendekatan ini, penyelidik boleh membangunkan aplikasi AI yang lebih futuristik. Selain itu, melatih semula sistem AI menggunakan data sintetik adalah lebih mudah kerana menjana data sintetik adalah lebih mudah daripada mengumpul data dunia sebenar yang tepat.
Disebabkan manfaat ini, data sintetik telah menjadi alternatif yang boleh diakses untuk menguji dan melatih kenderaan autonomi. Banyak pembangun kereta pandu sendiri menggunakan persekitaran permainan simulasi seperti GTA V untuk melatih sistem berasaskan AI mereka. Begitu juga, May Mobility sedang membina perkhidmatan mikromobiliti pandu sendiri dengan melatih kenderaan mereka menggunakan data sintetik.
Satu lagi pemaju kereta pandu sendiri bernama Waymo telah pun menguji kereta pandu sendirinya dengan memandu sejauh 5 bilion batu di jalan simulasi dan 8 juta batu lagi di jalan sebenar. Pendekatan data sintetik membolehkan pemaju menguji kereta pandu sendiri mereka di jalan simulasi, yang jauh lebih selamat daripada ujian langsung di jalan sebenar.
Mendapatkan data sebenar adalah proses yang membosankan yang melibatkan pembayaran untuk anotasi dan memastikan sebarang pelanggaran hak cipta dielakkan. Tambahan pula, data sebenar hanya boleh digunakan dalam senario tertentu dengan data sejarah yang mencukupi dalam domain tertentu. Tidak seperti data sebenar, data sintetik boleh mewakili sebarang gabungan objek, adegan, peristiwa dan orang dengan serta-merta. Data sintetik boleh menjana set data umum yang boleh menemui aplikasi khusus. Hasilnya, penyelidik boleh meneroka kemungkinan yang tidak berkesudahan dengan data sintetik. Beberapa syarikat permulaan mencipta ekonomi data terbuka dengan membangunkan set data latihan yang memenuhi keperluan pelanggan.
Walaupun data sintetik boleh membantu AI mencapai wilayah yang belum ditemui, pengehadannya mungkin menjadi penghalang utama kepada penggunaan arus perdananya. Sebagai permulaan, data sintetik mensimulasikan beberapa sifat data dunia sebenar, tetapi ia tidak betul-betul meniru data asal. Apabila memodelkan data sintetik sedemikian, sistem AI hanya akan mencari arah aliran dan situasi biasa dalam data sebenar. Oleh itu, senario jarang yang terkandung dalam kes sudut dalam data dunia sebenar tidak boleh dimasukkan dalam data sintetik.
Selain itu, penyelidik masih belum membangunkan mekanisme untuk menyemak sama ada data itu tepat. Mencari kelemahan dalam data sebenar dan mengurangkannya adalah lebih mudah daripada menggunakan data sintetik. Sistem dipacu AI sudah mempunyai "sisi gelap" yang menggalakkan berat sebelah yang tidak disengajakan. Menggunakan data sintetik, mungkin terlalu awal untuk meramalkan skop dan kesan bias ini.
Keperluan untuk organisasi perusahaan memahami data sintetik merupakan penemuan yang agak baharu. Kecekapan dan ketepatan data tersebut belum dinilai berdasarkan piawaian industri semasa. Oleh itu, data sintetik tidak boleh dianggap sebagai sumber data yang berdiri sendiri. Terutamanya dalam aplikasi yang menghadapi kebimbangan keselamatan, seperti aplikasi penjagaan kesihatan dan kereta pandu sendiri, data sintetik mesti digabungkan dengan data dunia sebenar untuk membangunkan sistem AI. Tetapi aplikasi dalam runcit mempunyai faktor risiko yang lebih rendah dan boleh bergantung pada data sintetik dengan mudah.
Untuk tujuan ujian, data sintetik ialah penyelesaian yang berdaya maju dan kos efektif. Walau bagaimanapun, untuk tujuan lain, keputusan sistem AI perlu dikaji dan dianalisis dengan teliti sebelum menggunakan data sintetik sebagai penyelesaian yang berdiri sendiri. Dengan penyelidikan lanjut, data sintetik mungkin menjadi lebih dipercayai untuk pelbagai operasi.
Atas ialah kandungan terperinci Bolehkah data sintetik menjadikan kecerdasan buatan lebih baik?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!