Pernahkah anda membuat kesilapan maut ini dalam projek AI?-AI-php.cn

Penterjemah |. Bugatti

Penilai |. mengejutkan bahawa sistem memerlukan data yang cukup baik untuk dipelajari. Sejumlah besar data berkualiti tinggi biasanya diperlukan, terutamanya untuk kaedah pembelajaran yang diselia, untuk melatih sistem AI atau ML dengan betul. Jumlah data yang diperlukan bergantung pada model AI yang dilaksanakan, algoritma yang digunakan dan faktor lain seperti data dalaman dan data pihak ketiga. Sebagai contoh, rangkaian saraf memerlukan sejumlah besar data untuk dilatih, manakala pepohon keputusan atau pengelas Bayesian tidak memerlukan banyak data untuk mendapatkan hasil yang berkualiti tinggi.

Jadi, anda mungkin fikir lebih banyak data adalah lebih baik, bukan? Sila fikir semula. Organisasi dengan jumlah data yang besar (walaupun exabait data) menyedari bahawa mempunyai lebih banyak data tidak menyelesaikan masalah seperti yang diharapkan. Sesungguhnya, dengan lebih banyak data datang lebih banyak soalan. Lebih banyak data yang anda ada, lebih banyak data yang perlu anda bersihkan dan sediakan, lebih banyak data yang anda perlukan untuk label dan uruskan, lebih banyak data yang anda perlukan untuk melindungi, melindungi, mengurangkan berat sebelah dan langkah lain. Apabila anda mula meningkatkan jumlah data, projek kecil boleh bertukar menjadi besar dengan cepat. Malah, sejumlah besar data sering membunuh projek.

Jelas sekali, langkah yang hilang antara mengenal pasti masalah perniagaan dan mengatur data untuk menyelesaikan masalah itu ialah menentukan data yang diperlukan dan berapa banyak yang sebenarnya diperlukan. Anda memerlukan data yang mencukupi, tetapi tidak mempunyai terlalu banyak: tidak lebih, tidak kurang, tepat. Malangnya, organisasi sering melompat ke dalam projek AI tanpa memahami data. Organisasi perlu menjawab banyak soalan, termasuk mencari tahu di mana data itu, berapa banyak data yang sudah ada, dalam keadaan apa ia, ciri data manakah yang paling penting, penggunaan dalaman dan luaran data, cabaran capaian data, keperluan untuk meningkatkan data sedia ada, dan faktor dan persoalan utama lain. Tanpa menjawab soalan-soalan ini, projek AI mungkin gagal atau bahkan tenggelam dalam lautan data.

1 Memahami data dengan lebih baik

Untuk memahami jumlah data yang anda perlukan, anda mesti terlebih dahulu memahami di mana data berada dalam struktur lokasi projek AI. Satu cara visual untuk membantu kami memahami peningkatan nilai yang kami peroleh daripada data ialah "Piramid DIKUW" (kadangkala dipanggil "Piramid DIKW"), yang menunjukkan bagaimana asas data boleh diubah melalui maklumat, pengetahuan, pemahaman dan kebijaksanaan nilai yang lebih besar.

Dengan asas data yang kukuh, anda boleh mendapatkan cerapan yang lebih mendalam pada lapisan maklumat seterusnya, yang boleh membantu anda menjawab soalan asas tentang data tersebut. Setelah anda membuat perkaitan asas antara data untuk mendapatkan cerapan maklumat, anda boleh mencari corak dalam maklumat tersebut dan memahami cara cebisan maklumat bersambung bersama untuk mendapatkan cerapan yang lebih mendalam. Organisasi boleh memperoleh lebih nilai dengan membina lapisan pengetahuan dan memahami sebab corak ini berlaku, membantu memahami corak asas. Akhir sekali, anda boleh mendapatkan nilai tertinggi daripada maklumat di peringkat kecerdasan dengan memahami secara mendalam sebab dan akibat keputusan maklumat.

Gelombang AI terbaharu ini paling memfokuskan pada lapisan pengetahuan, kerana pembelajaran mesin memberikan cerapan untuk mengenal pasti corak di atas lapisan maklumat. Malangnya, pembelajaran mesin mengalami hambatan pada lapisan pemahaman, kerana mencari corak tidak mencukupi untuk membuat inferens. Kami mempunyai pembelajaran mesin, tetapi kami tidak mempunyai penaakulan mesin untuk memahami sebab corak berlaku. Anda melihat had ini setiap kali anda berinteraksi dengan chatbot. Walaupun pemprosesan bahasa semula jadi berasaskan pembelajaran mesin (NLP) sangat baik dalam memahami pertuturan manusia dan menyimpulkan niat, ia menghadapi batasan apabila cuba memahami dan menaakul. Sebagai contoh, jika anda bertanya kepada pembantu suara jika anda ingin memakai baju hujan esok, ia tidak faham bahawa anda bertanya tentang cuaca. Terpulang kepada manusia untuk memberikan cerapan ini kepada mesin kerana pembantu suara tidak tahu apa sebenarnya hujan.

2. Sentiasa sedar data untuk mengelakkan kegagalan

Data besar telah mengajar kami cara mengendalikan jumlah data yang besar. Bukan sahaja bagaimana data disimpan, tetapi bagaimana semua data itu diproses, dimanipulasi dan dianalisis. Pembelajaran mesin menambah lebih banyak nilai dengan memproses pelbagai jenis data tidak berstruktur, separa berstruktur atau berstruktur yang dikumpulkan oleh organisasi. Sememangnya, gelombang AI baru-baru ini sebenarnya adalah gelombang analitik dipacu data besar.

Tetapi atas sebab inilah sesetengah organisasi mengalami kerugian besar apabila melibatkan AI. Daripada menjalankan projek AI dari perspektif tertumpu data, mereka menumpukan pada aspek fungsi. Untuk menavigasi projek AI dan mengelakkan kesilapan yang membawa maut, organisasi mesti lebih memahami bukan sahaja AI dan pembelajaran mesin, tetapi juga beberapa "V" data besar. Ia bukan hanya tentang jumlah data yang ada, tetapi juga tentang sifat data. Beberapa V data besar termasuk:

Kuantiti: Jumlah mutlak data besar yang dimiliki.
Kelajuan: Kepantasan perubahan data besar. Berjaya menggunakan AI bermakna menggunakan AI pada data berkelajuan tinggi.
Kepelbagaian: Data boleh datang dalam pelbagai format, termasuk data berstruktur seperti pangkalan data, data separa berstruktur seperti invois dan data tidak berstruktur seperti e-mel, imej dan fail video. Sistem AI yang berjaya boleh mengendalikan kepelbagaian ini.
Keaslian: Ini merujuk kepada kualiti dan ketepatan data dan sejauh mana anda mempercayai data tersebut. Sampah masuk, sampah keluar, terutamanya dalam sistem AI dipacu data. Oleh itu, sistem AI yang berjaya perlu dapat mengendalikan kualiti data yang berbeza-beza secara meluas.

Dengan pengalaman berdekad-dekad mengurus projek data besar, organisasi yang berjaya dalam AI pada dasarnya telah berjaya dalam data besar. Organisasi yang telah melihat projek AI gagal sering mendekati masalah AI dengan pemikiran pembangunan aplikasi.

3. Terlalu banyak data yang salah dan data yang tidak mencukupi membunuh projek AI

Walaupun projek AI bermula dengan betul, kekurangan data yang diperlukan, kekurangan pemahaman , dan kekurangan Menyelesaikan masalah sebenar membunuh projek AI. Organisasi terus bergerak ke hadapan tanpa pemahaman sebenar tentang data dan kualiti data yang diperlukan, yang mewujudkan cabaran sebenar.

Salah satu sebab organisasi membuat kesilapan data ini ialah mereka tidak mempunyai sebarang pendekatan sebenar terhadap projek AI selain menggunakan metodologi pembangunan aplikasi yang tangkas atau. Namun organisasi yang berjaya telah menyedari bahawa menggunakan pendekatan data-centric termasuk pemahaman data sebagai peringkat pertama pendekatan projek. Pendekatan CRISP-DM, yang telah wujud selama lebih daripada 20 tahun, menentukan pemahaman data sebagai langkah seterusnya selepas keperluan perniagaan dikenal pasti. Berdasarkan CRISP-DM dan digabungkan dengan kaedah tangkas, pendekatan Pengurusan Projek Kognitif dengan AI (CPMAI) memerlukan pemahaman data dalam fasa kedua. Pendekatan lain yang berjaya juga memerlukan pemahaman data awal dalam projek, kerana projek AI, selepas semua, projek data. Bagaimanakah anda membina program yang berjaya pada data jika anda mendekatinya tanpa memahami data? Ini pasti kesilapan maut yang anda ingin elakkan.

Pautan asal: https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your -ai-projects/?sh=352955946b54

Atas ialah kandungan terperinci Pernahkah anda membuat kesilapan maut ini dalam projek AI?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!