Memperkenalkan permulaan, seorang pemberi maklumat memetik ceramah TED oleh Li Feifei di Vancouver, menunjukkan bahawa beliau memperkenalkan konsep kecerdasan spatial dalam ceramah TED ini.Pilihan "kecerdasan ruang" Li Feifei untuk keusahawanan, video tafsiran TED yang lengkap telah dikeluarkan. .
Baru hari ini, Li Feifei mengeluarkan video ucapan lengkapnya di TED Vancouver di X. . dunia /transkrip
Untuk menerangkan dengan lebih lanjut konsep "kecerdasan ruang," dia menunjukkan gambar kucing dengan kakinya dipanjangkan untuk menolak gelas ke arah tepi meja. Dalam sekejap, katanya, otak manusia boleh menilai "geometri kaca ini, kedudukannya dalam ruang tiga dimensi, hubungannya dengan meja, kucing, dan semua perkara lain ini," kemudian meramalkan apa yang akan berlaku dan mengambil tindakan untuk mencegah."Alam semulajadi telah mencipta kitaran pemerhatian dan tindakan yang mulia yang dikuasakan oleh kecerdasan spatial," katanya sambil menambah bahawa makmal Stanfordnya cuba mengajar komputer "cara bertindak dalam dunia tiga dimensi " Contohnya , menggunakan model bahasa yang besar untuk membolehkan lengan robot melakukan tugas seperti membuka pintu dan membuat sandwic berdasarkan arahan lisan.
Berikut ialah transkrip ucapan Li Feifei pada TED 2024:
Biar saya tunjukkan dahulu, ini adalah dunia 540 juta tahun dahulu, penuh dengan kegelapan yang tulen dan tidak berkesudahan. Kegelapan ini bukan kerana kekurangan cahaya, tetapi kekurangan mata untuk melihat. Walaupun cahaya matahari menembusi permukaan lautan dan mencapai 1,000 meter di bawah, dan cahaya dari lubang hidroterma menerangi dasar laut yang dipenuhi kehidupan, tidak ada satu mata pun yang ditemui di perairan purba ini, tiada retina, tiada kornea, Tiada kanta. . Oleh itu, semua cahaya dan semua makhluk hidup tidak dapat dilihat. Ada masanya konsep "melihat" itu sendiri tidak wujud Sehinggalah kemunculan trilobit, mereka adalah makhluk pertama yang merasakan cahaya, menandakan permulaan dunia baru. Buat pertama kalinya, mereka menyedari bahawa ada dunia yang lebih luas selain mereka. Keupayaan visual ini mungkin telah menimbulkan letupan Cambrian, membolehkan sejumlah besar spesies haiwan mula meninggalkan kesan dalam rekod fosil. Daripada pengesanan cahaya secara pasif kepada penggunaan penglihatan secara aktif untuk memahami dunia, sistem saraf biologi mula berkembang, penglihatan diubah menjadi cerapan, dan kemudian bertindak dibimbing, akhirnya menghasilkan kecerdasan. Kini, kita tidak lagi berpuas hati dengan kecerdasan visual yang diberikan oleh alam semula jadi, tetapi bersemangat untuk mencipta mesin yang boleh "melihat" seperti kita, atau lebih bijak lagi.Sembilan tahun yang lalu, saya mengambil peringkat ini untuk memperkenalkan kemajuan awal dalam penglihatan komputer, subbidang kecerdasan buatan. Pada masa itu, algoritma rangkaian saraf, unit pemprosesan grafik (GPU) dan data besar digabungkan buat kali pertama, bersama-sama membawa kepada era baharu kecerdasan buatan moden. Contohnya ialah set data ImageNet, set data 15 juta imej yang makmal saya menghabiskan beberapa tahun untuk menyusunnya. Kemajuan kami sangat pesat, dan kelajuan dan ketepatan algoritma telah meningkat dengan ketara daripada anotasi imej awal hingga kini. Kami juga telah membangunkan algoritma yang boleh mengenal pasti objek dalam imej dan meramalkan hubungan antara mereka. Kerja ini dilakukan oleh pelajar dan rakan usaha sama saya.
Ingat bahawa kali terakhir saya menunjukkan kepada anda algoritma penglihatan komputer pertama yang boleh menerangkan foto dalam bahasa semula jadi manusia. Itulah kerja yang saya lakukan dengan pelajar saya Andrej Karpathy. Pada ketika itu, saya mengambil peluang dan berkata, "Andrej, bolehkah kita membina komputer terbalik, "Haha, ia tidak mungkin . Ini semua terima kasih kepada keluarga model resapan yang memperkasakan algoritma AI generatif hari ini, yang menukar ayat yang digesa manusia kepada foto dan video baharu sepenuhnya.
Ramai di antara anda telah menyaksikan kerja video menakjubkan yang dicipta oleh Sora OpenAI. Walau bagaimanapun, walaupun tanpa sumber GPU yang besar, pelajar saya dan rakan usaha sama kami berjaya membangunkan model video generatif yang dipanggil Walt beberapa bulan sebelum Sora.
Walaupun begitu, kami masih meneroka dan menambah baik. Kami mendapati bahawa masih terdapat beberapa ketidaksempurnaan dalam video yang dihasilkan, seperti perincian pada mata kucing dan cara ia bergerak melalui ombak tanpa basah. Tetapi kerana pengalaman lalu telah mengajar kita, kita akan belajar daripada kesilapan ini, terus memperbaiki, dan mencipta masa depan impian kita. Pada masa hadapan, kami berharap AI akan melakukan lebih banyak perkara untuk kami, atau membantu kami melakukannya dengan lebih baik.
Saya telah menekankan selama bertahun-tahun bahawa mengambil gambar dan benar-benar "melihat" dan memahami adalah dua perkara yang berbeza. Hari ini, saya ingin menambah sesuatu. Melihat sahaja tidak mencukupi. "Melihat" sebenar adalah untuk tindakan dan pembelajaran. Apabila mengambil tindakan dalam tiga dimensi ruang dan masa, kita belajar cara melakukannya dengan lebih baik melalui pemerhatian. Alam semula jadi mencipta kitaran murni melalui "kecerdasan ruang" yang menghubungkan penglihatan dan tindakan.
Untuk menggambarkan cara kecerdasan spatial berfungsi, lihat foto ini. Jika anda tiba-tiba mempunyai keinginan untuk melakukan sesuatu, ini bermakna otak anda telah menganalisis dengan serta-merta geometri kaca, kedudukannya di angkasa, dan hubungannya dengan objek sekeliling. Dorongan untuk bertindak ini wujud dalam semua makhluk dengan kecerdasan spatial, dan ia berkait rapat dengan persepsi dan tindakan.
Jika kita mahu kecerdasan buatan mengatasi keupayaan semasa, kita bukan sahaja memerlukannya untuk melihat dan bercakap, tetapi juga untuk bertindak. Kami telah membuat kemajuan yang menarik dalam bidang ini. Pencapaian kecerdasan spatial terkini adalah untuk mengajar komputer untuk melihat, belajar dan bertindak, dan terus belajar cara melihat dan bertindak dengan lebih baik Ini tidak mudah kerana alam semula jadi mengambil masa berjuta-juta tahun untuk mengembangkan keupayaan bergantung pada mata untuk menerima cahaya dan menukar imej dua dimensi kecerdasan ruang ditukar kepada maklumat tiga dimensi.
Hanya baru-baru ini, satu pasukan penyelidik daripada Google telah membangunkan algoritma untuk mengubah set foto menjadi ruang tiga dimensi, seperti contoh yang kami tunjukkan di sini. Pelajar saya dan rakan usaha sama kami mengambil langkah lebih jauh dan mencipta algoritma yang hanya mengambil input imej dan menukarkannya kepada bentuk tiga dimensi. Berikut adalah beberapa lagi contoh.
Ingat bahawa kita bercakap tentang program komputer yang boleh menukar penerangan lisan manusia kepada video. Satu pasukan penyelidik di Universiti Michigan telah menemui cara untuk menterjemah ayat ke dalam susun atur bilik tiga dimensi. Rakan sekerja saya di Stanford dan pelajar kami dan saya telah membangunkan algoritma yang mengambil sebagai input hanya satu imej dan mencipta bilangan ruang yang tidak terhingga untuk diterokai oleh penonton.
Ini adalah kemajuan menarik yang telah kami capai dalam bidang kecerdasan spatial, dan ia juga menunjukkan kemungkinan dunia masa depan kita. Pada masa itu, manusia akan dapat mengubah seluruh dunia ke dalam bentuk digital, dunia digital yang mampu meniru kekayaan dan nuansa dunia sebenar.
Seiring kemajuan kecerdasan spatial semakin pesat, era baru kitaran mulia ini terbentang di hadapan mata kita. Interaksi bolak-balik ini memangkinkan pembelajaran robot, komponen utama mana-mana sistem kecerdasan yang terkandung yang perlu memahami dan berinteraksi dengan dunia tiga dimensi.
Sepuluh tahun yang lalu, ImageNet, dibangunkan dalam makmal saya, mendayakan pangkalan data berjuta-juta foto berkualiti tinggi untuk melatih penglihatan komputer. Hari ini, kami sedang mengumpulkan "ImageNet" tingkah laku dan tindakan untuk melatih komputer dan robot cara bertindak dalam dunia tiga dimensi. Tetapi kali ini kami tidak mengumpul imej statik, tetapi membina persekitaran simulasi yang didorong oleh model spatial tiga dimensi. Ini memberikan komputer kemungkinan yang tidak terhingga untuk mempelajari cara bertindak.
Kami juga membuat kemajuan yang menarik dalam kecerdasan bahasa robot. Menggunakan input berdasarkan model bahasa yang besar, pelajar dan rakan usaha sama saya menjadi pasukan pertama yang mencipta lengan robot yang boleh melakukan pelbagai tugas berdasarkan arahan lisan, seperti membuka laci atau mencabut palam telefon daripada dicas, atau boleh buat sandwic dengan roti, salad, tomato, dan juga letakkan serbet untuk anda. Biasanya saya mungkin mempunyai lebih banyak keperluan untuk sandwic daripada lengan robotik, tetapi ini adalah permulaan yang baik.
Pada zaman purba kita, di lautan primitif itu, keupayaan untuk memerhati dan melihat persekitaran sekeliling memulakan letupan spesies biologi pada zaman Kambrium. Hari ini, cahaya ini menyentuh "kehidupan dalam bentuk digital." Kecerdasan ruang membolehkan mesin berinteraksi bukan sahaja antara satu sama lain, tetapi juga dengan manusia atau dengan dunia tiga dimensi dalam bentuk sebenar atau maya menjadi penting kepada ramai orang. Mempunyai kesan yang mendalam terhadap kehidupan.
Mari kita ambil penjagaan kesihatan sebagai contoh sepanjang dekad yang lalu, makmal saya telah mengambil langkah pertama untuk meneroka cara menggunakan kecerdasan buatan untuk mempengaruhi keberkesanan rawatan pesakit dan cara menangani cabaran keletihan kakitangan perubatan.
Kami sedang merintis penderia pintar dengan rakan usaha sama di Sekolah Perubatan Stanford dan hospital lain. Ia boleh mengesan apabila seorang doktor memasuki bilik pesakit tanpa mencuci tangan dengan betul dan mengesan instrumen pembedahan atau memberi amaran kepada pasukan penjagaan apabila pesakit berisiko, seperti terjatuh. Teknologi ini adalah sejenis kecerdasan ambien, seperti sepasang mata tambahan, yang benar-benar boleh membawa perubahan kepada dunia. Saya lebih suka bantuan yang lebih interaktif untuk pesakit, doktor dan penjaga kami yang sangat memerlukan sepasang tangan tambahan. Bayangkan robot autonomi menghantar bekalan perubatan sementara penjaga memberi tumpuan kepada pesakit, atau dalam realiti tambahan, membimbing pakar bedah melalui prosedur yang lebih selamat, lebih cepat, kurang invasif.
Atau bayangkan senario di mana pesakit lumpuh teruk boleh mengawal robot dengan pemikiran mereka. Betul, menggunakan gelombang otak untuk menyelesaikan tugas harian yang anda dan saya ambil mudah. Anda boleh melihat kemungkinan masa hadapan ini dalam percubaan baru-baru ini daripada makmal saya. Dalam video ini, lengan robotik memasak sukiyaki Jepun dikawal sepenuhnya oleh isyarat elektrik dari otak, yang dikumpulkan secara bukan invasif melalui penutup EEG.
Kira-kira 500 juta tahun yang lalu, kemunculan penglihatan mengubah dunia gelap dan mencetuskan proses evolusi yang paling mendalam: perkembangan kecerdasan dalam dunia haiwan. Kemajuan yang mengejutkan dalam kecerdasan buatan sepanjang dekad yang lalu juga menakjubkan. Tetapi saya percaya potensi penuh letupan Cambrian digital ini tidak akan direalisasikan sepenuhnya sehingga kita mempunyai komputer dan robot yang dikuasakan oleh kecerdasan spatial, seperti yang pernah dilakukan oleh alam semula jadi dengan manusia.
Ini akan menjadi masa yang mengujakan kerana rakan digital kami akan belajar untuk menaakul dan berinteraksi dengan ruang tiga dimensi yang indah iaitu dunia manusia, sambil turut mencipta lebih banyak dunia baharu yang boleh kami terokai. Mencapai masa depan ini tidak akan mudah. Ia memerlukan pemikiran yang teliti dan sentiasa membangunkan teknologi dengan orang di hati. Tetapi jika kita melakukannya dengan betul, komputer dan robot yang dikuasakan oleh kecerdasan spatial akan menjadi bukan sahaja alat yang berguna, tetapi juga rakan kongsi yang boleh dipercayai, meningkatkan produktiviti manusia dan menggalakkan kewujudan bersama yang harmoni. Pada masa yang sama, maruah peribadi kita akan lebih menonjol, membawa kepada kemakmuran bersama masyarakat manusia.
Apa yang paling menggembirakan saya tentang masa depan ialah AI akan menjadi lebih tajam, lebih berwawasan dan sedar dari segi ruang. Mereka akan berjalan bersama manusia dan sentiasa mengejar cara yang lebih baik untuk mencipta dunia yang lebih baik.
Atas ialah kandungan terperinci Li Feifei mentafsir arah keusahawanan 'kecerdasan ruang' untuk membolehkan AI benar-benar memahami dunia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!