Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya-AI-php.cn

Sejak Ilya Sutskever secara rasmi mengumumkan peletakan jawatannya daripada OpenAI, langkah seterusnya telah menjadi tumpuan semua orang.

Ada juga yang memerhatikan setiap gerak-gerinya. . boleh diringkaskan dalam satu ayat seperti ini:

Rangkaian saraf dilatih dengan matlamat yang berbeza pada data dan modaliti yang berbeza, dancenderung membentuk ruang perwakilan yang dikongsi dalam model statistik dunia sebenar.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

Mereka menamakan spekulasi ini sebagai

Hipotesis Perwakilan Platonik

, merujuk kepada Alegori Gua Plato dan ideanya tentang sifat realiti ideal. Pemilihan Ilya masih dijamin. ringkaskan, ayat pembukaan "Karenina": Semua model bahasa gembira adalah serupa, dan setiap model bahasa yang malang mempunyai nasib malangnya sendiri.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

Untuk menghuraikan pepatah terkenal Whitehead: Semua pembelajaran mesin adalah nota kaki kepada Plato.

Kami juga melihat, dan kandungan umum ialah:
Pengarang menganalisis

Representational Convergence

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya (Representational Convergence)

sistem AI, iaitu, dalam perwakilan titik data yang berbeza model rangkaian saraf menjadi semakin serupa merentas seni bina model yang berbeza, objektif latihan, dan juga modaliti data.

Apakah yang mendorong penumpuan ini? Adakah trend ini akan berterusan? Di manakah destinasi terakhirnya?

Selepas beberapa siri analisis dan eksperimen, para penyelidik membuat spekulasi bahawa penumpuan ini mempunyai titik akhir dan prinsip pemacu:

Model yang berbeza berusaha untuk mencapai gambaran realiti yang tepat Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya .

Sebuah gambar untuk diterangkan:

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

di mana imej

(X)

dan teks Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya (Y)

ialah unjuran berbeza bagi realiti asas yang sama

(Z)

. Para penyelidik membuat spekulasi bahawa algoritma pembelajaran perwakilan akan menumpu kepada perwakilan bersatu Z, dan peningkatan dalam saiz model serta kepelbagaian data dan tugasan adalah faktor utama yang mendorong penumpuan ini.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya Saya cuma boleh katakan itu memang soalan yang Ilya minat. Terlalu mendalam dan kami tak faham sangat Jom minta AI tolong tafsirkan dan kongsikan dengan semua orang~

. Bukti yang mewakili penumpuanPertama sekali, penulis saya menganalisis sejumlah besar kajian berkaitan terdahulu, dan juga menjalankan eksperimen sendiri, dan menghasilkan satu siri bukti penumpuan, menunjukkan penumpuan, skala dan prestasi, dan penumpuan silang mod daripada model yang berbeza.

Ps: Penyelidikan ini memfokuskan kepada perwakilan pembenaman vektor, iaitu, data ditukar kepada bentuk vektor, dan persamaan atau jarak antara titik data diterangkan oleh fungsi kernel. Konsep "penjajaran perwakilan" dalam artikel ini bermakna jika dua kaedah perwakilan yang berbeza mendedahkan struktur data yang serupa, maka kedua-dua perwakilan itu dianggap sebagai diselaraskan.

1. Konvergensi model yang berbeza dengan seni bina dan matlamat yang berbeza cenderung konsisten dalam perwakilan asasnya.

Bilangan sistem yang dibina berdasarkan model asas pra-latihan semakin meningkat secara beransur-ansur, dan beberapa model menjadi seni bina teras standard untuk berbilang tugas. Kebolehgunaan luas ini dalam pelbagai aplikasi mencerminkan fleksibiliti tertentu mereka dalam kaedah perwakilan data.

Walaupun trend ini menunjukkan bahawa sistem AI sedang menumpu ke arah set model asas yang lebih kecil, ia tidak membuktikan bahawa model asas yang berbeza akan membentuk perwakilan yang sama.

Walau bagaimanapun, beberapa penyelidikan terkini berkaitan jahitan model(jahitan model)mendapati bahawa perwakilan lapisan tengah model pengelasan imej boleh diselaraskan dengan baik walaupun dilatih pada set data yang berbeza.

Sebagai contoh, beberapa penyelidikan mendapati bahawa lapisan awal rangkaian konvolusi yang dilatih pada set data ImageNet dan Places365 boleh ditukar ganti, menunjukkan bahawa mereka mempelajari perwakilan visual awal yang serupa. Terdapat juga kajian yang telah menemui sejumlah besar "Rosetta Neurons", iaitu neuron dengan corak pengaktifan yang sangat serupa dalam model visual yang berbeza...

2 Lebih besar saiz dan prestasi model, lebih baik representasinya Semakin tinggi penjajaran.

Para penyelidik mengukur penjajaran 78 model

menggunakan kaedah jiran terdekat bersama pada dataset Places-365dan menilai prestasi tugas hiliran mereka pada penanda aras penyesuaian tugas visi VTAB.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

Didapati bahawa penjajaran perwakilan antara kelompok model dengan keupayaan generalisasi yang lebih kukuh adalah lebih tinggi dengan ketara.

Kajian terdahulu mendapati bahawa penjajaran isirong CKA antara model yang lebih besar adalah lebih tinggi. Secara teorinya, terdapat juga kajian yang membuktikan bahawa pengaktifan dalaman model dengan prestasi keluaran yang serupa juga mestilah serupa.

3. Penumpuan perwakilan model dalam mod yang berbeza.

Penyelidik menggunakan kaedah jiran terdekat bersama untuk mengukur penjajaran pada dataset imej Wikipedia WIT.

Hasilnya mendedahkan hubungan linear antara penjajaran visual bahasa dan skor pemodelan bahasa, dengan trend umum ialah model bahasa yang lebih berkebolehan diselaraskan dengan lebih baik dengan model visual yang lebih berkebolehan.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

4. Model dan perwakilan otak juga menunjukkan tahap ketekalan tertentu, mungkin disebabkan oleh data dan kekangan tugas yang serupa.

Pada tahun 2014, satu kajian mendapati bahawa pengaktifan lapisan tengah rangkaian saraf sangat berkorelasi dengan corak pengaktifan kawasan visual otak, mungkin kerana menghadapi tugas visual dan kekangan data yang serupa.

Sejak itu, kajian selanjutnya mendapati bahawa menggunakan data latihan yang berbeza akan menjejaskan penjajaran perwakilan otak dan model. Penyelidikan psikologi juga mendapati bahawa cara manusia melihat persamaan visual sangat konsisten dengan model rangkaian saraf.

5. Tahap penjajaran perwakilan model berkorelasi positif dengan prestasi tugas hiliran.

Para penyelidik menggunakan dua tugas hiliran untuk menilai prestasi model: Hellaswag

(penaakulan akal)dan GSM8K(matematik). Dan gunakan model DINOv2 sebagai rujukan untuk mengukur penjajaran model bahasa lain dengan model visual.

Hasil eksperimen menunjukkan bahawa model bahasa yang lebih sejajar dengan model visual juga berprestasi lebih baik pada tugas Hellaswag dan GSM8K. Hasil visualisasi menunjukkan bahawa terdapat korelasi positif yang jelas antara tahap penjajaran dan prestasi tugas hiliran.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

Penyelidikan sebelum ini tidak akan dibincangkan di sini. Ahli keluarga yang berminat boleh menyemak kertas asal.

Punca Penumpuan

Kemudian, melalui analisis teori dan pemerhatian eksperimen, pasukan penyelidik mencadangkan sebab yang berpotensi untuk penumpuan perwakilan, dan membincangkan cara faktor-faktor ini berfungsi bersama untuk menyebabkan model yang berbeza menumpu apabila mewakili dunia sebenar.

Dalam bidang pembelajaran mesin, matlamat latihan model perlu mengurangkan ralat ramalan pada data latihan. Untuk mengelakkan model daripada dipasang secara berlebihan, istilah regularisasi biasanya ditambah semasa proses latihan. Regularisasi boleh tersurat atau tersirat.

Dalam bahagian ini, penyelidik menggambarkan bagaimana setiap bahagian berwarna dalam rajah di bawah boleh memainkan peranan dalam menggalakkan penumpuan perwakilan semasa proses pengoptimuman ini.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

1. Convergence via Task Generality(Convergence via Task Generality)

Memandangkan model dilatih untuk menyelesaikan lebih banyak tugas, mereka perlu mencari perwakilan yang boleh memenuhi keperluan semua tugasan Bilangan perwakilan untuk tugasan N adalah kurang daripada bilangan perwakilan yang mampu untuk tugasan M (M . Oleh itu, apabila kesukaran tugasan meningkat, perwakilan model cenderung untuk menumpu kepada penyelesaian yang lebih baik dan lebih sedikit.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

2. Kapasiti model membawa kepada penumpuan

(Penumpuan melalui Kapasiti Model)

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

Para penyelidik menunjukkan andaian kapasiti Jika terdapat perwakilan yang optimum secara global, maka dalam keadaan data yang mencukupi, model yang lebih besar akan lebih cekap mungkin mendekati penyelesaian optimum ini.

Oleh itu, model yang lebih besar menggunakan objektif latihan yang sama, tanpa mengira seni binanya, akan cenderung untuk menumpu ke arah penyelesaian optimum ini. Apabila objektif latihan yang berbeza mempunyai minima yang sama, model yang lebih besar lebih cekap dalam mencari minima ini dan cenderung kepada penyelesaian yang serupa merentas tugas latihan. . Rangkaian dalam cenderung untuk mencari kesesuaian yang mudah dengan data ini, yang menyebabkan model besar cenderung untuk dipermudahkan dalam perwakilan, yang membawa kepada penumpuan.

Iaitu, model yang lebih besar mempunyai liputan yang lebih luas dan dapat memuatkan data yang sama dalam semua cara yang mungkin. Walau bagaimanapun, keutamaan kesederhanaan tersirat rangkaian dalam menggalakkan model yang lebih besar untuk mencari penyelesaian yang paling mudah ini. .

Iaitu, model AI yang berbeza, walaupun dilatih pada data dan sasaran yang berbeza, ruang perwakilan mereka menumpu pada model statistik biasa yang mewakili dunia sebenar yang menjana data yang kami perhatikan.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya Mereka mula-mula membina model dunia acara diskret yang ideal. Dunia mengandungi siri peristiwa diskret Z, setiap peristiwa diambil sampel daripada taburan P(Z) yang tidak diketahui. Setiap peristiwa boleh diperhatikan dengan cara yang berbeza melalui fungsi pemerhatian obs, seperti piksel, bunyi, teks, dsb.

Seterusnya, pengarang mempertimbangkan kelas algoritma pembelajaran kontrastif yang cuba mempelajari perwakilan fX supaya hasil darab dalam fX(xa) dan fX(xb) menghampiri xa dan ) nisbah kemungkinan log

kepada log kemungkinan menjadi pasangan sampel negatif

(diambil secara rawak) Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya .

Selepas derivasi matematik, penulis mendapati bahawa jika data cukup lancar, algoritma jenis ini akan menumpu kepada fungsi kernel iaitu titik maklumat bersama(PMI) xa dan xb

Perwakilan kernel fX.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

Memandangkan kajian menganggap dunia diskret yang ideal, fungsi pemerhatian obs adalah bijektif, jadi inti PMI xa dan xb adalah sama dengan inti PMI bagi peristiwa yang sepadan za dan zb.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

Ini bermakna sama ada pembelajaran perwakilan daripada data visual X atau data bahasa Y, mereka akhirnya akan menumpu kepada fungsi kernel yang sama mewakili P(Z), iaitu, kernel PMI antara pasangan acara.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

Pengkaji menguji teori ini melalui kajian empirikal tentang warna. Sama ada perwakilan warna dipelajari daripada statistik kejadian bersama piksel bagi imej atau statistik kejadian bersama perkataan bagi teks, jarak warna yang terhasil adalah serupa dengan persepsi manusia, dan apabila saiz model bertambah, persamaan ini menjadi lebih tinggi dan lebih tinggi.

Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya

Ini selaras dengan analisis teori, iaitu keupayaan model yang lebih besar boleh memodelkan statistik data pemerhatian dengan lebih tepat, dengan itu memperoleh kernel PMI yang lebih dekat dengan perwakilan acara yang ideal.

Beberapa pemikiran akhir

Di penghujung kertas kerja, penulis merumuskan potensi kesan penumpuan perwakilan pada bidang AI dan hala tuju penyelidikan masa depan, serta potensi had dan pengecualian kepada andaian perwakilan Platonik.

Mereka menegaskan bahawa apabila saiz model meningkat, kemungkinan kesan penumpuan perwakilan termasuk tetapi tidak terhad kepada:

Walaupun hanya menskalakan boleh meningkatkan prestasi, kaedah yang berbeza mempunyai perbezaan dalam kecekapan penskalaan.
Jika terdapat perwakilan Platonik yang bebas modaliti, maka data daripada modaliti yang berbeza harus dilatih bersama untuk mencari perwakilan bersama ini. Ini menjelaskan mengapa adalah berfaedah untuk menambah data visual pada latihan model bahasa dan sebaliknya.
Penukaran antara perwakilan sejajar hendaklah agak mudah, yang mungkin menjelaskan: penjanaan bersyarat lebih mudah daripada penjanaan tanpa syarat, dan penukaran merentas mod juga boleh dicapai tanpa data berpasangan.
Pertambahan saiz model mungkin mengurangkan kecenderungan model bahasa untuk mengada-adakan kandungan dan beberapa biasnya, menjadikannya lebih tepat mencerminkan bias dalam data latihan dan bukannya memburukkan lagi.

Pengarang menekankan bahawa premis impak di atas ialah data latihan model masa hadapan mestilah cukup pelbagai dan tidak rugi untuk benar-benar menumpu kepada perwakilan yang mencerminkan undang-undang statistik dunia sebenar.

Pada masa yang sama, penulis juga menyatakan bahawa data modaliti berbeza mungkin mengandungi maklumat unik, yang mungkin menyukarkan untuk mencapai penumpuan perwakilan lengkap walaupun saiz model meningkat. Di samping itu, tidak semua perwakilan sedang menumpu Sebagai contoh, tiada cara piawai untuk mewakili negeri dalam bidang robotik. Penyelidik dan keutamaan komuniti boleh membawa model untuk menumpu ke arah perwakilan manusia, dengan itu mengabaikan bentuk kecerdasan lain yang mungkin.

Dan sistem pintar yang direka khusus untuk tugasan tertentu mungkin tidak menumpu kepada perwakilan yang sama seperti kecerdasan am.

Pengarang juga menekankan bahawa kaedah mengukur penjajaran perwakilan adalah kontroversi dan kaedah pengukuran yang berbeza mungkin membawa kepada kesimpulan yang berbeza. Walaupun perwakilan model berbeza adalah serupa, jurang masih perlu dijelaskan, dan pada masa ini mustahil untuk menentukan sama ada jurang ini penting.

Untuk butiran lanjut dan kaedah penghujahan, saya akan siarkan kertas kerja di sini~

Pautan kertas: https://arxiv.org/abs/2405.07987

Atas ialah kandungan terperinci Tindakan pertama Ilya selepas meninggalkan kerjanya: Suka kertas ini, dan netizen bergegas membacanya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!