OpenAI membangunkan alat baharu untuk cuba menerangkan tingkah laku model bahasa-AI-php.cn

OpenAI membangunkan alat baharu untuk cuba menerangkan tingkah laku model bahasa

WBOY

Lepaskan： 2023-05-12 10:28:05

ke hadapan

1193 orang telah melayarinya

Model bahasa ialah teknologi kecerdasan buatan yang boleh menjana bahasa semula jadi daripada teks yang diberikan. Model bahasa siri GPT OpenAI pada masa ini merupakan salah satu wakil yang paling maju, tetapi IT House menyedari bahawa mereka juga mempunyai masalah: tingkah laku mereka sukar untuk difahami dan diramalkan. Untuk menjadikan model bahasa lebih telus dan boleh dipercayai, OpenAI sedang membangunkan alat baharu yang secara automatik boleh mengenal pasti bahagian mana model bahasa yang bertanggungjawab terhadap kelakuannya dan menerangkannya dalam bahasa semula jadi.

OpenAI membangunkan alat baharu untuk cuba menerangkan tingkah laku model bahasa

Prinsip alat ini ialah menggunakan model bahasa lain (iaitu, GPT-4 terbaharu OpenAI) untuk menganalisis model bahasa lain (seperti GPT-2 OpenAI sendiri) struktur dalaman. Model bahasa terdiri daripada banyak "neuron", yang setiap satunya boleh memerhati corak tertentu dalam teks dan mempengaruhi output model seterusnya. Sebagai contoh, diberikan soalan tentang wira-wira (seperti "Wira adiwira yang manakah mempunyai kuasa besar yang paling berguna?"), "Marvel Superhero Neuron" mungkin meningkatkan kebarangkalian model tersebut menyebut wira-wira tertentu daripada filem Marvel.

Alat OpenAI menggunakan mekanisme ini untuk menguraikan pelbagai bahagian model. Pertama, ia menyuapkan urutan teks ke dalam model yang sedang dinilai dan menunggu neuron tertentu "membakar" dengan kerap. Ia kemudian "menunjukkan" neuron yang sangat aktif ini kepada GPT-4, dan membolehkan GPT-4 menjana penjelasan. Untuk menentukan ketepatan tafsiran, ia menyuap GPT-4 beberapa jujukan teks dan memintanya untuk meramal atau mensimulasikan tingkah laku neuron. Ia kemudian membandingkan tingkah laku neuron simulasi dengan tingkah laku neuron sebenar.

“Dengan pendekatan ini, kami pada asasnya boleh menjana beberapa penjelasan bahasa semula jadi awal untuk setiap neuron, dan juga mempunyai skor yang mengukur sejauh mana penjelasan tersebut sepadan dengan tingkah laku sebenar OpenAI Scalable Alignment "Kami menggunakan GPT-4 sebagai sebahagian daripada proses untuk menjana tafsiran tentang apa yang neuron cari dan menilai sejauh mana tafsiran itu sepadan dengan apa yang sebenarnya dilakukannya," kata ketua pasukan Jeff Wu. Kami dapat menjana penjelasan untuk semua 307,200 neuron dalam GPT-2 dan menyusunnya ke dalam set data yang dikeluarkan sebagai sumber terbuka pada GitHub bersama dengan kod alat. Alat seperti ini suatu hari nanti boleh digunakan untuk meningkatkan prestasi model bahasa, seperti mengurangkan berat sebelah atau pertuturan yang berbahaya. Tetapi mereka juga mengakui masih jauh lagi perjalanan sebelum ia benar-benar berguna. Alat ini yakin dengan tafsirannya tentang kira-kira 1,000 neuron, sebahagian kecil daripada jumlah keseluruhan.

Orang mungkin berpendapat bahawa alat ini sebenarnya adalah iklan untuk GPT-4, kerana ia memerlukan GPT-4 untuk dijalankan. Tetapi Wu berkata itu bukan tujuan alat itu, bahawa penggunaan GPT-4 adalah "tidak sengaja" dan sebaliknya, ia menunjukkan kelemahan GPT-4 dalam bidang ini. Beliau juga berkata bahawa ia tidak dicipta untuk aplikasi komersial dan secara teorinya boleh disesuaikan dengan model bahasa lain selain GPT-4.

"Kebanyakan penjelasan mendapat markah yang sangat rendah, atau mereka tidak menerangkan banyak tentang tingkah laku neuron sebenar," kata Wu "Sukar untuk mengetahui berapa banyak neuron yang aktif—contohnya, mereka berkelakuan dalam lima atau enam cara berbeza. Diaktifkan pada sesuatu, tetapi tiada corak yang jelas Kadang-kadang terdapat corak yang jelas, tetapi GPT-4 tidak dapat menemuinya"

Apatah lagi model yang lebih kompleks, lebih baharu, lebih besar atau menyemak imbas. web. Dapatkan maklumat daripada model. Tetapi bagi yang kedua, Wu percaya bahawa menyemak imbas web tidak akan mengubah mekanik asas alat terlalu banyak. Ia hanya memerlukan sedikit pengubahsuaian, katanya, untuk mengetahui mengapa neuron memutuskan untuk membuat pertanyaan enjin carian tertentu atau melawat tapak web tertentu.

"Kami berharap ini akan membuka jalan yang menjanjikan untuk menyelesaikan masalah kebolehjelasan dengan cara automatik yang boleh dibina dan disumbangkan oleh orang lain," kata Wu model.”

Atas ialah kandungan terperinci OpenAI membangunkan alat baharu untuk cuba menerangkan tingkah laku model bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!