Jika anda ingin mengetahui lebih lanjut tentang AIGC, sila lawati:
51CTO AI Penilaian baharu sistem (generatif) nampaknya diterbitkan setiap hari, dan kebanyakannya menumpukan pada fasa pengambilan semula rangka kerja. dalam soalan. Walau bagaimanapun, aspek generatif—cara model mensintesis dan menyatakan maklumat yang diperoleh ini—mungkin sama penting dalam amalan. Banyak kes aplikasi praktikal membuktikan bahawa sistem bukan sahaja perlu memulangkan data dari konteks, tetapi juga perlu mengubah maklumat ini menjadi tindak balas yang lebih kompleks.
Untuk tujuan ini, kami telah menjalankan beberapa eksperimen untuk menilai dan membandingkan keupayaan penjanaan tiga model: GPT-4, Claude 2.1 dan Claude 3 Opus. Artikel ini akan memperincikan kaedah penyelidikan kami, hasil dan nuansa model ini yang kami temui sepanjang perjalanan, dan menerangkan sebab ini penting bagi mereka yang membina dengan AI generatif.
Nota Tambahan
Walaupun penemuan awal mencadangkan bahawa Claude mengatasi GPT-4, ujian berikutnya menunjukkan bahawa, dengan kemunculan teknik kejuruteraan segera strategik, GPT-4 mengatasi prestasi penilaian yang lebih luas. Ringkasnya, masih terdapat banyak masalah dalam tingkah laku model dan kejuruteraan segera yang wujud dalam sistem RAG. Secara ketara (lebih daripada dua kali) prestasi GPT-4 dipertingkatkan dengan hanya menambah "Sila jelaskan diri anda dan kemudian jawab soalan" pada templat segera. Jelas bahawa apabila LLM menyatakan jawapannya, ia seolah-olah membantu mengembangkan idea itu dengan lebih lanjut. Melalui tafsiran, model boleh melaksanakan semula jawapan yang betul dalam ruang benam/perhatian.Dalam banyak aplikasi dunia nyata, nilai sistem RAG bukan sahaja terletak pada keupayaan mereka untuk mengesan fakta atau maklumat tertentu, tetapi juga pada keupayaan mereka untuk menyepadukan dan mengkontekstualisasikan maklumat dalam rangka kerja yang lebih luas. Fasa penjanaan membolehkan sistem RAG melangkaui pencarian fakta yang mudah dan memberikan respons yang benar-benar pintar dan adaptif.
Ujian #1: Pemetaan Tarikh
Ujian awal yang kami jalankan terdiri daripada menjana rentetan tarikh daripada dua nombor yang diambil secara rawak: satu mewakili bulan dan satu lagi mewakili hari. Tugas model adalah untuk:
Dapatkan nombor rawak #1 Asingkan digit terakhir dan tambahkannya sebanyak 1 Menjana sebulan untuk rentetan tarikh kami berdasarkan keputusanDidorong oleh keputusan percubaan yang tidak dijangka ini, kami memperkenalkan pembolehubah baharu dalam percubaan. Kami mengarahkan GPT-4 untuk "menjelaskan diri anda, kemudian menjawab soalan," gesaan yang menggalakkan respons yang lebih terperinci serupa dengan yang dikeluarkan secara semula jadi oleh model Claude. Oleh itu, kesan pelarasan kecil ini adalah jauh.
Rajah 3: Ujian awal keputusan gesaan yang disasarkan
Prestasi model GPT-4 meningkat dengan ketara, mencapai keputusan sempurna dalam ujian berikutnya. Keputusan model Claude juga bertambah baik.
Percubaan ini bukan sahaja menyerlahkan perbezaan dalam cara model bahasa mengendalikan tugas penjanaan, tetapi juga menunjukkan potensi kesan kejuruteraan pembayang pada prestasinya. Kekuatan Claude nampaknya adalah verbosity, yang ternyata merupakan strategi yang boleh ditiru untuk GPT-4, menunjukkan bahawa cara model mengendalikan dan membentangkan inferens boleh menjejaskan ketepatannya dalam tugas penjanaan dengan ketara. Secara keseluruhan, dalam semua eksperimen kami, termasuk ayat "terangkan diri anda" yang kelihatan kecil memainkan peranan dalam meningkatkan prestasi model.
Rajah 4: Empat ujian lanjut untuk menilai penjanaan
Kami menjalankan empat lagi ujian untuk menilai model arus perdana untuk mensintesis dan menukar maklumat yang diambil semula ke dalam pelbagai format Keupayaan:
Menyatukan : Gabungkan serpihan teks ke dalam rentetan yang koheren untuk menguji kemahiran manipulasi teks asas model anda.Rajah 5: Keputusan ujian pemformatan mata wang
Bagi ujian pemformatan mata wang, Claude 3 dan GPT-4 menunjukkan prestasi yang hampir sempurna. Prestasi Claude 2.1 secara amnya lemah. Ketepatan tidak banyak berbeza merentasi panjang tanda, tetapi biasanya lebih rendah kerana penunjuk lebih dekat dengan permulaan tetingkap konteks.
Rajah 6: Keputusan ujian rasmi daripada tapak web Haystack
Walaupun mencapai keputusan cemerlang dalam satu generasi ujian, ketepatan Claude 3 menurun dalam percubaan perolehan semula sahaja. Secara teori, hanya mendapatkan nombor juga sepatutnya lebih mudah daripada memanipulasinya - yang menjadikan penurunan prestasi mengejutkan dan kawasan yang kami rancang untuk menguji lebih lanjut. Jika ada, penurunan berlawanan intuitif ini hanya mengesahkan lagi idea bahawa kedua-dua pengambilan dan penjanaan harus diuji apabila membangun dengan RAG.
Kesimpulan
Penemuan ini mempunyai implikasi yang lebih luas untuk penilaian LLM. Apabila membandingkan model seperti Claude terperinci dan GPT-4 yang kurang terperinci pada mulanya, menjadi jelas bahawa kriteria penilaian RAG (https://arize.com/blog-course/rag-evaluation/) mesti melangkaui penekanan sebelumnya pada sahaja menjadi seks yang betul ini. Keterlaluan tindak balas model memperkenalkan pembolehubah yang boleh menjejaskan prestasi yang dirasakan dengan ketara. Nuansa ini mungkin mencadangkan bahawa penilaian model masa hadapan harus mempertimbangkan purata panjang tindak balas sebagai faktor yang perlu diberi perhatian untuk lebih memahami keupayaan model dan memastikan perbandingan yang lebih adil.
Pengenalan kepada penterjemah
Tajuk asal: Petua untuk Mendapatkan Bahagian Generasi yang Benar dalam Retrieval Augmented Generation, pengarang: Aparna Dhinakaran
Pautan:
nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented -generasi-7deaa26f28dc.
Untuk mengetahui lebih lanjut tentang AIGC, sila layari:51CTO AI.x Community
https://www.51cto.com/aigc/
Atas ialah kandungan terperinci Model AI Generatif PK besar——GPT-4, Claude 2.1 dan Claude 3.0 Opus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!