Model AI Generatif PK besar——GPT-4, Claude 2.1 dan Claude 3.0 Opus-AI-php.cn

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Jika anda ingin mengetahui lebih lanjut tentang AIGC, sila lawati:

51CTO AI Penilaian baharu sistem (generatif) nampaknya diterbitkan setiap hari, dan kebanyakannya menumpukan pada fasa pengambilan semula rangka kerja. dalam soalan. Walau bagaimanapun, aspek generatif—cara model mensintesis dan menyatakan maklumat yang diperoleh ini—mungkin sama penting dalam amalan. Banyak kes aplikasi praktikal membuktikan bahawa sistem bukan sahaja perlu memulangkan data dari konteks, tetapi juga perlu mengubah maklumat ini menjadi tindak balas yang lebih kompleks.

Untuk tujuan ini, kami telah menjalankan beberapa eksperimen untuk menilai dan membandingkan keupayaan penjanaan tiga model: GPT-4, Claude 2.1 dan Claude 3 Opus. Artikel ini akan memperincikan kaedah penyelidikan kami, hasil dan nuansa model ini yang kami temui sepanjang perjalanan, dan menerangkan sebab ini penting bagi mereka yang membina dengan AI generatif.

Jika pembaca yang berminat ingin menghasilkan semula hasil percubaan di atas, semua yang diperlukan dalam percubaan boleh didapati dalam repositori GitHub (https://github.com/Arize-ai/LLMTest_NeedleInAHaystack).

Nota Tambahan

Walaupun penemuan awal mencadangkan bahawa Claude mengatasi GPT-4, ujian berikutnya menunjukkan bahawa, dengan kemunculan teknik kejuruteraan segera strategik, GPT-4 mengatasi prestasi penilaian yang lebih luas. Ringkasnya, masih terdapat banyak masalah dalam tingkah laku model dan kejuruteraan segera yang wujud dalam sistem RAG.

Secara ketara (lebih daripada dua kali) prestasi GPT-4 dipertingkatkan dengan hanya menambah "Sila jelaskan diri anda dan kemudian jawab soalan" pada templat segera. Jelas bahawa apabila LLM menyatakan jawapannya, ia seolah-olah membantu mengembangkan idea itu dengan lebih lanjut. Melalui tafsiran, model boleh melaksanakan semula jawapan yang betul dalam ruang benam/perhatian.

Rajah 1: Gambar rajah yang dibuat oleh pengarang

Walaupun dalam sistem penjanaan ditambah perolehan, bahagian pengambilan bertanggungjawab untuk mengenal pasti dan mendapatkan maklumat yang paling relevan. fasa yang memperoleh data Mentah ini dan mengubahnya menjadi tindak balas yang koheren, bermakna dan kontekstual. Tugas langkah penjanaan adalah untuk mensintesis maklumat yang diperoleh semula, mengisi ruang kosong dan membentangkannya dengan cara yang mudah difahami dan berkaitan dengan pertanyaan pengguna. Tugas langkah penjanaan adalah untuk mensintesis maklumat yang diperoleh semula, mengisi ruang kosong dan membentangkannya dengan cara yang mudah difahami dan berkaitan dengan pertanyaan pengguna. Melalui fasa penjanaan, maklumat kosong diisi untuk mencapai tafsiran yang lengkap dan boleh difahami tentang maklumat yang berkaitan. Pada masa yang sama, pengguna boleh menanyakan maklumat yang dibentangkan dengan cara yang relevan mengikut keperluan. Melalui pemprosesan di peringkat penjanaan, dengan mengisi maklumat kosong, hasil akhir yang dihasilkan dibuat lebih lengkap dan lebih mudah difahami. Ini menyediakan cara untuk memahami dan bertanya maklumat yang berkaitan, membantu pengguna meneroka dan menyelidik dengan lebih mendalam.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus Dalam banyak aplikasi dunia nyata, nilai sistem RAG bukan sahaja terletak pada keupayaan mereka untuk mengesan fakta atau maklumat tertentu, tetapi juga pada keupayaan mereka untuk menyepadukan dan mengkontekstualisasikan maklumat dalam rangka kerja yang lebih luas. Fasa penjanaan membolehkan sistem RAG melangkaui pencarian fakta yang mudah dan memberikan respons yang benar-benar pintar dan adaptif.

Ujian #1: Pemetaan Tarikh

Ujian awal yang kami jalankan terdiri daripada menjana rentetan tarikh daripada dua nombor yang diambil secara rawak: satu mewakili bulan dan satu lagi mewakili hari. Tugas model adalah untuk:

Dapatkan nombor rawak #1

Asingkan digit terakhir dan tambahkannya sebanyak 1

Menjana sebulan untuk rentetan tarikh kami berdasarkan keputusan

Dapatkan nombor rawak #2
tarikh dari nombor rawak 2 Tarikh rentetan
Contohnya, nombor rawak 4827143 dan 17 mewakili 17 April.
Angka diletakkan dalam konteks panjang yang berbeza pada kedalaman yang berbeza. Model pada mulanya mempunyai masa yang agak sukar untuk menyelesaikan tugas ini.

Rajah 2: Keputusan ujian awal

Walaupun kedua-dua model berprestasi lemah, Claude 2.1 mengatasi GPT-4 dengan ketara dalam ujian awal kami, dengan hampir empat kali ganda kadar kejayaan. Di sinilah sifat verbose model Claude - memberikan jawapan yang terperinci dan penjelasan - nampaknya memberikan kelebihan yang jelas, menghasilkan keputusan yang lebih tepat berbanding dengan jawapan ringkas asal GPT-4.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus Didorong oleh keputusan percubaan yang tidak dijangka ini, kami memperkenalkan pembolehubah baharu dalam percubaan. Kami mengarahkan GPT-4 untuk "menjelaskan diri anda, kemudian menjawab soalan," gesaan yang menggalakkan respons yang lebih terperinci serupa dengan yang dikeluarkan secara semula jadi oleh model Claude. Oleh itu, kesan pelarasan kecil ini adalah jauh.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Rajah 3: Ujian awal keputusan gesaan yang disasarkan

Prestasi model GPT-4 meningkat dengan ketara, mencapai keputusan sempurna dalam ujian berikutnya. Keputusan model Claude juga bertambah baik.

Percubaan ini bukan sahaja menyerlahkan perbezaan dalam cara model bahasa mengendalikan tugas penjanaan, tetapi juga menunjukkan potensi kesan kejuruteraan pembayang pada prestasinya. Kekuatan Claude nampaknya adalah verbosity, yang ternyata merupakan strategi yang boleh ditiru untuk GPT-4, menunjukkan bahawa cara model mengendalikan dan membentangkan inferens boleh menjejaskan ketepatannya dalam tugas penjanaan dengan ketara. Secara keseluruhan, dalam semua eksperimen kami, termasuk ayat "terangkan diri anda" yang kelihatan kecil memainkan peranan dalam meningkatkan prestasi model.

Ujian dan keputusan lanjut

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Rajah 4: Empat ujian lanjut untuk menilai penjanaan

Kami menjalankan empat lagi ujian untuk menilai model arus perdana untuk mensintesis dan menukar maklumat yang diambil semula ke dalam pelbagai format Keupayaan:

Menyatukan : Gabungkan serpihan teks ke dalam rentetan yang koheren untuk menguji kemahiran manipulasi teks asas model anda.

Format Mata Wang: Formatkan nombor ke dalam mata wang, bulatkan dan kira perubahan peratusan untuk menilai ketepatan model dan keupayaan untuk mengendalikan data berangka.
Pemetaan Tarikh: Menukar perwakilan angka kepada nama bulan dan hari memerlukan perolehan semula hibrid dan pemahaman konteks.
Operasi modular: Lakukan operasi nombor kompleks untuk menguji keupayaan penjanaan matematik model.
Seperti yang dijangka, setiap model menunjukkan prestasi yang kukuh dalam penggabungan rentetan, yang juga mengulangi pemahaman sebelumnya bahawa manipulasi teks ialah kekuatan asas model bahasa.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus Rajah 5: Keputusan ujian pemformatan mata wang

Bagi ujian pemformatan mata wang, Claude 3 dan GPT-4 menunjukkan prestasi yang hampir sempurna. Prestasi Claude 2.1 secara amnya lemah. Ketepatan tidak banyak berbeza merentasi panjang tanda, tetapi biasanya lebih rendah kerana penunjuk lebih dekat dengan permulaan tetingkap konteks.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus Rajah 6: Keputusan ujian rasmi daripada tapak web Haystack

Walaupun mencapai keputusan cemerlang dalam satu generasi ujian, ketepatan Claude 3 menurun dalam percubaan perolehan semula sahaja. Secara teori, hanya mendapatkan nombor juga sepatutnya lebih mudah daripada memanipulasinya - yang menjadikan penurunan prestasi mengejutkan dan kawasan yang kami rancang untuk menguji lebih lanjut. Jika ada, penurunan berlawanan intuitif ini hanya mengesahkan lagi idea bahawa kedua-dua pengambilan dan penjanaan harus diuji apabila membangun dengan RAG.

Kesimpulan

Dengan menguji pelbagai tugas penjanaan, kami mendapati bahawa walaupun kedua-dua model, Claude dan GPT-4, mahir dalam tugas remeh seperti manipulasi rentetan, dalam senario yang lebih kompleks, kekuatan dan kelemahan mereka menjadi Jelas (https:/ /arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/). LLM masih tidak begitu mahir dalam matematik! Satu lagi keputusan penting ialah pengenalan petunjuk "menjelaskan sendiri" dengan ketara meningkatkan prestasi GPT-4, menekankan kepentingan cara membayangkan model dan cara menjelaskan alasannya untuk mencapai tepat keputusan.

Penemuan ini mempunyai implikasi yang lebih luas untuk penilaian LLM. Apabila membandingkan model seperti Claude terperinci dan GPT-4 yang kurang terperinci pada mulanya, menjadi jelas bahawa kriteria penilaian RAG (https://arize.com/blog-course/rag-evaluation/) mesti melangkaui penekanan sebelumnya pada sahaja menjadi seks yang betul ini. Keterlaluan tindak balas model memperkenalkan pembolehubah yang boleh menjejaskan prestasi yang dirasakan dengan ketara. Nuansa ini mungkin mencadangkan bahawa penilaian model masa hadapan harus mempertimbangkan purata panjang tindak balas sebagai faktor yang perlu diberi perhatian untuk lebih memahami keupayaan model dan memastikan perbandingan yang lebih adil.

Pengenalan kepada penterjemah

Zhu Xianzhong, editor komuniti 51CTO, blogger pakar 51CTO, pensyarah, guru komputer di sebuah universiti di Weifang, dan seorang veteran dalam industri pengaturcaraan bebas.

Tajuk asal: Petua untuk Mendapatkan Bahagian Generasi yang Benar dalam Retrieval Augmented Generation, pengarang: Aparna Dhinakaran

Pautan:

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented -generasi-7deaa26f28dc.

Untuk mengetahui lebih lanjut tentang AIGC, sila layari:

51CTO AI.x Community

https://www.51cto.com/aigc/

Atas ialah kandungan terperinci Model AI Generatif PK besar——GPT-4, Claude 2.1 dan Claude 3.0 Opus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!