Laporan teknikal Google Gemini 1.5: Buktikan soalan Olimpik Matematik dengan mudah, versi Flash adalah 5 kali lebih pantas daripada GPT-4 Turbo-AI-php.cn

Laporan teknikal Google Gemini 1.5: Buktikan soalan Olimpik Matematik dengan mudah, versi Flash adalah 5 kali lebih pantas daripada GPT-4 Turbo

PHPz

Lepaskan： 2024-06-13 13:52:27

asal

1294 orang telah melayarinya

Pada bulan Februari tahun ini, Google melancarkan model besar berbilang mod Gemini1.5, yang telah meningkatkan prestasi dan kelajuan dengan sangat baik melalui pengoptimuman kejuruteraan dan infrastruktur, seni bina MoE dan strategi lain. Dengan konteks yang lebih panjang, keupayaan penaakulan yang lebih kukuh dan pengendalian kandungan merentas modal yang lebih baik.

Jumaat ini, Google DeepMind secara rasmi mengeluarkan laporan teknikal Gemini 1.5, yang merangkumi versi Flash dan peningkatan terkini yang lain Dokumen itu sepanjang 153 halaman.

谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

Pautan laporan teknikal: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

Dalam laporan ini, Google memperkenalkan model siri Gemini.1.5 Ia mewakili generasi seterusnya model besar berbilang modal yang sangat cekap dari segi pengiraan, yang mampu mengingat maklumat terperinci dan penaakulan daripada konteks berjuta-juta token, termasuk berbilang dokumen panjang dan jam video. Model siri Gemini 1.5 mempunyai pelbagai bahasa dan keupayaan penaakulan visual, menjadikannya digunakan secara meluas dalam bidang pemprosesan bahasa semula jadi dan penglihatan komputer. Model ini mampu mengekstrak maklumat penting daripada teks dan melakukan inferens, serta analisis komprehensif berbilang dokumen panjang. Selain itu, ia menyokong pemprosesan sejumlah besar data visual dan mampu memproses sejumlah besar data visual dalam beberapa jam

Siri ini termasuk dua model baharu:

Gemini 1.5 Pro yang dikemas kini dengan kebanyakan ciri dan penanda aras berakhir Februari Versi
Gemini 1.5 Flash, varian yang lebih ringan direka untuk kecekapan dengan penalti prestasi yang minimum.

Mengenai versi Flash yang disebut pada persidangan Google I/O minggu ini, laporan tersebut menyatakan Gemini 1.5 Flash ialah model penyahkod Transformer dengan konteks 2M+ dan keupayaan berbilang modal yang sama seperti Gemini 1.5 Pro. Menggunakan unit pemprosesan tensor (TPU) dengan cekap dan mempunyai kependaman penyajian model rendah. Contohnya, Gemini 1.5 Flash boleh mengira komponen perhatian dan suapan ke hadapan secara selari, dan juga merupakan model Gemini 1.5 Pro dengan keupayaan pengekstrakan dalam talian rangkaian yang lebih besar. Ia dilatih menggunakan kaedah prapemprosesan peringkat tinggi untuk meningkatkan kualiti.

Laporan menilai purata masa setiap aksara keluaran untuk pertanyaan Inggeris, Cina, Jepun dan Perancis yang diambil daripada Gemini 1.5 dan Vertex AI Streaming API.

谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

Masa setiap aksara keluaran (ms) untuk jawapan bahasa Inggeris, Cina, Jepun dan Perancis, dengan input 10,000 aksara, Gemini 1.5 Flash mencapai penjanaan terpantas semua bahasa yang diuji kelajuan.

谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

Hasil penilaian model Gemini 1.5 Pro, 1.5 Flash dan Gemini 1.0 pada pengekodan standard, berbilang bahasa dan matematik, sains dan penanda aras penaakulan. Semua nombor untuk 1.5 Pro dan 1.5 Flash diperoleh selepas pelarasan arahan.

谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

Gemini 1.5 Pro berbanding Gemini 1.0 Pro dan Ultra pada tanda aras pemahaman video.

谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

Perbandingan Gemini 1.5 Pro dengan USM, Whisper, Gemini 1.0 Pro dan Gemini 1.0 Ultra pada tugas pemahaman audio.

Model Gemini 1.5 mencapai ingatan yang hampir sempurna pada tugas pencarian konteks panjang silang mod, meningkatkan tahap optimum QA dokumen panjang, QA video panjang dan ASR konteks panjang, dan sepadan atau melebihi keadaan penghantaran Gemini 1.0 Ultra -prestasi seni yang merentasi pelbagai penanda aras. Selain itu, Google turut menyatakan setakat Mei tahun ini, prestasi Gemini 1.5 telah meningkat dengan ketara berbanding Februari.

谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

Gemini 1.5 Pro (Mei) berbanding keluaran awal (Februari) pada berbilang penanda aras. Gemini 1.5 Pro terbaharu memberikan peningkatan merentas semua inferens, pengekodan, penglihatan dan penanda aras video, manakala prestasi audio dan terjemahan kekal tidak berubah. Ambil perhatian bahawa untuk FLEURS, markah yang lebih rendah adalah lebih baik.

Oriol Vinyals, naib presiden Google DeepMind dan ketua bersama projek Gemini, membuat kesimpulan bahawa Gemini 1.5 Pro > 1.0 Ultra, 1.5 Flash (kini model terpantas) ~= 1.0 Ultra.

谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

Dengan mengkaji had keupayaan konteks panjang Gemini 1.5, kita boleh melihat peningkatan berterusan dalam ramalan token seterusnya dan perolehan hampir sempurna (>99%). Lonjakan generasi ke atas model sedia ada seperti Claude 3.0 (200k) dan GPT-4 Turbo (128k).

Dalam bab ketujuh laporan, Google memperkenalkan penanda aras versi dipertingkatkan matematik Gemini 1.5 Pro, yang berprestasi baik dalam masalah matematik peringkat persaingan, termasuk pada penanda aras MATH Hendryck tanpa menggunakan alatan sebanyak 91.1%.

Berikut adalah beberapa contoh model yang menyelesaikan masalah Asia Pacific Mathematics Olympiad (APMO) yang model terdahulu jelas tidak dapat menyelesaikannya. Oriol Vinyals mengatakan jawapan ini bagus kerana ia adalah bukti (bukan pengiraan), penyelesaiannya adalah tepat, dan ia "cantik."

谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

Akhirnya, Google menyerlahkan kes penggunaan dunia sebenar untuk model besar, seperti Gemini 1.5, yang berfungsi dengan profesional untuk menyelesaikan tugas dan mencapai matlamat, menjimatkan 26-75% dalam masa merentas 10 kategori pekerjaan yang berbeza

Model bahasa besar yang canggih ini juga menunjukkan beberapa ciri baharu yang mengejutkan. Apabila diberikan manual tatabahasa untuk Kalamang, bahasa yang dituturkan oleh kurang daripada 200 orang di barat Papua New Guinea, model itu boleh belajar menterjemah bahasa Inggeris ke dalam Kalamang pada tahap yang sama dengan manusia yang belajar daripada kandungan yang sama.

Atas ialah kandungan terperinci Laporan teknikal Google Gemini 1.5: Buktikan soalan Olimpik Matematik dengan mudah, versi Flash adalah 5 kali lebih pantas daripada GPT-4 Turbo. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!