Hello semua, saya Luga, hari ini kita akan bercakap tentang teknologi yang berkaitan dengan bidang ekologi kecerdasan buatan (AI) - model GPT-4o.
Pada 13 Mei 2024, OpenAI secara inovatif melancarkan model termaju dan termaju GPT-4o, yang menandakan kejayaan besar dalam bidang chatbot kecerdasan buatan dan model bahasa berskala besar. Melambangkan era baharu keupayaan kecerdasan buatan, GPT-4o menawarkan peningkatan prestasi ketara yang mengatasi pendahulunya, GPT-4, dalam kedua-dua kelajuan dan serba boleh.
Kemajuan terobosan ini menyelesaikan isu kependaman yang sering melanda pendahulunya, memastikan pengalaman pengguna yang lancar dan responsif.
Pada 13 Mei 2024, OpenAI mengeluarkan model kecerdasan buatan terbaharu dan tercanggihnya GPT-4o, di mana "o" bermaksud "omni", yang bermaksud "semua" atau “sejagat”. Model ini ialah model bahasa besar generasi baharu berdasarkan GPT-4 Turbo. Berbanding dengan model sebelumnya, GPT-4o telah meningkat dengan ketara dari segi kelajuan output, kualiti jawapan dan bahasa yang disokong, dan telah membuat inovasi revolusioner dalam format pemprosesan data input.
Inovasi model GPT-4o+ yang paling penting ialah ia meninggalkan amalan model sebelumnya yang menggunakan rangkaian saraf bebas untuk memproses jenis data input yang berbeza, dan sebaliknya menggunakan rangkaian saraf bersatu tunggal untuk memproses semua input. Reka bentuk inovatif ini memberikan GPT-4o+ keupayaan gabungan pelbagai mod yang belum pernah berlaku sebelum ini. Gabungan multimodal merujuk kepada penyepaduan pelbagai jenis data input (seperti imej, teks, audio, dll.) untuk pemprosesan bagi mendapatkan hasil yang lebih komprehensif dan tepat. Model terdahulu diperlukan untuk mereka bentuk struktur rangkaian yang berbeza apabila memproses data berbilang modal, yang menggunakan banyak sumber dan masa pengkomputeran. Dengan menggunakan rangkaian saraf bersatu, GPT-4o+ mencapai sambungan lancar pelbagai jenis data input, meningkatkan kecekapan pemprosesan dengan sangat baik, model bahasa tradisional biasanya hanya boleh mengendalikan input teks biasa dan tidak boleh mengendalikan bukan teks seperti data pertuturan dan gambar. Walau bagaimanapun, GPT-4o adalah luar biasa kerana ia boleh mengesan dan menghuraikan isyarat bukan teks secara serentak seperti bunyi latar belakang, pelbagai sumber bunyi dan warna emosi dalam input pertuturan, dan menggabungkan maklumat pelbagai mod ini ke dalam pemahaman semantik dan proses penjanaan untuk menghasilkan output yang lebih kaya dan kontekstual.
Selain memproses input berbilang modal, GPT-4o+ juga menunjukkan keupayaan keluaran yang sangat baik apabila menjana output berbilang bahasa. Ia bukan sahaja mengeluarkan ungkapan yang lebih berkualiti, lebih tepat dari segi tatabahasa dan lebih ringkas dalam bahasa arus perdana seperti bahasa Inggeris, tetapi GPT-4o+ juga boleh mengekalkan tahap output yang sama dalam senario bahasa bukan bahasa Inggeris. Ini memastikan bahawa kedua-dua bahasa Inggeris dan pengguna bahasa lain boleh menikmati keupayaan penjanaan bahasa semula jadi unggul GPT-4o+.
Secara umumnya, sorotan terbesar GPT-4o+ ialah ia menembusi batasan satu modaliti dan mencapai pemahaman komprehensif dan keupayaan penjanaan silang modal. Dengan bantuan seni bina rangkaian saraf yang inovatif dan mekanisme latihan, GPT-4o+ bukan sahaja boleh mendapatkan maklumat daripada pelbagai saluran deria, tetapi juga mengintegrasikannya semasa penjanaan untuk menghasilkan respons yang lebih kontekstual dan lebih diperibadikan. Prestasi
GPT-4o dan GPT-4 Turbo?
1. Kelajuan inferens
GPT-4o vs. GPT-4 Turbo Latency Comparison
2 Throughput
Walaupun begitu, GPT-4o masih bukan model terpantas. Mengambil Llama yang dihoskan di Groq sebagai contoh, ia boleh menjana 280 token sesaat, jauh melebihi GPT-4o. Walau bagaimanapun, kelebihan GPT-4o melangkaui kelajuan. Fungsi lanjutan dan keupayaan penaakulan menjadikannya menonjol dalam aplikasi AI masa nyata. Seni bina model tunggal GPT-4o dan algoritma pengoptimuman bukan sahaja meningkatkan kecekapan pengkomputeran, tetapi juga mengurangkan masa tindak balas dengan ketara, memberikan kelebihan unik dalam pengalaman interaktif.
GPT-4o dan GPT-4 Turbo perbandingan throughput
Secara amnya, apabila GPT-4o dan GPT-4 Turbo mengendalikan pelbagai jenis tugas, disebabkan oleh seni bina dan mod Perbezaan dalam keupayaan gabungan menghasilkan perbezaan yang ketara dalam prestasi. Di sini, kami terutamanya menganalisis perbezaan antara kedua-dua daripada tiga jenis tugas perwakilan: pengekstrakan data, pengelasan dan penaakulan.
Dalam tugas pengekstrakan data teks, GPT-4 Turbo bergantung pada keupayaan pemahaman bahasa semula jadi yang berkuasa untuk mencapai prestasi yang baik. Tetapi apabila menghadapi adegan yang mengandungi data tidak berstruktur seperti imej dan jadual, keupayaannya menjadi agak terhad.
Sebaliknya, GPT-4o boleh menyepadukan dengan lancar data modaliti berbeza sama ada dalam teks berstruktur atau data tidak berstruktur seperti imej dan PDF, ia boleh mengenal pasti dan mengekstrak maklumat yang diperlukan dengan cekap. Kelebihan ini menjadikan GPT-4o lebih berdaya saing apabila memproses data campuran yang kompleks.
Di sini, kami mengambil senario kontrak syarikat tertentu sebagai contoh Set data termasuk perjanjian perkhidmatan induk (MSA) antara syarikat dan pelanggan. Panjang kontrak berbeza-beza, dengan ada yang sesingkat 5 muka surat dan ada yang lebih panjang daripada 50 muka surat.
Dalam penilaian ini, kami akan mengeluarkan sejumlah 12 medan, seperti hakmilik kontrak, nama pelanggan, nama pembekal, butiran klausa penamatan, sama ada terdapat force majeure, dsb. Melalui pengumpulan data sebenar pada 10 kontrak, 12 penunjuk penilaian tersuai telah disediakan menggunakan. Metrik ini digunakan untuk membandingkan data sebenar kami dengan output LLM untuk setiap parameter dalam JSON yang dijana oleh model. Selepas itu, kami telah menguji GPT-4 Turbo dan GPT-4o, dan berikut adalah keputusan laporan penilaian kami:
Hasil penilaian untuk 12 penunjuk yang sepadan dengan setiap gesaan
Dalam keputusan perbandingan di atas, Kami boleh membuat kesimpulan bahawa antara 12 medan ini, GPT-4o berprestasi lebih baik daripada GPT-4 Turbo dalam 6 medan, mempunyai keputusan yang sama dalam 5 medan, dan mempunyai sedikit penurunan prestasi dalam 1 medan.
Dari perspektif mutlak, GPT-4 dan GPT-4o hanya mengenal pasti 60-80% data dengan betul dalam kebanyakan medan. Kedua-dua model melakukan subpar dalam tugas pengekstrakan data kompleks yang memerlukan ketepatan yang tinggi. Keputusan yang lebih baik boleh dicapai dengan menggunakan teknik gesaan lanjutan seperti gesaan pukulan atau gesaan pemikiran berantai.
Selain itu, GPT-4o adalah 50-80% lebih pantas daripada GPT-4 Turbo dalam TTFT (masa kepada token pertama), yang memberikan GPT-4o kelebihan dalam perbandingan langsung. Kesimpulan terakhir ialah GPT-4o mengatasi GPT-4 Turbo kerana kualitinya yang lebih tinggi dan kependaman yang lebih rendah.
Tugas pengelasan selalunya memerlukan pengekstrakan ciri daripada maklumat berbilang mod seperti teks dan imej, dan kemudian melaksanakan pemahaman dan pertimbangan peringkat semantik. Pada ketika ini, memandangkan GPT-4 Turbo dihadkan untuk memproses hanya satu modaliti teks, keupayaan pengelasannya agak terhad.
GPT-4o boleh menggabungkan maklumat berbilang mod untuk membentuk perwakilan semantik yang lebih komprehensif, sekali gus menunjukkan keupayaan pengelasan yang sangat baik dalam klasifikasi teks, klasifikasi imej, analisis sentimen dan bidang lain, terutamanya dalam beberapa tugas silang mod yang sukar dalam klasifikasi dinamik senario.
Dalam petua kami, kami memberikan arahan yang jelas tentang masa tiket pelanggan ditutup dan menambah beberapa contoh untuk membantu menyelesaikan kes yang paling sukar.
Dengan menjalankan penilaian untuk menguji sama ada output model sepadan dengan data kebenaran asas untuk 100 kes ujian berlabel, berikut ialah keputusan yang berkaitan:
Rujukan Penilaian Analisis Klasifikasi
GPT-4o sudah pasti ditunjukkan kelebihan seksual. Melalui satu siri ujian dan perbandingan pada pelbagai tugas yang kompleks, kita dapat melihat bahawa GPT-4o jauh melebihi model pesaing lain dalam ketepatan keseluruhan, menjadikannya pilihan pertama dalam banyak bidang aplikasi.
Walau bagaimanapun, sambil bersandar kepada GPT-4o sebagai penyelesaian umum, kita juga perlu ingat bahawa memilih model AI terbaik bukanlah proses membuat keputusan semalaman. Lagipun, prestasi model AI selalunya bergantung pada senario aplikasi tertentu dan pilihan tukar ganti untuk penunjuk yang berbeza seperti ketepatan, ingat semula dan kecekapan masa.
Penaakulan ialah keupayaan kognitif peringkat tinggi sistem kecerdasan buatan, yang memerlukan model untuk membuat kesimpulan yang munasabah daripada prasyarat yang diberikan. Ini penting untuk tugasan seperti penaakulan logik dan penaakulan soal jawab.
GPT-4 Turbo telah melaksanakan tugas penaakulan teks dengan baik, tetapi keupayaannya terhad apabila menghadapi situasi yang memerlukan gabungan maklumat pelbagai mod.
GPT-4o tidak mempunyai had ini. Ia boleh secara bebas mengintegrasikan maklumat semantik daripada pelbagai modaliti seperti teks, imej, dan pertuturan, dan menjalankan penaakulan logik yang lebih kompleks, penaakulan kausal dan penaakulan induktif atas dasar ini, sekali gus memberikan sistem kecerdasan buatan yang lebih "bermanusia" dan keupayaan membuat pertimbangan. .
Masih berdasarkan senario di atas, mari kita lihat perbandingan antara keduanya di peringkat inferens Rujukan khusus adalah seperti berikut:
Rujukan penilaian untuk 16 tugasan inferens
According. model GPT-4o, Kita boleh perhatikan bahawa ia berfungsi dengan lebih baik dalam tugas inferens berikut, seperti berikut:
Walaupun GPT-4o semakin baik dalam tugasan penaakulan tertentu, ia masih menghadapi cabaran dalam tugasan seperti manipulasi perkataan, pengecaman corak, penaakulan analogi dan penaakulan ruang. Penambahbaikan dan pengoptimuman masa hadapan boleh meningkatkan lagi prestasi model dalam bidang ini.
Ringkasnya, GPT-4o berdasarkan had kadar sehingga 10 juta token seminit adalah penuh 5 kali ganda GPT-4. Penunjuk prestasi yang menarik ini sudah pasti akan mempercepatkan pempopularan kecerdasan buatan dalam banyak senario pengkomputeran intensif, terutamanya dalam bidang seperti analisis video masa nyata dan keupayaan tindak balas serentak tinggi GPT-4o akan menunjukkan kelebihan yang tiada tandingan .
Inovasi GPT-4o yang paling bersinar tidak diragukan lagi ialah reka bentuk revolusionernya yang menyepadukan teks, imej, suara dan input dan output berbilang modal dengan lancar. Dengan menyepadukan dan memproses data secara langsung daripada setiap modaliti melalui rangkaian saraf tunggal, GPT-4o secara asasnya menyelesaikan pengalaman berpecah-belah bertukar antara model terdahulu, membuka jalan untuk membina aplikasi AI bersatu.
Selepas merealisasikan gabungan modal, GPT-4o akan mempunyai prospek luas yang belum pernah berlaku sebelum ini dalam senario aplikasi. Sama ada ia menggabungkan teknologi penglihatan komputer untuk mencipta alat analisis imej pintar, menyepadukan dengan lancar rangka kerja pengecaman pertuturan untuk mencipta pembantu maya berbilang modal, atau menjana iklan grafik kesetiaan tinggi berdasarkan teks dan imej dwi-modaliti, segala-galanya hanya boleh dicapai dengan menyepadukan sub-model bebas Tugasan yang telah selesai, didorong oleh kecerdasan hebat GPT-4o, akan mempunyai penyelesaian bersatu dan cekap baharu.
Rujukan:
Atas ialah kandungan terperinci Baca GPT-4o lwn GPT-4 Turbo dalam satu artikel. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!