GPT-5 ist noch nicht draußen, Grok hat aufgeholt.
Am selben Tag, an dem Google und OpenAI gegenseitig Nachrichten abholten, war auch Musks xAI nicht untätig.
Am Mittwochnachmittag Pekinger Zeit veröffentlichte xAI offiziell das Großmodell Grok 2 der neuen Generation.
Chatbot Arena, eine externe große Model-Benchmark-Organisation, hat auch sofort die Ergebnisliste der LMSYS-Liste aktualisiert. Das frühe Modell von Grok 2 (sus-column-r) liegt direkt hinter GPT-4o (Version 0513) auf Platz vier und übertrifft Claude 3.5 Sonnet und GPT-4-Turbo.
Es zeichnet sich durch Programmieren, komplexe Probleme und Mathematik aus.
Musk konnte nicht anders, als zu prahlen: „Groks Antriebsgeschwindigkeit ist wie eine Rakete.“
Beachten Sie, dass dies nur die Punktzahl der frühen Version ist, die laut Chatbot Arena getestet wird die offizielle Version in der Zukunft.
Musk sagte, dass Grok-2 ein fortschrittliches Sprachmodell mit den fortschrittlichsten Argumentationsfähigkeiten ist. Die neue Generation umfasst zwei Versionen: Grok-2 und Grok-2 mini. Beide Modelle sind jetzt auf der X-Plattform für Grok-Benutzer verfügbar. Derzeit können Benutzer von X Premium und Premium+ bereits die Modelle Grok-2 und Grok-2 mini erleben.
Im Vergleich zum vorherigen Grok-1.5 hat die frühe Vorschauversion von Grok-2 erhebliche Fortschritte erzielt und führende Fähigkeiten in den Bereichen Chat, Argumentation, Codierung usw. demonstriert. Grok-2 und Grok-2 mini befinden sich derzeit in der Beta-Phase auf X und werden später in diesem Monat über eine Unternehmens-API verfügbar sein, sagte xAI.
Weniger als eine halbe Stunde nach der Veröffentlichung des neuen Modells präsentierte ein Internetnutzer bereits die Ergebnisse. Er nutzte Grok 2 mini, um ein Bild von „Ich und Musk beim Hotdog-Essen“ zu erstellen.
Probieren Sie andere Methoden aus, um ein Porträt von Washington zu erstellen.
Einige Leute haben auch Grok 2 Mini ausprobiert, um eine fliegende Katze zu erzeugen.
Jemand anderes hat ein Tesla Model Y gebaut, sieht es ähnlich aus?
Da xAI die frühe Version von Grok-2 „sus-column-r“ in Chatbot Arena einfügt, sehen wir, dass es mit anderen beliebten Switches konkurriert. Leistungsvergleich der Quelle Modelle.
In Bezug auf den gesamten Elo-Score schneidet Grok-2 besser ab als Modelle der Claude-Serie und die meisten Versionen von GPT-4. Der erste auf der Liste ist natürlich GPT-4o (Version vom 8. August), das OpenAI gerade erst veröffentlicht hat.
Das Bild unten zeigt den Win-Rate-Vergleich zwischen Grok-2 und anderen beliebten Modellen.
Das Bild unten zeigt einen faktenbasierten Vergleich der Gewinnraten zwischen den beiden Versionen von Grok 1.5 und Grok 2.
xAI mengguna pakai proses ini untuk menilai model Grok 2, menggunakan AI Tutor untuk benar-benar berinteraksi dengan model dalam pelbagai tugas. Semasa setiap interaksi, Grok 2 menyediakan dua respons kepada Tutor AI dan kemudian memilih respons terbaik berdasarkan kriteria khusus yang disenaraikan dalam panduan.
xAI memfokuskan pada menilai prestasi model dalam dua bidang utama, iaitu mengikut arahan dan menyediakan maklumat yang tepat dan sahih. Hasilnya menunjukkan peningkatan ketara dalam keupayaan Grok 2 untuk menaakul daripada kandungan yang diperoleh semula dan menggunakan alatan seperti mengenal pasti maklumat yang hilang dengan betul, menaakul melalui urutan peristiwa, membuang siaran yang tidak berkaitan, dsb.
xAI menilai model Grok-2 merentas pelbagai penanda aras akademik termasuk Penaakulan, Pemahaman Membaca, Matematik, Sains dan Pengekodan.
Kedua-dua Grok-2 dan Grok-2 mini adalah peningkatan ketara berbanding model Grok-1.5 sebelumnya. Prestasi adalah setanding dengan model canggih lain dalam bidang seperti pengetahuan sains peringkat siswazah (GPQA), pengetahuan am (MMLU, MMLU-Pro), dan masalah persaingan matematik (MATH).
Selain itu, Grok-2 juga melaksanakan tugas berasaskan penglihatan dengan baik, dengan prestasi luar biasa dalam penaakulan matematik visual (MathVista) dan menjawab soalan berasaskan dokumen (DocVQA).
Grok 2 antara muka dan fungsi "pengubahsuaian besar"
Dalam beberapa bulan lalu, xAI telah terus menambah baik pengalaman Grok pada platform x. Kini, dengan pelancaran generasi seterusnya Grok 2, xAI telah mereka bentuk semula antara muka, seperti yang ditunjukkan di bawah.
Sudah tentu, xAI menyediakan beberapa ciri baharu, seperti pelaksanaan mudah "Game of Life" Conway.
Contoh lain ialah kebolehan memahami pelbagai modal (melihat gambar dan bercakap).
Antaranya, Grok-2 ialah pembantu AI tercanggih xAI, dengan keupayaan pemahaman teks dan visual serta maklumat masa nyata bersepadu daripada platform X, boleh diakses melalui tab Grok dalam aplikasi X.
Grok-2 mini ialah model kecil tetapi berkuasa yang memberikan keseimbangan yang baik antara kelajuan dan kualiti jawapan.
Berbanding dengan pendahulunya, Grok-2 lebih intuitif, lebih dikawal dan lebih fleksibel, sesuai untuk pelbagai tugas, sama ada anda sedang mencari jawapan, penulisan kolaboratif atau menyelesaikan tugas pengekodan.
Selain itu, xAI bekerjasama dengan syarikat permulaan
Black Forest Labsuntuk bereksperimen dengan model FLUX.1 mereka untuk memperluaskan keupayaan Grok pada X.
Lewat bulan ini, xAI juga akan mengeluarkan Grok-2 dan Grok-2 mini kepada pembangun melalui platform API perusahaan baharu. API yang akan datang dibina pada tindanan teknologi tersuai baharu yang membolehkan penempatan inferens berbilang wilayah untuk akses kependaman rendah global.
Sudah tentu, xAI juga menawarkan beberapa ciri keselamatan yang dipertingkatkan, seperti pengesahan pelbagai faktor mandatori (cth. menggunakan Yubikey, Apple TouchID atau TOTP).
Seperti yang anda lihat, sejak pelancaran Grok-1 pada November 2023, xAI telah memajukan siri model ini pada kadar yang membimbangkan. Tidak lama lagi, mereka akan mengeluarkan versi pratonton dengan pemahaman pelbagai modal. Tumpuan selepas xAI adalah untuk meningkatkan keupayaan penaakulan teras model melalui kelompok pengkomputeran baharu.
Alamat blog: https://x.ai/blog/grok-2
Atas ialah kandungan terperinci Grok-2 ada di sini, ia boleh menjana imej dan mengenali imej, dan prestasinya setanding dengan GPT-4o: Ia berkembang seperti roket. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!