Selaras dengan evolusi berterusan dan inovasi kendiri model bahasa yang besar, prestasi, ketepatan dan kestabilan telah dipertingkatkan dengan banyak, yang telah disahkan oleh pelbagai set masalah penanda aras.
Namun, untuk versi LLM sedia ada, keupayaan komprehensif mereka nampaknya tidak dapat menyokong sepenuhnya ejen AI.
Inferens berbilang modal, berbilang tugas dan berbilang domain telah menjadi keperluan yang diperlukan untuk ejen AI dalam ruang media awam, tetapi kesan sebenar yang dipaparkan dalam amalan fungsi tertentu sangat berbeza. Ini nampaknya sekali lagi mengingatkan semua pemula robot AI dan gergasi teknologi besar untuk mengenali realiti: menjadi lebih sederhana, jangan menyebarkan gerai terlalu besar, dan mulakan dengan fungsi peningkatan AI.
Baru-baru ini, sebuah blog tentang jurang antara publisiti dan prestasi sebenar ejen AI menekankan satu perkara: "Ejen AI adalah gergasi dalam publisiti, tetapi realitinya sangat buruk Ayat ini menyatakan pandangan ramai orang dengan tepat." teknologi AI. Dengan kemajuan sains dan teknologi yang berterusan, AI telah dikurniakan banyak ciri dan kebolehan yang menarik perhatian Walau bagaimanapun, beberapa masalah sering berlaku dalam aplikasi praktikal dan
Latar belakang ejen AI autonomi dapat melaksanakan tugas yang kompleks telah menyebabkan. kebimbangan besar teruja. Dengan berinteraksi dengan alatan dan ciri luaran, LLM boleh melengkapkan aliran kerja berbilang langkah tanpa campur tangan manusia.
Tetapi ternyata lebih mencabar dari jangkaan.
Papan pendahulu WebArena ialah persekitaran rangkaian yang sebenar dan boleh dihasilkan semula untuk menilai prestasi ejen praktikal. Menanda aras prestasi ejen LLM pada tugas dunia sebenar menunjukkan bahawa model berprestasi terbaik pun mempunyai kadar kejayaan hanya 35.8%.
WebArena menilai keputusan penanda aras prestasi ejen LLM dalam tugasan sebenar: model StepP menunjukkan prestasi terbaik dalam penunjuk kadar kejayaan, mencapai 35.8%, manakala kejayaan GPT-4 yang terkenal Kadarnya mencapai hanya 14.9%.
Istilah "ejen AI" tidak ditakrifkan sebenarnya, dan terdapat banyak kontroversi tentang apa sebenarnya ejen.
Ejen AI boleh ditakrifkan sebagai "LLM yang diberi kebolehan untuk bertindak (biasanya membuat panggilan fungsi dalam persekitaran RAG) untuk membuat keputusan peringkat tinggi tentang cara melaksanakan tugas dalam persekitaran
Pada masa ini, terdapat dua kaedah seni bina utama untuk membina ejen AI:
Secara teori, ejen tunggal dengan panjang konteks tidak terhingga dan perhatian yang sempurna adalah ideal. Disebabkan konteks yang lebih pendek, sistem berbilang ejen akan sentiasa berprestasi lebih teruk daripada satu sistem pada masalah tertentu.
Selepas menyaksikan banyak percubaan pada ejen AI, penulis percaya bahawa mereka masih terlalu awal, terlalu mahal, terlalu lambat dan tidak cukup dipercayai. Banyak syarikat permulaan ejen AI nampaknya sedang menunggu kejayaan model untuk memulakan perlumbaan untuk menghasilkan ejen mereka.
Prestasi ejen AI dalam aplikasi sebenar tidak cukup matang, yang ditunjukkan dalam masalah seperti output yang tidak tepat, prestasi yang tidak memuaskan, kos yang lebih tinggi, risiko pampasan dan ketidakupayaan untuk mendapatkan kepercayaan pengguna:
Pada masa ini, syarikat pemula berikut terlibat dalam bidang ejen AI, tetapi kebanyakannya masih dalam peringkat percubaan atau jemputan sahaja:
Di antaranya, hanya MultiOn nampaknya mengikuti kaedah "memberi arahan dan memerhati pelaksanaannya", yang lebih konsisten dengan janji ejen AI.
Setiap syarikat lain menggunakan laluan RPA (rekod dan main semula), yang mungkin diperlukan pada peringkat ini untuk memastikan kebolehpercayaan.
Pada masa yang sama, beberapa syarikat besar turut membawakan keupayaan AI ke desktop dan penyemak imbas, dan nampaknya mereka akan mendapat penyepaduan AI asli pada peringkat sistem.
OpenAI mengumumkan apl desktop Mac mereka yang berinteraksi dengan skrin sistem pengendalian.
Di Google I/O, Google menunjukkan Gemini untuk mengautomasikan pulangan beli-belah.
Microsoft mengumumkan Copilot Studio, yang akan membolehkan pembangun membina robot ejen AI.
Demonstrasi teknikal ini mengagumkan, dan seseorang boleh menunggu dan melihat prestasi keupayaan ejen ini apabila ia dikeluarkan secara terbuka dan diuji dalam senario sebenar, dan bukannya terhad kepada kes demonstrasi yang dipilih dengan teliti.
Pengarang menekankan: "Ejen AI telah terlalu digembar-gemburkan, dan kebanyakannya tidak bersedia untuk kegunaan kritikal misi
Namun, dengan kemajuan pesat model dan seni bina asas, dia berkata orang ramai masih boleh." berharap untuk melihat aplikasi praktikal yang lebih berjaya. .
Kaedah kerjasama manusia-mesin membolehkan manusia mengambil bahagian dalam menyelia dan mengendalikan kes-kes tepi.
Pengarang: "Ya, benar-benar."
Jadi adakah ejen AI akan menempah percutian secara automatik tanpa campur tangan manusia?
Pengarang: "Tidak mungkin sekurang-kurangnya dalam masa terdekat."
Atas ialah kandungan terperinci Gembar-gembur dan realiti ejen AI: GPT-4 tidak dapat menyokongnya, dan kadar kejayaan tugasan sebenar adalah kurang daripada 15%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!