OpenAI의 '스트로베리' 소식을 전했던 계정이 사실은 지능형 에이전트라고요? 스탠포드 스타트업 '과대광고” AgentQ-일체 포함-php.cn

과대 광고로 인해 "엄청난 트래픽"이 발생하면 제품이 좋은지 아닌지 아무도 신경 쓰지 않습니다.

최근 OpenAI의 비밀 프로젝트 “Q*”가 내부자들의 큰 관심을 받고 있습니다. 지난달에는 이를 기반으로 한 코드명 '스트로베리(Strawberry)'라는 프로젝트가 다시 공개됐다. 아마도 이 프로젝트는 고급 추론 기능을 제공할 수 있을 것입니다.

최근 이 프로젝트와 관련하여 인터넷에는 "죽은 비둘기가 인간의 생명을 대신해주지 않을 것이다"라는 루머가 여러 차례 돌았습니다. 특히 논스톱 활동을 펼치고 있는 '딸기형님' 계정은 기대감을 주기도 하지만 실망시키기도 한다.

OpenAI의 스트로베리 소식을 전했던 계정이 사실은 지능형 에이전트라고요? 스탠포드 스타트업 과대광고” AgentQ

이 샘 알트만이 등장하는 곳마다 그가 게시한 "마케팅 계정"이 실제로 그의 피부 아래에 있는 지능적인 존재일 것이라고는 예상하지 못했습니다.

오늘 AI 에이전트 스타트업 회사 '멀티온'의 창업자가 직접 나서서 다음과 같이 주장했습니다. OpenAI가 'Q*'를 출시하기를 기다리지 않았지만, '딸기'를 제어하는 새로운 에이전트 에이전트를 출시했습니다. Brother" 계정 Q, 온라인으로 우리와 함께 플레이하세요!联 Multion 공동 창립자이자 CEO인 DIV GARG는 스탠포드에서 컴퓨터 과학 박사 학위를 취득하다가 잠시 쉬었습니다.

^{웨딩드레스 자체를 제작하는 OpenAI의 마케팅 활동이 모두를 혼란스럽게 한 것 같습니다. 결국, 최근 많은 사람들이 OpenAI의 “빅 뉴스”를 기다리며 밤을 새웠습니다. 이는 샘 알트먼과 '스트로베리 형제'의 대화로 거슬러 올라간다. 샘 알트먼이 올린 딸기 사진 아래 그는 '스트로베리 형제'에게 "서프라이즈는 곧 올 것이다"라고 답했다.}

그러나 "MultiOn"의 창립자인 Div Garg는 Q 요원이 "딸기 형제"라고 주장하는 게시물을 조용히 삭제했습니다.

이번 '멀티온'이 출시한

에이전트Q가 획기적인 AI 에이전트

라고 밝혔습니다. 학습 방식은 MCTS(Monte Carlo Tree Search)와 자기비판을 결합한 것으로 DPO(Direct Preference Optimization)라는 알고리즘을 통해 인간의 피드백을 통해 학습한다.

동시에 계획 및 AI 자가 치유 기능을 갖춘 차세대 AI 에이전트인 Agent Q의 성능은 LLama 3 기준 제로 샘플 성능보다 3.4배 더 높습니다. 동시에 실제 시나리오 작업 평가에서는 Q 요원의 성공률이 95.4%에 달했습니다.

Q 요원은 무엇을 할 수 있나요? 먼저 공식 데모를 살펴보겠습니다.

특정 시간에 특정 레스토랑의 좌석을 예약할 수 있습니다.

그런 다음 가용성 확인과 같은 웹 작업을 수행합니다. 드디어 예약이 성공했습니다.

OpenAI의 스트로베리 소식을 전했던 계정이 사실은 지능형 에이전트라고요? 스탠포드 스타트업 과대광고” AgentQ 또한 항공편(예: 이번 토요일 뉴욕에서 샌프란시스코까지 비행, 편도, 창가 좌석 및 이코노미 클래스)을 예약할 수 있습니다.

OpenAI의 스트로베리 소식을 전했던 계정이 사실은 지능형 에이전트라고요? 스탠포드 스타트업 과대광고” AgentQ

그런데 네티즌들은 에이전트Q를 구매하지 않는 것 같습니다. 모두가 더 우려하는 것은 과연 '딸기형제' 계정을 이용해 홍보를 하고 있는 것인지에 대한 것이다.

OpenAI의 스트로베리 소식을 전했던 계정이 사실은 지능형 에이전트라고요? 스탠포드 스타트업 과대광고” AgentQ

Tinjauan keseluruhan komponen dan kaedah penting

Pada masa ini, kertas berkaitan Agent Q telah dikeluarkan, ditulis bersama oleh penyelidik dari MultiOn dan Stanford University. Hasil penyelidikan ini akan tersedia kepada pembangun dan pengguna umum MultiOn akhir tahun ini.

Alamat kertas: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

Untuk meringkaskan web Q secara automatik: Agent perancangan dan pembetulan diri, belajar daripada kejayaan dan kegagalan untuk meningkatkan prestasinya pada tugas yang kompleks. Akhirnya, ejen boleh merancang dengan lebih baik cara melayari Internet, menyesuaikan diri dengan kerumitan dunia sebenar.

Dalam butiran teknikal, komponen utama Agen Q termasuk yang berikut:

Menggunakan MCTS (Cari Pokok Monte Carlo, Carian Pokok Monte Carlo) untuk carian berpandu: Teknologi ini meneroka Operasi dan web yang berbeza halaman secara autonomi menjana data untuk mengimbangi penerokaan dan eksploitasi. MCTS menggunakan suhu pensampelan yang tinggi dan isyarat yang pelbagai untuk mengembangkan ruang operasi, memastikan set trajektori yang pelbagai dan optimum.

AI Kritikan Diri: Pada setiap langkah, kritikan kendiri berasaskan AI memberikan maklum balas yang berharga untuk menambah baik proses membuat keputusan ejen. Maklum balas peringkat langkah ini adalah penting untuk tugasan jangka panjang, kerana isyarat yang jarang sering membawa kepada masalah pembelajaran.

Pengoptimuman Keutamaan Langsung (DPO): Algoritma ini membina pasangan keutamaan daripada data yang dijana daripada MCTS untuk memperhalusi model. Pendekatan latihan luar dasar ini membolehkan model belajar dengan cekap daripada set data terkumpul, termasuk cawangan suboptimum yang diterokai semasa carian, dengan itu meningkatkan kejayaan dalam persekitaran yang kompleks.

Yang berikut memfokuskan pada algoritma MCTS di bahagian halaman web (Halaman Web). Penyelidik telah meneroka cara memberi ejen keupayaan carian tambahan melalui MCTS.

Dalam kerja sebelumnya, algoritma MCTS biasanya terdiri daripada empat peringkat: pemilihan, pengembangan, simulasi dan perambatan belakang Setiap peringkat memainkan peranan penting dalam mengimbangi penerokaan dan penggunaan, dan memperhalusi strategi secara berulang.

Para penyelidik merumuskan pelaksanaan ejen halaman web sebagai carian pepohon halaman web, di mana keadaan terdiri daripada sejarah ejen dan pepohon DOM bagi halaman web semasa. Tidak seperti permainan papan seperti catur atau Go, ejen rangkaian kompleks yang digunakan oleh penyelidik beroperasi dalam format terbuka dan ruang yang boleh diubah.

Para penyelidik menggunakan model asas sebagai pengedaran cadangan tindakan dan sampel bilangan tetap tindakan yang mungkin pada setiap nod (halaman web). Setelah tindakan dipilih dan dilakukan dalam penyemak imbas, halaman web seterusnya dilalui dan menjadi nod baharu bersama dengan sejarah yang dikemas kini.

Penyelidik mempersoalkan model maklum balas berbilang lelaran, setiap kali mengalih keluar daripada senarai operasi terbaik yang dipilih daripada lelaran sebelumnya sehingga semua operasi diisih sepenuhnya. Rajah 4 di bawah menunjukkan proses maklum balas AI yang lengkap.

Peluasan dan pengunduran. Penyelidik memilih dan melakukan tindakan dalam persekitaran penyemak imbas untuk mencapai nod (halaman) baharu. Bermula daripada trajektori nod keadaan yang dipilih, mereka mengembangkan trajektori menggunakan dasar semasa ?_? sehingga mereka mencapai keadaan terminal. Persekitaran mengembalikan ganjaran ? pada akhir trajektori, di mana ? Seterusnya, ganjaran ini disebarkan kembali dengan mengemas kini nilai setiap nod bawah ke atas dari nod daun ke nod akar, seperti berikut:

Rajah 3 di bawah menunjukkan semua keputusan dan garis dasar. Apabila membolehkan ejen mencari maklumat pada masa ujian, iaitu menggunakan MCTS pada model asas xLAM-v0.1-r, kadar kejayaan meningkat daripada 28.6% kepada 48.4%, menghampiri purata prestasi manusia 50.0% dan dengan ketara melebihi hanya Prestasi daripada model DPO pukulan sifar yang dilatih melalui penyeliaan hasil.

Para penyelidik memperhalusi model asas berdasarkan algoritma yang digariskan dalam rajah di bawah, dan hasilnya ialah peningkatan sebanyak 0.9% berbanding model DPO asas. Menggunakan MCTS pada model Agen Q yang dilatih dengan teliti, prestasi ejen meningkat kepada 50.5%, sedikit melebihi prestasi manusia purata.

Même si un agent a suivi une formation approfondie en apprentissage par renforcement, disposer de capacités de recherche au moment du test reste un changement de paradigme important. Il s’agit d’une amélioration significative par rapport aux agents zéro-shot non formés.

De plus, bien que la supervision de niveau intensif soit une amélioration par rapport à la supervision purement basée sur les résultats, dans l'environnement WebShop, l'effet d'amélioration de cette méthode de formation n'est pas important. En effet, dans cet environnement, l’agent n’a besoin que de prendre des décisions courtes et peut apprendre l’attribution des crédits grâce aux résultats.

Résultats de l'évaluation

Les chercheurs ont choisi de laisser l'agent réserver un restaurant sur le site officiel d'OpenTable pour tester les performances du framework Agent Q dans le monde réel. Pour effectuer cette tâche de commande, l'agent doit trouver la page du restaurant sur le site Web d'OpenTable, sélectionner une date et une heure spécifiques, sélectionner des sièges qui correspondent aux préférences de l'utilisateur et enfin soumettre les coordonnées de l'utilisateur avant que la réservation puisse aboutir.

Au départ, ils ont mené des expériences sur le modèle xLAM-v0.1-r, mais le modèle a mal fonctionné, avec un taux de réussite initial de seulement 0,0 %. Ils se sont donc tournés vers le modèle LLaMa 70B Instruct, avec un certain succès initial.

Cependant, étant donné qu'OpenTable est un environnement en temps réel, il est difficile de le mesurer et de l'évaluer par programmation ou automatisation. Par conséquent, les chercheurs ont utilisé GPT-4-V pour collecter des récompenses pour chaque trajectoire sur la base des métriques suivantes : (1) la date et l'heure sont correctement définies, (2) la taille du groupe est correctement définie, (3) les informations sur l'utilisateur sont saisies correctement, et (4) clics Complétez votre réservation. Si toutes les conditions ci-dessus sont remplies, l'agent est réputé avoir accompli la tâche. La configuration de supervision résultante est illustrée dans la figure 5 ci-dessous.

Et l'Agent Q a considérablement amélioré le taux de réussite du modèle LLaMa-3 de 18,6% à 81,7%. Ce résultat a été obtenu après une seule journée de collecte de données autonome, ce qui équivaut à 340% augmentation du taux de réussite. Après l'introduction des capacités de recherche en ligne, le taux de réussite a grimpé à 95,4 %.

Veuillez vous référer à l'article original pour plus de détails techniques et les résultats de l'évaluation.

^{Lien de référence : https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-Generation-of-ai-agents-with-planning- et-capacités-d'auto-guérison}

위 내용은 OpenAI의 '스트로베리' 소식을 전했던 계정이 사실은 지능형 에이전트라고요? 스탠포드 스타트업 '과대광고” AgentQ의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!