ChatGPT 加持，決策大模型距離 AGI 更進一步-人工智慧-PHP中文網

過去短短不到一年裡，ChatGPT、GPT-4 的相繼面世，不斷刷新人們對 AI 的認知。

新科技帶來變革，也引發了外界對 AI 是否會取代人的討論，OpenAI 執行長 Sam Altman 也公開表示，對人工智慧技術的強大能力有些擔憂。

近日，倫敦大學學院（UCL）電腦系教授汪軍在接受AI 科技評論採訪時坦言，雖然ChatGPT 的語言能力、對話能力很強，但並無法進行系統性決策，例如機器控制、團體協作、動態調度等，而這些是AI 技術浪潮中更具革命性的部分。

汪軍，倫敦大學學院（UCL）電腦系教授，阿蘭圖靈研究所 Turing Fellow。其主要研究智慧資訊系統，包括機器學習、強化學習、多智能體，資料探勘、計算廣告學、推薦系統等；Google學術被引用量超過1.6萬次，已發表學術論文120多篇，曾多次獲得最佳論文獎。

ChatGPT 加持，决策大模型距离 AGI 更进一步

汪軍

2022年4月，上海數位大腦研究院正式創立，內部孵化並成立了Enigma Tech（中文名稱「謎題科技」）,汪軍擔任上海數位大腦研究院共同創辦人、院長，並出任謎題科技首席科學家；下半年，數研院研發出全球第一個多智能體決策大模型，該大模型集合CV 、NLP、強化學習和多智能體，致力於協助企業解決多場景決策問題。

汪軍認為，ChatGPT 的出現，解決了以往大模型訓練中如何降低門檻的難題，透過將自然語言處理與決策大模型的結合，ChatGPT 帶來的不能只是聊天，而是在AIGC（AI Generated Content，內容生產）的基礎上更進一步探索AIGA（AI Generated Actions，決策生成），讓模型的思考能力和決策能力應用到具體場景中，真正實現幫助企業和人們解決決策問題，將人類釋放到更具創造性的活動中。

一、在多智能體中通往「智能」

AI 智能探索的過程中，脫離不開對定義問題的終極追求。

汪軍將通往智慧的路徑分為兩個步驟。第一步，需要先明確生物系統（Living System，人歸屬於生物系統）和非生物系統的差異。

2013年，生物物理學家Jeremy England 提出一個開創性「耗散適應」理論（dissipation-driven adaptation），將生命起源歸結於熱力學的必然結果，無分子系統在一定條件下通過化學反應代謝消耗能量，以促進能量持續消耗及「熵」的增加。

在熵增熵減理論中，生命體從無序變成有序的過程持續吸收能量不斷熵減，汪軍認為，AI 從人產生，因此也是吸收能量幫助人完成熵減的使命，解決基礎問題的關鍵點在於如何定義智能，明確AI 需要吸收多少能量才能達到一定的智能。

使用 AI 做影像分類辨識時，分類演算法其準確率可達98%。透過分類，AI幫助我們可以將處於無序狀態的圖像內容組織轉變為有序、有規律可循的圖像，系統中不確定性減小，產生熵減。熵減也需要計算，形成演算法的算力多少，算力即是消耗能量的一種體現。

通往智慧的第二步，汪軍認為，是分辨生物系統、所謂的 AI 系統的意識問題。目前，人工智慧作為工具存在，演算法只能判別AI 工作的優良程度，機器本身並不存在思考，如何使機器最終達到與人相等的思考能力，需要先理解人類大腦的各種現象，並增加對AI 意識的關注。

在汪軍看來，意識是智慧的重要表現，哺乳動物可以察覺意識、感知意識並形成主觀感受；同時，當多個個體與環境互動時，必須存在除單一個體外、另一有意識個體與環境發生影響、產生共鳴，使主觀感受得以表達。

對此，汪軍和團隊提出，在 AI 研究中，必須有多智能體（Multi-Agent）的互動來引發意識。

以大模型為例，跨任務是人為定義的，只局限在給定一個特定任務，把演算法設計好讓機器去跑，難以產生更大智能的AI，模型的思考能力和決策能力也無法提升。

汪軍告訴AI 科技評論，「在同時推進多個事情時，需要大的思想來指導。如果沒有，顯然還缺乏一個內在的規律。」這個規律，正是機器模型通往更大“智慧”的關鍵路徑。

2022年5月，DeepMind 發布集合CV 和NLP 的通用智能體“GATO”，它可以玩雅達利遊戲、輸出圖片字幕、用機械臂堆疊積木、跟人聊天等等，還能根據上下文決定是否輸出文字、關節力矩、按鈕按壓或其他token（逐詞），這項工作在當時引起了不小的討論。汪軍也是關注者之一。

事實上，從2021年開始，汪軍和團隊就開始思考創建一個可實現跨任務，將CV、NLP、強化學習和多智能體四者嵌套為一個統一體決策模型的可能性。「GATO」的出現讓汪軍看到大模型廣闊的可探索空間，「這足以證明，一個模型解決多個領域任務是大勢所趨。」

決策大模型並不能單純地從模型大小意義出發，究其本質，是在資料集中透過強化學習與環境不斷互動所達到的一定的認知水平，如何攻破這個問題？當中最大的技術點就在於，降低強化學習和環境互動的複雜度。

原有數據在這一環節中扮演關鍵角色。

透過對其他任務或演算法同環境互動所產生的原有資料訓練，建構一個預訓練模型，這個模型在面對新任務時即可迅速在進行應用，從而實現規律、關係和數據的價值最大化。而伴隨預訓練資料集的不斷擴大，模型也隨之變大，直到它可涵蓋的所有任務。

最終結果是，解決問題的方法聚攏，多個方向匯聚、統一為一個可預約、可跨任務泛化的多智能體。多智能體往往需要考慮平衡關係，即在達到自我目標的同時，使對方也能達到它的目標，互相牽制從而保持一個穩定的平衡。

進入實際應用場景中，多智能體也可以幫助人們解決許多實際問題，例如搜尋、推薦，甚至網路廣告，其本質上是一個決策的過程，幫助用戶找到需要的內容，而且這個內容是符合使用者喜好的，「推薦給你看，其實就是個決策。」。

多智能體的優點在於，可以很好地發揮其跨任務的能力。

事實上，早在2017年開始，汪軍和其學生張偉楠（上海交通大學教授）就開始了跨任務嘗試，在自然語言處理（NLP）中加入強化學習。

以往的自然語言處理使用GAN 產生文字時，由於詞索引與詞向量在轉換過程中的資料不連續，經常會導致微調參數不起作用；不僅如此，由於GAN 的判別模型只對生成資料整體評分，但文字一般均為逐詞生成，難以控制細節。

為此，他們提出SeqGAN 模型，透過在藉鏡強化學習策略，解決了GAN 應用於離散資料的問題，這也是最早利用強化學習訓練生成性語言模型的論文之一，實現了文本生成，在自然語言處理和資訊檢索等不同領域具有廣泛的應用。

ChatGPT 加持，决策大模型距离 AGI 更进一步

論文地址：https://arxiv.org/pdf/1609.05473.pdf

「強化學習和決策本質上是相通的，透過強化學習，可以解決一些決策問題。」在汪軍看來，決策是一個長期研究的問題，多智能體決策大模型的提出，經泛化後可在某些特定領域形成特有優勢，AI 中大部分問題均可藉助決策大模型來解決。

二、AIGA 比AIGC 更進一步

ChatGPT 掀起的熱度還未過，3月15日，多模態預訓練大模型GPT-4 發布後，又一場顛覆性的變革呼嘯而至。

在這場關於通用人工智慧的競爭中，ChatGPT、GPT-4 不是終點，競賽的關鍵聚焦在浪潮下更有價值的產業革命和創新。

期間，汪軍也與關注市場資本的朋友保持密切溝通。

在汪軍看來，學術圈裡面的問題有些不夠大膽、受資源約束，思考問題會受到一定因素的約束。而在工業界，決策大模型可以擁有更豐富的應用場景，無論是在傳統產業，互聯網搜尋推薦，到工業互聯網等等，都需要各種各樣的決策。

帶著這樣的想法，汪軍開始考慮將決策大模型在產學研三棲結合的可能性。

經過一年的籌備期，2022年4月上海數位大腦研究院正式創立，內部孵化並成立Enigma Tech（「謎題科技」），主要負責將數研院的科研成果面向產業落地，為數研院提供現實場景及真實業務數據。汪軍擔任數研院共同創辦人、院長，並擔任謎題科技首席科學家。

當大模型邁進實際的應用場景裡，企業往往面臨著模型廣譜性不強、入局門檻高的兩大痛點。

經典的機器學習方法採用的是客製化模式，企業下發任務後，先定義問題、收集資料訓練、模型測試，二次任務下發後，模型需要再次收集定義問題、收集資料訓練、模型測試，往往會導致企業在部署上就已經損耗了極大的財力、人力資源，廣譜性不強。同時，使用大模型對工程師的技術能力要求極高，需要具備一定的最佳化經驗，企業參與門檻高。

汪軍認為，ChatGPT 結合決策大模型，可以有效解決低門檻、廣譜性的問題。

在這樣的思考下，汪軍領導謎題科技團隊提出DB 大模型（AIGA 方向大模型，AIGA：AI Generated Actions，決策生成），其首發的DB1 為全球首個多模態決策大模型，對標DeepMind 推出的GATO，可全面支撐多智能體，能夠並發處理千個以上決策任務。

ChatGPT 加持，决策大模型距离 AGI 更进一步

DB1 在車輛協同任務中的表現

透過將ChatGPT 與決策大模型的結合，ChatGPT 帶來的不能只是聊天，而是在AIGC 的基礎上更進一步探索AIGA，讓模型的思考能力和決策能力應用到具體場景中，所產生的交互通過跟具體場景的環境交互，小數據完成大任務，可直接面向產業真實場景，借助大模型實現任務閉環，實現機器人協作、設備動態、企業自主調度、軟體開發等更廣泛應用。

進而真正幫助企業和人們解決決策問題，將人類釋放到更具創造性的活動中。「最終為整個人類的進步帶來很大的促進作用。在這個情況下，我們才能孕育出真正的AGI（通用人工智慧）。」

目前，數位大腦研究院的基本架構已建置完成，業務內容從演算法、系統到具體工程項目均有涵蓋，可應用於推薦系統、故障預測、自動駕駛、市場設計、遊戲場景、EDA 優化等多個場景，解決企業運作過程中的實際問題。

走出實驗室、成立數位大腦研究院，對汪軍而言，感受和狀態是截然不同的：研究不可能將所有因素放在一起考慮，要解決這個問題，首先其他東西得簡化，把真正問題解決了再轉向下一個；而一項研究的落地則更可能是多個問題的集合體，需要各個問題都一一擊破，並把解決問題的方法統一去應用。

去年7月份，AI 科技評論曾有幸與汪軍院長進行了一場深入討論，彼時他對數研院的目標是，推動決策智能研究和AI 研究，在中國做最好的、最基礎的研究。

而過去短短一年，Stable Diffusion、ChatGPT 和GPT-4 等模型的出現，讓汪軍驚喜地認識到AI 技術的革命性進步，也令他對數研院有了更具象化的目標，將決策大模型應用在具體場景中解決實際意義問題。

從學術界到工業界，數位大腦研究院的發展時間還不長，其雛形也映射出汪軍在人工智慧路上探知求索的方向。「我們就是要走自己的一條路，怎麼樣把產學研結合一起闖出條新路，問一些以前沒有問過的問題。」

三、對話汪軍

#數研院落地決策大模型

AI 科技評論：介紹數研院過去一年在多智能體決策大模型所做的工作和進展。

汪軍：去年夏天我開始計劃一個新的課題，我們覺得大模型不只是在NLP、CV 裡，它在決策中也有很大的作用，當時DeepMind “GATO”的工作嘗試將各種各樣的任務放在一個大模型裡面、Transform裡面去進行學習，給到了我們啟發，所以當時就決定在它的基礎上往前探索，做了一個決策大模型，包括視頻、圖像的數據，自然語言的數據，機器人的數據，甚至加入求解器的數據，例如怎麼做優化任務、佈置生產排期、對車輛進行最佳化等。我們做了一個10、15億左右參數的大模型，雖然是一個早期的探索，但也證明了在大模型裡面不光只是自然語言處理，還能在決策中發揮明顯作用。

前段時間我們在做足球遊戲，發現有個沒有攻克的問題：現在強化學習所存在的研究邏輯，AlphaGo、星海爭霸、Dota 等帶有遊戲系統中，人越多，其決策空間也會更加複雜。

對此，我們以遊戲場景的足球作為問題研究點，在多智能體決策大模型中進行了多次嘗試，從簡單的2人足球，到5人、到11人。這個是比較大的、對強化學習有挑戰性的場景，目前問題本質還沒有完全解決，或者說解決得很好，因此我們也花了很多時間在做這件事情，希望能做出一點成績。

AI 科技評論：ChatGPT 發布後，對數研究所的研究帶來什麼影響？

汪軍：我們一直重心在是決策上，現在也一直是。但 ChatGPT 出來後，我們對它的語言能力感覺到非常驚艷，完全超過我們的預期，對決策任務也起了一定的促進作用。

在做決策優化的過程中，需要解決兩大痛點：廣譜性和低門檻。

決策大模型在一定程度上解決了模型的廣譜性問題，將新任務放置大模型內進行迭代、微調，一個大模型可以應對各種各樣的決策問題。

低門檻問題在做AI 公司中普遍存在，在此之前，使用大模型對工程師的能力要求非常高，往往需要有優化經驗的人參與到問題決策過程中，個人和企業參與的門檻非常高，也增加了AI 的使用成本。

為了解決使用的低門檻問題，我們之前預想發明一個比較簡單的語言，可以比自然語言要更複雜、嚴謹一點，但比真正的程式設計簡單些，任何人都可以使用，ChatGPT的出現，突然讓我們意識到，機器的自然語言可以達到一個正常跟人交流的水平，一下子就把低門檻的痛點解決了。對我們來說，這個改變帶來的觸動是比較大的。

更有趣的是，ChatGPT 裡具有一定的邏輯推理能力，可以幫助我們將一個複雜的問題分解為幾個子問題，這個子問題部分原本需要專業人士進行人為分解，但透過ChatGPT 對語意的理解，在得到範例的情況下可對問題分解成基礎的問題，再經由決策大模型對基礎問題已有的決策能力，實現直接調用。

ChatGPT 降低決策門檻

AI 科技評論：多智能體決策大模型涵蓋的領域很多，這塊資料會有什麼要求？把它跟著 ChatGPT 結合後，對某一領域的數據是否有特別的需求？

汪軍：它會有一些特定的要求。

自然語言的資料是離線的，屬於方法論上的學習；而決策中需要很多產生資料的能力，需要一個模擬器。舉個例子，當我們訓練機械狗走路時，我們不會讓它到雨天里或其他環境走一圈將數據採集回來，往往是先建一個跟外界非常像的仿真器，通過仿真器來產生數據，模型學習完後再放到真實場景給予回饋，回來再進行學習，從而使得它可以很快將決策能力遷移到現實中應用。大模型技術囊括各種各樣的場景，無論是下雨天、走台階、走沙土都沒有任何問題。

ChatGPT 加持，决策大模型距离 AGI 更进一步

機械狗在不同環境中行走

第二個難度是，決策資料訓練的難度比自然語言處理的難度要大，這個過程中在不斷產生數據，數據產生的效率、產生在什麼地方，如何分配到各個學習模組裡面進行學習，需要統一的系統層面解決方案，先前我們專門做了一套大規模的學習方法，主要應用在這種強化學習訓練的方法。但 ChatGPT 出來後，基於大預言模型的訓練方法不太適用。

AI 科技評論：具體場景中，如何用 ChatGPT 跟著決策大模型結合？

汪軍：舉一個機械狗的案例：最早我們訓練機械狗使用的是歸控的經典方法，它的問題是在單一環境路況上走沒有問題，但遇到雨天、雪天就走不了，但當我們加入了大模型方案後，機械狗開始具備基礎的互動能力，可以進行推理。向機械狗發出一個送信的指令，模型會將任務自動分解為1至5個基礎步驟，每個模組在傳送中都有對應邏輯，例如從A點行至B點的路徑規劃。

由於機械狗本身並不具備往東走、往西走的概念，只有坐標，因此需要將交互指令與具體的語義結合、對應起來，透過ChatGPT 的方式，我們無需將指令轉化為程式語言，可直接進行交互，機械狗在接收到問題後，會講指令分解成幾個不同的問題，先優化一部分的Chat，將動作、決策和語義同ChatGPT 產生自然語言對應起來。

這樣成為了我們接下來研究的主要方向，我們稱之為AIGA（AI generate actions），前期ChatGPT 帶來的是AIGC，再結合決策大模型，從generate content 更進一步、變為generate actions，生成決策。

數研究所的長處是在決策大模型，因此我們堅持決策大模型的方向是不變的，要讓AI 不只是交流，更重要的它是幫助你去優化，幫助你去做決策，我們覺得它的價值非常大。 ChatGPT 結合決策大模型後，所產生的交互不再僅限於它能回答問題，更在於它是否能理解複雜、構建複雜，透過跟具體場景的環境交互，ChatGPT 跟決策大模型進行結合，可實現機器人協作、設備動態、企業自主調度、軟體開發等更廣泛應用。

自然語言是基礎

AI 科技評論：在訓練多模態資料之後，參數量到達多少會湧現更多的能力?文字，圖像，語音，影片……哪一個模態對多模態模型的影響會更大？

汪軍：在數據方面，「大力出奇蹟」這個事情有一定的極限，雖然目前這個極限我們還沒有完全看到，但是我覺得，我們不是只著眼於僅學習ChatGPT 的訓練方式。

ChatGPT 的語言能力很強、對話能力很強，但 ChatGPT 是否真正了解它吸收的內容？我認為它是沒有理解的。讓它玩猜數字遊戲，表面上它可以玩，但其實它是不知道、沒辦法猜到你心裡的數字。 ChatGPT 更多是在原有訓練資料中對邏輯內容的記憶，它的搭料能力很強，但是它真正理解的能力很弱。

如何打破它的限制？我認為，我們需要在訓練裡加上模型對整個世界的理解，如果它本身不去建立一個描述世界的數學模型，把它的理解放到世界模型中，它不會對周遭世界有更深層的理解的。舉個簡單的例子，我們給 ChatGPT 2000分以下的所有人類下棋能力的數據，如果模型只模仿人，那麼它無法模仿出比2000分更高的智能。

ChatGPT 加持，决策大模型距离 AGI 更进一步

汪軍團隊先前所做的AI 創作助手

資料很重要，但同時，模型的大小也很重要，要有不同的訓練方法來提高它。

而在多模態中，自然語言是基礎，當人在思考時，語言是我們的思維的載體，它構架了一個相對清晰的邏輯描述，這個邏輯描述可能並不是百分之百嚴謹，存在著不清晰、模糊的地方，但是它足夠讓我們表達一些非常複雜的邏輯關係。

但同時，我們也要清楚地認識到，自然語言中隱含的語意訊息和表達是非常重要的，也就是說，它可以把這個問題表述得很清晰、但這是表象，最主要的是對話裡面含載的語意關係，當其他多模態來了之後，匹配上對應的語意表達，就可以遷移到其他的模態當中。

在自然語言的基礎上，我們可以加入其他更多模態參與模型當中。

AI 科技評論：您如何看待「人類回饋」資料對多模態大模型或決策大模型的影響？

汪軍：需要一些人類回饋數據，但它的量不像以前的監督式學習需求量那麼大，一個基礎模型只需要給它幾個示範，目的是導引基礎模型適應新的任務場景，令基礎模型把原來的能力顯露出來。這是對經典機器學習訓練模式的革新。

以前的機器學習，大部分AI 企業採用的是客製化模式，任務來了先定義問題、收集資料訓練、模型測試，第二個任務下發後、又再次收集定義問題、收集資料訓練、模型測試，不僅難以複製，部署也會損失極大的財力、人力資源。

ChatGPT 後的機器學習是大模型先行，我不需要知道具體的問題是什麼，就可以先搭建模型，再分發至客戶或廠家，將模仿放置到某一個不具有訓練大模型能力的公司，由公司去部署，再進行定義，整體流程反過來了，其本質是激活大模型應用到特定任務中，再定義任務、輸出結果，大大降低了「人類反饋」數據對模型的影響，真正實現廣譜性、低門檻的AI。

AI 科技評論：有看法認為，在ChatGPT 這輪競賽中，算力和模型不再如前兩個時期那麼重要，而場景和數據將成為這一輪關鍵，您是怎麼看的？

汪軍：模型很重要。目前一些大模型語言能力的提升，會令人產生模型也具備理解人的能力，但這只是表象。僅靠幾個字來預測下一個單字的基礎模型訓練方法、難以產生更大智慧的AI，模型的思考能力和決策能力無法提升，而這兩者是作為人工智慧體最基礎的能力，它需要知道怎樣去跟環境互動。

從這個模型角度來講，模型仍需要進行革新，Transform 這個架構很好，但不代表就可以止步不前，我們仍然需要革新的、有創造力的、能產生思考的神經網路模型出現。

算力、模型、數據、場景四者都很重要，當數據和算力達到一定高度後、需要一個新的創新出現，創新後再進行數據和算力的變量累積，再達到一定的高度和進行創新，這是一個螺旋上升的過程。

場景是目的，最終我們需要在場景中定義問題、解決問題，而不只是讓研究停留在學術層面。場景驅動之後，再使用一個新的模型或方法，用數據和算力使它達到另一個極致。

ChatGPT 的廣譜性很強，但不代表它能夠解決所有的 AI 問題，我們應該思考下一個場景的東西什麼、能夠解決什麼問題？問題的核心是，讓模型的思考能力和決策能力，真正能夠應用到具體場景中，同時它要跟環境進行交互，跟人、跟各種各樣的場景進行交互，最終實現對整個能源產業，整個人類的進步帶來很大的促進作用。

在這個情況下，我們才能孕育出真正的 AGI。這也是數研究所的目標。

以上是ChatGPT 加持，決策大模型距離 AGI 更進一步的詳細內容。更多資訊請關注PHP中文網其他相關文章！