請留意,這個方塊人正在緊鎖眉頭,思考著面前幾位「不速之客」的身份。
原來她陷入了危險境地,意識到這一點後,她迅速展開腦力搜索,尋找解決問題的策略。
最終,她決定先逃離現場,然後儘快尋求幫助,並立即採取行動。
同時,對面的人也在進行著與她相同的思考…
##在《我的世界》中出現了這樣一個場景,所有的角色都由人工智慧控制。 他們每個人都有著獨特的身份設定,例如之前提到的女孩就是一個年僅17歲但聰明勇敢的快遞員。 他們擁有記憶和思考能力,在這個以《我的世界》為背景的小鎮中像人類一樣生活。 驅動他們的,是一款全新的、針對開放世界設計的、基於語言的AI角色扮演框架LARP。
這裡的LA指的是Language Agent,同時LARP又是即時(Live Action)角色扮演的縮寫,可謂是一語雙關。 除了擁有更高的認知複雜度,相較於傳統的智能體框架,LARP也縮小了智能體與開放世界遊戲之間的差距——
這類遊戲往往沒有特定的“通關標準”,而是由玩家在其中自由探索,而傳統的遊戲智能體常被用來完成特定目標。 此外,LARP的重點是突出模擬,使得智能體的行為更接近人類,為此研究者甚至特意引入了遺忘機制。
那麼,LARP具體如何實現?馬上就來一探究竟。 多模組協同控制智能體LARP的結構是模組化的,具體包括了認知、人格、記憶、決策等組成部分。
其中,記憶模組又由長期記憶、工作(短期)記憶和記憶處理系統三個部分組成。 流程上,角色觀察到的環境等資訊會以自然語言形式輸入記憶處理模組,經過編碼轉換並結合提取到的長期記憶,形成工作記憶; 然後工作記憶會輸入到決策模組,最終產生決策或對話內容。 決策模組的一個特點是會將一項大的目標拆解成子任務,同時利用其中的語言模型來確定子任務的執行順序。 模型所做的決策,會透過環境互動模組呼叫API來執行,必要時也會呼叫回溯模組進行程式碼重建;#執行成功後,角色的新技能會被儲存,成為新的長期記憶。 在長期記憶的提取的過程中,人物會根據觀察到的內容進行自我提問,並透過邏輯語句、向量相似度和句子相似度三個維度進行查詢,從而提取答案。 其中邏輯語句用於語意(semantic)記憶的查詢,後兩者則用來查詢情境(episodic)記憶。 語意記憶是關於世界的一般性概念和事實知識,包含了遊戲規則和相關世界觀;情景記憶則是遊戲中的具體事件,與特定場景和經驗相關。 前者內容相對固定,而後者則會根據Agent的經驗不斷累積。 為了讓LARP控制的智能體更像真人,研究團隊也刻意引入了隨時間變化的遺忘機制。當衰減參數σ超過一定閾值時,記憶提取會失敗,從而模擬遺忘過程,σ的計算方式則是依據心理學定律設定的:
σ = αλN (1 βt) - ψ
λ代表記憶的重要性程度,N表示提取次數,t代表最後一次提取後經過的時間,ψ是角色本身的遺忘速率,α和β為縮放參數
這個公式由心理學家Wayne Wickelgren提出,是艾賓浩斯遺忘曲線的補充。
而在人物性格的塑造上,研究人員在體現不同性格的資料集上預訓練出了基礎模型,並用專門建構的指令資料集進行監督微調。
同時,團隊也為角色的不同能力設計了多個資料集並訓練出了低秩適配模型,並於基礎模型動態整合,指導決策模組產生符合人設的內容。
同時,LARP中也設定了行動驗證和衝突辨識模組,確保模型為agent產生的內容受遊戲環境資料和先驗知識規範約束。
目前,LARP的GitHub頁面已經建立,不過仍處於空倉狀態,程式碼暫未發布。
隨著大模型研究的深入,智能體與群體智慧實驗如今已成AI研究最熱門方向之一。
例如去年爆火的史丹佛AI小鎮、清華推出的“AI遊戲公司”和“AI狼人殺”,都讓人們看到了多智能體協同的效益。
關於智能體的更多內容,量子位元智庫推出的《2023十大前沿科技報告》也有詳細介紹。
論文網址:https://arxiv.org/abs/2312.17653
#以上是《我的世界》化身AI小鎮,NPC居民角色扮演如同真人的詳細內容。更多資訊請關注PHP中文網其他相關文章!