>這是紐約市美麗的春天。天空很晴朗,溫度朝著20攝氏度攀升。洋基隊準備在洋基體育場扮演堪薩斯城皇家隊,遊騎兵在麥迪遜廣場花園對陣魔鬼。
>似乎沒有什麼與眾不同的,但是聚集在曼哈頓中城公平中心的人們即將體驗真正獨特的東西。他們將目睹這一歷史性活動,當時計算機首次在標準比賽條件下擊敗國際象棋的世界冠軍。 代表人類是加里·卡斯帕羅夫(Gary Kasparov),當時被廣泛認為是世界頂級國際象棋球員。代表機器,深藍色 - 由IBM開發的國際象棋計算機。進入比賽的最後和第六場比賽,兩名球員都得到2.5分。今天要決定獲勝者。>
>受生成AI的最新進步以及我自己的大型語言模型及其戰略能力的實驗的啟發,我越來越多地考慮戰略性AI。過去,我們如何嘗試處理這個話題?在我們擁有更具通才的戰略AI代理之前,還有什麼挑戰和要解決的問題? 作為數據科學家,我們越來越多地為客戶和雇主實施AI解決方案。對於整個社會而言,與AI的不斷增長的互動使了解AI,尤其是戰略性AI的發展至關重要。一旦我們擁有具有在戰略背景下操縱能力的自主代理人,這將對每個人都具有深遠的影響。
>但是,當我們說戰略性ai>在本文中,我們將定義戰略性AI,探討自1997年IBM Deep Blue Beat Kasparov以來的幾年來探索它的含義以及它的發展。我們將嘗試了解某些模型的一般體系結構,並且另外,還檢查了大型語言模型(LLM)的適合圖片。通過了解這些趨勢和發展,我們可以更好地為將自主AI代理融入社會的世界做準備。
定義戰略性AI>當我們在商業環境中考慮戰略時,我們通常傾向於將其與長期思維,資源分配和優化等主題聯繫在一起,對組織中的相互依存的整體理解,與目的和使命的決策保持一致公司等。儘管這些主題很有用,但在與AI和自主代理打交道時,我通常更喜歡對策略進行更多遊戲理論定義。在這種情況下,我們將戰略性定義為:
選擇一種行動方案,不僅要考慮自己的潛在行動,而且還要考慮其他人如何應對這些行動以及您的決策如何影響環境的整體動態,從而最大程度地提高了預期的回報。 >>該定義的關鍵部分是戰略選擇是在真空中不出現的選擇,而是在其他參與者的背景下,無論是人類,組織還是其他AIS。這些其他實體可以擁有自己的類似或相互矛盾的目標,也可能試圖以戰略性地採取行動以促進自己的利益。>>此外,戰略選擇始終尋求最大化預期的收益
策略的遊戲理論觀點捕捉了戰略決策的本質,因此讓我們清楚地定義了戰略AI的含義。從定義來看,我們可以看到,如果AI系統或代理要以戰略性採取行動,則需要具有一些核心功能。具體來說,它需要能夠:,無論這些收益是根據貨幣,公用事業還是其他價值衡量標準。如果我們想結合與戰略相關的更傳統的“商業”主題,我們可以想像我們希望從現在起十年後最大化公司的價值。在這種情況下,要製定一個好的策略,我們需要採取“長期”觀點,並且還可以考慮公司的“目的和使命”,以確保與該戰略保持一致。但是,追求這些努力僅僅是它實際上採取戰略性行動的結果。
在我們進一步討論戰略AI之前,回顧遊戲理論的某些概念和想法可能很有用。圍繞戰略AI所做的許多工作在遊戲理論概念中都有基礎,並且使用遊戲理論的定理可以表明某些屬性的存在,這些屬性使某些遊戲和情況比其他屬性更易於處理。它還有助於強調遊戲理論的某些缺點,並突出顯示我們可能會更好地朝其他方向尋求靈感的地方。
什麼是遊戲?策略
:每個玩家可以採用的可能的動作或計劃。>以冷戰為無限遊戲的示例,我們可以在這種情況下識別幾個子遊戲。一些示例包括:
古巴導彈危機(1962):>
參與者:美國和蘇聯。
:西方盟友和蘇聯。 > >
>策略零和遊戲是遊戲的一個子集,其中一個玩家的收益是另一個玩家的損失。總的收益保持不變,並且球員們正在直接競爭。
的關鍵要點
回顧遊戲理論概念,似乎子遊戲的想法對於戰略AI特別有用。在較大的上下文中找到可能更小,更易於分析遊戲的能力使應用已知的解決方案和求解器變得更加容易。> 例如,假設您正在努力發展自己的職業生涯,這可能被歸類為無限的遊戲且難以“解決”,但突然間,您有機會談判新合同。這個談判過程為您的職業生涯提供了一個子遊戲的機會,對於使用遊戲理論概念的戰略AI來說,將更容易實現。
的確,人類已經在我們生活中創造了數千年的子遊戲。大約1500年前,我們在印度創造了現在被稱為國際象棋的起源。事實證明,國際象棋是AI擊敗的挑戰,但也使我們開始開發更成熟的工具和技術,這些工具和技術可以用於更複雜且困難的戰略狀況。>遊戲為開發戰略性AI提供了驚人的證據基礎。遊戲的封閉性質使訓練模型和開發解決方案技術比在開放式系統中更容易。遊戲明確定義;球員是已知的,收益也是如此。最大,最早的里程碑之一是Deep Blue,這是擊敗國際象棋世界冠軍的機器。
> 複雜遊戲中的進步
:alphago > 人們可能會爭辯說,鑑於其具有出色的評估董事會狀態和選擇動作的能力,因此alphago具有比深藍色更多的智能。從2016年對陣Lee Sedol的比賽中移動37是一個典型的例子。對於那些熟悉GO的人來說,這是第五線的肩膀,最初令人困惑的評論員,包括李·塞多爾本人。但是,正如後來變得很清楚的那樣,此舉是一場出色的戲劇,並展示了Alphago將如何探索人類玩家可能會忽略和無視的策略。 >
>
通過構建為以前的AIS開發的一些技術,例如通過自我播放和深度神經網絡學習的強化學習,該團隊能夠製造出獨特的遊戲引擎。首先,他們使用有監督的學習和人類游戲訓練了神經網。然後,他們將其用來播種另一種可以在多代理遊戲框架中對抗自己的算法。 DeepMind團隊創建了一個虛擬聯盟,代理商可以探索彼此的策略,以及將獲得主導策略的獎勵。最終,他們將聯盟的策略結合在一起,成為一種超級戰略,可以對許多不同的對手和策略有效。用他們自己的話: preflop: >有多種因素導致難以解決撲克的困難。首先,我們有隱藏信息的問題,因為您不知道其他玩家擁有哪些卡。其次,我們有一個具有許多玩家的多人遊戲設置,每個額外的播放器都會以指數方式增加可能的交互和策略。第三,我們有無限制的投注規則,該規則允許一個複雜的投注結構,其中一個玩家可以突然決定下注他的整個堆棧。第四,由於孔卡,社區卡和投注序列的組合,我們具有巨大的遊戲樹複雜性。此外,由於卡的隨機性,虛張聲勢和對手建模!
>
在第一個實驗中,Pluribus與5個人類對手進行了比賽,平均獲勝率為48 Mbb/game,標準偏差為25 Mbb/game。 (MBB/遊戲代表每場比賽Milli Big Blind,每次玩1000場比賽將贏得多少個大百葉窗。)48 MBB/遊戲被認為是非常高的勝利率,尤其是在精英撲克玩家中,這意味著Pluribus比Pluribus強人類對手。 >首先,我們正在從兩個玩家轉移到多人遊戲設置。從兩人遊戲中的最初成功到6-玩家撲克等多人遊戲。其次,我們看到使用隱藏信息的遊戲掌握的掌握有所增加。第三,我們還看到掌握更多隨機元素的掌握。 隱藏的信息,多人遊戲設置和隨機事件是人類戰略互動的常態,因此掌握這些複雜性是實現可以在現實世界中導航的更通用的超人戰略AI的關鍵。
>上面的實驗表明,即使我們看到LLM的快速改善,它們仍然缺乏戰略推理的複雜性。鑑於他們的一般培訓數據以及如何構建它們,這並不令人驚訝。 >
那麼,他們如何適應圍繞戰略AI的討論?要了解這一點,我們需要了解LLM的真正出色。 LLM的最有希望的功能也許是它們消化和產生大量文本的能力。現在,也有了多模型,視頻和音頻。換句話說,LLM非常適合與人類和其他背景下的現實世界互動。最近,META的AI團隊能夠將語言模型的一般語言能力與戰略引擎的戰略見解相結合。 與我們迄今為止討論的其他許多遊戲不同的是,它依賴玩家之間的談判。這是一種比撲克更合作的遊戲形式。每個玩家在每回合之前都使用自然語言與其他玩家進行交流,他們計劃彼此盟友。準備工作完成後,所有玩家都會同時揭示他們的計劃,並執行回合。這種類型的遊戲顯然類似於實際的外交和現實生活中的談判比大多數其他棋盤遊戲更接近,但是由於具有自然語言組成部分,AI很難掌握。
“……我們發現,在2P0S版本中實現超人性能的自我遊戲算法在與潛在人類盟友的規範和期望不一致的遊戲中的遊戲中表現不佳。 “
的未來
>一般的戰略引擎將旨在理解和應用不同情況下的廣泛戰略原則。也許通過創建捕獲人類戰略互動的許多方面的遊戲,AI可以通過對抗自己的遊戲來學習並製定適用於現實情況的策略。這種方法可以幫助AI概括其學習,從而在各種情況下有用。另一方面,專門的模塊是為特定場景或任務設計的AI系統。我們可以設想我們可以通過組合多個專業代理來創建一般的戰略AI。 AI代理可以在每個特定領域進行訓練,從而提供最需要的深厚專業知識。儘管此方法可能會限制AI概括的能力,但它可以確保在特定域中的高性能,這可以更快地導致實際應用。
鑑於我們在合作環境中使用AI進行自我播放的問題- 正如我們在外交所觀察到的那樣- 當前的趨勢似乎對不同的戰略情況有利於專門的模塊,在不久的將來,我們似乎很可能會專業化不同上下文的戰略模塊。但是,人們還可以設想一個混合系統,我們使用通用策略引擎來提供有關更廣泛主題的見解,而專門的模塊則應對複雜的特定挑戰。這種平衡可以使AI系統在適應特定情況的細節的同時應用一般的戰略見解。 戰略AI的未來不僅僅是機器接管決策;在過渡期間,這也是關於人類和人工智學的有效共同努力的。這種夥伴關係通常稱為“半人馬模型”,將人類直覺與AI的計算能力相結合。在這種模型中,人類帶來了創造力,道德判斷和靈活性,而AI系統則提供了強大的數據處理和戰略原則的一致應用。該模型的現實世界示例包括人類團隊表現優於人類或單獨工作的機器的領域。例如,在國際象棋中,加里·卡斯帕羅夫(Garry Kasparov)提倡與AI合作的想法,將人類戰略見解與AI的精確計算相結合。直到程序開始變得非常好,直到程序開始變得非常好,Centaur模型似乎在國際象棋中效果很好。到那時,人類的貢獻不值得,在最壞的情況下有害。
但是,在其他更開放式和現實世界的領域,半人馬模型可能是一個不錯的選擇。只需考慮人類與現代LLM的合作有可能大大提高生產率的潛力。
這種協作方法通過將人類判斷力與AI分析相結合,改善了決策,可能會導致更明智和平衡的結果。它可以快速適應新的和意外的情況,因為人類可以在AI支持的情況下實時調整策略。
現實世界的應用程序 >
上面的示例清楚地表明瞭如何將戰略性AI集成到各個行業和領域。通過考慮他人的行動,這些AI系統做出明智的決策,以優化結果,提高效率並經常提供競爭優勢。隨著戰略性AI的繼續改善,這些系統也將會改善,我們也可能會看到它們在許多其他領域的出現。
>嗎? ➡️在這裡訂閱我的新聞通訊⬅️。它是免費的,您可以隨時取消訂閱! >
如果您喜歡閱讀這篇文章,並且想從我這裡訪問更多內容/或通過https://www.ekneconsulting.com/訪問我的網頁,以探索我提供的一些服務。不要猶豫,通過電子郵件[電子郵件受保護] >通過電子郵件聯繫>在國際象棋深藍色勝利19年後,Google DeepMind的一支團隊產生了另一個模型,這將有助於AI歷史上的特殊時刻。在2016年,阿爾法戈(Alphago)成為第一個擊敗世界冠軍GO球員李·塞多爾(Lee Sedol)的AI模型。
> GO是一款非常古老的棋盤遊戲,起源於亞洲,以其深厚的複雜性和大量可能的位置而聞名,遠遠超過了國際象棋。 Alphago將深層神經網絡與蒙特卡洛樹搜索相結合,使其可以有效地評估位置和計劃移動。推斷時給出的alphago的時間越多,它的性能就越好。 >
在人類專家遊戲數據集上訓練的AI
通過自我玩法進一步改進。使Alphago與眾不同的是它可以處理GO的複雜性的能力,利用先進的機器學習技術來實現以前認為對AI掌握能力的域中的超人性能。 組合國際象棋和GO:alphazero
>
一年後,Google DeepMind再次成為頭條新聞。這次,他們從Alphago中接受了許多學習,並創建了Alphazero,這更像是掌握國際象棋以及GO和Shogi的通用AI系統。研究人員能夠僅通過自我競爭和增強學習就可以在沒有人類知識或數據的情況下建立AI。與依靠手工評估功能和廣泛開放庫的傳統國際象棋引擎不同,Alphazero使用了深層神經網絡和一種新穎的算法,將蒙特卡洛樹搜索與自學習結合在一起。 >
Google DeepMind團隊繼續在AI領域的統治地位,將其重點轉移到了非常受歡迎的電腦遊戲《星際爭霸II》上。在2019年,他們開發了一個名為Alphastar²的AI,能夠實現大師級比賽,並在競爭性排行榜上排名超過99.8%的人類球員。
>>>最終的字母代理由聯盟納什分佈的組成部分組成 - 換句話說,這是發現的策略最有效的混合物 - 在單個桌面GPU上運行。 >
>深探究pluribus和Poker
>
我喜歡玩撲克,當我在Trondheim生活和學習時,我們曾經有一個每週的現金遊戲,這可能會變得非常激烈!戰略AI黯然失色的最後一個里程碑之一是撲克遊戲。具體而言,在最受歡迎的撲克形式之一中,6名玩家無限的德克薩斯州Hold’em。在此遊戲中,我們使用帶有52張卡片的常規卡片牌,並且該劇遵循以下結構:
>>
評估戰略AI
>總結遊戲中戰略性AI的歷史,我們看到了明顯的趨勢。這些遊戲正在緩慢但肯定變得越來越接近人類每天發現的現實戰略狀況。
>我最近進行了一個實驗,讓LLMS互相發揮董事會風險。我對實驗的目的是評估LLM在戰略環境中的表現,更少的開箱即用。但是,給代理商提供了很多詳細的提示,以提供正確的環境,但也許毫不奇怪,LLM的性能相當平庸。
>
>您可以在此處找到有關該實驗的文章:
>總結了實驗中的一些關鍵發現,當前一代的LLMS與強化和認可獲勝的動作等基本戰略概念鬥爭。當他們這樣做在戰略上是有益的,他們也無法消除其他玩家。
案例研究:西塞羅和外交
外交遊戲是2至7玩家策略遊戲,Meta將其描述為風險,撲克和電視節目倖存者之間的混合。球員們從歐洲地圖上開始。 1900年,目的是獲得對大多數供應中心的控制權。具體而言,玩家旨在控制34個供應中心中的18個以取得勝利。通過這樣做,一名球員有效地主導著地圖,代表了在第一次世界大戰之前的那個時期,代表了其國家在歐洲的上升。
但是,使用強化學習來訓練一部分策略引擎,特別是用於訓練西塞羅的價值功能 - 它需要預測其行動的實用性。研究人員使用了修改版的行為克隆PIKL,該版本旨在最大化行動中的預期效用,同時最大程度地減少了與人類行為的差異。同時保持與人類行為的差距。 如果我們迄今為止檢查戰略性AI發動機的軌跡,那麼讓我們引起我們的一件事是每個遊戲引擎的專業化。即使體系結構可能相似 - 就像Alphazero學習如何玩多個不同的遊戲一樣,AI仍然可以在每個特定遊戲中玩數百萬遊戲。對於國際象棋而言,Alphazero打了4400萬場比賽,對於1.3億場比賽! ⁷自然的問題是,我們是否應該嘗試構建更多的通用策略引擎或繼續專注於特定任務的專業模塊?
鑑於當前的多模型模型的趨勢,LLM越來越能夠不僅將文本,而且任何現實世界的上下文轉換為機器可讀語法。這使得模型更具用作中介。
>如果我們建立在Cicero開發的想法的基礎上,我們還可以設想針對特定任務(例如外交溝通)進行微調模型,也許是通過對歷史外交通信的模型進行微調,然後訓練單獨的策略引擎以進行培訓採用最佳動作。
在過去幾年中,一個巨大發展的領域是自動駕駛汽車,以及他們如何使用戰略AI安全地駕駛道路。他們必須預測並回應其他駕駛員,行人和騎自行車的人的行為。例如,一輛自動駕駛汽車需要預見行人是否即將過馬路,或者是否會意外地改變車道。
>就在今年,Waymo(一家開發自動駕駛汽車和乘車服務的公司)開始在美國三個城市使用完全自主出租車:鳳凰城,亞利桑那州,加利福尼亞州的洛杉磯和舊金山。在接下來的幾年中
在金融市場中,AI驅動的交易系統分析了大量數據以做出投資決策。這些系統考慮了其他市場參與者的可能行動,例如交易者和機構預測市場變動。他們使用戰略推理來執行最大收益的交易,同時最大程度地減少風險,通常在高度波動的環境中。
AI系統還通過考慮供應商,競爭對手和客戶的行動來優化供應鏈。他們可以根據預期的需求和競爭對手的行為來戰略性地調整生產計劃,庫存水平和物流。例如,如果競爭對手有望推出新產品,AI可以建議提高庫存水平以滿足潛在需求的增加。
感謝您的閱讀!
每當我發表新文章時,都想通知>
參考
以上是當機器提前思考時:戰略AI的興起的詳細內容。更多資訊請關注PHP中文網其他相關文章!