大模型綜述來了！一文帶你理清全球AI巨頭的大模型進化史-人工智慧-PHP中文網

夕小瑤科技說原創
作者| 小戲，Python

如果自己是一個大模型的小白，第一眼看到GPT、PaLm、LLaMA 這些單字的怪異組合會作何感想？假如再往深裡入門，又看到 BERT、BART、RoBERTa、ELMo 這些奇奇怪怪的字一個接一個蹦出來，不知道身為小白的自己心裡會不會抓狂？

就算是個久居NLP 這個小圈子的老鳥，伴隨著大模型這爆炸般的發展速度，可能恍惚一下也會跟不上這追新打快日新月異的大模型到底是何門何派用的哪一套武功。這時候可能就需要請出一個大模型綜述來幫忙了！這篇由亞馬遜、德州農工大學與萊斯大學的研究者推出的大模型綜述《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》，為我們以建構一顆「家譜樹」的方式梳理了以ChatGPT 為代表的大模型的前世今生與未來，並且從任務出發，為我們搭建了非常全面的大模型實用指南，為我們介紹了大模型在不同任務中的優缺點，最後還指出了大模型目前的風險與挑戰。

論文題目：
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

論文連結：//m.sbmmt.com/link/ f50fb34f27bd263e6be8ffcf8967ced0

計畫首頁：//m.sbmmt.com/link/968b15768f3d19770471e9436d97913c

#1]大譜模型的前世模型的前世模型

大模型綜述來了！一文帶你理清全球AI巨頭的大模型進化史 1]大光譜的前生模型的前世模型

113S% 大模型綜述來了！一文帶你理清全球AI巨頭的大模型進化史

#1]大光譜的前生模型的前世模型

#追尋大模型的“萬惡之源”，大抵應該從那篇《Attention is All You Need》開始，基於這篇由谷歌機器翻譯團隊提出的由多組Encoder、Decoder 構成的機器翻譯模型Transformer 開始，大模型的發展大致走上了兩條路，一條路是捨棄Decoder 部分，僅僅使用Encoder 作為編碼器的預訓練模型，其最出名的代表就是Bert 家族。這些模型開始嘗試「無監督預訓練」的方式來更好的利用相較其他數據而言更容易獲得的大規模的自然語言數據，而「無監督」的方式就是Masked Language Model（MLM），透過讓Mask 掉句子中的部分單字，讓模型去學習使用上下文去預測被Mask 掉的單字的能力。在Bert 問世之初，在NLP 領域也算是一顆炸彈，同時在許多自然語言處理的常見任務如情感分析、命名實體識別等中都刷到了SOTA，Bert 家族的出色代表除了谷歌提出的Bert 、ALBert之外，還有百度的ERNIE、Meta 的RoBERTa、微軟的DeBERTa等等。 ###############可惜的是，Bert 的進路沒能突破Scale Law，而這一點則由當下大模型的主力軍，即大模型發展的另一條路，透過捨棄Encoder 部分而基於Decoder 部分的GPT 家族真正做到了。 GPT 家族的成功來自於一個研究人員驚異的發現：“擴大語言模型的規模可以顯著提高零樣本（zero-shot）與小樣本（few-shot）學習的能力”，這一點與基於微調的Bert 家族有很大的區別，也是當下大規模語言模型神奇能力的來源。 GPT 家族基於給定前面單字序列預測下一個單字來進行訓練，因此GPT 最初只是作為一個文本生成模型而出現的，而GPT-3 的出現則是GPT 家族命運的轉折點，GPT-3 第一次向人們展示了大模型帶來的超越文本生成本身的神奇能力，顯示了這些自回歸語言模型的優越性。而從 GPT-3 開始，當下的 ChatGPT、GPT-4、Bard 以及 PaLM、LLaMA 百花齊放百家爭鳴，帶來了當下的大模型盛世。 ###############從合併這家譜樹的兩支，可以看到早期的Word2Vec、FastText，再到預訓練模型的早期探索ELMo、ULFMiT ，再到Bert 橫空出世紅極一時，到GPT 家族默默耕耘直到GPT-3 驚艷登場，ChatGPT 一飛沖天，技術的迭代之外也可以看到OpenAI 默默堅持自己的技術路徑最終成為目前LLMs 無可爭議的領導者，看到Google 對整個Encoder-Decoder 模型架構做出的重大理論貢獻，看到Meta 對大模型開源事業的持續慷慨的參與，當然也看到從GPT-3 之後LLMs 逐漸趨向於「閉」源的趨勢，未來很有可能大部分研究都不得不變成API-Based 的研究。 ###

大模型綜述來了！一文帶你理清全球AI巨頭的大模型進化史

資料－大模型的力量來源

歸根究底，大模型的神奇能力是來自 GPT 麼？我覺得答案是否定的，GPT 家族幾乎每一次能力的躍遷，都在預訓練資料的數量、品質、多樣性等方面做出了重要的提升。大模型的訓練資料包括書籍、文章、網站資訊、程式碼資訊等等，這些資料輸入到大模型中的目的，實質在於全面準確的反應「人類」這個東西，透過告訴大模型單字、語法、句法和語意的訊息，讓模型獲得辨識上下文並產生連貫回應的能力，以捕捉人類的知識、語言、文化等等面向。

一般而言，面對許多 NLP 的任務，我們可以從資料標註資訊的角度將其分類為零樣本、少樣本與多樣本。無疑，零樣本的任務 LLMs 是最合適的方法，幾乎沒有例外，大模型在零樣本任務上遙遙領先其他的模型。同時，少樣本任務也十分適合大模型的應用，透過為大模型展示「問題-答案」對，可以增強大模型的表現效能，這種方式我們一般也稱為上下文學習（In-Context Learning）。而多樣本任務儘管大模型也可以去覆蓋，但是微調可能仍然是最好的方法，當然在一些如隱私、計算等約束條件下，大模型可能仍然有用武之地。

大模型綜述來了！一文帶你理清全球AI巨頭的大模型進化史

同時，微調的模型很有可能會面對訓練資料與測試資料分佈變化的問題，顯著的，微調的模型在OOD 資料上一般表現都非常差。而相應的，LLMs 由於並沒有一個明確的擬合過程，因此表現要好許多，典型的ChatGPT 基於人類反饋的強化學習（RLHF）在大部分分佈外的分類與翻譯任務中都表現優異，在專為OOD 評估設計的醫學診斷資料集DDXPlus 上也表現出色。

實用指南－任務導向上手大模型

很多時候，「大模型很好！」這個斷言後緊跟著的問題就是「大模型怎麼用，什麼時候用？ ”，面對一個具體任務時，我們是應該選擇微調、還是不假思索的上手大模型？這篇論文總結出了一個實用的“決策流”，根據“是否需要模仿人類”，“是否要求推理能力”，“是否是多任務”等一系列問題幫我們判斷是否要去使用大模型。

大模型綜述來了！一文帶你理清全球AI巨頭的大模型進化史

而從NLP 任務分類的角度而言：

傳統自然語言理解

目前擁有大量豐富的已標註資料的許多NLP 任務，微調模型可能仍然牢牢把控著優勢，在大多數資料集中LLMs 都遜色於微調模型，具體而言：

文本分類：在文本分類中，LLMs 普遍遜色於微調模型；
情緒分析：在IMDB 與SST 任務上大模型與微調模型表現相仿，而在如毒性監測任務中，幾乎所有的大模型都差於微調模型；
自然語言推理：在RTE 與SNLI 上，微調模型優於LLMs，在CB 等資料中，LLMs與微調模型相仿；
問答：在SQuADv2、QuAC 和許多其他資料集上，微調模型具有更好的性能，而在CoQA 上，LLMs 表現與微調模型性能相仿；
資訊檢索：LLMs 尚未在資訊檢索領域廣泛應用，資訊檢索的任務特徵使得沒有自然的方式為大模型建模資訊檢索任務；
命名實體識別：在命名實體識別中，大模型仍然大幅度遜色於微調模型，在CoNLL03 上微調模型的性能幾乎是大模型的兩倍，但是命名實體辨識作為一個經典的NLP 中間任務，很有可能會被大模型取代。

總之，對於大多數傳統自然語言理解的任務，微調模型的效果更好。當然LLMs 的潛力受限於Prompt 工程可能仍未完全釋放（其實微調模型也未達到上限），同時，在一些小眾的領域，如Miscellaneous Text Classification，Adversarial NLI 等任務中，LLMs 由於更強的泛化能力因而具有更好的性能，但是在目前而言，對於有成熟標註的數據而言，微調模型可能仍然是對傳統任務的最優解。

自然語言生成

相較於自然語言理解，自然語言生成可能就是大模型的舞台了。自然語言生成的目標主要是創造連貫、通順、有意義的符合序列，通常可以分為兩大類，一類是以機器翻譯、段落資訊摘要為代表的任務，一類是更開放的自然寫作，如撰寫郵件，編寫新聞，創作故事等的任務。具體而言：

文本摘要：對於文本摘要而言，如果使用傳統的如ROUGE 等的自動評估指標，LLMs 並沒有表現出明顯的優勢，但是如果引入人工評估結果， LLMs 的表現則會大幅優於微調模型。這其實顯示目前這些自動評估指標有時並不能完整準確的反應文本產生的效果；
機器翻譯：對於機器翻譯這樣一個擁有成熟商業軟體的任務而言，LLMs 的表現一般略遜於商業翻譯工具，但在一些冷門語言的翻譯中，LLMs 有時表現出了更好的效果，譬如在羅馬尼亞語翻譯英語的任務中，LLMs 在零樣本和少樣本的情況下擊敗了微調模型的SOTA ;
開放式生成：在開放式生成方面，顯示是大模型最擅長的工作，LLMs 生成的新聞文章幾乎與人類編寫的真實新聞無法區分，在代碼生成、代碼糾錯等領域LLMs 都表現了令人驚訝的性能。

知識密集任務

知識密集型任務一般指強烈依賴背景知識、領域特定專業知識或一般世界知識的任務，知識密集任務區別於簡單的模式辨識與句法分析，需要對我們的現實世界擁有「常識」並能正確的使用，具體而言：

閉卷問答：在Closed-book Question-Answering 任務中，要求模型在沒有外部資訊的情況下回答事實性的問題，在許多資料集如NaturalQuestions、WebQuestions、TriviaQA 上LLMs 都表現了更好的性能，尤**其在TriviaQA 中，零樣本的LLMs 都展現了優於微調模型的性別表現；
大規模多任務語言理解：大規模多任務語言理解（MMLU）包含57 個不同主題的多項選擇題，也要求模型具備一般性的知識，在這一任務中最令人印象深刻的當屬GPT-4，在MMLU 中獲得了86.5% 的正確率。

值得注意的是，在知識密集型任務中，大模型並不是百試百靈，有些時候，大模型對現實世界的知識可能是無用甚至錯誤的，這樣“不一致”的知識有時會使大模型的表現比隨機猜測還差。如重定義數學任務（Redefine Math）中要求模型在原含義和從重新定義的含義中做出選擇，這需要的能力與大規模語言模型的學習到的知識恰恰相反，因此，LLMs 的表現甚至不如隨機猜測。

推理任務

LLMs 的擴展能力可以極大的增強預訓練語言模型的能力，當模型規模指數增加時，一些關鍵的如推理的能力會逐漸隨參數的擴展而被激活，LLMs 的算術推理與常識推理的能力肉眼可見的異常強大，在這類任務中：

算術推理：不誇張的說，GPT-4 的算術與推理判斷的能力超過了以往的任何模型，在GSM8k、SVAMP 和AQuA 上大模型都具有突破性的能力，值得指出的是，透過思維鏈（CoT）的提示方式，可以顯著的增強LLMs 的計算能力；
常識推理：常識推理要求大模型記憶事實資訊並進行多步驟推理，在大多數資料集中，LLMs 都保持了對微調模型的優勢地位，特別在ARC-C （三-九年級科學考試困難題）中，GPT-4 的表現接近100%（96.3%）。

除了推理之外，隨著模型規模的成長，模型還會浮現一些 Emergent Ability，譬如符合操作、邏輯推導、概念理解等等。但還有類有趣的現象稱為“U形現象”，指隨著LLMs 規模的增加，模型性能出現先增加後又開始下降的現象，典型的代表就是前文提到的重定義數學的問題，這類現象呼喚著對大模型原理更深入細緻的研究。

總結——大模型的挑戰與未來

大模型必然是未來很長一段時間我們工作生活的一部分，而對於這樣一個與我們生活高度同頻互動的“大傢伙”，除了效能、效率、成本等問題外，大規模語言模型的安全問題幾乎是大模型所面對的所有挑戰之中的重中之重，機器幻覺是大模型目前還沒有極佳解決方案的主要問題，大模型輸出的偏差或有害的幻覺將會對使用者造成嚴重後果。同時，隨著 LLMs 的「公信度」越來越高，用戶可能會過度依賴 LLMs 並相信它們能夠提供準確的信息，這點可以預見的趨勢增加了大模型的安全風險。

除了誤導性資訊外，由於LLMs 生成文本的高品質和低成本，LLMs 有可能被利用為進行仇恨、歧視、暴力、造謠等攻擊的工具，LLMs 也有可能被攻擊以未惡意攻擊者提供非法資訊或竊取隱私，據報道，三星員工在使用ChatGPT 處理工作時意外洩漏了最新程式的原始碼屬性、與硬體相關的內部會議記錄等絕密資料。

大模型綜述來了！一文帶你理清全球AI巨頭的大模型進化史

除此之外，大模型是否能應用於敏感領域，如醫療保健、金融、法律等的關鍵在於大模型的「可信度」的問題，在當下，零樣本的大模型穩健性往往會出現降低。同時，LLMs 已被證明具有社會偏見或歧視，許多研究在口音、宗教、性別和種族等人口統計類別之間觀察到了顯著的表現差異。這會導致大模型的“公平”問題。

最後，如果脫開社會問題做個總結，也是展望一下大模型研究的未來，目前大模型主要面臨的挑戰可以被歸類如下：

實踐驗證：目前針對大模型的評估資料集往往是更像「玩具」的學術資料集，但是這些學術資料集無法完全反應現實世界中形形色色的問題與挑戰，因此亟需實際的資料集在多樣化、複雜的現實問題上對模型進行評估，確保模型可以應對現實世界的挑戰；
模型對齊：大模型的強大也引出了另一個問題，模型應該與人類的價值觀選擇進行對齊，確保模型行為符合預期，不會「強化」不良結果，作為一個高級的複雜系統，如果不認真處理這種道德問題，有可能會為人類醞釀一場災難；
安全隱患：大模型的研究要進一步強調安全問題，消除安全隱患，需要具體的研究確保大模型的安全研發，需要更多的做好模型的可解釋性、監督管理工作，安全問題應該是模型開發的重要組成部分，而非錦上添花可有可無的裝飾；
模型未來：模型的性能還會隨著模型規模的增加而增長嗎？，這個問題估計 OpenAI 也難以回答，我們針對大模型的神奇現象的了解仍然十分有限，針對大模型原理性的見解仍然十分珍貴。

以上是大模型綜述來了！一文帶你理清全球AI巨頭的大模型進化史的詳細內容。更多資訊請關注PHP中文網其他相關文章！