ChatGPT成功背後的技術原因及其對生命科學領域的啟發-人工智慧-PHP中文網

早在上個世紀五十年代，就有學者提出了人工智慧（Artificial Intelligence）的概念，其目的是希望讓電腦擁有人類智慧（或部分人類智慧）。這個領域經過很多年的發展，依然沒有突破，直到 2012 年出現了深度學習技術。深度學習主要解決了模型表示能力的瓶頸。我們面對的建模問題，例如影像理解、語言翻譯、語音辨識、分子- 蛋白結合構象預測等技術，都是非常複雜的非線性問題，在深度學習出現之前，模型表示能力很弱，無法對這些複雜問題進行精確表示。而深度學習技術，可以透過模型的層次堆疊，理論上可以建構任意深度的模型，突破了模型表示能力的瓶頸，從而在語音辨識、電腦視覺、自然語言理解等領域取得了突破性進展。

深度學習技術的出現標誌著人工智慧進入到一個新的階段，我們姑且把2012 年左右開始的透過深度學習驅動的人工智慧浪潮叫作新一代人工智慧時代（實際上在語音辨識領域深度學習應用可以追溯到最早，但鑑於後續許多深度學習的進步都來自於電腦視覺領域，所以，我們以2012 年AlexNet出現作為起點）。這個時期，可以認為是深度學習驅動的新一代人工智慧的第一個階段，即標註資料驅動的深度學習模型，大幅提高了模型表示能力，從而推動人工智慧技術顯著提升，並且在電腦視覺和語音識別領域獲得了產品和商業上的成功。這個階段的主要限制，是非常依賴標註資料的數量。由於模型參數變多，想要求解這麼多的模型參數，需要大量的訓練資料作為限制。而想獲得大量的標註數據非常貴，到億級之後就很難再有提升，數據支撐的有效模型大小也受到限制。 2012-2015 年這段時間，電腦視覺是最活躍的領域，出現了包括 ResNet 在內的各種深度網路模型。

2017 年，一個重要的基礎工作 Transformer 出現了。 2019 年，在一直未能有重大突破的自然語言處理（NLP）領域，一個叫作BERT 的工作脫穎而出，在十幾個不同的自然語言處理領域（NLP）任務中都取得了最好的結果，這些任務之間的差異很大，所以BERT 工作發表後，馬上引起了整個領域的關注。 BERT 採用了一個叫作自監督預訓練的思路，無需標註資料僅利用文字語料本身存在的限制就可以訓練模型（例如某句話的某個位置只能用某些限定的詞），這樣互聯網上存在的優質語料不需要進行人工標定就可以用來做訓練，從而一下子使得可用訓練數據的數量有了巨大的提高，再配合上大模型，使得BERT 模型的效果遠遠超過過去的模型，並且在不同任務間具有良好的通用性，成為NLP 領域里程碑工作之一。

其實在BERT 出現之前的2018 年，還有個工作叫作GPT（即GPT1.0），更早利用了自監督預訓練的思路來做文本生成，即輸入前面的文本，模型預測輸出後面的文本，領域裡面的優質語料無需標註就可以做訓練。 BERT 和 GPT 都是在 Transformer 基礎上發展而來的，而 Transformer 也逐漸發展成為 AI 領域的通用模型。 GPT1.0 的效果並不驚艷。在BERT 出現後不久，GPT 很快就發布了GPT2.0，模型大小和訓練資料量都有大幅提升，作為通用模型（即不用下游任務做訓練，直接測試結果）在大多數任務上結果好於現有模型。但由於 BERT 模型在特徵表示上比 GPT2.0 模型更有優勢，也更容易訓練，所以這個階段領域中最受關注的工作還是 BERT。但2020 年7 月，GPT3.0 橫空出世，以1700 億參數驚艷四座，更重要的是，在效果上，GPT3.0 作為一個通用語言模型，只需向它提供一段簡單描述，說明想生成的內容，就可以在無需重新訓練的情況下，根據提示，產生可執行程式碼，產生網頁或圖標，完成一篇文章或新聞，還可以編寫詩歌和音樂。 GPT3.0 出現後，受到了業界的廣泛關注，許多開發者基於 GPT3.0 做了很多好玩的應用。 GPT3.0 成為最好也最受關注的文本生成模型。

在自監督預訓練技術出現之後，我們可以認為新一代人工智慧發展到了第二個階段，即自監督預訓練技術使得可用訓練資料有了幾個數量級的提升，在訓練資料大幅提升的支撐下，模型大小也有了數個數量級的提升（有效模型達到了千億規模），而在模型效果上，這些模型變得不再依賴於下游任務領域數據的再訓練，所以，領域進入到基於自監督預訓練的通用大模型時代。在

之後，GPT3.0 與領域其他工作一起引發了一波模型大小的軍備競賽，但鮮有真正有突破的技術出現。大家意識到僅僅增加模型大小，並不能根本解決問題。就在大家期待 GPT4.0 等後續工作出現的時候，整整兩年過去，GPT 一直沒有更新。在這段時間內，人工智慧領域最活躍的工作主要集中在兩個方面，多模態統一模型和內容生成。多模態統一模型，希望建構多模態或跨模態統一模型，嘗試將文字、圖像、語音等不同模態資料統一表示在一個模型中，其中包括最早的跨模態表示模型CLIP，和後續的一系列多模態統一表示模型。而內容生成領域，一方面在技術層面，出現了擴散模型（Diffusion Model）這樣的基礎模型，Diffusion Model 及一系列變種模型的發展，使得人工智慧內容生成（AI Generated Content，即AIGC）領域變得非常熱，從圖像生成領域擴展到自然語言處理和生命科學領域；另一方面在應用層面，基於文本生成圖像領域取得了很多實質進展，其中最有代表性的工作DALLE2，模型能夠按照輸入的文本描述輸出看起來很真實的圖像，即使在文字描述超越了現實的情況下，依然可以產生看似合理符合文字描述的圖像，如下圖所示。 DALLE2 等一系列工作的成功，一方面歸功於大量的文本- 圖像對應關係數據（大約有數億對），建模了文本和圖像語義之間的對應關係，另一方面歸功於擴散模型克服了GAN、VAE 等模型難訓練、生成效果細節保留不夠等缺陷。影像產生效果的驚艷，甚至讓許多人相信 AI 已經可以創造內容了。

ChatGPT成功背後的技術原因及其對生命科學領域的啟發

#圖. DALLE2 產生效果

################ ######時間來到了2022 年11 月底，OpenAI 發布了ChatGPT。 ChatGPT 發布後，大家發現這個聊天機器人很不一般，常常給令人驚豔的答案。對話機器人領域曾出現過很多個對話機器人，例如蘋果的 Siri，微軟的小冰小娜等，這些通用對話系統的體驗都不是非常理想，大家拿來調戲一下就扔到了一邊。而智慧音箱等產品中使用的指令執行式問答機器人，系統框架是基於規則驅動的對話管理系統，存在大量的手工規則，使得這些系統一方面無法擴展到通用領域，只能進行簡單程式化的回答，另一方面，無法處理多輪對話的環境語意資訊（Context）。從技術層面來看，ChatGPT 和原來主流的對話系統完全不同，整個系統基於一個深度產生大模型，對於給定的輸入，經過深度模型的處理，直接輸出抽象總結性的回答。而在產品體驗上，ChatGPT 也遠遠超越了過去的聊天系統。作為一個通用聊天機器人，它幾乎可以回答任何領域的問題，而且準確率已經達到人類願意持續使用的要求，在多輪對話的場景下依然保持非常好的體驗。 ############當然，ChatGPT 並不完美，作為一個深度學習模型，ChatGPT 存在無法百分之百精準的缺陷，對於一些需要精確回答的問題（例如數學計算、邏輯推理或人名等），會出現一些可感知的明顯錯誤。後面又出現了一些改進工作，例如有些工作會提供資訊的參考網頁鏈接，而在Facebook 最新的工作 ######ToolFormer ######中，則嘗試在生成模型中，將特定任務交給特定API 去計算，不走通用模型，這有望克服模型無法百分之百精準的問題。如果這條路走通，深度產生模型有望成為 AGI 的核心框架，用插件方式整合其他技能 API，想想就很令人興奮。 ######

商業上，ChatGPT 一方面引發了對於 Google 等搜尋引擎挑戰的暢想，另一方面，大家看到了各種自然語言理解有關的垂直產品應用機會。無疑，ChatGPT 在自然語言理解領域正掀起一次可能媲美搜尋推薦的新商業機會。

ChatGPT 為什麼能有這樣驚豔的效果？其中一個核心原因是 ChatGPT 基於生成大模型GPT3.5 建構，這應該是當前自然語言理解領域文本產生最好的模型（GPT3.5 比GPT3.0 使用了更多的數據和更大的模型，具有更好的效果）。

第二個核心原因則是基於人類回饋的強化學習技術，即Reinforcement Learning from Human Feedback（簡寫作RLHF）。由於 OpenAI 並沒有發表 ChatGPT 的論文，也沒有程式碼公開，大家一般認為其與先前的一篇文章 InstructGPT（https://arxiv.org/pdf/2203.02155.pdf）中批露的技術最為相近。如下圖所示，依照InstructGPT 中的描述，第一步，先收集使用者對於同一問題不同答案的偏好資料；第二步，利用這個偏好資料重新訓練GPT 模型，這一步是基於監督資訊的精調；第三步，根據使用者對不同答案的偏好，訓練一個打分函數，對於ChatGPT 的答案會給出分數，這個分數會反映出使用者對不同答案的偏好；第四步，用這個打分函數作為強化學習的回饋（Reward）訓練強化學習模型，使得ChatGPT 最終輸出的答案更偏向使用者喜歡的答案。透過上述過程，ChatGPT 在 GPT3.5 的基礎上，針對使用者輸入，輸出對使用者更友善的回答。

ChatGPT成功背後的技術原因及其對生命科學領域的啟發

#ChatGPT 第一階段訓練GPT 產生模型所使用的訓練資料非常多，大約在數十TB，訓練一次模型需要花費千萬美元，而第二個階段，基於強化學習的少量優質資料回饋則只需要數萬個優質資料。我們可以看到，ChatGPT 技術，是在自監督預訓練大模型基礎上結合基於人類回饋的強化學習技術，取得了非常顯著的進展。這個新的範式，有可能成為第三階段人工智慧的核心驅動技術，即首先基於自監督預訓練的大模型，再結合基於少量優質資料回饋的強化學習技術，形成模型和數據的閉環回饋，獲得進一步的技術突破。

關於ChatGPT，我們的觀點如下：

（1）ChatGPT 確實是這個時代最棒的工作之一，讓我們看到了基於自監督預訓練的生成大模型與基於少量優質資料強化學習回饋策略結果後AI 的驚艷效果，某種意義上改變了我們的認知。

（2）ChatGPT 相關技術具有非常大的商業價值，使得搜尋引擎在內的許多產品都面臨被重構或顛覆的機會，無疑會帶來很多新的商業機會，整個NLP 領域都會受益。

（3）基於自監督預訓練的生成大模型與基於少量優質資料強化學習回饋策略的學習範式，有望成為未來推動各個領域前進的動力，除NLP 領域外，可望在生命科學、機器人、自動駕駛等各領域引發新一輪人工智慧熱潮。

（4）ChatGPT 並不能證明人工智慧已經有了人類心智，ChatGPT 表現出來的一些創造性和心智，是因為自然語言理解語料中包含了語義、邏輯，基於自然語言語料訓練出來的生成模型，統計意義上學習到了這些對應關係，看起來似乎有了智能，但並不是真的有人類心智。 ChatGPT 很棒，但說他智力等於幾歲小朋友的說法，都不夠嚴謹。因為從根本上講，人學習新知識、進行邏輯推理、想像、運動回饋這些能力，目前 AI 還沒有具備。過度炒作 ChatGPT 的智慧和能力，會劣幣驅逐良幣，損害整個產業。

（5）在這個領域，中國的技術還有差距，過去兩年，我們還沒有看到真正複製出GPT3.0 效果的文本生成模型，而沒有GPT3.0 和3.5，就不會有ChatGPT。 GPT3、GPT3.5 和 ChatGPT 等工作都沒有開源，甚至 API 都對中國做了封鎖，這都是複製工作實際面臨的困難。說得悲觀一點，大部分想複製 ChatGPT 效果的團隊，都不會成功。

（6）ChatGPT 並不是一兩個研究人員做出的演算法突破，而是在先進理念指導下，非常複雜的演算法工程系統創造出來的成果，需要在團隊和組織上配對（類比OpenAI 和DeepMind）。純研究型的團隊恐怕不能成功，對深度學習理解不夠、太工程的團隊也不會成功。這團隊需要：第一要有足夠資源支持，可以支撐昂貴的深度學習訓練和人才招募；第二要有真正在工業界領導過工程化大模型團隊的專家領導，ChatGPT 不僅有演算法創新，更是工程體系創新；第三，也可能是最重要的，需要一個團結協作有統一領導且不追求論文發表的組織（鬆散型的組織利於演算法創新，但不利於工程化演算法攻堅），且配備足夠多優秀的工程和演算法人才。

（7）我們不僅追求做一個ChatGPT，更要持續追求背後的技術創新，即大力發展自監督預訓練生成大模型和基於少量優質數據的強化學習回饋策略技術，這不僅是下一代ChatGPT 的核心技術，也是推動人工智慧領域整體進步的技術。最擔心的是，由於投機追風，造成力量分散而使大量資源被浪費，或者過度宣傳 ChatGPT 損害了行業。

（8） ChatGPT 也存在改進空間，也不是唯一值得關注和期待的技術。對於 AI，最常見的誤解是，高估其短期表現，而低估其長期表現。這是一個 AI 成為核心推動力的偉大時代，但 AI 並不會那麼快無所不能，需要我們長期努力。

這裡，我們簡單總結一下2012 年以來深度學習引起的新一代人工智慧浪潮裡面的關鍵技術演進：

（1 ）第一個階段，關鍵進展是標記資料驅動的有監督深度學習模型，大幅提高了模型表示能力，從而推動人工智慧技術顯著進步，這個階段最活躍的是電腦視覺和語音辨識領域，主要的限制是有標記資料比較貴，限制了可獲得的資料量，進而限制了資料能支撐的有效模型大小。

（2）第二個階段，關鍵進展是自監督預訓練大數據驅動的通用大模型，自我監督預訓練技術使得可用訓練資料有了幾個數量級的提升，從而支撐著模型大小也有了數個數量級的提高，成為無需依賴下游任務領域資料再訓練的通用模型，這個階段進步最大、最活躍的是自然語言理解領域；主要的限制在於需要大量資料訓練，且模型非常大，訓練和使用都非常昂貴，重新訓練垂直場景模型也非常不方便。

（3）第三個階段，目前雖然還不能蓋棺論定，但呈現出一定趨勢。 未來非常重要的技術關鍵在於，能否在大模型的基礎上，用強化學習、Prompting 等方式，僅透過少量優質資料就能顯著影響大模型的輸出結果。如果這個技術走通，那麼無人駕駛、機器人以及生命科學等數據獲取昂貴的領域將顯著受益。過去，如果想改善 AI 模型存在的問題，必須收集大量的資料重新訓練模型。假如，在需要線下互動的機器人領域，在預訓練大模型的基礎上，僅透過告知機器人真實場景中一些正確和錯誤的動作選擇就能影響機器人的決策，那麼無人駕駛和機器人領域在技術迭代上會更有效率。生命科學領域，如果僅透過少量的試驗數據回饋，就能顯著影響模型預測結果的話，整個生命科學領域與計算融合的革命將會來得更快一些。在這一點上，ChatGPT 是非常重要的里程碑，相信後面會有非常多的工作出現。

讓我們把目光回到我們更關注的生命科學領域。

由于 ChatGPT 带来的技术进步改善了大多数 NLP 相关领域，所以，生命科学领域内和信息查询检索抽取有关的技术和产品，会优先受益。例如，在未来有没有可能出现一个生命科学领域对话方式的垂直搜索引擎，专家可以向它询问任何问题（比如关于疾病、靶点、蛋白等有关的问题），它一方面可以给出综合趋势的判定（也许没有那么精确，但大概正确，有助于我们快速了解一个领域），另一方面可以给出关于某个话题的相关有价值资料，这无疑会显著改善专家的信息处理效率。还例如，能否构建一个 AI 医生，病人可以咨询有关疾病的知识和处理办法（限于技术的局限，AI 无法给出精确的答案，更无法代替医生），但可以给出很多信息参考和后续该做什么的建议，其体验一定会显著优于现在的搜索引擎。

生命科学领域本身还存在很多没有被解决的重要任务，比如小分子 - 蛋白结合构象和亲和力预测、蛋白 - 蛋白相互作用预测、小分子表示和性质预测、蛋白质性质预测、小分子生成、蛋白质设计、逆合成路线设计等任务。目前看这些问题还没有被完美解决，如果在这些任务上取得突破，那么药物发现甚至整个生命科学领域，都会迎来巨大变化。

基于大模型的 AIGC 领域，以及基于专家或试验反馈的 RLHF 领域，受益于 ChatGPT 的推动，一定会引来一轮新的技术进步。其中 AIGC（人工智能内容生成）技术，在过去一年中，已经在小分子生成、蛋白质设计等领域取得了不错的进展。我们预测，在不远的未来，下列任务将显著受益于 AIGC 生成技术的发展，产生技术阶跃：

（1）小分子生成和优化技术，即如何不依赖活性配体信息，而是基于蛋白口袋结构信息生成综合考虑活性、成药性、可合成性等多种条件约束的配体小分子，这部分技术将显著受益于 AIGC 领域的发展；

（2）构象预测某种意义上可以看作是生成问题，小分子和蛋白结合构象预测任务也会受益于 AIGC 相关技术的发展；

（3）蛋白质、多肽、AAV 等序列设计领域，也一定会受益于 AIGC 技术的发展。

上述 AIGC 相关任务，以及几乎所有需要试验验证反馈的任务，包括但不限于活性预测、性质预测、合成路线设计等，都将有机会受益于 RLHF 技术带来的红利。

当然也存在很多挑战。受限于可用数据数量，当前生命科学领域使用的生成模型还比较浅，主要使用的是 GNN 等浅层深度学习模型（GNN 受限于消息传递的平滑性，层数只能使用到 3 层左右），生成效果上虽然体现了很好的潜力，但依然没有 ChatGPT 那样惊艳。而基于专家或试验反馈的强化学习技术，受限于试验数据产生速度以及生成模型表示能力不够的影响，惊艳效果呈现也会需要一定的时间。但从 ChatGPT 技术演进趋势推演，如果能训练足够深、表示能力足够强的生成大模型，并且利用强化学习，基于少量优质试验数据或者专家反馈来进一步提升生成大模型的效果，我们可以预期 AIDD 领域一定会迎来一次革命。

简而言之，ChatGPT 不仅是自然语言理解领域的一项技术进步，会引发新一轮信息服务和内容生成领域的商业潮流，同时，其背后基于海量数据的深度生成技术，以及基于人类反馈的强化学习技术，是更长远的进步动力，会引起生命科学等领域的长足发展。我们会再迎来一次 AI 技术进步和产业落地的浪潮。

以上是ChatGPT成功背後的技術原因及其對生命科學領域的啟發的詳細內容。更多資訊請關注PHP中文網其他相關文章！