中國最強AI研究院的大模型為何遲到了-人工智慧-PHP中文網

中國最強AI研究院的大模型為何遲到了

出品｜虎嗅科技小組

作者｜齊健

編輯｜陳伊凡

頭圖｜FlagStudio

##「OpenAI會再開源大模型嗎？」

當智源研究院理事長張宏江向線上參加2023年智源大會的OpenAI首席執行官Sam Altman問及開源問題時，Sam Altman微笑表示，OpenAI未來會開放更多代碼，但沒有具體的開源時間表。

這樣的討論來自這次智源大會的話題之一—開源大模型。

6月9日，2023年智源大會在北京舉行，座無虛席。在大會現場，「算力」、「大模型」「生態」等與AI相關的字詞時不時出現在與會者的聊天中，還有這個產業鏈上的各家公司。

中國最強AI研究院的大模型為何遲到了

本次大會上，智源研究院發布了全面開源的悟道3.0。包括視覺大模型系列“視界”，語言大模型系列“天鷹”，以及獨創的大模型評測體系“天秤”。

大模型開源，就意味著公開模型程式碼，供AI開發者研究。 悟道3.0中的「天鷹」基礎層語言模型還是一款可商用的模型，每個人都可以免費使用這款大模型。

目前，微軟的深度合作夥伴OpenAI、Google和BAAI是在人工智慧領域處於前沿地位的三個機構。「微軟總裁Brad Smith在不久前的一次採訪中，曾提到一家與OpenAI、谷歌齊名的中國「最強」AI研究機構BAAI，這家機構就是北京智源人工智慧研究院。眾多業界人士認為，由這個研究院主辦的人工智慧大會是產業趨勢的指向標。

被微軟總裁高度認可的智源研究院，早在2020年10月已啟動了AI大模型「悟道」項目，並先後發布了悟道大模型1.0和2.0兩個版本。 其中悟道2.0官方公佈的參數規模達到1.7兆。彼時，OpenAI公佈1750億參數的GPT-3模型也才一年時間。

不過，就是這樣一個AI大模型的先行者，在最近半年的AI大模型熱潮中，卻異常低調。

當大廠和創業公司中，大模型層出不窮時，智源在過去三個多月裡，對外一直保持“靜默”狀態，除了4月上旬與Meta的摳圖AI“SAM”撞車的“ SegGPT”，幾乎沒有向公眾透露任何有關AI大模型的資訊。

對此，AI產業內外的許多人都有疑問，在AI大模型領域領先的智源研究院，為什麼在大模型的高潮時刻似乎來遲了？

開源模型要拆了OpenAI的護城河嗎？

「雖然現在的大模型競爭火熱，但無論是OpenAI還是谷歌，都沒有護城河，因為『開源』正在AI大模型領域崛起。」

############################# ###在一份Google洩漏的文件中，Google內部研究人員認為，開源模型或將引領大模型發展的未來，這份文件中提到「###開源模型的迭代速度更快，可自訂性更強，更有私密性，而當免費的、不受限制的替代品質量相當時，人們不會為受限制的模型付費。###」這或許也是智源選擇開發開源大模型的原因之一。 ### ###目前，開源的商用大模型不多，智源研究院對目前已發布的部分AI大模型進行了一個調查，在國外發布的39個開源語言大模型中，可商用的大模型有16個。在國內發表的28個大語言模型中，共有11個是開源模型，但其中只有1個是開源可商用的模型。 ### ###智源這次發布的大語言模型是開源且可商用的模型，也是目前為數不多的可商用開源大語言模型之一，這也決定了這樣的模型在發布之前需要更加謹慎。 ### ###「就智源來說，肯定不希望開源模型太難看，所以會謹慎發布。」智源大會現場的一位AI研究員表示，開源模型難免要被反覆驗證，被大量開發者挑bug，為了確保開源模型的質量，智源的研發進度可能被「開源」拖慢了一些。 ### ###智源研究院院長黃鐵軍認為，目前我國市場上大模型的開源開放力度遠遠不夠，「###我們應該進一步加強開源開放。開源開放也是競爭，真有水平、真有好演算法，拿出來評測、去比，才能證明技術水準。###」### ###國內廠商發布大模型時，缺乏透明度，許多人懷疑這些廠商是否真正進行了自主研發。有人說他們是API呼叫ChatGPT，也有人說他們用Meta洩漏的LLaMA模型 ChatGPT的答案資料訓練而來，開源模型則從源頭斷絕了這些質疑。 ###

不過，開源模型，提高技術透明度不是為了自證清白，而是真的要「集中力量辦大事」。 據智源資料顯示，天鷹大語言模型每天的訓練成本在10萬元以上，而在國內「百模大戰」甚至「千模大戰」的大勢下，許多行業中都在進行大量不必要的重複訓練，導致的重複開支可能是天文數字。

而開源模型可以減少重複訓練，對於有模型需求的企業來說，直接利用開源可商用的AI大模型，結合自身資料進行訓練，或許是AI落地和產業應用的最優解。

開源的另一方面考慮，在於前期累積使用者和開發者，以便建立良好生態，並實現未來的商業化。一位國內大模型公司創辦人告訴虎嗅，「OpenAI的GPT-1和GPT-2都是開源的大模型，這是為了累積用戶，提高模型的認可度。一旦GPT-3的模型能力得到充分展現，商業化就會成為考慮的重點，而這個模型也會逐漸變得封閉。因此，開源模型一般不會允許商用，這也是出於後續商業化的考慮。」

但顯然，智源作為非營利的研究機構，在開源問題上，並沒有商業化的考量。對智源而言，在模式開源方面，一方面是希望透過對底層模式等開源開放，促進AI大模型產業的科學研究創新，加速產業落地。另一方面，或許也是想要基於開源模型累積更多的使用者回饋，提升大模型在工程上的可用性。

不過，模型開源也並非「完美」。

一位大廠AI技術總監告訴虎嗅，目前的AI大模型的商業化市場可以分為三層，第一層是完全具備自研模型能力的頭部大玩家，第二層是需要根據特定場景訓練專有模型的企業，第三層則是只需要通用模型能力，使用API介面呼叫即可滿足需求的中小客戶。

在這個背景下，開源模型對於有自研能力的頭部玩家來說，可以幫助他們省去了大量研發模型的時間和成本。但對於第二層和第三層企業來說，則需要他們自己組建技術團隊去對模型進行訓練和調優，而這對於許多技術實力不那麼雄厚的企業來說，反而把落地流程變得更加複雜了，開源對他們來說似乎有一些「免費的東西最貴」的感覺。

此「悟道」已非彼「悟道」

智源的悟道3.0，是一套完全重新開發的大模型系列，這也是其「遲發」的原因之一。

既然已經有了悟道2.0的基礎，智源為什麼要重新開發一套模型體系？ 一方面是模型的技術方向調整，另一方面則是由於模型底層訓練資料的「換血」。

「悟道2.0的研發是在2021年，所以無論是語言模型（如GLM）還是文生圖模型（如CogView），其所基於的演算法架構從現在來看是比較早的。在過去一年多，相關領域的模型架構已經有了更多的驗證、或演進。例如，語言模型中採用decoder only的架構，已經證實，加以更高質量的數據，可以在大規模參數的基礎模型中，獲得更好的生成性能。在文生圖模型中，我們改用了基於difussion來進行進一步的創新。所以在悟道3.0中，我們對語言大模型、文圖生成大模型等都採用了這些更新的架構來重新開發。」在智源研究院副院長兼總工程師林詠華表示，基於過去模型的研究，悟道3.0在許多方向進行了重構。

另外，悟道3.0也對底層模型的訓練數據進行了全面優化升級，訓練數據中使用了更新的悟道中文數據，包括2021年到現在的，並進行了更嚴格的質量清洗；另一方面，增加了大量的高品質中文，包括中文書籍、文獻等；此外還增加了高品質的程式碼資料集等，因此基礎模型也發生了很大的變化。

底層模型訓練資料非原生中文，導致許多國內模型在中文理解能力上有問題。許多國內外的AI大型模型都使用了海量來自國外的開源資料來進行訓練。其中主要的來源包括著名的開源資料集Common Crawl。

智源對100萬個Common Crawl網頁資料進行分析，可以擷取中文的網頁有39052個。從站源角度來看，可以提取出中文的網站共有25842個，其中IP在中國內地的，只有4522個，佔比僅17%。 這樣不只中文資料的準確度大打折扣，安全性也很低。

「訓練基礎模型的語料很大程度上會影響AIGC應用、微調後的模型等內容生成的合規、安全和價值觀。」林詠華表示，天鷹基礎模型的中文能力不是簡單的翻譯，而是把足夠多中文的知識“壓到這個模型裡”，它的中文互聯網數據99%來自國內網站，企業可以放心地基於它做持續訓練。

同時，透過大量對資料、數字的精細化處理和清洗，達到用少的資料量來訓練出一樣性能甚至性能更好的模型，這個資料甚至低到30%、40%的資料量就能趕上或超過現有的開源模型了。

如今看來，這條路徑對於智源來說，也許是個更優解。因為在訓練資料方面，智源與網路廠商相比存在短板。大型網路企業擁有豐富的使用者互動數據，同時也有大量版權數據可供訓練。就在不久前，阿里達摩院剛發布來一款視訊語言資料集Youku-mPLUG，其中的所有內容均來自阿里旗下的影片平台都很酷。

由於智源沒有深厚的使用者基礎，所以在訓練資料方面，只能透過與版權方協商獲得授權，並透過一些公益資料專案一點點來收集累積。

但是，目前智源的中文資料集還只能做到部分開源，其主要原因是，中文資料的版權分散在各個機構手中，目前智源的訓練資料是在多方協調下，獲得的針對開源模型研究開放的使用權限。大部分資料只能應用在智源的模型中，而沒有開放二次使用的權利。

國內大模型產業的黃埔軍校

悟道3.0正在講一個與悟道2.0不同的故事，研發團隊的變化是其中之一。作為AI大模型產業的先驅，智源研究院就像是國內AI大模型的黃埔軍校。 上到智源學者，下至基層工程師，在今天的大模型熱潮中，都成了行業裡的香餑餑，智源的原始團隊中，也孵化了幾個大模型的創業團隊。

在悟道3.0之前，一個大模型系列是由多個外部實驗室聯合發布的研究成果的組合，而這次的悟道3.0是由智源團隊完全自研的系列模型。

悟道2.0模型是2021年發布的，其中包括文源、文瀾、文彙和文溯。其中，兩個核心模型分別由清華的兩個實驗室主力完成。如今，這兩個團隊已經創辦了各自的公司，並在CPM和GLM的研發方向上發展了獨立的產品。

其中，GLM的主力研發團隊清華大學知識工程研究室（KEG），就與智譜AI一同推出了開源模型ChatGLM-6B，並得到了業界的廣泛認可；CPM的主力研發團隊，清華大學電腦係自然語言處理與社會人文計算實驗室（THUNLP）中的部分成員組成的深言科技，成立一年就受到了各家資本的青睞，今年的兩輪融資中分別出現了騰訊投資、紅杉中國、奇績創壇等基金的身影。

有接近智源研究院的人士告訴虎嗅，自從國內AI大模型升溫以來，智源團隊成為了人才大戰的“圍獵目標”，“整個研發團隊都被其他公司或獵頭盯上」。

當下國內AI大模型產業，最不缺的是錢，最缺的就是人。在獵聘、脈脈、BOSS直聘三個平台搜尋ChatGPT，碩博學曆職位的月薪普遍高於3萬，最高值9萬。「在薪資方面IT大廠並不會佔多少便宜，AI大模型的研發都是高舉高打，創業公司給的薪資可能更有競爭力。」西湖心辰COO俞佳對虎嗅表示，人才大戰在AI產業將會越來越激烈。

「薪資double，在智源的許多員工看來根本就沒有競爭力。因為現在都是拿著五倍甚至十倍薪水來挖人。即使你再有理想，對未來再有規劃，也很難頂住過百萬年薪的誘惑。」一位接近智源的人士告訴虎嗅，由於智源是一家非營利研究機構，薪酬水平很難與互聯網大廠或者是背後有大量資本支持的創業公司相比。

經由獵人頭了解，虎嗅得知自然語言處理專家的起薪目前都超過100萬人。對一些工作年資長，薪水不高的員工來說，面對幾倍的薪水很難不動搖。

不過，從目前智源的公開數據來看，智源研究院的各個核心專案團隊帶頭人，多數還在全職負責智源研究院的研發專案。

「悟道3.0的模型全部是智源自己的研究人員開發的，包括天鷹、天秤，以及視界。」林詠華表示，智源研究院目前的研發實力在業界一直是頂尖的。

正在改變與想要改變世界的人，都在虎嗅APP

以上是中國最強AI研究院的大模型為何遲到了的詳細內容。更多資訊請關注PHP中文網其他相關文章！