清華大學與智譜AI重磅開源 GLM-4:掀起自然語言處理新革命

WBOY
發布: 2024-06-12 20:38:02
原創
594 人瀏覽過

自2023年3月14日開始,ChatGLM-6B以來,GLM系列模型受到了廣泛的關注和認可。特別是在ChatGLM3-6B開源之後,開發者對智譜AI推出的第四代模型充滿了期待。而這項期待,隨著GLM-4-9B的發布,終於得到了充分的滿足。

GLM-4-9B 的誕生

為了賦予小模型(10B及以下)更加強大的能力,GLM技術團隊經過近半年的探索,推出了這全新的第四代GLM系列開源模型:GLM-4-9B。這一模型在確保精度的同時,大幅度壓縮了模型大小,具有更快的推理速度和更高的效率。 GLM技術團隊的探索並沒有止境,我們將持續努力推出更具競爭力的開源

創新預訓練技術

在預訓練過程中,我們引進大語言模型進行資料篩選,最終獲得了10T高品質多語言資料。這數據量是ChatGLM3-6B模型的3倍以上。此外,我們採用了FP8技術進行高效率的預訓練,相較於第三代模型,訓練效率提高了3.5倍。考慮到用戶的儲存需求,GLM-4-9B的參數規模從6B提升到了9B。最終,我們將預訓練計算量增加了5倍,使得在有限的儲存條件下最大化效能能力。

卓越效能展示

GLM-4-9B是一款功能全面的綜合技術升級工具,具備更強大的推理效能、更優異的情境處理能力、多語言支援、多模態處理以及全工具集All Tools呼叫等優點。這些升級為用戶提供了更穩定、更可靠、更精準的技術支持,提高了用戶的工作效率和品質。

GLM-4-9B 系列包含多個版本:

  • 基礎版本:GLM-4-9B(8K)
  • 對話版本:GLM -4-9B-Chat(128K)
  • 超長上下文版本:GLM-4-9B-Chat-1M(1M)
  • 多模態版本:GLM-4V-9B-Chat (8K)

GLM-4-9B 的強大能力

基礎能力

GLM-4- 9B在強大的預訓練基礎上,中英文綜合能力相比ChatGLM3-6B提升了40%。尤其是中文對齊能力AlignBench、指令遵從能力IFeval,以及工程程式碼處理能力Natural Code Bench方面都實現了顯著提升。即使對比訓練量較多的Llama 3 8B模型,GLM-4-9B也絲毫不遜色,在英文表現上領先,而在中文學科領域,GLM-4-9B更是提升了高達50%的[性能評測圖表]。

長文字處理能力

清华大学与智谱AI重磅开源 GLM-4:掀起自然语言处理新革命圖片

#GLM-4-9B+模型的上下文長度從128K 擴展到了1M tokens,意味著能同時處理多達200 萬字的輸入,相當於兩本《紅樓夢》或125 篇學術論文的長度。 GLM-4-9B-Chat-1M 模型在「大海撈針」實驗中,成功展示了其出色的無損處理長文本輸入的能力【長文本實驗圖示】。

以下是兩個展示長文字處理能力的demo 影片案例:

  1. #GLM-4-9B-Chat 模型:輸入5 個PDF 文件,總長度約128K,給出寫一篇關於中國大模型發展的詳細研究報告的prompt。模型能夠快速產生高品質的研究報告(影片未加速)。
  2. GLM-4-9B-Chat-1M 模型: 輸入《三體》全集約 90 萬字,要求模型給該小說寫續集大綱的 prompt。模型合理規劃並給出續寫框架(影片加速 10 倍)。

多語言支援

GLM-4-9B+支援多達26種語言,包括中文、英文、俄文等。我們將tokenizer的詞表大小從65K擴展到150K,編碼效率提高了30%。在多語言理解和生成任務中,GLM-4-9B-Chat表現超越Llama-3-8B-Instruct [多語言效能比較圖]。

Function Call 能力

GLM-4-9B 的函數呼叫能力相較上一代提升了40%,在Berkeley Function-Calling Leaderboard 上,其Function Call能力與GPT-4 不相上下[函數呼叫效能比較圖表]。

All Tools 全工具呼叫

「All Tools」能力即模型可以理解並使用各種外部工具(如程式碼執行、連網瀏覽、畫圖等)來輔助完成任務。在 1 月 16 日的 Zhipu DevDay 上,GLM-4 模型全線升級了 All Tools 能力,可以智慧呼叫網頁瀏覽器、程式碼解釋器、CogView 等工具,完成複雜請求 [All Tools 任務圖示]。

多模態處理

GLM-4V-9B 作為GLM-4 基座的開源多模態模型,能夠處理高解析度輸入,將視覺和文字資料直接混合進行訓練,展現了顯著的多模態處理效果,與GPT-4V 表現相當。在辨識和處理複雜多模態任務時,表現非常出色 [多模態應用實例圖]。

清华大学与智谱AI重磅开源 GLM-4:掀起自然语言处理新革命圖片

未來展望

GLM-4-9B 展現了其在多種任務中的強大性能,是自然語言處理領域的一大突破。無論是學術研究還是工業應用,GLM-4-9B 都將成為您的不二選擇。

我們誠摯邀請您加入GLM-4 的使用者行列,共同探索這款卓越模型帶來的可能性:

  • GitHub 倉庫
  • Hugging Face 模式頁面
  • 魔搭社群
#

以上是清華大學與智譜AI重磅開源 GLM-4:掀起自然語言處理新革命的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡[email protected]
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!