社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 引進國產開源MoE大模型，其性能媲美Llama 2-7B，同時計算量減少了60%

引進國產開源MoE大模型，其性能媲美Llama 2-7B，同時計算量減少了60%

PHPz

發布： 2024-01-15 21:36:14

轉載

1015 人瀏覽過

開源MoE模型，終於迎來首位國產選手！

它的表現完全不輸給密集的Llama 2-7B模型，計算量卻只有40%。

這個模型堪稱19邊形戰士，特別是在數學和程式碼能力上對Llama形成了碾壓。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

它就是深度求索團隊最新開源的160億參數專家模型DeepSeek MoE。

除了效能上表現優異，DeepSeek MoE主打的就是節省運算量。

在這張表現-激活參數量圖中，它「一枝獨秀」地佔據了左上角的大片空白區。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

發布僅一天，DeepSeek團隊在X上的推文就有大量轉發關注。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

JP摩根的機器學習工程師Maxime Labonne測試後也表示，DeepSeek MoE的chat版本表現要略勝於微軟的「小模型」Phi-2。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

同時，DeepSeek MoE也在GitHub上獲得了300 星標，並登上了Hugging Face文本生成類模型排行榜的首頁。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

那麼，DeepSeek MoE的具體表現究竟怎麼樣呢？

計算量減少60%

DeepSeek MoE目前推出的版本參數量為160億，實際啟動參數量大約是28億。

與自家的7B密集模型相比，二者在19個資料集上的表現各有勝負，但整體比較接近。

而與同為密集模型的Llama 2-7B相比，DeepSeek MoE在數學、程式碼等方面也體現出來明顯的優勢。

但兩種密集模型的計算量都超過了180TFLOPs每4k token，DeepSeek MoE卻只有74.4TFLOPs，只有兩者的40%。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

在20億參數量時進行的效能測試顯示，DeepSeek MoE同樣能以更少的計算量，達到與1.5倍參數量、同為MoE模型的GShard 2.8B相當甚至更好的效果。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

此外深度求索團隊也基於SFT微調除了DeepSeek MoE的Chat版本，表現同樣接近自家密集版本和Llama 2-7B。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

此外，深度求索團隊也透露，DeepSeek MoE模型還有145B版本正在研發。

階段性的初步試驗顯示，145B的DeepSeek MoE對GShard 137B具有極大的領先優勢，同時能夠以28.5%的計算量達到與密集版DeepSeek 67B模型相當的性能。

研發完畢後，團隊也將對145B版本進行開源。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

而在這些模型表現的背後，是DeepSeek全新的自研MoE架構。

自研MoE新架構

首先是相比於傳統的MoE架構，DeepSeek擁有更細粒度專家劃分。

在總參數量一定的情況下，傳統模型分出N個專家，而DeepSeek可能分出2N個。

同時，每次執行任務時選擇的專家數量也是傳統模型的2倍，所以整體使用的參數量也不變，但選擇的自由度增加了。

這種分割策略允許更靈活和適應性的激活專家組合，從而提高了模型在不同任務上的準確性和知識獲取的針對性。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

除了專家分割上的差異，DeepSeek也創新地引入了「共享專家」的設定。

這些共享專家對所有輸入的token激活，不受路由模組影響，目的是捕獲和整合在不同上下文中都需要的共同知識。

透過將這些共享知識壓縮到共享專家中，可以減少其他專家之間的參數冗餘，從而提高模型的參數效率。

共享專家的設定有助於其他專家更專注於其獨特的知識領域，從而提高整體的專家專業化水準。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

消融實驗結果表明，這兩個方案都為DeepSeek MoE的「降本增效」起到了重要作用。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

論文網址：https://arxiv.org/abs/2401.06066。

參考連結：https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg。

以上是引進國產開源MoE大模型，其性能媲美Llama 2-7B，同時計算量減少了60%的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

人工智慧開源 moe模型

來源：51cto.com

上一篇：揭示基礎模型與機器人發展道路的綜述下一篇：侯震宇宣布百度推出多款AI原生雲產品，正致力於重塑雲端運算中的大模型技術

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

編碼的關鍵：為初學者釋放 C 的力量

2024-10-13 11:44:01
使用 PHP 和 MySQL 將您的網站連接到資料庫

2024-10-13 09:56:31
使用 Python 解決問題：作為初學者，解鎖強大的解決方案

2024-10-11 20:58:41
Python 的力量，簡單：一種適合初學者的程式設計方法

2024-10-11 16:53:11
PHP 與社群媒體：將您的網站與世界融為一體

2024-10-11 11:54:51
使用 PHP 的動態圖像畫廊：在線展示您的作品

2024-10-10 16:21:01
使用 PHP 建立 API 和 Web 服務

2024-10-10 15:18:02
揭秘 Java：為新程式設計師提供一條清晰、簡單的道路

2024-10-10 13:34:01
使用 C 創建遊戲和圖形：有趣且實用的介紹

2024-10-10 13:26:26
王者榮耀程咬金怎麼玩？

2024-10-10 11:38:42

最新問題

數獨檢查器無法運作？誰能幫我辨識錯誤？我嘗試了在線編輯器上的所有方法，但仍然收到錯誤。但當我在我的機器上的VSCode上執行此操作時，它工作正常。我很困惑，在沒有發現錯誤的情況下無法提交程式碼。我不知道該去哪裡找了。我...

來自於 2024-04-06 21:21:07

0

1

474

放大 d3.js 時散佈圖點不會保持值這是我第一次使用d3.js，所以請耐心等待。我在vue.js檔案中將其作為純JavaScript實作。我正在嘗試製作具有縮放功能的散點圖。到目前為止，我幾乎一切正常，但當我縮放時，...

來自於 2024-04-06 18:16:26

0

1

403

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

了解 Nuxtjs auth 模組的內部工作原理我實際上試圖將Nuxtjsauth模組整合到我的專案中，但我無法理解auth模組的實際工作原理。如果有人幫助我理解這個概念，那將對我非常有幫助。謝謝！

來自於 2024-04-06 15:38:16

0

1

371

Node.js：無法將 SQL 查詢結果儲存在陣列中我正在嘗試將SQL查詢的結果推送到數組。但是，它似乎不起作用。我在網上找不到解決方案。如果有人能幫我解決這個問題，我將不勝感激。 letdata=[];connection.que...

來自於 2024-04-06 14:14:46

0

1

373

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422926
php入門教程之一週學會PHP

4268145
JAVA 初級入門影片教學

2533175
小甲魚零基礎入門學習Python影片教學

507229
PHP 零基礎入門教學

862354

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板