超越法學碩士：這就是為什麼小語言模型是人工智慧的未來-人工智慧-PHP中文網

快速連結

什麼是小語言模型？

小語言模型與大型語言模型

> 為什麼小語言模型是未來

摘要

大型語言模型 (LLM) 隨著 Open AI 的 ChatGPT 的發布而出現。從那時起，有幾家公司也推出了 LLM，但現在越來越多的公司傾向於小語言模型 (SLM)。

SLM 勢頭強勁，但它們是什麼，與 LLM 有何不同？

什麼是小語言模型？

小語言模型（SLM）是一種參數較少的人工智慧模型（將其視為訓練期間學習的模型中的值）。與大型同類產品一樣，SLM 可以產生文字並執行其他任務。然而，SLM 使用較少的資料集進行訓練，參數較少，並且需要較少的運算能力來訓練和運行。

SLM 專注於關鍵功能，其佔用空間小意味著它們可以部署在不同的設備上，包括那些沒有行動裝置等高階硬體。例如，Google 的 Nano 是一個從頭開始建置的裝置上 SLM，可在行動裝置上運作。據該公司稱，由於尺寸較小，Nano 可以在有或沒有網路連接的情況下在本地運行。

small language model gemini nano use examples — Google> 🎜>

還有其他選項，您可能認為是 LLM，但實際上它們是SLM。考慮到大多數公司正在採用多模型方法，在其產品組合中發布不只一種語言模型，同時提供 LLM 和 SLM，這一點尤其正確。一個例子是 GPT-4，它有多種型號，包括

GPT-4、GPT-4o (Omni) 和 GPT-4o mini

。

小語言模型與大型語言模型

在討論 SLM 時，我們不能忽略它們的大對應物：LLM。 SLM 和 LLM 之間的關鍵區別在於模型大小，它是根據參數來衡量的。

截至撰寫本文時，人工智慧產業對於最大數量尚未達成共識模型的參數數量不應超過被視為 SLM 的參數或被視為 LLM 所需的最小數量。然而，SLM 通常有數百萬到數十億個參數，而 LLM 則更多，高達數萬億個。

例如，2020 年發布的GPT-3 有1750 億個參數（而據傳GPT-4 模型的數量約為1.76 兆），而微軟的2024 Phi-3-mini、Phi-3 -small 和Phi-3-medium SLM 分別測量3.8、7 和140 億個參數。

small language models versus large language models chart — 微軟

SLM 和 LLM 之間的另一個區別因素是用於訓練的資料量。 SLM 使用少量資料進行訓練，而 LLM 使用大型資料集。這種差異也會影響模型解決複雜任務的能力。

由於訓練中使用的資料量很大，LLM 更適合解決需要高階推理的不同類型的複雜任務，而 SLM 更適合解決更簡單的任務任務。與 LLM 不同，SLM 使用較少的訓練數據，但所使用的數據必須具有更高的質量，才能在一個小包中實現 LLM 中的許多功能。

為什麼小語言模型是未來

對於大多數用例，SLM 更有能力成為公司和消費者用來執行各種任務的主流模型。當然，法學碩士有其優勢，並且更適合某些用例，例如解決複雜的任務。然而，由於以下原因，SLM 是大多數用例的未來。

1. 降低訓練與維修成本

季莫菲耶夫弗拉基米爾/Shutterstock

SLM 比 LLM 需要更少的培訓數據，這使得它們成為培訓數據、財務或兩者都有限的個人和中小型公司最可行的選擇。 LLM 需要大量的訓練數據，進而需要大量的運算資源來訓練和運作。

為了正確看待這一點，OpenAI 的首席執行官Sam Altman 證實，他們的訓練花費了超過1 億美元GPT-4 在麻省理工學院的一次活動中發表演講時（根據連線）。另一個例子是 Meta 的 OPT-175B LLM。 Meta 表示它是使用 992 個 NVIDIA A100 80GB GPU 進行訓練的，根據 CNBC 每台成本約為 10,000 美元。這樣一來，成本大約為 900 萬美元，還不包括能源、工資等其他費用。

依照這樣的數字，中小型公司培養 LLM 是不可行的。相較之下，SLM 在資源方面的進入門檻較低，營運成本也較低，因此，更多的公司會接受它們。