目前,研究者開始關注小巧且高性能的小模型,儘管大家都在研究參數規模達到百億甚至千億級的大模型。
小型模型在邊緣裝置上有廣泛應用,如智慧型手機、物聯網裝置和嵌入式系統。這些設備通常運算能力和儲存空間有限,無法有效運行大型語言模型。因此,研究小型模型變得特別重要。
接下來我們要介紹的這兩項研究,可能滿足你對小模型的需求。
#新加坡科技設計大學(SUTD)的研究者最近發布了TinyLlama,這是一個參數量為11億的語言模型,經過在大約3萬億個token上的預訓練。
##TinyLlama是基於Llama 2架構和分詞器的,這使得它可以輕鬆地與許多使用Llama的開源專案整合。此外,TinyLlama只有11億個參數,體積小巧,非常適合需要限制計算和記憶體佔用的應用程式。
研究表示僅需 16 塊 A100-40G 的 GPU,便可在 90 天內完成 TinyLlama 的訓練。
該專案從上線開始,持續受到關注,目前星標量達到 4.7K。
TinyLlama 模型架構詳細資訊如下所示:
# #訓練細節如下:
#研究者表示,這項研究旨在挖掘使用較大資料集訓練較小模型的潛力。他們重點探討在用遠大於擴展定律(scaling law)建議的 token 數量進行訓練時,較小模型的行為表現。
具體來說,研究使用大約 3 兆個 token 訓練具有 1.1B 個參數的 Transformer (僅解碼器)模型。據了解,這是第一次嘗試使用如此大量的資料來訓練具有 1B 參數的模型。
儘管規模相對較小,但 TinyLlama 在一系列下游任務中表現相當出色,它的效能顯著優於同等大小的現有開源語言模型。具體來說,TinyLlama 在各種下游任務中都超越了 OPT-1.3B 和 Pythia1.4B 。
此外,TinyLlama 也用到了各種最佳化方法,如 flash attention 2、FSDP( Fully Sharded Data Parallel )、 xFormers 等。
在這些技術的加持下,TinyLlama 訓練吞吐量達到了每 A100-40G GPU 每秒 24000 個 token。例如,TinyLlama-1.1B 模型對於 300B token 僅需要 3,456 A100 GPU 小時,而 Pythia 為 4,830 小時,MPT 為 7,920 小時。這顯示了該研究優化的有效性以及在大規模模型訓練中節省大量時間和資源的潛力。
TinyLlama 實現了24k tokens / 秒/ A100 的訓練速度,這個速度好比用戶可以在8 個A100 上用32 小時訓練一個具有11 億參數、220 億token 的chinchilla -optimial 的模型。同時,這些最佳化也大幅減少了顯存佔用,使用者可以把 11 億參數的模型塞入 40GB 的 GPU 裡面還能同時維持 16k tokens 的 per-gpu batch size。只要要把 batch size 改小一點, 你就可以在 RTX 3090/4090 上面訓練 TinyLlama。
#在實驗中,研究主要關注具有純解碼器架構的語言模型,包含約10 億個參數。具體來說,該研究將 TinyLlama 與 OPT-1.3B、Pythia-1.0B 和 Pythia-1.4B 進行了比較。
TinyLlama 在常識推理任務上的表現如下所示,可以看出 TinyLlama 在許多任務上都優於基線,並獲得了最高的平均分數。
此外,研究者在預訓練期間追蹤了TinyLlama 在常識推理基準上的準確率,如圖2 所示,TinyLlama 的性能隨著計算資源的增加而提高,在大多數基準中超過了Pythia-1.4B 的準確率。
表 3 表明,與現有模型相比,TinyLlama 表現出了更好的問題解決能力。
手快的網友已經開始整活了:運行效果出奇得好,在GTX3060 上運行,能以136 tok / 秒的速度運行。
「確實是快!」
由於TinyLlama 的發布,SLM(小型語言模型)開始引起廣泛關注。德州工農大學的 Xiaotian Han 發布了 SLM-LiteLlama。它有 460M 參數,由 1T token 進行訓練。這是 Meta AI 的 LLaMa 2 的開源複刻版本,但模型規模顯著縮小。
專案位址:https://huggingface.co/ahxt/LiteLlama-460M-1T
#LiteLlama-460M-1T 在RedPajama 資料集上進行訓練,並使用GPT2Tokenizer 對文字進行token 化。作者在 MMLU 任務上對此模型進行評估,結果如下圖所示,在參數量大幅減少的情況下,LiteLlama-460M-1T 仍能取得與其他模型相媲美或更好的成績。
以下為該模型的效能表現,更詳細內容請參閱:
//m.sbmmt.com/link/05ec1d748d9e3bbc975a057f7cd02fb6
面對規模大幅縮小的LiteLlama,有網友好奇,它是否能夠在4GB 的記憶體上運作。如果你也想知道,不如親自試試看。
以上是小而強大的模型盛火:TinyLlama和LiteLlama成為熱門選擇的詳細內容。更多資訊請關注PHP中文網其他相關文章!