小而強大的模型盛火：TinyLlama和LiteLlama成為熱門選擇-人工智慧-PHP中文網

小而強大的模型盛火：TinyLlama和LiteLlama成為熱門選擇

WBOY

發布： 2024-01-14 12:27:15

轉載

1347 人瀏覽過

目前，研究者開始關注小巧且高性能的小模型，儘管大家都在研究參數規模達到百億甚至千億級的大模型。

小型模型在邊緣裝置上有廣泛應用，如智慧型手機、物聯網裝置和嵌入式系統。這些設備通常運算能力和儲存空間有限，無法有效運行大型語言模型。因此，研究小型模型變得特別重要。

接下來我們要介紹的這兩項研究，可能滿足你對小模型的需求。

TinyLlama-1.1B

#新加坡科技設計大學（SUTD）的研究者最近發布了TinyLlama，這是一個參數量為11億的語言模型，經過在大約3萬億個token上的預訓練。

小而強大的模型盛火：TinyLlama和LiteLlama成為熱門選擇

#論文網址：https://arxiv.org/pdf/2401.02385.pdf
專案位址：https://github.com/jzhang38/TinyLlama/blob/main/README_zh-CN.md

##TinyLlama是基於Llama 2架構和分詞器的，這使得它可以輕鬆地與許多使用Llama的開源專案整合。此外，TinyLlama只有11億個參數，體積小巧，非常適合需要限制計算和記憶體佔用的應用程式。

研究表示僅需 16 塊 A100-40G 的 GPU，便可在 90 天內完成 TinyLlama 的訓練。

小而強大的模型盛火：TinyLlama和LiteLlama成為熱門選擇

該專案從上線開始，持續受到關注，目前星標量達到 4.7K。

小而強大的模型盛火：TinyLlama和LiteLlama成為熱門選擇

TinyLlama 模型架構詳細資訊如下所示：

小而強大的模型盛火：TinyLlama和LiteLlama成為熱門選擇

# #訓練細節如下：

小而強大的模型盛火：TinyLlama和LiteLlama成為熱門選擇

#研究者表示，這項研究旨在挖掘使用較大資料集訓練較小模型的潛力。他們重點探討在用遠大於擴展定律（scaling law）建議的 token 數量進行訓練時，較小模型的行為表現。

具體來說，研究使用大約 3 兆個 token 訓練具有 1.1B 個參數的 Transformer （僅解碼器）模型。據了解，這是第一次嘗試使用如此大量的資料來訓練具有 1B 參數的模型。

儘管規模相對較小，但 TinyLlama 在一系列下游任務中表現相當出色，它的效能顯著優於同等大小的現有開源語言模型。具體來說，TinyLlama 在各種下游任務中都超越了 OPT-1.3B 和 Pythia1.4B 。

此外，TinyLlama 也用到了各種最佳化方法，如 flash attention 2、FSDP（ Fully Sharded Data Parallel ）、 xFormers 等。

在這些技術的加持下，TinyLlama 訓練吞吐量達到了每 A100-40G GPU 每秒 24000 個 token。例如，TinyLlama-1.1B 模型對於 300B token 僅需要 3,456 A100 GPU 小時，而 Pythia 為 4,830 小時，MPT 為 7,920 小時。這顯示了該研究優化的有效性以及在大規模模型訓練中節省大量時間和資源的潛力。

TinyLlama 實現了24k tokens / 秒/ A100 的訓練速度，這個速度好比用戶可以在8 個A100 上用32 小時訓練一個具有11 億參數、220 億token 的chinchilla -optimial 的模型。同時，這些最佳化也大幅減少了顯存佔用，使用者可以把 11 億參數的模型塞入 40GB 的 GPU 裡面還能同時維持 16k tokens 的 per-gpu batch size。只要要把 batch size 改小一點，你就可以在 RTX 3090/4090 上面訓練 TinyLlama。

小而強大的模型盛火：TinyLlama和LiteLlama成為熱門選擇