大模型時代,什麼最重要?
LeCun曾經給的答案是:開源。
當Meta的LLaMA的程式碼在GitHub上被洩露時,全球的開發者們都可以存取這個第一個達到GPT水準的LLM。
接下來,各種各樣的LLM為AI模型開源賦予了各種各樣的角度。
LLaMA為史丹佛的Alpac和Vicuna等模型鋪設了道路,搭好了舞台,讓他們成為了開源的領頭羊。
而就在此時,獵鷹「Falcon」又殺出了重圍。
「Falcon」由阿聯酋阿布達比的技術創新研究所(TII)開發,從性能上看,Falcon比LLaMA的表現更好。
目前,「Falcon」有三個版本-1B、7B和40B。
TII表示,Falcon迄今為止最強大的開源語言模型。其最大的版本,Falcon 40B,擁有400億參數,相對於擁有650億參數的LLaMA來說,規模上還是小了一點。
規模雖小,性能能打。
先進技術研究委員會(ATRC)秘書長Faisal Al Bannai認為,「Falcon」的發布將打破LLM的取得方式,並讓研究人員和創業者能夠以此提出最具創新性的使用案例。
FalconLM的兩個版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名,而Meta的LLaMA位於第三。
值得一提的是,Hugging Face是透過四個目前比較流形的基準-AI2 Reasoning Challenge ,HellaSwag,MMLU和TruthfulQA對這些模型進行評估的。
儘管「Falcon」的論文目前還沒公開發布,但Falcon 40B已經在經過精心篩選的1萬億token網路資料集的上進行了大量訓練。
研究人員透露,「Falcon」在訓練過程中非常重視在大規模資料上實現高效能的重要性。
我們都知道的是,LLM對訓練資料的品質非常敏感,這就是為什麼研究人員會花大量的精力建立一個能夠在數萬個CPU核心上進行高效處理的數據管道。
目的就是,在過濾和去重的基礎上從網路中提取高品質的內容。
目前,TII已經發布了精煉的網路資料集,這是一個經過精心過濾和去重的資料集。實踐證明,非常有效。
只用這個資料集訓練的模型可以和其它LLM打個平手,甚至在效能上超過他們。這展示出了“Falcon”卓越的品質和影響力。
此外,Falcon模型也具有多語言的能力。
它理解英語、德語、西班牙語和法語,並且在荷蘭語、義大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。
Falcon 40B還是繼H2O.ai模型發布後,第二個真正開源的模型。然而,由於H2O.ai並未在此排行榜上與其他模型進行基準對比,所以這兩個模型還沒上過擂台。
而回頭看LLaMA,儘管它的程式碼在GitHub上可以獲取,但它的權重(weights)從未開源。
這表示該模型的商業使用受到了一定程度的限制。
而且,LLaMA的所有版本都依賴原始的LLaMA許可證,這就使得LLaMA不適合小規模的商業應用。
在這一點上,「Falcon」又拔得了頭籌。
Falcon是目前唯一的可以免費商用的開源模型。
在早期,TII要求,商業用途使用Falcon,如果產生了超過100萬美元以上的可歸因收入,將會收取10%的「使用稅」。
可是財大氣粗的中東土豪們沒太多長時間就取消了這個限制。
至少到目前為止,所有對Falcon的商業化使用和微調都不會收取任何費用。
土豪們表示,現在暫時不需要透過這個模型賺錢。
而且,TII也正在全球徵集商用化方案。
對於有潛力的科學研究和商業化方案,他們還會提供更多的「訓練算力支持」,或提供進一步的商業化機會。
專案提交郵箱:Submissions.falconllm@tii.ae
##這簡直就是在說:只要項目好,模型免費用!算力管夠!錢不夠我們還能給你湊!
對於新創公司來說,這簡直就是來自中東土豪的「AI大模型創業一站式解決方案」。
高品質的訓練資料
根據開發團隊稱,FalconLM 競爭優勢的一個重要方面是訓練資料的選擇。研究團隊開發了一個從公共爬網資料集中提取高品質資料並刪除重複資料的流程。
在徹底清理多餘重複內容後,保留了 5 兆的token——足以訓練強大的語言模型。
40B的Falcon LM使用1兆個token進行訓練,7B版本的模型訓練token達到 1.5 兆。
(研究團隊的目標是使用RefinedWeb資料集從Common Crawl中僅過濾出品質最高的原始資料)
更可控的訓練成本
TII稱,與GPT-3相比,Falcon在只使用75%的訓練計算預算的情況下,就實現了顯著的性能提升。#而且推論(Inference)時只需要只需要20%的計算時間。 ######
Falcon的訓練成本,只相當於Chinchilla的40%和PaLM-62B的80% 。
成功實現了運算資源的高效利用。
以上是碾壓LLaMA,「獵鷹」徹底開源! 400億參數,萬億token訓練,霸榜Hugging Face的詳細內容。更多資訊請關注PHP中文網其他相關文章!