介紹RWKV：線性Transformers的興起與探索替代方案-人工智慧-PHP中文網

介紹RWKV：線性Transformers的興起與探索替代方案

WBOY

發布： 2023-09-27 14:01:27

轉載

2622 人瀏覽過

以下是我在RWKV播客中的一些想法摘要：https://www.php. cn/link/9bde76f262285bb1eaeb7b40c758b53e

介紹RWKV：線性Transformers的興起與探索替代方案

1為什麼替代方案的重要性如此突出？

隨著2023年的人工智慧革命，Transformer架構目前正處於巔峰。然而，由於人們急於採用成功的Transformer架構，所以會容易忽略可以藉鏡的替代品。

身為工程師，我們不應該採取一刀切的方法，對每個問題都使用相同的解決方案。我們應該在每一個情況下權衡利弊；否則將會被困在特定平台的限制範圍內，同時因不知道有其他選擇而感到“滿足”，這可能會使發展一夜回到解放前

這個問題並不是人工智慧領域獨有的，而是從古到今都在重複的歷史模式。
SQL戰爭歷史的一頁，是關於資料庫管理系統之間的競爭和對抗的故事。在這個故事中，各種資料庫管理系統如Oracle、MySQL和SQL Server等，為了爭取市場佔有率和技術優勢，展開了激烈的競爭。這些競爭不僅體現在效能和功能方面，還涉及商業策略、市場推廣以及用戶滿意度等多個方面。這些資料庫管理系統不斷地推出新的功能和改進，以吸引更多的用戶和企業選擇他們的產品。 SQL戰爭歷史的一頁，見證了資料庫管理系統產業的發展與變革，也為我們提供了寶貴的經驗與教訓

最近在軟體開發中有一個值得注意的例子是，當SQL伺服器開始受到實體限制時，就出現了NoSQL的趨勢。世界各地的新創公司都因為"規模"的原因轉向了NoSQL，儘管它們遠未達到這些規模

然而，隨著時間的推移，隨著最終一致性和NoSQL管理開銷的出現，以及硬體功能在SSD速度和容量方面的巨大飛躍，SQL伺服器最近又出現了回歸的趨勢，因為它們使用簡單性，並且現在90%以上的新創公司都有足夠的可擴展性

SQL和NoSQL是兩種不同的資料庫技術。 SQL是結構化查詢語言的縮寫，主要用於處理結構化資料。 NoSQL則是指非關聯式資料庫，適用於處理非結構化或半結構化資料。雖然有人認為SQL比NoSQL更好，或者反之亦然，但實際上這只是意味著每種技術都有自己的優缺點和適用場景。在某些情況下，SQL可能更適合處理複雜的關係型數據，而NoSQL則更適合處理大規模的非結構化資料。然而，這並不意味著只能選擇其中一種技術。實際上，許多應用程式和系統在實踐中使用了SQL和NoSQL的混合解決方案。根據特定的需求和資料類型，可以選擇最適合的技術來解決問題。因此，重要的是理解每種技術的特點和適用場景，並根據具體情況做出明智的選擇。無論是SQL或NoSQL，都有其獨特的學習點和首選用例，可以在類似技術中相互借鑒和交叉傳播

目前Transformer

架構最大的痛點是什麼？

###通常，這包括計算、上下文大小、資料集和對齊。在本次討論中，我們將重點討論計算和上下文長度：######################由於使用/生成的每個令牌的O（N^ 2）增加而導致的二次計算成本。這使得大於10萬的上下文大小非常昂貴，從而影響推理和訓練。 ##################目前的GPU短缺加劇了這個問題。 ##################上下文大小限制了Attention機制，嚴重限制了「智慧代理」用例（如smol-dev），並強制解決問題。較大的上下文需要較少的解決方法。 #####################那麼，我們該如何解決這個問題呢？ ##############################介紹RWKV：一種線性T######ransformer###### /現代大型RNN#####################RWKV和微軟RetNet是被稱為「線性Transformer」的新類別中的第一個###### #############它透過支援以下內容直接解決了上述三個限制：############

線性計算成本，與上下文大小無關。
在CPU（尤其是ARM）中，允許以更低的要求在RNN模式下輸出合理的令牌/秒。
沒有作為RNN的硬上下文大小限制。文件中的任何限制都是指導原則——您可以對其進行微調。

隨著我們不斷將人工智慧模型擴展到10##0k及以上的上下文大小，二次方計算成本開始呈指數級增長。

然而，線性Transformer並沒有放棄遞歸神經網路架構及解決其瓶頸，這迫使它們被取代。

不過，重新設計的RNN吸取了Transformer可擴展的經驗教訓，使RNN能與Transformer運作方式類似，並消除了這些瓶頸。

在訓練速度方面，用Transformer讓它們重返賽場——允許它們在O（N）成本下高效運行，同時在訓練中擴展到10億個參數以上，同時維持類似的性能水準。

介紹RWKV：線性Transformers的興起與探索替代方案

圖表：線性Transformer計算成本以每個令牌線性縮放與變換器的指數增長

當你將平方比例應用於線性縮放時，你會在2k令牌計數時獲得10倍以上的增長，在100k令牌長度時獲得100倍以上的成長

在14B參數下，RWKV是最大的開源線性Transformer，與GPT NeoX和其他類似資料集（如the Pile）不相上下。

介紹RWKV：線性Transformers的興起與探索替代方案

#RWKV模型的性能與現有規模的現有變壓器模型相當，各種基準顯示

但用更簡單的話來說，這代表什麼？

在較大的上下文大小中，推理/訓練比Transformer便宜10倍甚至更多
在RNN模式下，可以非常在有限的硬體上緩慢運行
與相同資料集上的Transformer效能相似

##可擴展到14B參數以上
不如變壓器優化和採用

##因此，儘管RWKV還沒有達到像LLaMA2那樣的60B 參數規模，但只要有正確的支持和資源，它有可能以更低的成本和更廣泛的環境來實現這一目標，特別是在模型趨向於更小、更有效率的情況下

如果您的用例對效率很重要，請考慮這一點。然而，這並非最終解決方案——關鍵在於健康的替代品

#我們應該考慮學習其他替代方案以及它們的好處

擴散模型：文字訓練速度較慢，但對多時期訓練具有極高的彈性。找出原因可以幫助緩解代幣危機。

產生對抗性網路/代理：可以在沒有資料集的情況下，使用技術將所需的訓練集訓練到特定目標，即使是基於文本的模型。

######原文標題：######Introducing RWKV: The Rise of Linear Transformers and Exploring Alternatives### ###，作者：######picocreator#####################//m.sbmmt.com/link/b433da1b32b5ca96c0ba7fcb9edba97d############################################################################################。 ############

以上是介紹RWKV：線性Transformers的興起與探索替代方案的詳細內容。更多資訊請關注PHP中文網其他相關文章！