社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

WBOY

發布： 2023-10-21 14:25:01

轉載

590 人瀏覽過

只要微調一下，大模型支援上下文大小就能從1.6萬tokens延長至100萬？！

還是在只有70億參數的LLaMA 2上。

要知道，即使是目前最火的Claude 2和GPT-4，支援上下文長度也不過10萬和3.2萬，超出這個範圍大模型就會開始胡言亂語、記不住東西。

現在，一項來自復旦大學和上海人工智慧實驗室的新研究，不僅找到了讓一系列大模型提升上下文視窗長度的方法，還發掘出了其中的規律。

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

依照這個規律，只要調整1個超參數，就能確保輸出效果的同時，穩定提升大模型外推效能。

外推性，指大模型輸入長度超過預訓練文字長度時，輸出表現變化情況。如果外推能力不好，輸入長度一旦超過預訓練文字長度，大模型就會「胡言亂語」。

所以，它究竟能提升哪些大模型的外推能力，又是如何做到的呢？

大模型外推能力提升「機關」

這種提升大模型外推能力的方法，和Transformer架構中名叫位置編碼的模組有關。

事實上，單純的注意力機制（Attention）模組無法區分不同位置的token，例如「我吃蘋果」和「蘋果吃我」在它眼裡沒有差異。

因此需要加入位置編碼，來讓它理解詞序訊息，從而真正讀懂一句話的意思。

目前的Transformer位置編碼方法，有絕對位置編碼（將位置資訊融入輸入）、相對位置編碼（將位置資訊寫入attention分數計算）和旋轉位置編碼幾種。其中，最火熱的要屬旋轉位置編碼，也就是RoPE了。

RoPE透過絕對位置編碼的形式，實現了相對位置編碼的效果，但與相對位置編碼相比，又能更好地提升大模型的外推潛力。

如何進一步激發採用RoPE位置編碼的大模型的外推能力，也成為了最近不少研究的新方向。

這些研究，又主要分為限制注意力和調整旋轉角兩大流派。

限制注意力的代表性研究包括ALiBi、xPos、BCA等。最近MIT提出的StreamingLLM，可以讓大模型實現無限的輸入長度（但不增加上下文視窗長度），就屬於這一方向的研究類型。

△圖源作者

調整旋轉角的工作則更多，典型代表如線性內插、Giraffe、Code LLaMA、LLaMA2 Long等都屬於這一類型的研究。

△圖源作者

以Meta最近爆火的LLaMA2 Long研究為例，它就提出了一個名叫RoPE ABF的方法，透過修改一個超參數，成功將大模型的上下文長度延長到3.2萬tokens。

這個超參數，正是Code LLaMA和LLaMA2 Long等研究找出的「開關」——

旋轉角底數（base ）。

只需要微調它，就可以確保提升大模型的外推表現。

但無論是Code LLaMA或LLaMA2 Long，都只是在特定的base和續訓長度上進行微調，使得其外推能力增強。

是否能找到一種規律，確保所有用了RoPE位置編碼的大模型，都能穩定提升外推表現？

掌握這個規律，上下文輕鬆100w

來自復旦大學和上海AI研究院的研究人員，針對這個問題進行了實驗。

他們先是分析了影響RoPE外推能力的幾個參數，提出了一個名為臨界維度（Critical Dimension）的概念，隨後基於這個概念，總結出了一套RoPE外推的縮放法則（Scaling Laws of RoPE-based Extrapolation）。

只需要應用這個規律，就能確保任意基於RoPE位置編碼大模型都能改善外推能力。

先來看看臨界維度是什麼。

從定義來看，它和預訓練文字長度Ttrain、自註意力頭維度數d等參數都有關係，具體計算方法如下：

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

其中，10000即超參數、旋轉角底數base的「初始值」。

作者發現，無論放大或縮小base，最終都能讓基於RoPE的大模型的外推能力增強，相較之下當旋轉角底數為10000時，大模型外推能力是最差的。

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

對此論文認為，旋轉角底數更小，能讓更多的維度感知到位置信息，旋轉角底數更大，則能表示出更長的位置資訊。

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

既然如此，在面對不同長度的續訓語料時，究竟縮小和放大多少旋轉角底數，才能確保大模型外推能力得到最大程度上的提升？

論文給出了一個擴展RoPE外推的縮放法則，與臨界維度、大模型的續訓文本長度和預訓練文本長度等參數有關：

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

基於這個規律，可以根據不同預訓練和續訓文本長度，來直接計算出大模型的外推表現，換言之就是預測大模型的支持的上下文長度。

反之利用這法則，也能快速推導出如何最好地調整旋轉角底數，從而提升大模型外推表現。

作者針對這一系列任務進行了測試，發現實驗上目前輸入10萬、50萬甚至100萬tokens長度，都可以保證，無需額外注意力限制即可實現外推。

同時，包括Code LLaMA和LLaMA2 Long在內的大模型外推能力增強工作都證明了這項規律是確實合理有效的。

這樣一來，只需要根據這個規律“調個參”，就能輕鬆擴展基於RoPE的大模型上下文窗口長度、增強外推能力了。

論文一作柳瀟然表示，目前這項研究還在透過改進續訓語料，提升下游任務效果，等完成之後就會將程式碼和模型開源，可以期待一下~

論文網址：

https://arxiv.org/abs/2310.05209

##Github倉庫：

https://github.com/OpenLMLab/scaling-rope

#論文解析部落格：

##https:// zhuanlan.zhihu.com/p/660073229

以上是LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

數據研究

來源：51cto.com

上一篇：數學邏輯和電腦程式碼之間的深層聯繫：互為鏡像下一篇：科大訊飛與華為合作打造自主AI新底座，因應美國AI晶片出口管制

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

function_exists()無法判定自訂函數 function test() { return true; } if (function_exists('TEST')) { ech...

來自於 2024-04-29 11:01:01

0

2

1429

PHP數組從URL參數中取得的行為不如預期我有一個包含類別ID的URL參數，我想將其視為一個數組，如下所示：http://example.com?cat[]=3,9,13在PHP中，我使用它從URL參數取得數組：$catI...

來自於 2024-04-06 22:09:02

0

1

1428

傳回值中變數的格式是什麼？我是php的新學習者。我發現有一段程式碼：if($x<time()){return[false,'error'];}邏輯或變數並不重要，但我不明白[false,'error'...

來自於 2024-04-06 21:55:20

0

1

778

將將類別的私有成員設定為建構函數參數 classFoo{#一#二#三#四#五#六#七#八#九#十#十一#十二#十三#十四#十五#六十六建構子（一，二，三，四，五，六，七，八,九,十,十一,十二,十三,十四,f

來自於 2024-04-06 21:48:47

0

1

637

匹配單字的正規表示式我有一個腳本，我試圖將新的職位名稱與資料庫中的現有職位名稱進行配對。 SELECTa.titleASJobTitle,j.DescriptionASMatchedJobTitle,...

來自於 2024-04-06 21:24:04

0

1

606

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422647
php入門教程之一週學會PHP

4267483
JAVA 初級入門影片教學

2530011
小甲魚零基礎入門學習Python影片教學

506989
PHP 零基礎入門教學

862142

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板