文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

首頁> 科技週邊> 人工智慧> 主體

清華NLP組發布InfLLM：無需額外訓練，「1024K超長上下文」100%召回！

WBOY

發布： 2024-03-11 14:40:04

轉載

500 人瀏覽過

大型模型僅能記憶和理解有限的上下文，這已成為它們在實際應用中的一大製約。例如，對話型人工智慧系統常常無法持久記憶前一天的對話內容，這導致利用大型模型建構的智能體表現出前後不一致的行為和記憶。

為了讓大型模型能夠更好地處理更長的上下文，研究人員提出了一種名為InfLLM的新方法。這項方法由清華大學、麻省理工學院和人民大學的研究人員共同提出，它能夠使大型語言模型（LLM）無需額外的訓練就能夠處理超長文本。 InfLLM利用了少量的運算資源和顯存開銷，從而實現了對超長文本的高效處理。

清華NLP組發布InfLLM：無需額外訓練，「1024K超長上下文」100%召回！

論文網址：https://arxiv.org/abs/2402.04617

程式碼倉庫： https://github.com/thunlp/InfLLM

實驗結果表明，InfLLM能夠有效地擴展Mistral、LLaMA的上下文處理窗口，並在1024K上下文的海底撈針任務中實現100%召回。

研究背景

大規模預訓練語言模型（LLMs）近年來在眾多任務上取得了突破性的進展，成為眾多應用的基礎模型。

這些實際應用也對LLMs處理長序列的能力提出了更高的挑戰。例如，LLM驅動的智能體需要持續處理從外部環境接收的訊息，這要求它具備更強的記憶能力。同時，對話式人工智慧需要更好地記住與用戶的對話內容，以便產生更個人化的答案。

然而，目前的大型模型通常只在包含數千個Token的序列上進行預訓練，這導致將它們應用於超長文本時面臨兩大挑戰：

1. 分佈外長度：直接將LLMs應用到更長長度的文字中，往往需要LLMs處理超過訓練範圍的位置編碼，因而造成Out-of-Distribution問題，無法泛化；

#2. 注意力幹擾：##過長的上下文將使模型注意力被過度分散到無關的資訊中，因此無法有效建模上下文中遠距離語義依賴。

方法介紹

清華NLP組發布InfLLM：無需額外訓練，「1024K超長上下文」100%召回！

InfLLM示意圖

為了有效率地實作大模型的長度泛化能力，作者提出了一種無需訓練的記憶增強方法，InfLLM，用於流式地處理超長序列。

InfLLM旨在激發LLMs的內在能力，以有限的計算成本捕獲超長上下文中的長距離語義依賴關係，從而實現高效的長文本理解。

整體框架：考慮到長文字注意力的稀疏性，處理每個Token通常只需要其上下文的一小部分。

作者建立了一個外部記憶模組，用於儲存超長上下文資訊；採用滑動視窗機制，每個運算步驟，只有與當前Token距離相近的Tokens（Local Tokens）和外部記憶模組中的少量相關資訊參與注意力層的計算中，而忽略其他不相關的噪音。

因此，LLMs可以使用有限的視窗大小來理解整個長序列，並避免引入雜訊。

然而，超長序列中的海量上下文對於記憶模組中有效的相關資訊定位和記憶查找效率帶來了重大挑戰。

為了回應這些挑戰，上下文記憶模組中每個記憶單元由一個語意區塊構成，一個語意區塊由連續的若干Token構成。

具體而言， (1)為了有效定位相關記憶單元，每個語意區塊的連貫語意比碎片化的Token更能有效滿足相關資訊查詢的需求。

此外，作者從每個語意區塊中選擇語義上最重要的Token，即接收到注意力分數最高的Token，作為語義區塊的表示，這種方法有幫助於避免在相關性計算中不重要Token的干擾。

(2)为了高效的内存查找，语义块级别的记忆单元避免了逐Token，逐注意力的相关性计算，降低了计算复杂性。

此外，语义块级别的记忆单元确保了连续的内存访问，并减少了内存加载成本。

得益于此，作者设计了一种针对上下文记忆模块的高效卸载机制（Offloading）。

考虑到大多数记忆单元的使用频率不高，InfLLM将所有记忆单元卸载到CPU内存上，并动态保留频繁使用的记忆单元放在GPU显存中，从而显著减少了显存使用量。

可以将InfLLM总结为：

1. 在滑动窗口的基础上，加入远距离的上下文记忆模块。

2. 将历史上下文切分成语义块，构成上下文记忆模块中的记忆单元。每个记忆单元通过其在之前注意力计算中的注意力分数确定代表性Token，作为记忆单元的表示。从而避免上下文中的噪音干扰，并降低记忆查询复杂度

实验分析

作者在 Mistral-7b-Inst-v0.2（32K）和 Vicuna-7b-v1.5（4K）模型上应用 InfLLM，分别使用4K和2K的局部窗口大小。

与原始模型、位置编码内插、Infinite-LM以及StreamingLLM进行比较，在长文本数据 Infinite-Bench 和 Longbench 上取得了显著的效果提升。

清華NLP組發布InfLLM：無需額外訓練，「1024K超長上下文」100%召回！

清華NLP組發布InfLLM：無需額外訓練，「1024K超長上下文」100%召回！

超长文本实验

此外，作者继续探索了 InfLLM 在更长文本上的泛化能力，在 1024K 长度的「海底捞针」任务中仍能保持 100% 的召回率。

清華NLP組發布InfLLM：無需額外訓練，「1024K超長上下文」100%召回！

海底捞针实验结果

总结

在本文中，团队提出了 InfLLM，无需训练即可实现 LLM 的超长文本处理拓展，并可以捕捉到长距离的语义信息。

InfLLM 在滑动窗口的基础上，增加了包含长距离上下文信息的记忆模块，并使用缓存和offload 机制实现了少量计算和显存消耗的流式长文本推理。

以上是清華NLP組發布InfLLM：無需額外訓練，「1024K超長上下文」100%召回！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

ai 模型

來源：51cto.com

上一篇：Google具身智能新研究：比RT-2優秀的RT-H來了下一篇：零一萬物自研全導航圖向量資料庫，橫掃權威榜單6項第一

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

Win11系統更新後硬碟消失怎麼辦

2024-08-17 18:48:07
CAMM2 for desktop PCs: MSI explains the benefits of the new RAM standard for gaming towers

2024-08-17 18:47:32
Bitcoin (BTC) Beats U.S. Housing Market as Mortgage Rates Fall

2024-08-17 18:44:20
筆記型電腦鍵盤不能用

2024-08-17 18:42:38
Rollblock ($RBLK)：新遊戲幣今年可望實現 100 倍收益

2024-08-17 18:42:20
Bankers Bet Big on Bitcoin ETFs

2024-08-17 18:37:20
灵魂石幸存者快速升级角色方法

2024-08-17 18:36:46
PHP Secure Coding: Don&#t Let the Code Get Loose

2024-08-17 18:36:32
ArFleet Launch Expands Arweave’s Market Reach with Time-Bound Storage

2024-08-17 18:36:20
壟斷吧！恆星大亨活動：您需要知道的一切

2024-08-17 18:34:21

最新問題

Vue專案中未定義模組我剛剛通過運行npmini tvue@latest創建了一個新的Vue應用程序，如官方文件中指定的那樣。然後我嘗試按照Vue和Vite網站上的指南將Tailwind添加到我的應用程...

來自於 2023-11-17 12:38:53

0

2

394

tp6 查詢器如何最佳化 tp6 model模型關聯多個資料表查詢時，使用查詢器會很慢，要怎麼優化，有沒有最佳化的方法呀！求助！！！！！

來自於 2023-11-17 08:50:36

0

0

84

如何根據角色為每個使用者定義一組權限的Laravel Spatie權限設定方法？我有4種類型的使用者使用我的系統：1.超級管理員2.超級管理員團隊、3.管理員和4。管理團隊成員，因為我使用spatie來處理角色和權限，所以我有一組對於所有類型的使用者來說都很常...

來自於 2023-11-14 12:58:58

0

1

292

WordPress 6.0 (add_editor_style) 不會在古騰堡編輯器中載入 style.css 我正在學習UdemyWordPress課程來建立自訂WordPress區塊主題。我成功在function.php中註冊了區塊類型，並且可以在古騰堡編輯器中選擇我的區塊。教學建議使用...

來自於 2023-11-12 20:37:50

0

2

261

遇到PHPMailer未定義類型錯誤（嘗試使用Composer也無效）我不知道為什麼會收到此“PHPMailer未定義類型”錯誤。首先，我嘗試直接下載zip並從github複製程式碼，同樣的問題出現，然後我下載了我不想下載的composer，但下載後...

來自於 2023-11-12 17:35:06

0

1

180

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1394918
php入門教程之一週學會PHP

4206632
JAVA 初級入門影片教學

2350945
小甲魚零基礎入門學習Python影片教學

493321
PHP 零基礎入門教學

826321

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板

關於我們免責聲明 Sitemap: PHP中文網：公益線上PHP培訓，幫助PHP學習者快速成長！