社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

王林

發布： 2023-05-13 14:07:06

轉載

2019 人瀏覽過

ChatGPT，或者說Transformer類別的模型都有一個致命缺陷，就是太容易健忘，一旦輸入序列的token超過上下文視窗閾值，後續輸出的內容和前文邏輯就對不上了。

ChatGPT只能支援4000個token（約3000個字）的輸入，即便最新發布的GPT-4也只支援最大32000的token窗口，如果繼續加大輸入序列長度，計算複雜度也會成二次方增長。

最近來自DeepPavlov, AIRI, 倫敦數學科學研究所的研究人員發布了一篇技術報告，使用循環記憶Transformer（RMT）將BERT的有效上下文長度提升到「前所未有的200萬tokens」，同時保持了很高的記憶檢索準確性。

論文連結：//m.sbmmt.com/link/459ad054a6417248a1166b30f6393301

此方法可以儲存和處理局部和全局訊息，並透過使用循環讓資訊在輸入序列的各segment之間流動。

實驗部分證明了該方法的有效性，在增強自然語言理解和生成任務中的長期依賴處理方面具有非凡的潛力，可以為記憶密集型應用程式實現大規模情境處理。

不過天下沒有免費的午餐，雖然RMT可以不增加記憶體消耗，可以擴展到近乎無限的序列長度，但仍然存在RNN中的記憶衰減問題，並且需要更長的推理時間。

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

但也有網友提出了解決方案，RMT用於長期記憶，大上下文用於短期記憶，然後在夜間/維修期間進行模型訓練。

循環記憶Transformer

2022年，該團隊提出循環記憶Transformer（RMT）模型，透過在輸入或輸出序列中添加一個特殊的memory token，然後對模型進行訓練以控制記憶操作與序列表徵處理，能夠在不改變原始Transformer模型的前提下，實現全新的記憶機制。

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

論文連結：https://arxiv.org/abs/2207.06881

發表會：NeurIPS 2022

與Transformer-XL相比，RMT需要的記憶體更少，並且可以處理更長序列的任務。

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

具體來說，RMT由m個實值的可訓練向量組成，過長的輸入序列被切分為幾個segments，記憶向量預設到在第一個segment embedding中，並與segment token一起處理。

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

與2022年提出的原始RMT模型不同的是，對於像BERT這樣的純編碼器模型，只在segment的開始部分添加一次記憶；解碼模型將記憶分成讀寫兩部分。

在每個時間步長和segment中，以以下方式進行循環，其中N為Transformer的層數，t為時間步，H為segment

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

依序處理輸入序列的segments後，為了實現遞歸連接，研究人員將目前segment的memory token的輸出傳遞給下一個segment的輸入：

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

RMT中的記憶和循環都只基於全域memory token，可以保持骨幹Transformer模型不變，使得RMT的記憶增強能力可以與任意的Transformer模型相容。

計算效率

依照公式可以估算不同大小、序列長度的RMT和Transformer模型所需的FLOPs

在詞彙量大小、層數、隱藏大小、中間在隱藏大小和注意頭數的參數配置上，研究人員遵循OPT模型的配置，並計算了前向傳遞後的FLOPs數量，同時考慮到RMT循環的影響。

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

透過將一個輸入序列劃分為若干段，並且僅在segment的邊界內計算全部注意力矩陣來實現線性擴展，結果可以看到，如果segment長度固定，RMT的推理速度對任意模型尺寸都是線性成長的。

由於FFN層的計算量較大，所以較大的Transformer模型往往表現出相對於序列長度較慢的二次方增長速度，不過在長度大於32,000的極長序列上，FLOPs又回到了二次增長的狀態。

對於有一個以上segment的序列（在本研究中大於512），RMT比非循環模型有更低的FLOPs，在尺寸較小的模型上最多可以將FLOPs的效率提升×295倍；在尺寸較大的模型如OPT-175B，可以提升×29倍。

記憶任務

為了測試記憶能力，研究人員建立了一個合成資料集，要求模型記憶簡單的事實和基本推理。

任務輸入包括一個或幾個事實和一個只能用所有這些事實來回答的問題。

為了增加任務的難度，任務中還添加了與問題或答案無關的自然語言文本，這些文本可以看作是噪音，所以模型的任務實際上是將事實與不相關的文本分開，並使用事實文本來回答問題。

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

事實記憶

測試RMT在記憶中長時間寫入和儲存訊息的能力：在最簡單的情況下，事實位於輸入的開頭，問題在輸入的最後，並逐漸增加問題和答案之間的不相關文字數量，直到模型無法一次接受所有輸入。

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

事實檢測和記憶

事實檢測透過將事實移到輸入中的一個隨機位置來增加任務難度，要求模型首先將事實與不相關的文本區分開來，將其寫入記憶，然後回答位於最後的問題。

基於記憶事實進行推理

記憶的另一個重要操作是利用記憶的事實和當前的背景進行推理。

為了評估這個功能，研究人員引入了一個更複雜的任務，將產生兩個事實並隨機地放置在輸入序列；在序列末尾提出的問題是必須選擇用正確的事實來回答問題。

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

實驗結果

研究人員使用HuggingFace Transformers中預先訓練的Bert-base-cased模型作為所有實驗中RMT的主幹，所有模型以記憶大小為10進行增強。

在4-8塊英偉達1080Ti GPU上進行訓練和評估；對於更長的序列，則切換到單張40GB的英偉達A100上進行加速評估。

課程學習（Curriculum Learning）

研究人員觀察到，使用訓練排程可以顯著改善解決方案的準確性和穩定性。

剛開始讓RMT在較短的任務版本上進行訓練，在訓練收斂後，透過增加一個segment來增加任務長度，將課程學習過程一直持續到達到理想的輸入長度。

從適合單一segment的序列開始實驗，實際segment的大小為499，因為從模型輸入中保留了3個BERT的特殊標記和10個記憶佔位符，總共大小為512。

可以注意到，在對較短的任務進行訓練後，RMT更容易解決較長的任務，因為使用較少的訓練步驟就能收斂到完美的解決方案。

外推能力（Extrapolation Abilities）

為了觀察RMT對不同序列長度的泛化能力，研究人員評估了在不同數量的segment上訓練的模型，以解決更大長度的任務。

徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token

可以觀察到，模型在較短的任務上往往表現良好，但在較長的序列上訓練模型後，就很難處理單segment推理任務。

一個可能的解釋是，由於任務規模超過了一個segment，模型在第一個segment就停止了對問題的預期，導致品質下降。

有趣的是，隨著訓練segment數量的增加，RMT對較長序列的泛化能力也出現了，在對5個或更多的segment進行訓練後，RMT可以對兩倍長的任務進行近乎完美的泛化。

為了測試泛化的極限，研究人員驗證任務的規模增加到4096個segment（即2,043,904個tokens）。

RMT在如此長的序列上保持得出奇的好，其中“檢測和記憶”任務是最簡單的，推理任務是最複雜的。

參考資料：//m.sbmmt.com/link/459ad054a6417248a1166b30f6393301

#

以上是徹底解決ChatGPT健忘症！突破Transformer輸入限制：實測支援200萬個有效token的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

chatgpt 模型 rmt

來源：51cto.com

上一篇：連續遷移學習跨域推薦排序模型在淘寶推薦系統的應用下一篇：GIF動畫渲染、讓燈塔閃爍、創建航空動態圖…ChatGPT代碼解釋器插件「不止於程式碼」

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

創造未來：零基礎的 Java 編程

2024-10-13 13:32:21
你並不孤單：在社群的支持下掌握 Python

2024-10-12 11:58:51
從新手到程式設計師：利用 Python 程式設計的力量

2024-10-11 20:06:51
像程式設計師一樣思考：學習 Java 基礎知識

2024-10-11 18:59:31
Java 變得簡單：程式設計能力的初學者指南

2024-10-11 18:30:51
使用 PHP 建立部落格：一個適合初學者的項目

2024-10-11 15:51:51
講系統語言：學習 C，一次一行

2024-10-11 15:42:10
C 語言的資料結構與演算法：適合初學者的方法

2024-10-11 14:41:20
不流淚編碼：輕鬆學習 C

2024-10-11 14:08:31
使用 Java 進行資料分析：資訊處理初學者指南

2024-10-11 13:42:21

最新問題

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查詢計算另一張表中欄位的總和我有一個這樣的模式：具有屬性“user_id”和“username”的用戶表以及具有屬性“customer_id”（user_id的FK）和“finalPrice”的訂單表資料庫架...

來自於 2024-04-06 19:39:29

0

1

441

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

在模板中使用方法中定義的變數這是我第一次使用Vue（v2而不是v3），我一直在嘗試在模板內使用變數（在方法內定義）。我的簡化程式碼：<template><divclass="con...

來自於 2024-04-06 18:10:25

0

2

513

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422659
php入門教程之一週學會PHP

4267518
JAVA 初級入門影片教學

2530156
小甲魚零基礎入門學習Python影片教學

506997
PHP 零基礎入門教學

862159

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板