社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > Transformer本來可以深謀遠慮，但就是不做

Transformer本來可以深謀遠慮，但就是不做

PHPz

發布： 2024-04-22 17:22:07

轉載

466 人瀏覽過

語言模型是否會規劃未來 token？這篇論文給你答案。

「別讓 Yann LeCun 看見了。」

Transformer本來可以深謀遠慮，但就是不做

Yann LeCun 表示太遲了，他已經看到了。今天要介紹的這篇「LeCun 非要看」的論文探討的問題是：Transformer 是深謀遠慮的語言模型嗎？當它在某個位置執行推理時，它會預先考慮後面的位置嗎？

這項研究得出的結論是：Transformer 有能力這樣做，但在實踐中不會這樣做。

我們都知道，人類會思考而後言。十年的語言學研究顯示：人類在使用語言時，內心會預測即將出現的語言輸入、單字或句子。

不同於人類，現在的語言模型在「說話」時會為每個 token 分配固定的計算量。那麼我們不禁要問：語言模型會和人類一樣預先性地思考嗎？

根據最近的一些研究已經顯示：可以透過探查語言模型的隱藏狀態來預測下一 token。有趣的是，透過在模型隱藏狀態上使用線性探針，可以在一定程度上預測模型在未來 token 上的輸出，並且可以對未來輸出進行可預測的修改。近期的一些研究已經表明，可以透過探查語言模型的隱藏狀態來預測下一 token。有趣的是，透過在模型隱藏狀態上使用線性探針，可以在一定程度上預測模型在未來 token 上的輸出，並且可以對未來輸出進行可預測的修改。

這些發現表明在給定時間步驟的模型活化至少在一定程度上可以預測未來輸出。

但是，我們還不清楚原因：這只是資料的偶然屬性，還是因為模型會刻意為未來時間步驟準備資訊（但這會影響模型在目前位置的表現）？

為了解答這個問題，近日科羅拉多大學博爾德分校和康乃爾大學的三位研究者發布了一篇題為《語言模型是否會規劃未來 token？》的論文。

Transformer本來可以深謀遠慮，但就是不做

論文標題：Do Language Models Plan for Future Tokens?

論文地址：https://arxiv.org/pdf/2404.00859.pdf

研究概覽

他們觀察到，在訓練期間的梯度既會為當前token 位置的損失優化權重，也會為該序列後面的token 進行優化。他們又進一步問：目前的 transformer 權重會以怎樣的比例為目前 token 和未來 token 分配資源？

他們考慮了兩種可能性：預先快取假設（pre-caching hypothesis）和麵包屑假設（breadcrumbs hypothesis）。

Transformer本來可以深謀遠慮，但就是不做

預先快取假設是指transformer 會在時間步驟t 計算與當前時間步驟的推理任務無關但可能對未來時間步驟t τ 有用的特徵，而麵包屑假設是指與時間步驟t 最相關的特徵已經等同於將在時間步驟t τ 最有用的特徵。

為了評估哪個假設是正確的，團隊提出了一種短視型訓練方案（myopic training scheme），該方案不會將當前位置的損失的梯度傳播給先前位置的隱藏狀態。

上述假設和方案的數學定義和理論描述請參考原文。

實驗結果

為了了解語言模型是否可能直接實現預先緩存，他們設計了一種合成場景，其中只能透過明確的預先緩存完成任務。他們配置了一個任務，其中模型必須為下一 token 預先計算訊息，否則就無法在一次單向通過中準確計算出正確答案。

Transformer本來可以深謀遠慮，但就是不做

^{時定義中所建立的合成資料集定義。}

在這個合成場景中，團隊發現了明顯的證據可以說明 transformer 可以學習預先快取。當基於 transformer 的序列模型必須預先計算資訊來最小化損失時，它們就會這樣做。

之後，他們又探究了自然語言模型（預先訓練的 GPT-2 變體）是會展現出麵包屑假設還是會展現出預先緩存假設。他們的短視型訓練方案實驗顯示在這種設定中，預先緩存出現的情況少得多，因此結果更偏向於麵包屑假設。

Transformer本來可以深謀遠慮，但就是不做

^{基于 token 位置的原始 GPT-2 模型与短视型 GPT-2 模型的交叉熵损失及其差异。}

Transformer本來可以深謀遠慮，但就是不做

^{GPT-2 通过原始和短视型训练获得的验证交叉熵损失。}

于是该团队声称：在真实语言数据上，语言模型并不会在显著程度上准备用于未来的信息。相反，它们是计算对预测下一个 token 有用的特征 —— 事实证明这对未来的步骤也很有用。

Transformer本來可以深謀遠慮，但就是不做

该团队表示：「在语言数据中，我们观察到贪婪地针对下一 token 损失进行优化与确保未来预测性能之间并不存在显著的权衡。」

因此我们大概可以看出来，Transformer 能否深谋远虑的问题似乎本质上是一个数据问题。

Transformer本來可以深謀遠慮，但就是不做

可以想象，也许未来我们能通过合适的数据整理方法让语言模型具备人类一样预先思考的能力。

以上是Transformer本來可以深謀遠慮，但就是不做的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

理論

來源：jiqizhixin.com

上一篇：CVPR 2024 | 位元組提出新一代資料集COCONut，比COCO粒度分割更密集下一篇：四款值得推薦的AI輔助程式工具

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

編碼的關鍵：為初學者釋放 C 的力量

2024-10-13 11:44:01
使用 PHP 和 MySQL 將您的網站連接到資料庫

2024-10-13 09:56:31
使用 Python 解決問題：作為初學者，解鎖強大的解決方案

2024-10-11 20:58:41
Python 的力量，簡單：一種適合初學者的程式設計方法

2024-10-11 16:53:11
PHP 與社群媒體：將您的網站與世界融為一體

2024-10-11 11:54:51
使用 PHP 的動態圖像畫廊：在線展示您的作品

2024-10-10 16:21:01
使用 PHP 建立 API 和 Web 服務

2024-10-10 15:18:02
揭秘 Java：為新程式設計師提供一條清晰、簡單的道路

2024-10-10 13:34:01
使用 C 創建遊戲和圖形：有趣且實用的介紹

2024-10-10 13:26:26
王者榮耀程咬金怎麼玩？

2024-10-10 11:38:42

最新問題

有沒有辦法強制彈性框中的文字垂直居中，無論我們有什麼其他 CSS 程式碼？我有以下CSS程式碼，它是我正在開發的網站中使用的更大CSS程式碼的一部分：.cards-u{display:flex;flex-wrap:wrap;justify-content...

來自於 2024-04-06 20:41:51

0

1

518

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

在網路應用程式中顯示版本資訊的最佳實踐是什麼？我正在開發一個網頁應用程式。在網路應用程式中顯示版本資訊的最佳實踐是什麼？我正在使用語義版本控制，並且我已經有了semver，例如1.2.0但我很好奇在哪裡顯示它的最佳方式以及如何...

來自於 2024-04-06 19:13:16

0

2

476

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

為什麼省略 0ms sleep 會破壞我的 css 轉換？我正在嘗試實現FLIP動畫，看看我是否理解正確。在這個程式碼筆中（請原諒糟糕的程式碼，我只是在亂搞），如果我註解掉睡眠，平滑過渡將不再有效。 div突然改變位置。這很奇怪，因為睡眠...

來自於 2024-04-06 16:29:50

0

2

490

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1423495
php入門教程之一週學會PHP

4269021
JAVA 初級入門影片教學

2538144
小甲魚零基礎入門學習Python影片教學

507642
PHP 零基礎入門教學

862889

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板