社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 比Transformer快4成！ Meta發表全新Megabyte模型，解決算力損耗硬傷

比Transformer快4成！ Meta發表全新Megabyte模型，解決算力損耗硬傷

WBOY

發布： 2023-05-30 20:04:58

轉載

1032 人瀏覽過

Transformer無疑是過去幾年內機器學習領域最受歡迎的模型。

自2017年在論文「Attention is All You Need」中提出之後，這個新的網路結構，刷爆了各大翻譯任務，同時創造了多項新的記錄。

比Transformer快4成！ Meta發表全新Megabyte模型，解決算力損耗硬傷

但Transformer在處理長位元組序列時有個硬傷，就是算力損耗嚴重，而Meta的研究人員的最新成果可以很好地解決這一缺陷。

他們推出了全新的模型架構，能跨多種格式產生超過100萬個token，並超越GPT-4等模型背後的現有 Transformer架構的功能。

這個模型被稱為「兆位元組」（Megabyte），是一種多尺度解碼器架構（Multi-scale Decoder Architecture），可以對超過一百萬位元組的序列進行端對端可微分建模。

比Transformer快4成！ Meta發表全新Megabyte模型，解決算力損耗硬傷

論文連結：https://arxiv.org/abs/2305.07185

Megabyte為什麼比Transformer強，就得先看看Transformer的不足之處在哪。

Transformer的不足

迄今為止幾類高效能的生成式AI模型，如OpenAI的GPT-4、Google的Bard，都是基於Transformer架構的模型。

但Meta的研究團隊認為，流行的Transformer架構可能達到其閾值，其中主要理由是Transformer設計中固有的兩個重要缺陷：

- 隨著輸入和輸出位元組長度的增加，自註意力的成本也迅速增加，如輸入的音樂、圖像或視訊檔案通常包含數兆位元組，然而大型解碼器(LLM)通常只使用幾千個上下文標記

- 前饋網路透過一系列數學運算和轉換來幫助語言模型理解和處理單詞，但在每個位置的基礎上難以實現可擴展性,這些網路獨立地對字元組或位置進行操作，從而導致大量的計算開銷

Megabyte強在哪

##相比Transformer，Megabyte模型展示了一種獨特的不同架構，將輸入和輸出序列劃分為patch而不是單一token。

如下圖，在每個patch中，本地AI模型產生結果，而全域模型管理和協調所有patch的最終輸出。

比Transformer快4成！ Meta發表全新Megabyte模型，解決算力損耗硬傷

首先，位元組序列被分割成固定大小的patch，大致類似token，這個模型由三個部分組成：

(1) patch嵌入器：透過無損地連接每個位元組的嵌入來簡單地編碼patch

(2) 一個全域模型：一個輸入和輸出patch表示的大型自迴歸變換器

#(3) 一個本地模型：一個預測patch中位元組的小型自迴歸模型

研究人員觀察到，對於多數任務而言字節預測都相對容易（如完成給定前幾個字的單字），這意味著每個字節的大型網路是不必要的，並且可以使用較小的模型進行內部預測。

這種方法解決了當今AI模型中普遍存在的可擴展性挑戰，Megabyte 模型的patch系統允許單一前饋網路在包含多個token的patch上運行，從而有效解決了自註意力縮放問題。

其中，Megabyte架構對長序列建模的Transformer進行了三項主要改進：

- 二次自註意力（Sub -quadratic self-attention）

大多數關於長序列模型的工作都集中在減輕自註意力的二次成本上，而Megabyte將長序列分解為兩個較短的序列，即使對於長序列也仍然易於處理。

- patch前饋層（Per-patch feedforward layers）

在GPT-3大小的模型中，超過98%的FLOPS用於計算位置前饋層，Megabyte每個patch使用大型前饋層，以相同的成本實現更大、性能更強的模型。在patch大小為P的情況下，基線轉換器將使用具有m個參數的相同前饋層P次，兆位元組可以以相同的成本使用具有mP個參數的層一次。

- 解碼中的平行性（Parallelism in Decoding）

Transformers必須在生成期間串行執行所有計算，因為每個時間步的輸入是前一個時間步的輸出，透過並行產生patch的表示，Megabyte允許在生成過程中實現更大的並行性。

例如，具有1.5B參數的Megabyte模型產生序列的速度比標準的350MTransformer快40%，同時在使用相同的計算量進行訓練時還能改善困惑度。

比Transformer快4成！ Meta發表全新Megabyte模型，解決算力損耗硬傷

Megabyte遠優於其他模型，並提供與在子詞上訓練的sota 模型競爭的結果

相較之下，OpenAI 的GPT-4有32,000個token的限制，而Anthropic的Claude有100,000個token的限制。

此外，在運算效率方面，在固定模型大小和序列長度範圍內，Megabyte比同等大小的Transformers和Linear Transformers使用更少的token，允許以相同的計算成本使用更大的模型。

比Transformer快4成！ Meta發表全新Megabyte模型，解決算力損耗硬傷

#總之，這些改進使我們能夠在相同的運算預算下訓練更大、性能更好的模型，擴展到非常長的序列，並提高部署期間的生成速度。

未來將會如何

隨著AI軍備競賽進行地如火如荼，模型表現越來越強，參數也越來越高。

雖然GPT-3.5在175B個參數上進行了訓練，但有人猜測功能更強大的GPT-4在1萬億個參數上進行了訓練。

OpenAI的CEO Sam Altman最近也建議轉變策略，他表示公司正在考慮捨棄對龐大模型的訓練，而專注於其他性能的優化。

他將AI模型的未來等同於iPhone晶片，而大多數消費者對原始技術規格一無所知。

Meta的研究人員相信他們的創新架構來得正是時候，但也承認還有其他最佳化途徑。

例如採用修補技術的更有效率的編碼器模型、將序列分解為更小塊的解碼模型以及將序列預處理為壓縮token等，並且可以擴展現有Transformer架構的能力以建構新世代模型。

前特斯拉AI總監Andrej Karpathy也在這篇論文中發表了看法，他在推特上寫道：

#

這是非常有希望的，每個人都應該希望我們能在大模型中丟掉標記化，也不需要那些過長位元組的序列。

比Transformer快4成！ Meta發表全新Megabyte模型，解決算力損耗硬傷

#

以上是比Transformer快4成！ Meta發表全新Megabyte模型，解決算力損耗硬傷的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

速度模型

來源：51cto.com

上一篇：下一個風口！特斯拉公佈AI人形機器人馬斯克釋放5個「擎天柱」未來市場需求100億台下一篇：特斯拉的人形機器人出來走了兩步，還能抓東西了

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查詢計算另一張表中欄位的總和我有一個這樣的模式：具有屬性“user_id”和“username”的用戶表以及具有屬性“customer_id”（user_id的FK）和“finalPrice”的訂單表資料庫架...

來自於 2024-04-06 19:39:29

0

1

441

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

在模板中使用方法中定義的變數這是我第一次使用Vue（v2而不是v3），我一直在嘗試在模板內使用變數（在方法內定義）。我的簡化程式碼：<template><divclass="con...

來自於 2024-04-06 18:10:25

0

2

513

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422669
php入門教程之一週學會PHP

4267550
JAVA 初級入門影片教學

2530289
小甲魚零基礎入門學習Python影片教學

507003
PHP 零基礎入門教學

862168

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板