社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 不用4個H100！340億參數Code Llama在Mac可跑，每秒20個token，程式碼產生最拿手

不用4個H100！340億參數Code Llama在Mac可跑，每秒20個token，程式碼產生最拿手

PHPz

發布： 2023-09-19 13:05:01

轉載

833 人瀏覽過

開源社群的一位開發者Georgi Gerganov發現，自己可以在M2 Ultra上運行全F16精度的34B Code Llama模型，而且推理速度超過了20 token/s。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

M2 Ultra的頻寬達到了800GB/s，這在其他人通常需要使用4個高階GPU才能實現的情況下

而這背後真正的答案是：投機採樣（Speculative Sampling）。

喬治的發現立刻引發了人工智慧界大佬們的討論

#Karpathy轉發評論道，「LLM的投機執行是一種出色的推理時間優化」。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

「投機取樣」加速推理

在這個例子中，Georgi借助Q4 7B quantum草稿模型（也就是Code Llama 7B）進行了投機解碼，然後在M2 Ultra上使用Code Llama34B進行產生。

簡單講，就是用一個「小模型」做草稿，然後用「大模型」來檢查修正，以此加速整個過程。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

GitHub地址：https://twitter.com/ggerganov/status/1697262700165013689

根據Georgi的介紹，這些模型的速度分別如下：

F16 34B：每秒約10個令牌

需要進行改寫的內容是：Q4 7B：每秒約80個令牌

##以下是一個沒有使用投機取樣的標準F16取樣範例：

在加入投機取樣策略之後，速度可以達到每秒約20個標記

根據Georgi的說法，產生內容的速度可能會有所不同。然而，這種方法在程式碼產生方面似乎非常有效，因為大多數詞庫都能被草稿模型正確猜測

#使用「語法取樣」的用例也有可能從中受益匪淺

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

投機取樣是如何實現快速推理的？

Karpathy根據先前谷歌大腦、UC伯克利、DeepMind的三項研究，做出了解釋。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

請點擊以下連結查看論文：https://arxiv.org/pdf/2211.17192.pdf

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

#論文網址：https://arxiv.org/pdf/1811.03115.pdf

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

論文網址：https://arxiv.org/pdf/2302.01318.pdf

這取決於以下不直觀的觀察結果：

在單一輸入token上轉發LLM所需的時間，與在K個輸入token上批量轉發LLM所需的時間相同（K比你想像的要大）。

這個不直覺的事實是因為取樣受到記憶體的嚴重限制，大部分「工作」不計算，而是將Transformer的權重從VRAM讀取到晶片上快取進行處理。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

#

為了完成讀取所有權重的任務，最好將它們應用於整個批次的輸入向量

我們之所以不能天真地利用這一事實，來一次採樣K個token，是因為每N個token都取決於，我們在第N-1步時採樣的token。這是一種串行依賴關係，因此基線實現只是從左到右逐個進行。

現在，一個巧妙的想法是使用一個小而便宜的草稿模型，首先產生一個由K個標記組成的候選序列－「草稿」。然後，我們將所有這些資訊一起批次送入大模型

根據上述方法，這與只輸入一個token的速度幾乎一樣快。

然後，我們從左到右檢查模型，以及樣本token預測的logits。任何與草稿一致的樣本都允許我們立即跳到下一個token。

如果存在分歧，我們將放棄草稿模型，並承擔進行一些一次性工作的成本（對草稿模型進行採樣，並對後續的標記進行前向傳遞）

這在實踐中行之有效的原因是，大多數情況下，draft token都會被接受，因為是簡單的token，所以即使是更小的草稿模型也能接受它們。

當這些簡單的token被接受時，我們就會跳過這些部分。大模型不同意的困難token會「回落」到原始速度，但實際上因為有額外的工作會慢一些。

所以，總而言之：這怪招之所以管用，是因為LLM在推理時是受記憶體限制。在「批次大小為1」的情況下，對感興趣的單一序列進行取樣，而大部分「本地 LLM」用例都屬於這種情況。而且，大多數token都很「簡單」。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

HuggingFace的共同創辦人表示，340億參數的模型在一年半以前的資料中心之外，看起來非常龐大且難以管理。現在只需使用筆記型電腦就可以輕鬆處理了

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

#現在的LLM並不是單點突破，而是需要多個重要元件有效協同工作的系統。投機解碼就是一個很好的例子，可以幫助我們從系統的角度思考。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

#

以上是不用4個H100！340億參數Code Llama在Mac可跑，每秒20個token，程式碼產生最拿手的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

ai 模型

來源：51cto.com

上一篇：新標題：118mm高度小塔散熱器利民AX90 SE ARGB現已上架，僅售99元，為用戶帶來更好的散熱效果下一篇：一品威客網已有多家服務商進駐，提供元宇宙相關服務

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

編碼的關鍵：為初學者釋放 C 的力量

2024-10-13 11:44:01
使用 PHP 和 MySQL 將您的網站連接到資料庫

2024-10-13 09:56:31
使用 Python 解決問題：作為初學者，解鎖強大的解決方案

2024-10-11 20:58:41
Python 的力量，簡單：一種適合初學者的程式設計方法

2024-10-11 16:53:11
PHP 與社群媒體：將您的網站與世界融為一體

2024-10-11 11:54:51
使用 PHP 的動態圖像畫廊：在線展示您的作品

2024-10-10 16:21:01
使用 PHP 建立 API 和 Web 服務

2024-10-10 15:18:02
揭秘 Java：為新程式設計師提供一條清晰、簡單的道路

2024-10-10 13:34:01
使用 C 創建遊戲和圖形：有趣且實用的介紹

2024-10-10 13:26:26
王者榮耀程咬金怎麼玩？

2024-10-10 11:38:42

最新問題

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查詢計算另一張表中欄位的總和我有一個這樣的模式：具有屬性“user_id”和“username”的用戶表以及具有屬性“customer_id”（user_id的FK）和“finalPrice”的訂單表資料庫架...

來自於 2024-04-06 19:39:29

0

1

441

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

在模板中使用方法中定義的變數這是我第一次使用Vue（v2而不是v3），我一直在嘗試在模板內使用變數（在方法內定義）。我的簡化程式碼：<template><divclass="con...

來自於 2024-04-06 18:10:25

0

2

513

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1421503
php入門教程之一週學會PHP

4265578
JAVA 初級入門影片教學

2517242
小甲魚零基礎入門學習Python影片教學

506307
PHP 零基礎入門教學

861494

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板