社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 7B最強長影片模型！ LongVA影片理解超千幀，霸榜多個榜單

7B最強長影片模型！ LongVA影片理解超千幀，霸榜多個榜單

WBOY

發布： 2024-07-19 21:21:22

原創

1000 人瀏覽過

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文主要作者來自 LMMs-Lab 團隊與新加坡南洋理工大學。共同一作中，張培源是南洋理工大學研究助理，張愷宸是南洋理工大學四年級本科生，李博為南洋理工大學三年級博士生，指導教師為 MMLab@NTU 劉子緯教授。 LMMs-Lab 是一個由學生、研究人員和教師組成的團隊，致力於多模態模型的研究，主要研究方向包括多模態模型的訓練與全面評估，此前的工作包括多模態測評框架lmms- eval 等。

為什麼說理解長影片難如「大海撈針」？

現有的 LMMs 在處理長影片時面臨的一個主要挑戰是視覺 token 數量過多。例如，LLaVA-1.6 對單張圖片就能產生 576 到 2880 個視覺 token。影片幀數越多，token 數量就更多。雖然 BLIP2,LLaMA-VID, Chat-UniVI 等工作透過改變 ViT 和語言模型之間的連接層來減少視覺 token 數量，但仍然無法處理特別多的幀數。

此外，缺乏高品質的長視訊資料集也是一大瓶頸。現有訓練資料集大多是 1 分鐘內的短視頻，即使有長視頻，標註的文本對僅限於視頻的幾個幀，缺乏密集的監督信號。

近日 LMMs-Lab, 南洋理工大學等機構的研究團隊推出了 LongVA 長視頻模型，它可以理解超過千幀的視頻數據，超越了當前一眾開源視頻多模態模型的性能！

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

論文連結：https://arxiv.org/abs/2406.16852
簡報：https://longva-demo.lmms-lab
簡報
. ://github.com/EvolvingLMMs-Lab/LongVA

作者團隊首次在多模態領域提出長上下文遷移（Long Context Transfer），這項技術使得多模態大模型（LMMs）能夠在不進行在長視頻訓練的情況下，處理和理解超長視頻。他們的新模型 LongVA 能夠處理 2000 幀或超過 20 萬個視覺 token, 在視訊理解榜單 Video-MME 上實現了 7B 規模的 SoTA。在最新的長影片 MLVU 名單上， LongVA 更是僅次於 GPT4-o 的最強模型！

LongVA 的作者總結了下面這張圖，可以看到，目前的多模態大模型在長視頻理解上還不盡如人意，能夠處理的幀數限制了長視頻的處理和理解。為了處理更多的幀，LLaMA-VID 等工作不得不急劇壓縮單張幀對應的 token 數量。

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

長上下文遷移

針對處理長視頻面臨的挑戰，研究團隊提出了 “長上下文遷移” 這一全新思路。他們認為，目前長視頻大模型的多幀瓶頸不在如如何從 Vision Encoder 抽取壓縮的特徵上面（下圖(a)），而在於擴展模型的長上下文能力上。

他們發現，透過簡單地擴展語言模型的在文字上的上下文長度，他們能成功地將這種能力傳遞到視覺模態上，而無需進行任何長視頻訓練。具體做法是，首先透過長文本資料訓練語言模型，然後利用短圖像資料進行模態對齊。他們發現在這樣訓練的模型在測試時就可以直接理解多幀的視頻，省去了長視頻訓練的必要性。

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

在長語言模型訓練過程中，作者團隊使用了 Qwen2-7B-Instruct 作為底座，並透過長上下文訓練將其文字上下文長度擴展到 224K。訓練過程中使用了 FlashAttention-2、Ring Attention、activation checkpoint 和 parameter offload 等多種最佳化策略，以提高訓練效率和記憶體使用率。 🎜

Dalam peringkat penjajaran modal, pengarang mereka bentuk skema pengekodan bersatu yang dipanggil "UniRes" untuk memproses imej dan video secara serentak. Skim UniRes adalah serupa dengan skema pengekodan AnyRes dalam LLaVA-1.6, tetapi bahagian imej asas dialih keluar, setiap grid adalah satu dimensi satu dimensi dan pengumpulan ciri 2x2 dilakukan dalam setiap grid. Pendekatan ini memastikan perwakilan yang konsisten dikekalkan apabila memanjangkan data imej kepada video.

LongVA mengguna pakai strategi "latihan konteks pendek, ujian konteks panjang", yang bermaksud model itu hanya menggunakan data teks imej untuk latihan dalam peringkat penjajaran modal, dan secara langsung menggunakan video panjang untuk pemprosesan dan ujian semasa ujian. Strategi ini secara berkesan menunjukkan fenomena pemindahan konteks panjang, membolehkan model memperoleh keupayaan untuk memahami dan memproses video panjang tanpa latihan video panjang.

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

Prestasi hebat LongVA

Pada masa ini tiada penanda aras untuk menilai panjang konteks visual LMM untuk video yang panjang. Untuk menyelesaikan masalah ini, pasukan LongVA melanjutkan ujian needle-in-a-stack daripada teks kepada visual dan mencadangkan penanda aras Visual Needle-In-A-Haystack (V-NIAH).

Dalam ujian V-NIAH, pasukan mereka bentuk 5 soalan soalan dan jawapan imej, memasukkan setiap soalan sebagai bingkai tunggal ke dalam beberapa jam filem dan mengambil sampel video pada kekerapan 1 bingkai/saat sebagai input visual. Imej "jarum" ini diperoleh daripada set data menjawab soalan visual sedia ada atau imej yang dijana AI untuk memastikan model itu tidak dapat menjawab soalan melalui pengetahuan bahasa sahaja. Setiap soalan mengandungi "petunjuk penyetempatan" yang membolehkan sistem atau manusia yang betul untuk mengesan bingkai "pin" daripada video dan menjawab soalan.

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

Keputusan ujian V-NIAH menunjukkan bahawa ujian visual needle-in-a-stock LongVA hampir betul dalam 2000 bingkai (144 token setiap bingkai), dan ia juga mengekalkan kadar ketepatan yang baik pada skala 3000 bingkai. Menariknya, sama dengan model bahasa, mereka mendapati bahawa LongVA juga mempunyai tahap tertentu fenomena Lost-In-The-Middle pada V-NIAH.

Dalam senarai Video-MME baru-baru ini yang dicadangkan oleh Tencent, Universiti Sains dan Teknologi China dan institusi lain, LongVA menduduki tempat ketujuh dan mencapai SoTA model 7B. /Https://video-mme.github.io/home_page.html#leaderboard

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

Dalam ujian penanda aras MLVU yang dilancarkan oleh Northern Post, Universiti Peking dan Universiti Zhejiang, LONGVA lebih lagi Ia adalah model sumber terbuka terkuat selepas GPT-4o. .

^{Untuk butiran lanjut, pembaca yang berminat boleh melihat kertas asal.}

以上是7B最強長影片模型！ LongVA影片理解超千幀，霸榜多個榜單的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

產業 LongVA

來源：jiqizhixin.com

上一篇：快手開源LivePortrait，GitHub 6.6K Star，實現表情姿態極速遷移下一篇：效率高，無標籤，Google團隊用AI挖掘臨床數據，改善基因發現與疾病預測，登Nature子刊

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

使用具有 3 級層次結構的自訂分類法選擇 woocommerce 相關產品我有一家woocommerce商店，其自訂分類為「運動」。此分類有三個等級-父級、子級、子級-例如：室內運動>競技場運動>籃球。如果使用者查看籃球項目，那麼我希望相關產...

來自於 2024-04-06 20:05:30

0

1

544

CSS 樣式未套用於網站我正在使用Bootstrap5製作網站，但index.css屬性未應用於index.html。當我將滑鼠懸停在服務卡上時，背景應該會發生變化，從而產生過渡效果。應該是從這個到這個。...

來自於 2024-04-06 17:12:23

0

1

336

解決Vue3 webcomponents生產建置問題我正在嘗試將我的vue2web元件遷移到vue3，儘管當我為生產建立建置時問題就出現了。我將vue-cli與--targetwc一起使用，它現在顯示一個錯誤，指出vue3Web元件...

來自於 2024-04-06 12:43:37

0

1

473

Symfony Redis 無法連線到 env 檔案中定義的主機，預設為 localhost 我們有一個新的Symfony設置，以Redis作為快取機制。我們想要連接到特定主機，而不是預設的本機。在生產環境中，./bin/consoledebug:dotenv給了正確的RE...

來自於 2024-04-06 10:53:02

0

1

375

使用vite建構React應用程式時遇到的Axios相關錯誤 Axios在生產環境中工作得完美，但在建立應用程式時出現了這個錯誤。 >react-app@0.0.0build>vitebuildvitev4.4.7正在為生產環境建...

來自於 2024-04-05 13:20:02

0

1

326

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422666
php入門教程之一週學會PHP

4267541
JAVA 初級入門影片教學

2530220
小甲魚零基礎入門學習Python影片教學

506998
PHP 零基礎入門教學

862164

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板