用AI短視頻'反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成-人工智慧-PHP中文網

用AI短視頻'反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

PHPz

發布： 2024-03-11 13:10:10

轉載

286 人瀏覽過

在影片理解這一領域，儘管多模態模型在短視頻分析上取得了突破性進展，展現出了較強的理解能力，但當它們面對電影級別的長影片時，卻顯得力不從心。因而，長影片的分析與理解，特別是對於長達數小時電影內容的理解，成為了當前的巨大挑戰。

模型在理解長影片方面的困難主要源自於長影片資料資源的不足，這些資源在品質和多樣性上有缺陷。此外，採集和標註這些數據需要大量的工作。

面對這樣的難題，騰訊和復旦大學的研究團隊提出了 MovieLLM，一個創新的 AI 生成框架。 MovieLLM 採用了創新性的方法，不僅可以產生高品質、多樣化的視訊數據，而且能自動產生大量與之相關的問答數據集，極大地豐富了數據的維度和深度，同時整個自動化的過程也極大地減少了人力的投入。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

論文網址：https://arxiv.org/abs/2403.01422
#主頁網址：https://deaddawn.github.io/MovieLLM/

這一重要的進展不僅提升了模型對複雜視訊敘事的理解水平，也增強了模型在處理長達數小時的電影內容時的分析能力。同時，它克服了現有資料集在稀缺性和偏見方面的限制，為對超長影片內容的理解提供了全新且有效的途徑。

MovieLLM巧妙地利用了GPT-4和擴散模型的強大生成能力，採用了"story expanding"的連續幀描述生成策略。透過"textual inversion"的方法來指導擴散模型產生與文字描述一致的場景影像，從而打造完整電影的連續畫面。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

方法概述

#MovieLLM將GPT-4和擴散模型結合，以提高大模型對長影片的理解。這種巧妙的結合產生了高品質、多樣性的長視訊資料和QA問答，有助於增強模型的生成能力。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

MovieLLM 主要包含三個階段：

##1. 電影情節生成。

MovieLLM 不依賴網路或現有資料集來產生情節，而是充分利用 GPT-4 的能力來產生合成資料。透過提供特定的元素，如主題、概述和風格，引導 GPT-4 產生針對後續生成過程量身定制的電影級關鍵影格描述。

2. 風格固定過程。

MovieLLM 巧妙地使用「textual inversion」技術，將劇本中產生的風格描述固定在擴散模型的潛在空間上。這種方法指導模型在保持統一美學的同時，產生具有固定風格的場景，並保持多樣性。

3. 影片指令資料產生。

在前兩步驟的基礎上，已經獲得了固定的風格嵌入和關鍵影格描述。基於這些，MovieLLM 利用風格嵌入指導擴散模型產生符合關鍵影格描述的關鍵影格並根據影片情節逐步產生各種指令性問答對。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

經過上述步驟，MovieLLM 就創造了高品質、風格多樣的、連貫的電影連續影格以及對應的問答對資料。電影資料種類的詳細分佈如下：

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成 #

实验结果

通过在 LLaMA-VID 这一专注于长视频理解的大模型上应用基于 MovieLLM 构造的数据进行微调，本文显著增强了模型处理各种长度视频内容的理解能力。而针对于长视频理解，当前并没有工作提出测试基准，因此本文还提出了一个测试长视频理解能力的基准。

虽然 MovieLLM 并没有特别地去构造短视频数据进行训练，但通过训练，仍然观察到了在各类短视频基准上的性能提升，结果如下：

在 MSVD-QA 与 MSRVTT-QA 这两个测试数据集上相较于 baseline 模型，有显著提升。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

在基于视频生成的性能基准上，在五个测评方面都获得了性能提升。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

在长视频理解方面，通过 MovieLLM 的训练，模型在概括、剧情以及时序三个方面的理解都有显著提升。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

此外，MovieLLM 相较于其他类似的可固定风格生成图片的方法，在生成质量上也有着较好的结果。

用AI短視頻反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

总之，MovieLLM 所提出的数据生成工作流程显著降低了为模型生产电影级视频数据的挑战难度，提高了生成内容的控制性和多样性。同时，MovieLLM 显著增强了多模态模型对于电影级长视频的理解能力，为其他领域采纳类似的数据生成方法提供了宝贵的参考。

对此研究感兴趣的读者可以阅读论文原文，了解更多研究内容。

以上是用AI短視頻'反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成的詳細內容。更多資訊請關注PHP中文網其他相關文章！

php8，我來也

30分鐘學會網站佈局

尚觀Oracle入門到精通視頻教程

你的第一行UNI-APP程式碼

Flutter 從頭到應用程式啟動

兄弟連新版Linux視頻教程

AXURE 9影片教學（適用於產品經理互動產品設計UI）

零基礎PS影片教學

16天帶你入門UI視頻教程

PS技巧和切片技巧影片教學

阿裡雲環境搭建以及項目上線視頻教程

電腦網路概述－程式設計師必須掌握的基礎知識

程式設計師必備教學——HTTP協定講解

Websocket影片教學

用AI短視頻'反哺”長視頻理解，騰訊MovieLLM框架瞄準電影級連續幀生成

方法概述

实验结果