社群學習工具庫休閒

繁体中文

首頁 > 硬體教學 > 硬體測評 > 谷歌發布' Vlogger ”模型：單張圖片生成 10 秒視頻

谷歌發布' Vlogger ”模型：單張圖片生成 10 秒視頻

WBOY

發布： 2024-03-21 12:21:38

轉載

1075 人瀏覽過

Google發布了一個新的視訊框架：

只需要一張你的頭像、一段演講錄音，就能得到一個本人栩栩如生的演講影片。

影片長度可變，目前看到的範例最高為 10s。

可以看到，無論是口型還是臉部表情，它都非常自然。

如果輸入影像囊括整個上半身，它也能配合豐富的手勢：

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

網友看完就表示：

有了它，以後咱開線上視訊會議再也不需要整理好髮型、穿好衣服再去了。

嗯，拍一張肖像，錄好演講音頻就可以（手動狗頭）

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

#用聲音控制肖像生成視頻

#這個框架名叫VLOGGER。

它主要基於擴散模型，並包含兩部分：

一個是隨機的人體到 3D 運動（human-to-3d-motion）擴散模型。

另一個是用於增強文字到圖像模型的新擴散架構。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

其中，前者負責將音訊波形作為輸入，產生人物的身體控制動作，包括眼神、表情和手勢、身體整體姿勢等等。

後者則是一個時間維度的圖像到圖像模型，用於擴展大型圖像擴散模型，使用剛剛預測的動作來產生相應的幀。

為了讓結果符合特定的人物形象，VLOGGER 也將參數影像的 pose 圖作為輸入。

VLOGGER 的訓練是在一個超大的資料集（名叫 MENTOR）上完成的。

有多大？全長 2200 小時，共包含 80 萬個人物影片。

其中，測試集的影片長度也有 120 小時長，共 4000 個人物。

Google介紹，VLOGGER 最突出的表現是具備多樣性：

如下圖所示，最後的像素圖顏色越深（紅）的部分，代表動作越豐富。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

而和業界先前的同類方法相比，VLOGGER 最大的優勢則體現在不需要對每個人進行訓練、也不依賴於臉部偵測和裁剪，並且生成的影片很完整（既包括臉部和唇部，也包括肢體動作）等等。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

具體來看，如下表所示：

Face Reenactment 方法無法用音訊和文字來控制此類視訊生成。

Audio-to-motion 倒是可以音訊生成，方式也是將音訊編碼為 3D 人臉動作，不過它生成的效果不夠逼真。

Lip sync 可以處理不同主題的視頻，但只能模擬嘴部動作。

對比起來，後面的兩種方法 SadTaker 和 Styletalk 表現最接近谷歌 VLOGGER，但也敗在了不能進行身體控制上，並且也不能進一步編輯視頻。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

說到影片編輯，如下圖所示，VLOGGER 模型的應用之一就是這個，它可以一鍵讓人物閉嘴、閉眼、只閉左眼或全程睜眼：

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

另一個應用程式則是影片翻譯：

例如將原始影片的英文講話改成口型一致的西班牙文。

網友吐槽

最後，" 老規矩 "，Google沒有發布模型，現在能看的只有更多效果還有論文。

嗯，吐槽也是不少的：

畫質模型、口型抽風對不上、看起來還是很機器人等等。

因此，有人毫不猶豫打上負評：

這就是Google的水準嗎？

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

有點對不起 "VLOGGER" 這個名字了。

谷歌发布“ Vlogger ”模型：单张图片生成 10 秒视频

——和 OpenAI 的 Sora 對比，網友的說法確實也不是沒有道理。。

大家覺得呢？

更多效果：

https://enriccorona.github.io/vlogger/

完整論文：

https://enriccorona.github .io/vlogger/paper.pdf

#

以上是谷歌發布' Vlogger ”模型：單張圖片生成 10 秒視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

Google 機器人翻譯效果英語美圖影片編輯

來源：myzaker.com

上一篇：華為連續三年登頂歐洲專利申請者排行超越三星和高通下一篇：瀾舟堅持四、兩撥千斤：ToB 場景落地，10B 參數大模型足礬

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

如何檢查座標是否在 PHP 中的邊界物件內？我有一些座標，我想檢查這些座標是否恰好在谷歌地圖範圍內（東北和西南）。範例：AvailableLat:40.712776AvailableLong:-74.005974我想知道上面...

來自於 2024-04-05 00:25:54

0

1

1401

嘗試了一切方法，但HTML內容仍未顯示基本上，html文檔的內容不會在瀏覽器上顯示任何內容。我製作的這個HTML文件是從另一個html文件連結的。當我在瀏覽器上開啟這個HTML檔案時，它是空白的，當其中有明確的程式碼時...

來自於 2024-04-04 19:16:15

0

1

3496

HTML標籤<a></a>和<a href=""></a>之間的差異是什麼？有些網站在其文本區域中使用[url]網站地址[/url]，並且無法在其中添加錨文本，有人可以向我解釋一下嗎？我對這個[url][/url]感到困惑。我知道html錨標記是如何工作的...

來自於 2024-04-02 22:46:16

0

2

403

當另一個按鈕已聚焦或有焦點內時，如何觸發按鈕的焦點內狀態？查看參考當選擇或點擊（按鈕）庫名稱時，我希望下一個非活動按鈕變為活動狀態（變成亮紅色）。我用谷歌搜尋並發現角度中有一個（模糊）和（焦點）事件

來自於 2024-04-02 16:49:31

0

1

336

如何使用 BeautifulSoup 抓取特定的Google天氣文字？如何使用BeautifulSoup在Python中找到課程文本“美國紐約市”？嘗試複製影片進行練習，但不再有效。嘗試在官方文件中找到一些內容，但沒有成功。或者我的get_html_...

來自於 2024-04-01 14:06:14

0

1

308

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1423127
php入門教程之一週學會PHP

4268569
JAVA 初級入門影片教學

2535343
小甲魚零基礎入門學習Python影片教學

507293
PHP 零基礎入門教學

862446

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板