AI早報 | 文字、圖像、影音、3D互相生成是什麼體驗？-人工智慧-PHP中文網

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

當地時間5月9日，Meta宣布開源了一種可以將可以橫跨6種不同模態的全新AI模型ImageBind，包括視覺（圖像和視頻形式）、溫度（紅外線圖像）、文字、音頻、深度資訊、運動讀數（由慣性測量單元或IMU產生）。目前，相關原始碼已託管至GitHub。

何為橫跨6種模態？

ImageBind以視覺為核心，能夠在6個模態之間自由理解和轉換。 Meta展示了一些案例，如聽到狗叫畫出一隻狗，同時給出對應的深度圖和文字描述；如輸入鳥的圖像海浪的聲音，得到鳥在海邊的圖像。

相比Midjourney、Stable Diffusion 和DALL-E 2 這樣將文字與圖像配對的圖像生成器，ImageBind 更像是廣撒網，可以連接文字、圖像/視訊、音訊、3D 測量（深度）、溫度資料（熱）和運動資料（來自IMU），而且它無需先針對每一種可能性進行訓練，直接預測資料之間的聯繫，類似於人類感知或想像環境的方式。

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

研究者表示 ImageBind 可以使用大規模視覺語言模型（如 CLIP）進行初始化，從而利用這些模型的豐富圖像和文字表示。因此，ImageBind 可以透過很少的訓練就適用於不同的模態和任務。

ImageBind 是 Meta 致力於創建多模態 AI 系統的一部分，從而實現從所有相關類型資料中學習。隨著模態數量的增加，ImageBind 為研究人員打開了嘗試開發全新整體性系統的閘門，例如結合 3D 和 IMU 感測器來設計或體驗身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式，即組合使用文字、視訊和圖像來搜尋圖像、視訊、音訊檔案或文字資訊。

該模型目前只是一個研究項目，沒有直接的消費者和實際應用，但是它展現了生成式AI 在未來能夠生成沉浸式、多感官內容的方式，也表明了Meta正在以與OpenAI、Google 等競爭對手不同的方式，趟出一條屬於開源大模型的路。

最終，Meta 認為ImageBind 這項技術最終會超越目前的六種“感官”，其在博客上說道，“雖然我們在當前的研究中探索了六種模式，但我們相信引入連接盡可能多的感官的新模式——如觸覺、語音、嗅覺和大腦fMRI 信號——將使更豐富的以人為中心的人工智慧模型成為可能。」

ImageBind的用途

如果說 ChatGPT 可以充當搜尋引擎、問答社區，Midjourney 可以被用來當畫畫工具，那麼用 ImageBind 可以做什麼？

根據官方發布的 Demo 顯示，它可以直接用圖片產生音訊：

也可以音訊產生圖片：

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？