IEEE Fellow 李學龍：多模態認知運算是實現通用人工智慧的關鍵-人工智慧-PHP中文網

在現今資料驅動的人工智慧研究中，單一模態資料所提供的資訊已經無法滿足提升機器認知能力的需求。與人類利用視覺、聽覺、嗅覺、觸覺等多種感官資訊來感知世界類似，機器也需要模擬人類聯覺來提升認知層次。

同時，隨著多模態時空資料的爆發和運算能力的提升，研究者已經提出了大量方法以應對日益增長的多樣化需求。但目前的多模態認知計算仍侷限於人類表觀能力的模仿，缺乏認知層面的理論基礎。面對更複雜的智慧任務，認知科學與計算科學的交叉已成必然。

近日，西北工業大學的李學龍教授在《中國科學：資訊科學》期刊上發表了《多模態認知運算》一文，以「信容」（Information Capacity ）為依據，建立了認知過程的訊息傳遞模型，提出了「多模態認知計算能夠提高機器的資訊提取能力」這一觀點，從理論上對多模態認知計算各項任務進行了統一。

李學龍認為，多模態認知運算是實現通用人工智慧的關鍵之一，在」臨地安防」（Vicinagearth Security）等領域有廣闊的應用前景。本文探討了人類和機器的統一認知模式，對推動多模態認知運算的研究帶來啟發。

IEEE Fellow 李學龍：多模態認知運算是實現通用人工智慧的關鍵

# 引用格式：Xuelong Li, “Multi-Modal Cognitive Computing,” SCIENTIA SINICA Informationis, DOI: 10.1360/SSI-2022- 0226

李學龍是西北工業大學教授，關注高維度資料的智慧獲取、處理和管理之間的關係，在「臨地安防」（Vicinagearth Security）等應用系統中發揮作用。 2011年入選IEEE Fellow，並為第一位當選國際人工智慧協會（AAAI）執委會的大陸學者。

AI 科技評論對《多模態認知計算》一文的要點作了概括，並沿該方向與李學龍教授進行了一次深入對話。

1 機器認知能力在於資訊利用率

#基於資訊理論，李學龍提出：多模態認知運算能夠提升機器的訊息提取能力，並從理論上對這一觀點進行了建模（如下）。

首先，我們要明白人類是怎麼提取事件資訊的。

1948 年，資訊理論創始人Shannon 提出「資訊熵」的概念來表示隨機變數的不確定程度，事件的機率越小，其發生所提供的資訊量越大。也就是說，在一個給定的認知任務T 中，事件x 的發生所帶來的資訊量與事件的機率p(x) 成反比：

IEEE Fellow 李學龍：多模態認知運算是實現通用人工智慧的關鍵

而訊息是以各種模態為載體進行傳輸的，假設事件空間X 為感知模態（m）、空間（s）、時間（t）上的張量，那麼個體從事件空間中所獲得的資訊量可定義為：

IEEE Fellow 李學龍：多模態認知運算是實現通用人工智慧的關鍵

人類在某一時空範圍內的是注意力有限的（假設為1），所以當時空事件從單模態轉變為多模態時，人類就不需要不斷調整注意力，將關注點放在未知事件資訊上，以獲取最大量的資訊：

IEEE Fellow 李學龍：多模態認知運算是實現通用人工智慧的關鍵

#由此可知，當時空事件包含的模態越多，個體所獲得的資訊量也就越大，認知程度也隨之更高。

那麼對於機器而言，是否所獲得的資訊量越大，機器就越接近人類的認知程度？

答案是並非如此。為了度量機器的認知能力，李學龍在「信容」理論的基礎上，將機器從事件空間中提取資訊的過程表示如下。其中，D 為事件空間 x 的資料量。

IEEE Fellow 李學龍：多模態認知運算是實現通用人工智慧的關鍵

由此，機器的認知能力即可定義為從單位資料取得最大資訊量的能力，這樣一來，人類與機器的認知學習便統一為提高資訊利用率的過程。

那麼，如何提升機器對多模態資料的利用率進而提升多模態認知運算能力呢？

正如人類的認知提升離不開對現實世界的聯想、推理、歸納與演繹，要提升機器認知能力，也需從對應的三方面切入：關聯、生成、協同，這也是現今多模態分析的三個基本任務。

2 多模態認知計算的三條主線

多模態關聯、跨模態產生和多模態協同三個任務處理多模態資料的重點不同，但其核心都是要利用盡可能少的資料來實現資訊量的最大化。

多模態關聯

#源自不同模態的內容如何在空間、時間和語意層級上關聯對應起來？這是多模態關聯任務的目標，也是提高資訊利用率的前提。

多模態資訊在空間、時間和語意層面的對齊是跨模態感知的基礎，多模態檢索則是感知在實際生活中的應用，例如依靠多媒體搜尋技術，我們可以輸入詞彙短語來檢索影片片段。

IEEE Fellow 李學龍：多模態認知運算是實現通用人工智慧的關鍵

#圖示：多模態對齊示意圖

受人類跨感官感知機制的啟發，AI 研究者已經將可計算模型用於唇讀、缺失模態生成等跨模態感知任務當中，

也進一步輔助身心障礙群體的跨模態感知。而在將來，跨模態感知的主要應用場景將不再局限於殘障人士的感知替代應用上，而是將更多的同人類的跨感官感知相結合，提升人類多感官感知水平。

如今，數位模態內容快速成長，跨模態檢索的應用需求也愈加豐富，這無疑為多模態關聯學習提出了新的機會與挑戰。

跨模態生成

#我們在閱讀一段小說情節時，腦海中會自然浮現對應的畫面，這是人類跨模態推理和生成能力的體現。

與之類似，在多模態認知運算中，跨模態生成任務的目標是賦予機器產生未知模態實體的能力。從資訊理論的角度來看，這項任務的本質就成了在多模態資訊通道內提高機器認知能力的問題，這有兩種途徑：一是提高資訊量即跨模態合成，二是減少資料量即跨模態轉換。

跨模態合成任務是在產生新模態實體時對現有資訊進行豐富，從而增加資訊量。以基於文字生成圖像為例，早期主要採用實體關聯的方式，對檢索庫的依賴程度往往很高。如今，影像生成技術以生成對抗網路為主，已能夠生成逼真的高品質影像。但人臉影像生成仍然十分具有挑戰性，因為從訊息層次上看，即使是微小的表情變化，也有可能傳達出非常大的訊息量。

同時，將複雜模態轉換到簡單模態，尋找更簡潔的表達形式，則可以降低資料量，提升資訊獲取能力。

IEEE Fellow 李學龍：多模態認知運算是實現通用人工智慧的關鍵

圖註：常見的跨模態轉換任務

#作為電腦視覺和自然語言處理兩大技術結合的典範，跨模態轉換可以大大提升線上檢索效率。例如對一段冗長的影片給予簡要的自然語言描述，或是給一段影片訊息產生與之相關的音訊訊號燈。

目前主流的兩種生成式模型VAE（變分自編碼器）和GAN （生成對抗網路）各有長短，李學龍認為，VAE 依賴假設條件，而GAN 可解釋性差，二者需合理結合。尤其重要的一點是，多模態生成任務的挑戰不僅在於生成品質方面，更多在於不同模態之間的語義及表示鴻溝問題，如何在具有語義鴻溝的前提下進行知識推理是未來需要解決的難點。

多模態協同

#在人類認知機制中，歸納和演繹扮演著重要角色，我們可以對看到的、聽到的、聞到的、摸到的等多模態感知進行歸納融合、聯合演繹，以此來作為決策依據。

同樣地，多模態認知運算也要求協調兩個或兩個以上的模態數據，互相配合完成更複雜的多模態任務，並提升精度和泛化能力。從資訊理論的角度來看，它的本質是多模態訊息之間的相互融合以達到資訊互補的目的，是對注意力的最佳化。

首先，模態融合是為了解決資料格式、時空對齊、雜訊幹擾等所帶來的多模態資料的差異問題。目前，機會規則的融合方式包括串列融合、平行融合和加權融合，基於學習的融合方式則包括注意力機制模型、遷移學習和知識蒸餾。

其次，多模態資訊融合完成後就需要對模態資訊進行聯合學習，以幫助模型挖掘模態資料間的關係，建立起模態與模態間的輔助或互補聯繫。

透過共同學習，一方面能夠提升模態性能，如視覺指導音訊、音訊指導視覺、深度指導視覺等應用；另一方面可以解決以往單模態難以實現的任務，如複雜情緒運算、音訊匹配人臉建模、視聽覺指導音樂生成等都是未來多模態認知運算的發展方向。

3 機會與挑戰

#近年來，深度學習技術已大大推動了多模態認知運算在理論與工程上的發展。但如今應用需求愈加多元化，資料迭代速度也正在加快，這為多模態認知運算提出了新的挑戰，也帶來了許多機會。

我們可以從提昇機器認知能力的四個層面來看：

在資料層面，傳統的多模態研究將資料的收集和計算分離為兩個獨立過程，這種方式有弊端。人類世界由連續類比訊號構成，而機器處理的是離散數位訊號，其轉換過程必然造成資訊變形與遺失。

對此，李學龍認為，以光神經網路為代表的智慧光電能夠帶來解決思路，如果能完成多模態資料的感算一體，機器的資訊處理效率和智慧水平將大大提高。

在資訊層面，認知運算的關鍵是對訊息中高階語意的處理，例如視覺中的位置關係、圖像的風格、音樂的情感等。目前多模態任務侷限於簡單目標和場景下的交互，而無法理解深層的邏輯語意學或主觀語意學。例如，機器可以產生一朵花開在草地上的圖像，但無法理解花草在冬天凋謝的常識。

所以，建構不同模態下複雜邏輯和感受語意訊息的溝通橋樑，建立特色的機器度量體係是未來多模態認知運算的一大趨勢。

在融合機制層面，如何對由異質元件組成的多模態模型進行高品質最佳化是目前的一個難點。目前的多模態認知計算大多是在統一的學習目標下對模型進行最佳化，這種最佳化策略缺乏對模型內部異質組成部分的針對性調整，導致現有的多模態模型存在較大的欠最佳化問題，需要從多模態機器學習與最佳化理論方法等多方面切入。

在任務層面，機器的認知學習方式隨任務而不同，我們需要設計任務回饋的學習策略，提升多種相關任務的解決能力。

另外，針對當前機器學習從圖像、文字等資料中理解世界這種「旁觀式」學習方式的弊端，我們可以藉鏡認知科學的研究成果，如具身智能（Embodied AI）就是一個有潛力的解決方案：智能體需要與環境進行多模態交互，才能不斷進化形成解決複雜任務的能力。

4 對話李學龍

#AI 科技評論：在人工智慧研究中，我們為什麼要關注多模態數據和多模態認知計算？多模態資料的成長為模型的效能帶來了什麼好處和阻礙？

李學龍：謝謝您的問題。我們之所以關注和研究多模態數據，一方面是由於人工智慧本質上是依賴數據的，單一模態數據能提供的資訊總是非常有限的，而多模態數據在同一任務下可以提供更多層次、多視角的資訊；另一方面則是因為客觀的物理世界就是多模態的，很多實際問題的研究離不開多模態數據，例如以文搜圖，聽音識物等等。

我們從認知運算的角度來分析多模態問題，是從人工智慧的本質出發，透過建構可模擬人類認知模式的多模態分析系統，希望機器像人類一樣聰明地感知周遭環境。

複雜交錯的多模態資訊也會帶來大量雜訊和冗餘，增加模型學習壓力，使得某些情況下多模態資料的效能反而不如單一模態，這為模型的設計和最佳化提出了更大的挑戰。

AI 科技評論：從資訊理論的角度來看，人類的認知學習與機器的認知學習有何相似之處？關於人類認知機制的研究對於多模態認知運算有怎樣的指導意義？如果缺乏對人類認知的了解，多模態認知運算將面臨哪些困難？

李學龍：亞里斯多德認為人對事物的認識是從感覺開始的，而柏拉圖則認為透過感覺得出的不能稱為知識。

人類從出生開始就接受大量的外界訊息，透過感知、記憶、推理等逐步建立自我認知系統，而機器的學習能力是透過對大量資料的訓練來實現的，主要是在尋找感知和人類知識之間的對應關係。根據柏拉圖的觀點，機器學到的還不是知識。我們在文中引用了「信容」（Information Capacity）的理論，試著從資訊擷取能力入手，去建立人和機器之間的認知連結。

人類透過視、聽、嗅、味、觸等多種感知通道將多模態訊息傳送至大腦，對大腦皮質產生聯合刺激。心理學研究發現，多種感官聯合作用會產生「多感官整合」、「聯覺」（Synaesthesia）、「知覺重組」、「知覺記憶」等認知學習模式，這些人類認知機制為多模態認知計算帶來了重大的啟發，例如派生出了多模態協同、多模態關聯、跨模態生成等典型多模態分析任務，同時也催生了局部共享、長短時記憶、注意力機制等典型機器分析機制。

目前來說，人的認知機制其實並不明確。缺乏人類認知研究的指導，多模態認知計算會陷入數據擬合的陷阱，我們也無法判斷模型是否學到了人類需要的知識，這也是人工智慧目前飽受爭議的一點。

AI 科技評論：您從資訊理論角度提出的「多模態認知運算能夠提高機器的資訊擷取能力」這一觀點，在具體的多模態認知計算任務中有何證據支持？

李學龍：這個問題可以從兩個面向來回答。第一，多模態資訊可以提升單一模態在不同任務中的表現。大量的工作已經驗證了，在加入聲音訊息時，電腦視覺演算法的表現會顯著提升，像是目標辨識、場景理解等。我們也做過一個環境相機，發現透過融合溫度、濕度等感測器的多模態訊息，可以提升相機的成像品質。

第二，多模態資訊的聯合建模為實現更複雜的智慧任務提供了可能，例如，我們曾做過「Listen to the Image」的工作，將視覺訊息編碼為聲音，讓盲人「看到」眼前的景象，這也證明了多模態認知運算幫助機器提取更多的資訊。

AI 科技評論：在多模態關聯任務中，對齊、感知與檢索三者之間有什麼樣的相互聯繫?

李學龍：這三者的關係本質上來講是相對比較複雜的，在本篇文章中，我只給了一些自己的初步看法。不同模態資訊產生關聯的前提是它們在共同描述同一個/相似的客觀存在，但是這種關聯關係卻在外界資訊冗餘或乾擾時存在較難確定的問題，這就需要進行首先對齊不同模態的訊息，確定關聯對應關係。進而在對齊基礎上，實現從一個模態到另一個模態的感知。

這就好比當我們只看到一個人的唇部運動，能彷彿聽到他說的內容。而這種現象的產生也是建立在視素（Viseme）和音素（Phoneme）關聯對齊的基礎上。在實際生活中，我們也將這種跨模態的感知進一步運用到了諸如檢索這樣的應用中，透過文字檢索商品的圖片或影片內容，實現可計算的多模態關聯應用。

AI 科技評論：最近非常流行的DALL-E 等模型是跨模態生成任務的一個例子，它們在文字生成圖像任務中表現出色，但其生成影像的語意相關性、可解釋性等仍存在很大限制。您認為該如何解決這個問題？難點在哪？

李學龍：從文字生成圖像是一個「想像」的任務，人們看到或聽到一句話，理解其中的語意訊息，然後依託大腦記憶想像出最符合的場景，產生「畫面感」。目前，DALL-E 還處於利用統計學習進行資料擬合的階段，對大規模資料集進行歸納和總結，這也是目前深度學習最擅長的。

但是，如果真正要學習人的“想像力”，還需要考慮人類的認知模式，達到“高水平”的智能。這就需要神經科學、心理學、資訊科學的交叉融合，是挑戰也是機遇，近年來很多團隊也在這方面做了頂尖的工作。透過多學科的交叉融合，探索人類認知模式的可計算性理論，也是我們團隊努力的方向之一，相信也將為「高水準」的智慧帶來新的突破。

AI 科技評論：在您的研究工作中，您是如何從認知科學中汲取靈感的？您尤其關注認知科學中的哪些研究？

李學龍：問渠那得清如許？為有源頭活水來。我常從日常生活中觀察和思考一些有趣的現象。

在20年前，我瀏覽到一個網頁，上面是江南山水圖片，當我再點開網頁上的音樂以後，突然有一種身臨其境的感覺，這時候我就開始從認知的角度思考聽覺和視覺的關係。在學習認知科學的過程中，我了解到「聯覺」（Synaesthesia）這種現象，結合我自己的科學研究方向，完成了一篇題為「Visual Music and Musical Vision」的文章，這也是第一次將「聯覺」引入訊息領域。

後來，我開設了資訊領域第一門認知計算課程，也創建了IEEE SMC的認知計算技術委員會，嘗試打破認知科學和計算科學的邊界，當時也為認知計算下了定義，也就是目前技術委員會主頁上的描述。 2002年，我提出了單位資料量的資訊量提供能力，也就是「信容」（Information Capacity）的概念，嘗試對機器的認知能力進行度量，也很榮幸地在2020年以「多模態認知計算」為題獲得了騰訊科學探索獎。

到現在，我也持續關注著聯覺和知覺方面的最新進展。在自然界中，也存在著許多人類五感之外的模態，甚至也存在著目前尚不清楚的潛在模態，例如量子糾纏就可能說明了我們所處的三維空間只是高維空間的投影，如果確實是這樣，那我們的探測手段也是侷限的。或許可以挖掘利用這些潛在模態，讓機器接近甚至超越人的感知能力。

AI 科技評論：在如何將人類認知與人工智慧更好結合的問題上，您提出建構以「元模態」（Meta- Modal）為核心的模態交互網絡，能否介紹一下此觀點？其理論基礎為何？

李學龍：後設模態本身就是源自認知神經科學領域的概念，它是指大腦具備這樣一類組織，它在執行某種功能或表徵操作時，對輸入資訊的感官類別不作具體假設，但仍能具備較好的執行表現。

元模態並非是一類突發奇想的概念，它本質上是認知科學家對跨模態感知、神經元可塑性等現象和機理整合後的假設與猜想。它也啟發我們建構不同模態間的高效學習架構與方法，實現更泛化的模態表徵能力。

AI 科技評論：多模態認知運算在真實世界主要有哪些應用？舉例說明。

李學龍：多模態認知運算是一項非常貼近實際應用的研究。我們團隊之前有一項跨模態感知的工作，把視覺訊息編碼成聲音訊號，刺激大腦皮質的初級視皮質，已經在助殘助障中開展了應用，幫助盲人看到外界事物。在日常生活中，我們也會常用到多模態認知運算的技術，例如短視訊平台就會綜合語音、圖像和文字標籤，去為使用者推薦可能感興趣的影片。

更廣泛地，多模態認知運算在文章提到的臨地安防中也有廣泛的應用，例如智慧搜救，無人機和地面機器人採集到聲音、影像、溫度、濕度等各種數據，需要從認知的角度整合這些數據分析，並根據現場情況執行不同的搜救策略。類似的應用還有很多，像是智慧巡檢、跨域遙感等等。

AI 科技評論：您在文章中提到，目前多模態任務都局限於簡單目標和場景下的交互，一旦涉及到更為深層的邏輯語意或主觀語意就舉步維艱。那麼，這是否是符號主義人工智慧復興的一個契機？在提升機器處理高階語意資訊的能力方面，還有哪些可行方案？

李學龍：羅素認為，知識的大部分價值在於它的不確定性。知識的學習是需要有溫度的，是能夠和外界互動與回饋的。目前我們所看到的研究大多屬於單模態的、被動的、針對給定資料的研究，可以滿足一些簡單目標和場景下的研究需求。但對於更為深層的邏輯語意或主觀語意，需要對時空多維度下的、更多模態支持的、可主動交互的情境予以充分地探索和挖掘。

為了實現這一目標，研究手段與方式方法可能可以更多地借鑒認知科學，例如，一些研究者將認知科學中的「具身體驗」假說引進到人工智慧領域，探究機器在同外界主動互動、多種模態資訊輸入情境下新的學習問題與任務，並得到了一些可喜的結果。這也展現出多模態認知運算在連結人工智慧與認知科學的連結作用與正向意義。

AI 科技評論：智慧光電也是您的研究方向之一，您在文章中提到，智慧光電能夠為資訊的數位化帶來探索性的解決思路。在多模態資料的感知和計算方面，智慧光電能夠做哪些工作？

李學龍：光訊號和電訊號是人們認識世界的主要方式，人類每天接收訊息的大部分來自於視覺，再深入一步，視覺訊息主要來自於光。人類視聽嗅味觸的五種感官也是將光線、聲波、壓力、氣味、刺激等不同感覺轉化為電訊號進行高層次認知。所以光電是人類感知世界的主要資訊來源。近年來，借助各種先進的光電設備，我們感知到了可見光和可聞聲波以外的更多資訊。

可以說光電設備是人類感知世界的最前端。我們從事的智慧光電研究，致力於探索光電感知硬體與智慧演算法的一體化，將物理先驗引入演算法設計過程，利用演算法結果指導硬體設計，形成“感”和“算”的互相回饋，拓展感知邊界，達到模仿甚至超越人的多模態感知的目的。

AI 科技評論：在多模態認知運算方向，您目前在做哪些研究工作？您未來的研究目標是什麼？

李學龍：感謝提問。我目前主要關注臨地安防（Vicinagearth Security）中的多模態認知計算。傳統意義上的安防通常是指城市安防。在當下，人類的活動空間已經擴展到了低空、地面和水下，我們需要去建立臨地空間中的立體化安全防衛體系，來執行跨域探測、自主無人系統等一系列實際任務。

臨地安防面臨的一個很大的問題，是如何智慧化地處理不同感測器產生的大量多模態數據，例如讓機器從人的角度去理解無人機和地面監控設備同時觀測到的目標。這就牽涉到多模態認知計算，以及多模態認知計算與智慧光電的結合。

在未來，我會持續研究多模態認知計算在臨地安防中的應用，希望能夠打通資料獲取和處理之間的聯繫，合理利用「正向激勵噪音」（Pi-Noise），建立以多模態認知運算與智慧光電為支撐的臨地安防體系。

以上是IEEE Fellow 李學龍：多模態認知運算是實現通用人工智慧的關鍵的詳細內容。更多資訊請關注PHP中文網其他相關文章！