LeCun領導下的Meta AI，押注自監督-人工智慧-PHP中文網

自監督學習真的是通往 AGI 的關鍵一步？

Meta 的 AI 首席科學家 Yann LeCun 在談到「此時此刻要採取的具體措施」時，也沒有忘記遠期的目標。他在一次採訪時說：「我們想要建造像動物和人類一樣學習的智慧機器。」

近年來，Meta 發表了一系列關於 AI 系統自監督學習（SSL）的論文。 LeCun 堅定地認為，SSL 是 AI 系統的必要前提，它可以幫助 AI 系統建立世界模型，以獲得類似人類的能力，如理性、常識，以及將技能和知識從一個環境遷移到另一個環境的能力。

他們的新論文展示了一種被稱為掩蔽自編碼器（MAE）的自監督系統如何學會從非常零散、不完整的數據中重建圖像、視頻甚至音頻。雖然 MAE 並不是一個新的想法，但 Meta 已經將這項工作擴展到了新的領域。

LeCun 說，透過研究如何預測丟失的數據，無論是靜態圖像還是視訊或音訊序列，MAE 系統都是在建立世界模型。他說：「如果它能預測影片中即將發生的事情，它必須明白世界是三維的，有些物體是無生命的，它們自己不會移動，其他物體是有生命的，很難預測，一直到預測有生命的人的複雜行為。」一旦AI 系統有了一個精確的世界模型，它就可以使用這個模型來規劃行動。

LeCun 說，「智慧的本質是學會預測。」雖然他並沒有聲稱 Meta 的 MAE 系統接近通用人工智慧，但他認為這是通往通用人工智慧的重要一步。

但並非所有人都同意 Meta 的研究人員走在通往通用人工智慧的正確道路上。 Yoshua Bengio 有時會與 LeCun 就 AI 領域的重大想法進行友好的辯論。在給 IEEE Spectrum 的一封電子郵件中，Bengio 闡述了他們在目標上的一些不同和相似之處。

Bengio 寫道：「我真的不認為我們目前的方法（無論是不是自監督）足以彌合人工與人類智慧水平的差距。」他說，該領域需要取得「質的進步」，才能真正推動科技向人類規模的人工智慧靠攏。

對於LeCun 的「對世界的推理能力是智慧的核心要素」這一觀點，Bengio 表示贊同，但他的團隊並沒有把重點放在能夠預測的模型上，而是放在了能夠以自然語言的形式呈現知識的模型上。他指出，這樣的模型將允許我們將這些知識片段結合起來，以解決新問題，進行反事實模擬，或研究可能的未來。 Bengio 的團隊開發了一種新的神經網路框架，它比致力於端到端學習的 LeCun 所青睞的框架更具模組化的性質。

大火的 Transformer

Meta 的 MAE 建立在一個名為 Transformer 的神經網路架構基礎上。這種架構最初在自然語言處理領域走紅，之後擴展到電腦視覺等多個領域。

當然，Meta 並不是第一個成功將 Transformer 用到視覺任務中的團隊。 Meta AI 的研究者 Ross Girshick 介紹說，Google在視覺 Transformer（ViT）上的研究啟發了 Meta 的團隊，「ViT 架構的採用幫助（我們）消除了試驗過程中遇到的一些障礙」。

Girshick 是Meta 第一篇MAE 系統論文的作者之一，這篇論文的一作是何愷明，他們論述了一種非常簡單的方法：掩蔽輸入圖像的隨機區塊並重建丟失的像素。

LeCun領導下的Meta AI，押注自監督

這種模型的訓練類似於BERT 以及其他一些基於Transformer 的語言模型，研究人員會向它們展示巨大的文字資料庫，但有些字是缺少的，或者說被「掩蔽」了。模型需要自己預測缺失的詞，然後被遮蔽的詞會被揭開，這樣模型就能檢查自己的工作並更新自己的參數。這過程會一直重複下去。 Girshick 解釋說，為了在視覺上做類似的事情，研究小組將影像分解成 patch，然後遮蔽一些 patch 並要求 MAE 系統預測影像缺失的部分。

該團隊的突破之一是意識到，掩蔽大部分圖像會獲得最好的結果，這與語言 transformer 有著關鍵區別，後者可能只會掩蔽 15% 的單字。「語言是一種極其密集和高效的交流系統，每個符號都包含很多含義，」Girshick 說，「但是圖像——這些來自自然世界的信號——並不是為了消除冗餘而構建的。所以我們才能在創建JPG 圖像時很好地壓縮內容。」

LeCun領導下的Meta AI，押注自監督

Meta AI 的研究人員試驗需要遮蔽多少影像才能獲得最佳效果。

Girshick 解釋說，透過遮蔽影像中超過 75% 的 patch，他們消除了影像中的冗餘，否則會使任務變得過於瑣碎，不適合訓練。他們那個由兩部分組成的 MAE 系統首先使用一個編碼器，透過訓練資料集學習像素之間的關係，然後一個解碼器盡最大努力從掩蔽影像中重建原始影像。在此訓練方案完成後，編碼器還可以進行微調，用於分類和目標偵測等視覺任務。

Girshick 說，「最終讓我們興奮的點在於，我們看到了這個模型在下游任務中的結果。」當使用編碼器完成目標識別等任務時，「我們看到的收益非常可觀。」他指出，繼續增大模型可以獲得更好的性能，這對未來的模型來說是一個有潛力的方向，因為SSL「具有使用大量數據而不需要手動註釋的潛力」。

全力以赴地學習海量的未經篩選的資料集可能是 Meta 提高 SSL 結果的策略，但也是一個越來越有爭議的方法。 Timnit Gebru 等人工智慧倫理研究人員已經呼籲大家注意大型語言模式學習的未經整理的資料集固有的偏見，這些偏見有時會導致災難性的結果。

視訊和音訊的自監督學習

在視訊MAE 系統中，掩蔽物遮蔽了每個視訊幀的95%，因為幀之間的相似性意味著視訊訊號比靜態圖像有更多的冗餘。 Meta 研究人員 Christoph Feichtenhofer 說，就視訊而言，MAE 方法的一大優勢是視訊通常需要大量計算，而 MAE 通過屏蔽每幀高達 95% 的內容，減少了高達 95% 的計算成本。

這些實驗中使用的影片片段只有幾秒鐘，但 Feichtenhofer 表示，用較長的影片訓練人工智慧系統是一個非常活躍的研究主題。想像一下，你有一個虛擬助理，他有你家的視頻，可以告訴你一個小時之前你把鑰匙放在哪裡了。

更直接地說，我們可以想像圖像和視訊系統對Facebook 和Instagram 上的內容審核所需的分類任務都很有用，Feichtenhofer 說，「integrity」是一種可能的應用，「我們正在與產品團隊溝通，但這是非常新的，我們還沒有任何具體的項目。」

對於音訊MAE 工作，Meta AI 的團隊表示他們將很快將研究成果發佈在arXiv 上。他們發現了一個巧妙的方法來應用掩蔽技術。他們將聲音檔案轉換為聲譜圖，即訊號中頻率頻譜的視覺表徵，然後將部分影像遮蔽起來進行訓練。重建的音訊令人印象深刻，儘管該模型目前只能處理幾秒鐘的片段。

該音訊系統的研究人員Bernie Huang 說，這項研究的潛在應用包括分類任務，透過填充資料包被drop 時遺失的音訊來輔助基於IP 的語音傳輸（VoIP），或找到更有效的壓縮音訊檔案的方法。

Meta 一直在進行開源 AI 的研究，如這些 MAE 模型，也為人工智慧社群提供了一個預先訓練的大型語言模型。但批評人士指出，儘管在研究方面如此開放，但 Meta 還沒有把它的核心商業演算法開放出來供大家研究，也就是那些控制新聞推播、推薦和廣告植入的演算法。

以上是LeCun領導下的Meta AI，押注自監督的詳細內容。更多資訊請關注PHP中文網其他相關文章！