IEEE フェロー Li Xuelong: マルチモーダルコグニティブコンピューティングが汎用人工知能実現の鍵となる-AI-php.cn

今日のデータ駆動型人工知能研究では、単一モーダルデータによって提供される情報では、機械の認知機能を向上させるニーズを満たすことができなくなりました。人間が世界を認識するために視覚、聴覚、嗅覚、触覚などの複数の感覚情報を使用するのと同様に、機械も認知レベルを向上させるために人間の共感覚をシミュレートする必要があります。

同時に、マルチモーダル時空間データの爆発的な増加とコンピューティング能力の向上に伴い、研究者は、増大する多様なニーズに対応するための多数の方法を提案してきました。。しかし、現在のマルチモーダルコグニティブコンピューティングは依然として人間の見かけの能力を模倣することに限定されており、認知レベルでの理論的基盤が不足しています。より複雑なインテリジェントなタスクに直面すると、認知科学とコンピューティング科学の交差点が避けられなくなりました。

最近、ノースウェスタン理工大学の Li Xuelong 教授は、「情報能力」をテーマとした論文「マルチモーダルコグニティブコンピューティング」をジャーナル「サイエンス中国: 情報科学」に発表しました。これに基づいて、認知プロセスの情報伝達モデルを確立し、「マルチモーダルコグニティブコンピューティングはマシンの情報抽出能力を向上させることができる」という見解を提唱し、マルチモーダル認知の計算タスクを理論的に研究しました。

Li Xuelong 氏は、

マルチモーダルコグニティブコンピューティングは一般的な人工知能を実現するための鍵の 1 つであり、「Vicinagearth Security」の見通しなどの分野で幅広い用途があると考えています。この記事では、人間と機械の統合認知モデルを探求し、マルチモーダルコグニティブコンピューティングの研究にインスピレーションを与えます。

IEEE フェロー Li Xuelong: マルチモーダルコグニティブコンピューティングが汎用人工知能実現の鍵となる

引用形式: Xuelong Li、「マルチモーダルコグニティブコンピューティング」、SCIENTIA SINICA Informationis、DOI: 10.1360/SSI-2022- 0226

Li Xuelong は、ノースウェスタン工科大学の教授です。彼は、高次元データのインテリジェントな取得、処理、管理の関係に焦点を当てています。彼は、「Vicinagearth Security」に取り組んでいます。」などのプロジェクトでアプリケーションシステムの役割を果たします。彼は 2011 年に IEEE フェローに選出され、本土の学者として初めて国際人工知能協会 (AAAI) の執行委員に選出されました。

AI Technology Review は、「マルチモーダルコグニティブコンピューティング」という記事の重要なポイントを要約し、この方向に沿って Li Xuelong 教授と詳細な対話を実施しました。

マシンの認知能力は情報活用にあります

情報理論に基づいて、Li Xuelong は次のように提案しました: マルチモーダルコグニティブコンピューティングはマシンの情報を向上させることができます。抽出され、この視点は理論的にモデル化されます (下記)。

まず、人間がイベント情報を抽出する方法を理解する必要があります。

1948 年、情報理論の創始者であるシャノンは、確率変数の不確実性の度合いを表す「情報エントロピー」という概念を提案しました。その発生によって提供される情報量が大きくなる。つまり、与えられた認知タスク T において、イベント x の発生によってもたらされる情報の量は、イベント p(x) の確率に反比例します。

IEEE フェロー Li Xuelong: マルチモーダルコグニティブコンピューティングが汎用人工知能実現の鍵となるそして、情報はさまざまなモダリティをキャリアとして伝達されますが、イベント空間を想定すると、イベント空間で得られる情報量は次のように定義できます。

##人間の注意力は、特定の時間と空間の範囲 (1 と仮定) 内に限定されているため、時空イベントが単一モダリティからマルチモダリティに変化する場合、人間は常に注意を調整する必要はありません。

IEEE フェロー Li Xuelong: マルチモーダルコグニティブコンピューティングが汎用人工知能実現の鍵となる

これから、時空間イベントのモダリティが増えるほど、未知のイベント情報に焦点を当てることができます。含まれているほど、個人が取得できる情報量が多くなり、認知レベルが高くなります。

では、機械にとって、取得する情報量が増えれば増えるほど、機械は人間の認知レベルに近づくのでしょうか?

#答えはそうではありません。 Li Xuelong は、マシンの認知能力を測定するために、「自信」理論に基づいて、マシンがイベント空間から情報を抽出するプロセスを次のように表現しました。このうちDはイベント空間xのデータ量です。

IEEE フェロー Li Xuelong: マルチモーダルコグニティブコンピューティングが汎用人工知能実現の鍵となる

したがって、マシンの認知能力は、データ単位から最大量の情報を取得する能力として定義できます。つまり、人間と機械の認知学習は、情報活用を改善するプロセスに統合されています。

#それでは、マシンによるマルチモーダルデータの利用を改善し、それによってマルチモーダルコグニティブコンピューティング機能を向上させるにはどうすればよいでしょうか?

人間の認知能力の向上が現実世界の連想、推論、帰納、演繹と切り離せないのと同じように、機械の認知能力を向上させたい場合も、まず始めなければなりません。対応する 3 つの側面から:

関連、生成、コラボレーション、これらは、今日のマルチモーダル分析の 3 つの基本タスクでもあります。

マルチモーダルコグニティブコンピューティングの 3 つの主要なライン

マルチモーダル関連付け、クロスモーダル生成、およびマルチモーダルコラボレーションの 3 つの主要なラインタスクの焦点マルチモーダルデータの処理は異なりますが、中心となるのは、できる限り少ないデータを使用して情報量を最大化することです。

マルチモーダル関連

さまざまなモダリティから発信されたコンテンツが空間、時間、および空間的にどのように関連しているか意味レベルでの対応？これがマルチモーダル関連付けタスクの目標であり、情報利用を向上させるための前提条件です。

空間的、時間的、意味論的レベルでのマルチモーダル情報の調整はクロスモーダル知覚の基礎であり、マルチモーダル検索は知覚を応用したものです。たとえば、実生活では、マルチメディア検索テクノロジーを利用して、語彙フレーズを入力してビデオクリップを取得できます。

IEEE フェロー Li Xuelong: マルチモーダルコグニティブコンピューティングが汎用人工知能実現の鍵となる #注: マルチモーダル配置図

人間の感覚横断的知覚メカニズムに触発され、AI 研究者は読唇術や欠落モダリティ生成などのクロスモーダル知覚タスクに計算可能なモデルを使用してきました。 # また、障害者グループに対するクロスモーダルな認識をさらに支援します。将来的には、クロスモーダル知覚の主な応用シナリオは、障害者の知覚代替アプリケーションに限定されなくなり、人間の多感覚知覚のレベルを向上させるために、人間の感覚横断的知覚とより統合されるようになるでしょう。

現在、デジタルモーダルコンテンツは急速に成長しており、クロスモーダル検索に対するアプリケーション要件はますます豊富になっており、これは間違いなく、マルチモーダル関連付け学習に新たな機会と課題をもたらしています。

#クロスモーダル生成

小説のプロットを読むと、対応する絵が自然に現れます。私たちの心は、人間のクロスモーダルな推論と生成能力の現れです。

同様に、マルチモーダルコグニティブコンピューティングにおけるクロスモーダル生成タスクの目標は、未知のモーダルエンティティを生成する機能をマシンに与えることです。情報理論の観点から見ると、このタスクの本質は、マルチモーダル情報チャネル内のマシンの認知能力を向上させることであり、その方法は 2 つあり、1 つは情報量を増やすこと、つまりクロスモーダル合成です。 , ##2つ目はデータ量の削減、つまりクロスモーダルコンバージョンです。

クロスモーダル合成タスクは、新しいモーダルエンティティを生成するときに既存の情報を充実させ、それによって情報量を増やすことです。テキストに基づく画像生成を例に挙げると、初期の頃はエンティティの関連付けが主に使用されており、多くの場合、検索ライブラリに大きく依存していました。現在、画像生成技術は主に敵対的生成ネットワークに基づいており、リアルで高品質の画像を生成できます。ただし、情報レベルで見ると、小さな表情の変化でも非常に多くの情報を伝える可能性があるため、顔画像の生成は依然として非常に困難です。

同時に、複雑なモダリティを単純なモダリティに変換し、より簡潔な表現を見つけることで、データ量を削減し、情報取得能力を向上させることができます。

IEEE フェロー Li Xuelong: マルチモーダルコグニティブコンピューティングが汎用人工知能実現の鍵となる

#キャプション: 一般的なクロスモーダル変換タスク

例としてコンピュータビジョンと自然言語処理テクノロジを組み合わせたクロスモーダル変換により、オンライン検索の効率が大幅に向上します。たとえば、長いビデオを自然言語で簡単に説明したり、ビデオ情報に関連する音声信号を生成したりできます。

現在主流の 2 つの生成モデル、VAE (変分自動エンコーダー) と GAN (敵対的生成ネットワーク) には、それぞれ独自の長所と短所があります。Li Xuelong 氏は、VAE は仮定に依存していると考えていますが、一方でGAN は説明が不十分で、この 2 つを合理的に組み合わせる必要があります。特に重要な点は、マルチモーダル生成タスクの課題は、生成の品質だけでなく、異なるモダリティ間の意味論的ギャップや表現ギャップにもあるということであり、意味論的ギャップを前提とした知識推論をどのように実行するかが解決される必要がある。将来的には困難です。

マルチモーダルコラボレーション

人間の認知メカニズムでは、帰納と演繹が重要な役割を果たしています。見たり、聞いたり、嗅いだり、触れたりしたものは、意思決定の基礎として要約され、融合され、総合的に推定されるためです。

同様に、マルチモーダルコグニティブコンピューティングでも、2 つ以上のモーダルデータを調整し、互いに協力してより複雑なマルチモーダルタスクを完了し、精度と一般化を向上させる必要があります。情報理論の観点から見ると、その本質は情報補完という目的を達成するためのマルチモーダルな情報の相互融合であり、注意の最適化である。

まず第一に、モーダル融合は、データ形式、時空間配列、ノイズ干渉などによって引き起こされるマルチモーダルデータの差異の問題を解決することです。現在、チャンスルールの融合手法には直列融合、並列融合、重み付け融合などがあり、学習ベースの融合手法には注意メカニズムモデル、転移学習、知識蒸留などがある。

第 2 に、マルチモーダル情報の融合が完了した後、モデルがモーダルデータ間の関係をマイニングし、モダリティ間の関係を確立できるようにするために、モーダル情報の共同学習が必要です。または相補的な接続。

共同学習を通じて、一方では、視覚誘導音声、音声誘導視覚、深度誘導視覚、その他のアプリケーションなどのモーダルパフォーマンスを向上させることができ、他方では、以前のシングルモードの問題を解決できる複雑な感情コンピューティング、オーディオマッチング顔モデリング、視聴覚ガイド付き音楽生成など、モーダル方式で達成するのが難しいタスクはすべてマルチモードの開発方向です。 -将来のモーダルコグニティブコンピューティング。

機会と課題

近年、ディープラーニングテクノロジーにより、理論と工学におけるマルチモーダルコグニティブコンピューティングが大幅に推進されています。。しかし現在では、アプリケーションの要件がより多様化し、データの反復速度が加速しているため、マルチモーダルコグニティブコンピューティングに新たな課題と多くの機会が生じています。

機械の認知能力の向上については、4 つのレベルで見ることができます。

データレベルでは、従来のマルチモーダル研究は、とデータの計算が 2 つの独立したプロセスに分離されているため、欠点があります。人間の世界は連続的なアナログ信号で構成されていますが、機械は離散的なデジタル信号を処理するため、変換プロセスでは情報の歪みや損失が避けられません。

この点に関して、Li Xuelong 氏は、光ニューラルネットワークに代表されるインテリジェントオプトエレクトロニクスが解決策をもたらすことができると信じています。マルチモーダルデータのセンシングと計算を統合できれば、情報処理効率は向上します。機械は改良され、知能レベルは大幅に向上します。

情報レベルでのコグニティブコンピューティングの鍵は、情報の高レベルの意味論の処理です。視覚上の位置関係、物のスタイルなど、映像と音楽の感動が待っています。現在、マルチモーダルタスクはシナリオ内の単純なターゲットと相互作用に限定されており、深い論理意味論や主観的意味論を理解できません。たとえば、機械は草原に咲く花の画像を生成できますが、花は冬には枯れるという常識を理解できません。

したがって、さまざまなモードで複雑なロジックと感覚的意味情報の間の通信ブリッジを構築し、独自の機械測定システムを確立することが、将来のマルチモーダルコグニティブコンピューティングの主要なトレンドになります。

融合メカニズムレベルでは、異種コンポーネントで構成されるマルチモーダルモデルの高品質な最適化を実行する方法が現在困難です。現在のマルチモーダルコグニティブコンピューティングのほとんどは、統一された学習目標に基づいてモデルを最適化します。この最適化戦略には、モデル内の異種コンポーネントに対する的を絞った調整が欠如しており、その結果、既存のマルチモーダルモデルに大きな問題が発生します。最適化が不十分な問題については、次のことが必要です。マルチモーダル機械学習や最適化の理論的手法など、複数の側面からアプローチする必要があります。

タスクレベルでは、マシンの認知学習方法はタスクによって異なります。関連するさまざまなタスクを解決する能力を向上させるために、タスクフィードバックの学習戦略を設計する必要があります。。

さらに、画像、テキスト、その他のデータから世界を理解する機械学習の現在の「観客スタイル」学習方法の欠点を考慮すると、次のことから学ぶことができます。Embodied AIなどの認知科学の研究結果は、潜在的な解決策です。知的エージェントは、継続的に進化し、複雑なタスクを解決する能力を形成するために、環境とのマルチモーダルな相互作用を必要とします。

4Li Xuelong との会話

AI テクノロジーレビュー: 人工知能研究におけるマルチモダリティに注目すべき理由? データとマルチモーダルコグニティブコンピューティング?マルチモーダルデータの増加はモデルのパフォーマンスにどのような利点と障害をもたらしますか?

李雪龍:ご質問ありがとうございます。私たちがマルチモーダルデータに注目して研究する理由は、人工知能が本質的にデータに依存しているためです。シングルモーダルデータが提供できる情報は常に非常に限られているのに対し、マルチモーダルデータは複数の階層的、多視点を提供できます。一方、客観的な物理世界はマルチモーダルであるため、テキストによる画像の検索、音楽を聴いてオブジェクトを識別するなど、多くの実際的な問題の研究をマルチモーダルデータから切り離すことはできません。

私たちは、人工知能の性質から出発して、コグニティブ・コンピューティングの観点からマルチモーダルな問題を分析します。周囲は人間のように知的です。

複雑でインターリーブされたマルチモーダル情報は、多くのノイズと冗長性ももたらします。これにより、モデルの学習圧力が増大し、マルチモーダルデータのパフォーマンスがそれよりも低下します。場合によっては単一のモダリティで構成され、モデルの設計と最適化に大きな課題が生じます。

AI テクノロジーレビュー: 情報理論の観点から見ると、人間の認知学習と機械の認知学習の類似点は何ですか?人間の認知メカニズムに関する研究は、マルチモーダルコグニティブコンピューティングにとってどのような指針となる重要性を持っていますか?人間の認知を理解せずに、マルチモーダルコグニティブコンピューティングはどのような困難に直面するでしょうか?

Li Xuelong:アリストテレスは、人々の物事の理解は感情から始まると信じていましたが、プラトンは、感情を通して出てくるものは呼び出すことができないと信じていました知識。

人間は生まれたときから大量の外部情報を受け取り、知覚、記憶、推論などを通じて徐々に自己認識システムを確立し、機械の学習能力を獲得します。大量のデータのトレーニングを通じて達成されることは、主に知覚と人間の知識の間の対応関係を見つけることです。プラトンによれば、機械が学習するものはまだ知識ではありません。私たちは記事の中で「情報能力」の理論を引用し、情報を抽出する能力から始まる人間と機械の間の認知的なつながりを確立しようとしました。

人間は、視覚、聴覚、嗅覚、味覚、触覚などの複数の感覚チャネルを通じて多峰性の情報を脳に伝達し、大脳皮質の関節刺激を生み出します。心理学の研究では、複数の感覚の組み合わせた動作により、「多感覚の統合」、「共感覚」、「知覚の再構成」、「知覚の記憶」などの認知学習モデルが生成されることがわかっています。これらの人間の認知メカニズムはマルチモーダルです。コグニティブコンピューティングは、重要な成果をもたらしました。これは、マルチモーダルコラボレーション、マルチモーダル関連付け、クロスモーダル生成などの典型的なマルチモーダル分析タスクの導出などのインスピレーションをもたらし、ローカル共有、長期および短期記憶、注意メカニズム、およびその他の典型的な機械分析メカニズムも生み出しました。

人間の認知メカニズムは、実はまだ解明されていないのが現状です。人間の認知研究の指導がなければ、マルチモーダルコグニティブコンピューティングはデータフィッティングの罠に陥るでしょう。モデルが人間に必要な知識を学習したかどうかを判断することはできません。これは人工知能分野でも物議を醸す問題です。知性は少し。

AI テクノロジーコメント: 情報理論の観点からあなたが提唱した「マルチモーダルコグニティブコンピューティングはマシンの情報抽出能力を向上させることができる」という見解は、具体的にはどのようなものですか?マルチモーダルコグニティブコンピューティングタスクにおいてこれを裏付ける証拠はありますか?

Li Xuelong:この質問には 2 つの側面から答えることができます。まず、マルチモーダル情報により、さまざまなタスクにおける単一モダリティのパフォーマンスが向上します。膨大な量の研究により、音声情報を追加すると、ターゲット認識やシーン理解など、コンピュータービジョンアルゴリズムのパフォーマンスが大幅に向上することが確認されています。また、環境カメラも構築しましたが、温度や湿度などのセンサーからのマルチモーダル情報を融合することで、カメラの画質を向上できることがわかりました。

第 2 に、マルチモーダル情報の共同モデリングにより、より複雑なインテリジェントタスクを実行できる可能性が提供されます。たとえば、視覚情報がエンコードされるように「画像を聞く」という作業を行いました。これは、マルチモーダルコグニティブコンピューティングが機械によるより多くの情報の抽出に役立つことを証明しています。

#AI テクノロジーレビュー: マルチモーダル関連付けタスクにおける位置合わせ、認識、検索の間の相互関係は何ですか?

Li Xuelong:これら 3 つの関係は本質的に比較的複雑ですが、この記事では、私自身の暫定的な見解の一部のみを示します。異なるモダリティからの情報の相関関係の前提は、それらが同じ/類似した客観的存在を共同で記述することです。しかし、外部情報が複雑であるか、外部情報に干渉している場合、この相関関係を判断することは困難です。そのためには、まず異なるモダリティを調整する必要があります。関連する対応関係を決定します。次に、調整に基づいて、あるモダリティから別のモダリティへの認識が達成されます。

これは、人の唇の動きだけを見ると、その人の言っていることが聞こえてくるようなものです。この現象も、視覚要素 (Viseme) と音素 (Phoneme) の相関と配列に基づいています。実際には、このクロスモーダル認識を、テキストを介した製品の写真やビデオコンテンツの検索、計算可能なマルチモーダル相関アプリケーションの実現などのアプリケーションにさらに適用しました。

AI テクノロジーレビュー: 最近非常に人気のある DALL-E およびその他のモデルは、クロスモーダル生成タスクの一例であり、テキスト生成画像で優れたパフォーマンスを発揮します。しかし、生成された画像の意味的な関連性と解釈可能性には依然として大きな制限があります。この問題はどのように解決されるべきだと思いますか?何が難しいのですか？

Li Xuelong:テキストから画像を生成することは「想像力」の作業です。人は文を見たり聞いたりして、それを理解します。意味情報、そして脳の記憶を頼りに最適なシーンを想像して「絵の感覚」を生み出します。現時点では、DALL-E はまだ、統計学習をデータフィッティングに使用して、大規模なデータセットを要約して要約する段階にあります。これは、ディープラーニングが現時点で最も得意とすることです。

しかし、本当に人々の「想像力」を学びたいのであれば、「高いレベル」の知能を達成するための人間の認知モデルも考慮する必要があります。このには、神経科学、心理学、情報科学の相互統合が必要ですが、は課題であると同時にチャンスでもあり、近年、多くのチームがこの分野で一流の研究を行っています。複数の分野の相互統合を通じて、人間の認知モデルの計算可能性理論を探求することも私たちのチームの取り組みの方向性の 1 つであり、それが「高レベル」知能に新たなブレークスルーをもたらすと信じています。

AI テクノロジーレビュー: 研究活動において認知科学からどのようにインスピレーションを得ていますか?認知科学のどの研究に特に興味がありますか?

Li Xuelong:それがどれくらい明確か彼に聞いてみませんか?生きた水を水源から汲みに来てください。私は日常生活の中でいくつかの興味深い現象を観察したり考えたりすることがよくあります。

20 年前、江南の風景の写真が載っているウェブページを閲覧し、そのページにある音楽をクリックすると、突然そこにいるような気分になりました。聴覚と視覚の関係を認知的な観点から考えます。認知科学を研究する過程で、「共感覚」という現象について学びました。私自身の科学的研究の方向性と組み合わせて、「視覚音楽と音楽的視覚」というタイトルの論文を完成させました。これも初めてのことです。共感覚」が情報分野に導入されました。

その後、私は情報分野で初のコグニティブコンピューティングコースを開設し、IEEE SMC コグニティブコンピューティング技術委員会も設立して、コグニティブサイエンスとコンピューティングサイエンスの境界を打ち破ろうとしました。コンピューティングもその時に定義されており、それが技術委員会のホームページ上の現在の説明です。私は2002年に「情報容量」という単位データ量当たりの情報提供能力の概念を提案し、機械の認知能力の計測を試み、2020年に「マルチモーダル」というタイトルで発表できることを光栄に思います。「コグニティブコンピューティング」がテンセント科学探査賞を受賞しました。

これまで、私は共感覚と知覚の最新の発展に注目し続けてきました。自然界には人間の五感を超えたモードが数多く存在しており、まだ明らかになっていない潜在的なモードも存在します。これが実際に当てはまる場合、検出方法も制限されます。おそらく、これらの潜在的なモードを利用して、機械が人間の知覚に近づくか、さらには人間の知覚を超えることができるようになる可能性があります。

AI テクノロジーコメント: 人間の認知と人工知能をどのように組み合わせるかという問題に関して、あなたは「メタモダリティ」 (メタモーダル) を構築することを提案しました。）コアモーダルインタラクションネットワークとして、この観点を紹介してもらえますか？その理論的根拠は何ですか?

Li Xuelong:メタモダリティ自体は認知神経科学の分野から派生した概念であり、脳がそのような組織を持っていることを指します。これは、特定の機能または表現操作を実行するときに、入力情報の感覚カテゴリについて特定の仮定を立てませんが、それでも良好な実行パフォーマンスを達成できます。

メタモダリティは気まぐれな概念ではなく、本質的には、クロスモーダルな知覚、神経可塑性、その他の現象やメカニズムを統合した認知科学者の仮説とメカニズムです。また、これは、より一般化されたモーダル表現機能を実現するために、異なるモダリティ間で効率的な学習アーキテクチャと方法を構築することにもつながります。

AI テクノロジーレビュー: 現実世界におけるマルチモーダルコグニティブコンピューティングの主な用途は何ですか?例えば。

Li Xuelong:マルチモーダルコグニティブコンピューティングは、実用化に非常に近い研究です。私たちのチームはこれまでに、視覚情報を音信号にエンコードして大脳皮質の一次視覚野を刺激するクロスモーダル知覚の研究を行っており、障害者を支援したり、目の見えない人が外の世界を見るのを助けるために応用されてきました。日常生活では、マルチモーダルコグニティブコンピューティングテクノロジがよく使用されます。たとえば、ショートビデオプラットフォームでは、音声、画像、テキストのタグを組み合わせて、ユーザーが興味を持ちそうなビデオを推奨します。

より広範には、マルチモーダルコグニティブコンピューティングは、インテリジェントな捜索救助、音を収集するドローンや地上ロボット、さまざまなデータなど、記事で言及されている現場のセキュリティでも広く使用されています。画像、温度、湿度などを認知的な観点から統合して分析する必要があり、現場の状況に応じてさまざまな捜索救助戦略を実行できます。インテリジェント検査、クロスドメインリモートセンシングなど、同様のアプリケーションが多数あります。

AI テクノロジーコメント: 記事の中で、現在のマルチモーダルタスクはシナリオ内の単純なターゲットとインタラクションに限定されていると述べましたが、より複雑なタスクが関与すると、深い論理的意味論や主観的意味論を達成するのは困難です。では、これは記号型人工知能が復活するチャンスなのでしょうか?高レベルのセマンティック情報を処理するマシンの能力を向上させるために、他にどのような実現可能なソリューションがありますか?

Li Xuelong:ラッセルは、知識の価値のほとんどはその不確実性にあると信じています。知識の学習には、暖かさと、外の世界と対話しフィードバックする能力が必要です。私たちが現在目にしている研究のほとんどは、単一モードで受動的で、特定のデータを対象としたものであり、いくつかの単純な目標やシナリオの研究ニーズを満たすことができます。ただし、より深い論理意味論や主観的意味論の場合は、時間と空間において多次元であり、より多くのモダリティによってサポートされ、アクティブな相互作用が可能な状況を十分に探索して発掘する必要があります。

この目標を達成するために、研究手法や手法は認知科学からさらに活用される可能性があります。たとえば、一部の研究者は認知科学の「身体化された経験」仮説を参照しています。人工知能の研究では、機械が外界と積極的に対話し、複数のモーダル情報を入力するときの新しい学習問題とタスクを探索し、満足のいく結果を得ることができます。これは、人工知能と認知科学を結び付ける際のマルチモーダルコグニティブコンピューティングの役割と積極的な重要性も示しています。

AI テクノロジーレビュー: スマートオプトエレクトロニクスもあなたの研究方向の 1 つです。記事の中で、スマートオプトエレクトロニクスが情報のデジタル化の探求をもたらすことができると述べています。アイデア。スマートオプトエレクトロニクスは、マルチモーダルデータのセンシングとコンピューティングという点で何ができるでしょうか?

Li Xuelong:光信号と電気信号は、人々が世界を理解するための主な方法です。人間が受け取る情報のほとんどは、さらに一歩進んで、視覚情報は主に光から得られます。人間の視覚、聴覚、嗅覚、味覚、触覚の五感は、光、音波、圧力、嗅覚、刺激などのさまざまな感覚を電気信号に変換し、高度な認知を実現します。したがって、光電気は人間が世界を認識するための主要な情報源となります。近年、さまざまな高度な光電子デバイスの助けにより、私たちは可視光や可聴音波以外にも多くの情報を感知できるようになりました。

光電機器は人間の世界認識の最前線であると言えます。私たちが取り組んでいるスマートオプトエレクトロニクスの研究では、光電センシングハードウェアとインテリジェントアルゴリズムの統合の探索、アルゴリズム設計プロセスへの物理的な事前予測の導入、アルゴリズムの結果を使用したハードウェア設計のガイド、および「センス」の形成に取り組んでいます。と「計算」の相互フィードバックにより、知覚の境界を拡大し、人間のマルチモーダルな知覚を模倣、さらにはそれを超えるという目的を達成します。

AI テクノロジーレビュー: 現在、マルチモーダルコグニティブコンピューティングの方向でどのような研究活動を行っていますか?将来の研究目標は何ですか?

Li Xuelong:ご質問ありがとうございます。私の現在の焦点は、Vicinearth Security のマルチモーダルコグニティブコンピューティングです。伝統的な意味でのセキュリティは通常、都市のセキュリティを指します。現在、人類の活動空間は低空、地上、水中と拡大しており、領域を越えた探知や自律的な無人化などの一連の実用的なタスクを遂行するためには、地上近傍空間に三次元的な安全保障・防御システムを構築する必要がある。システム。

オンサイトのセキュリティが直面する大きな問題は、機械が人間の視点から無人システムを理解できるようにするなど、さまざまなセンサーによって生成された大量のマルチモーダルデータをどのようにインテリジェントに処理するかです。航空機と地上監視装置によって同時に観測される目標。これには、マルチモーダルコグニティブコンピューティング、およびマルチモーダルコグニティブコンピューティングとスマートオプトエレクトロニクスの組み合わせが含まれます。

今後も、現場セキュリティにおけるマルチモーダルコグニティブコンピューティングの応用について研究を続け、データの取得と処理のつながりを開拓し、データを合理的に活用していきたいと考えています。「Pi-Noise」を推進して、マルチモーダルコグニティブコンピューティングとインテリジェントオプトエレクトロニクスによってサポートされるオンサイトセキュリティシステムを確立します。

以上がIEEE フェロー Li Xuelong: マルチモーダルコグニティブコンピューティングが汎用人工知能実現の鍵となるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。