ニューラルネットワークが独自のマップを作成できることを人類が実証したのはこれが初めてです。最初は周囲の環境が馴染みがなくても、最終的には相互に影響し合う建物、道路、標識などを含む環境の地図を脳内に描くことができます。それらの間の位置関係。脳内で空間マップを構築するこの能力は、人間の高次タイプの認知の基礎となっています。たとえば、言語は脳内のマップ状構造によってエンコードされると理論化されています。ただし、最先端の人工知能やニューラル ネットワークでも、何もないところからそのような地図を構築することはできません。計算生物学の助教授でヘリテージ医学研究所の研究員であるマット・トムソン氏は、「最先端の人工知能モデルでさえ真の知能を持っていないという感覚がある。人工知能モデルは私たちのように問題を解決することはできず、証明されていない数学的結果を証明することもできない」と述べた。また、新しいアイデアを生み出すこともできません。「これは、概念空間内をナビゲートできないためだと考えられます。複雑な問題を解決することは、ナビゲーションと同様に概念空間内を移動することに似ています。AI は暗記学習に似ています。戻る - あなたが入力を与えると、AI はそれを与えます。」最近、トムソン研究所の新しい論文で、ニューラル ネットワークが「予測コーディング」と呼ばれるアルゴリズムを使用できることがわかりました。空間マップを構築します。この論文は7月18日付けでNature Machine Intelligence誌に掲載された。
1. 論文のアドレス: https://www.nature.com/articles/s42256-024-00863-1大学院生の James Gornet は、複雑な要素 (木、川、洞窟など) を組み込んだ Minecraft で環境を構築するチームを率いました。彼らは、エリア内をランダムに歩くプレイヤーのビデオを記録し、そのビデオを使用して、予測コーディング アルゴリズムを備えたニューラル ネットワークをトレーニングしました。
研究により、ニューラル ネットワークは Minecraft 世界のオブジェクトがどのように構成されているかを学習し、プレイヤーが空間を移動するときに遭遇する環境を「予測」できることが判明しました。
予測コーディング アルゴリズムと Minecraft ゲームの組み合わせにより、空間マップの作成方法をニューラル ネットワークに「学習」させ、これらの空間マップを使用してビデオの後続のフレームを予測することができました。その結果、フレーム間の平均二乗誤差が決まりました。予測画像と最終画像はわずか 0.094% でした。さらに重要なのは、研究チームがニューラルネットワークを「開いて」(内部構造を調べることに相当)、さまざまなオブジェクトの表現が相互に相対的に空間的に保存されていることを発見しました。言い換えれば、彼らはニューラル ネットワークに保存された Minecraft 環境の地図を見たのです。
ニューラル ネットワークは、GPS を使用した自動運転車など、人間の設計者によって与えられた地図をナビゲートできますが、ニューラル ネットワークが独自の地図を作成できることを人間が実証したのはこれが初めてです。情報を空間的に保存および整理するこの能力は、最終的にニューラル ネットワークがより「賢く」なり、人間と同じように真に複雑な問題を解決できるようになります。
このプロジェクトは、AI の真の空間認識機能を実証します。この機能は、OpenAI の Sora などのテクノロジーにはまだ見られませんが、奇妙な不具合がいくつかあります。
James Gornet は、カリフォルニア工科大学の計算神経システム (CNS) 学部の学生で、神経科学、機械学習、数学、統計、生物学を扱っています。
「CNS プログラムは、ジェームズにとって、他では不可能なユニークな仕事をするための場所を提供しています」とトムソン氏は言いました。 「私たちは、人工ニューラル ネットワークの脳の特性をリバース エンジニアリングできる、生物学にヒントを得た機械学習アプローチを採用しています。そして、カリフォルニア工科大学には、この種の研究に非常に前向きなチームが揃っています。 》
予測コーディングを実行するニューラルネットワーク
研究者らは、予測コーディング推論問題における暗黙の空間表現に触発されて、予測コーディングエージェントの計算実装を開発し、仮想環境を探索しながらエージェントの動作を研究しました。空間表現を学びました。
彼らは、Minecraft の Malmo 環境を使用して環境を作成することから始めました。物理環境は 40 × 65 タイルの寸法を持ち、ビジュアル シーンの 3 つの側面を包含します。洞窟はグローバルなビジュアル ランドマークを提供し、森林はビジュアル シーン間の類似性を可能にし、橋のある川はエージェントがビジュアル シーンを横断する方法を制限します。環境(図1a)。
1. エージェントは、A* 検索によって決定されたパスをたどって、ランダムにサンプリングされた位置間の最短パスを見つけ、各パス上の視覚画像を受け取ります。Détails de la formation :
, l'encodeur prédictif atteint une bonne fidélité visuelle et l'erreur quadratique moyenne entre l'image prédite et l'image réelle est de 0,094 (illustré sur la figure 1c).
Veuillez consulter le document original pour plus de détails.Lien de référence :
https://techxplore.com/news/2024-07-neural-network-minecraft.html
https://www.tomshardware.com/tech-industry/artificial-intelligence/neural- le réseau-apprend-à-créer-des-cartes-avec-le-code-minecraft-disponible-sur-github
以上がニューラル ネットワークには空間認識もあります。 Minecraft でマップを作成する方法を学び、Nature サブマガジンに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。