冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に-AI-php.cn

ロボットにとって、タスク計画は避けられない問題です。

現実世界のタスクを完了したい場合は、まず冷蔵庫に象を設置するのに何ステップかかるかを知る必要があります。

比較的単純な

リンゴを投げるタスクでも複数のサブステップが含まれており、ロボットはリンゴの位置を観察する必要があります。 apple、もしがリンゴを見つけられない場合、我々はを探し続け、それからリンゴに近づいて、リンゴをつかむ必要があります # #,ゴミ箱の近くのを見つけてください。ゴミ箱

が

閉じている場合は、まず開いてからゴミ箱を捨ててください。アップルインとゴミ箱を閉じます。しかし、各タスクの具体的な実装の詳細は人間が設計することはできず、コマンドによって

アクションシーケンス

を生成する方法で十分です。問題。コマンドを使用してシーケンスを生成しますか?これはまさに

言語モデル

の仕事ではないでしょうか? これまで、研究者は大規模言語モデル (LLM) を使用して、入力されたタスク指示に基づいて潜在的な次のアクションスペースをスコア化し、アクションシーケンスを生成してきました。命令は自然言語で記述されており、追加のドメイン情報は含まれません。

しかし、そのようなメソッドでは、スコアリングのために考えられる次のアクションをすべて列挙する必要があるか、生成されるテキストの形式に制限がなく、現在の環境内の特定のロボットが含まれる可能性がありますimpossibleaction。

最近、南カリフォルニア大学と NVIDIA が共同で新しいモデル ProgPrompt を立ち上げました。このモデルでは、言語モデルも使用して、入力命令に対するタスク計画を実行します。これには、以下が含まれます。

プログラムされたプロンプト構造

により、生成された計画は、さまざまな環境、さまざまな能力を持つロボット、およびさまざまなタスクで機能することができます。

タスクの標準化を確実にするために、研究者らは

生成された Python スタイルコード冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能にを使用して言語モデルにプロンプトを出しました。アクションが使用可能か、環境内にどのようなオブジェクトがあるか、およびどのプログラムが実行可能であるか。

たとえば、「リンゴを投げる」コマンドを入力すると、次のプログラムが生成されます。

ProgPrompt モデルは、

仮想ホームタスクで優れたパフォーマンス冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能にを達成し、研究者はまた、## にもモデルをデプロイしました。 #デスクトップタスク用の物理ロボットアーム

。

魔法の言語モデル毎日の家事を完了するには、世界についての常識的な理解と現在の環境の状況知識の両方が必要です。

「夕食を作る」というタスクプランを作成するために、エージェントが知っておく必要がある最低限の知識は次のとおりです。

オブジェクトの機能 (コンロやコンロなど)電子レンジは加熱して使用できます。アクションの論理的シーケンス

、食品を追加する前にオーブンを予熱する必要があります。および

オブジェクトとアクションのタスクの関連性 (加熱と材料の検索など) 「ディナー」アクションへ。しかし、状態フィードバック (状態フィードバック) がなければ、この種の推論は実行できません。

エージェントは、冷蔵庫に魚があるかどうか、冷蔵庫に鶏肉があるかどうかなど、現在の環境でどこに食べ物があるかを知る必要があります。。

大規模なコーパスでトレーニングされた自己回帰大規模言語モデルは、入力プロンプトの条件下でテキストシーケンスを生成でき、重要なマルチタスク一般化機能を備えています。

たとえば、「夕食を作る」と入力すると、言語モデルは、冷蔵庫を開ける、鶏肉を取り出す、ソーダを取り出す、冷蔵庫を閉じるなどの後続のシーケンスを生成できます。、照明のスイッチを入れるなど。

生成されたテキストシーケンスは、エージェントのアクションスペースにマッピングする必要があります。たとえば、生成された指示が「手を伸ばしてピクルスの瓶を拾う」である場合、対応する実行可能なアクションが「瓶を拾う」である場合、モデルはアクションの確率スコアを計算します。

しかし、環境フィードバックがない場合、冷蔵庫に鶏肉がないにもかかわらず「鶏肉を取り出す」ことを選択した場合、「夕食を作る」というタスクは失敗します。世界情勢に関する情報は含まれません。

ProgPrompt モデルは、タスク計画においてプログラミング言語構造を巧みに利用しています。これは、既存の大規模言語モデルは、通常、プログラミングチュートリアルとコードドキュメントの事前トレーニングのコーパスで実施されるためです。

ProgPrompt は、プロンプトとして Python プログラムヘッダーを備えた言語モデルを提供し、利用可能なアクションスペース、予期されるパラメーター、環境内の利用可能なオブジェクトをインポートします。

冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

次に、make_dinner、throw_away_banana、その他の関数を定義します。その本体は次のとおりです。オブジェクトを操作するためのアクションシーケンスは、計画された前提条件をアサートするによって組み込まれます (冷蔵庫を開けようとする前に冷蔵庫に近づく、アサーションの失敗に回復アクションで応答するなど)。ステータスフィードバック。最も重要なことは、ProgPrompt プログラムにはアクションの目標を説明するための自然言語で書かれた

も含まれており、それによって生成された計画の実行が改善されることです。プログラムのミッション成功率。 ProgPrompt

完全なアイデアにより、ProgPrompt の全体的なワークフローが明確になります。これには、主に

3 つの部分

、Python 関数の構築が含まれます。 , プログラミング言語プロンプトの構築 , タスクプランの生成と実行。

冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

#1. ロボットプランを Python 関数として表現します

プランニング関数には、アクションプリミティブ

への API 呼び出し、アクションの要約とコメントの追加、実行を追跡するためのアサーションが含まれます。

各アクションプリミティブにはパラメータとしてオブジェクトが必要です。たとえば、「サーモンを電子レンジに入れる」タスクには find(salmon) の呼び出しが含まれており、find はアクションプリミティブです。。

コード内でコメントを使用して、後続のアクションシーケンスに自然言語による概要を提供します。コメントは、高レベルのタスクを適切なレベルに分割するのに役立ちます。論理的なサブタスクは次のとおりです。「鮭を捕まえる」「鮭を電子レンジに入れる」。冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

アノテーションを使用すると、言語モデルが現在の目標を理解できるようになり、思考の連鎖と同様に、一貫性のない、一貫性のない、または繰り返しの出力の可能性を減らすことができます。結果。

アサーション (アサーション) 前提条件が真であることを確認し、前提条件が真でない場合 (クロールアクションの前など) にエラー回復を実装するための環境フィードバックメカニズムを提供します。この計画では、エージェントがサケの近くにいることを主張しており、そうでない場合、エージェントは最初に検索アクションを実行する必要があります。

2. プログラミング言語プロンプトの構築

プロンプトは環境に関する情報を提供する必要があります言語モデルと主要なアクション情報 (観察、アクションプリミティブ、例など) に関連付けられ、言語モデルを完了するための Python プロンプトが生成されます。

冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

次に、言語モデルはを実行可能な関数、つまりマイクロ波サーモンの microwave_salmon()

として予測します。タスクの場合、LLM が生成できる合理的な最初のステップはサケを取り除くことですが、計画の実行を担当するエージェントにはそのようなアクションプリミティブがない可能性があります。

言語モデルがエージェントのアクションプリミティブを理解できるようにするには、プロンプトのインポートステートメントを介してアクションプリミティブをインポートします。これにより、出力が現在の環境で利用可能な関数に制限されます。

エージェントの動作空間を変更するには、インポート関数リストを更新するだけです。

変数オブジェクトは、環境内で使用可能なすべてのオブジェクトを文字列のリストとして提供します。

#プロンプトには、サンプルとして完全に実行可能なプログラムプランも多数含まれています。各サンプルタスクでは、特定の環境で利用可能なアクションと目標を使用して特定のタスクを完了する方法を示します。 throw_away_lime

3、タスクプランの生成と実行

指定されたタスクその後、プランは ProgPrompt プロンプトに基づいた言語モデルによって完全に推論され、生成されたプランは仮想エージェントまたは物理ロボットシステム上で実行できます。環境に応じて各アクションコマンドを実行するにはインタプリタが必要です。

実行中、アサーションチェックが閉ループ方式で実行され、現在の環境状態に基づいてフィードバックが提供されます。

実験部分では、研究者は Virtual Home (VH) シミュレーションプラットフォームで方法を評価しました。

VH のステータスには、電子レンジの中のサケ (in)、または近く (agent_close_to) など、一連のオブジェクトと対応する属性が含まれます。

アクションスペースには、つかむ、置く、戻す、歩く、見つける、開く、閉じる、閉じるなどの操作が含まれます。

最後に、3 つの VH 環境が実験され、各環境には 115 の異なるオブジェクトが含まれていました。研究者は、高度な抽象化とコマンドを備えた、70 の家事タスクを含むデータセットを作成しました。それはすべて「」に関するものです。マイクロ波サーモン」を作成し、そのためのグラウンドトゥルースのアクションシーケンスを作成しました。

生成されたプログラムを仮想ファミリ上で評価した後、評価指標には成功率 (SR)、目標条件付き再現率 (GCR)、実行可能性 (Exec) が含まれます。 ProgPrompt がベースラインや LangPrompt よりも大幅に優れていることがわかります。この表には、各機能がどのようにパフォーマンスを向上させるかも示されています。

冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に