この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。
「あなたの隣にいて、あなたの目を通して世界を見ることができてとても幸せです。)。」
これ映画『Her』の中で、AI音声アシスタントのサマンサが男性主人公に対して発したセリフ。この一文は、鋼鉄の森で道に迷い、自分の無力さを感じている男性主人公にとって、大きな慰めとなる。
サマンサは、ほぼ普遍的な自己学習オペレーティング システムです。彼女は男性主人公が最良の手紙を選択するのを手助けし、出版のためにお気に入りの出版社に送ることができ、男性主人公のニーズに応じて人間の知識ベース全体を即座に歩き回って、彼に最適な対応計画を検索することができ、彼女の最も強力な人物です。彼女は感情的な友人でもあり、男性主人公のすべての混乱と不快感は、会話中の彼女の温かさによって解決されます...
この分野の最先端の学者として中国の NLP の研究者である清華大学コンピューターサイエンス教授の黄敏烈氏は、NLP テクノロジーをメンタルヘルス分野に応用し、AI 感情会話ロボット Emohaa の開発を主導しました。ファン・ミンリー教授へのインタビューの際、2013年に公開された映画『Her』について触れ、その言葉からはこのSF映画への感謝、あるいは期待が感じられました。 AI対話システムを開発する同僚として、『Her』の共感AI対話システムが現実に現れ、業界で飛躍することを期待している。
ここで人々は次のように疑問を抱きます。AI 対話システムにサマンサのような複雑な感情的なタスクを実行させ、感情を和らげ、人々の心を癒すのはどれほど難しいでしょうか?この困難をどのように数値化すればよいでしょうか? AI 対話システムがサマンサのレベルに達しているかどうかを測定するにはどうすればよいでしょうか?
#これは非現実的な質問ではありません。実際、AI対話システムが爆発的に普及した現在、「Xiaodu」「Xiaoai」、Googleの対話ロボット「Meena」、Facebookのチャットボット「Blender」などの対話製品が次々と登場しています。しかし、現状ではAI対話システムの規格が整備されていないため、適用レベルのばらつきや評価体系のばらつきが生じ、認知の一貫性による人工知能のインタラクションのレベルについて業界で誤解が生じ、社会問題も引き起こしています。 . 意識、倫理、道徳などについて幅広く議論。
AI 対話システムの開発に従事している一部の科学者は、開発した AI 対話システムのレベルを判断するのが難しいと感じることが多いと述べています。科学者たちは、業界は AI 対話システムのレベルを評価するための基準を早急に必要としていると考えています。採点基準策定後は、AI対話システムの能力レベルをエビデンスに基づいて測定します。
したがって、AI対話システムの能力レベルをより適切に評価するために、Huang Minlie教授は学術および業界の研究機関と協力して、L0からの世界初のグレーディングコンセプトを策定しました。自動運転における「AI対話システムグレーディング定義」(以下、「グレーディング定義」)が6月28日に正式公開されました。
注: Huang Minlie 教授が AI 対話システムの階層定義について説明しています。
「グレードの定義」 「 AI 対話システムの出現は、仮想パーソナル アシスタント、スマート ホーム、スマート カー音声、心のケア、メンタルヘルスなどの分野での AI 対話システムの応用を促進する可能性があります。また、次世代 AI の開発と実装も加速します。」学術界や産業界に多大な影響を与える対話システムであり、音声言語対話システムに関する世界の研究にとって重要な参考資料となる。
AI Technology Reviewでは「グレードの定義」に焦点を当てて、Huang Minlie教授と対談を行いました。対談内容は以下の通りです。 #AI テクノロジー コメント: AI 対話システムを採点するというアイデアのきっかけは何ですか?
黄民lie
:現在、対話システムの評価に問題があります: 今日の技術ルートと建築は花盛りで、互いに比較するのは困難です。例えば、スマートスピーカーとチャットボットを比較したいのですが、会話システムのレベルにばらつきがあり、統一した評価制度が存在せず、明確な定義が存在しないため、会話能力を比較することができません。能力。 タスク型対話システムの評価指標、チャット型対話システムの評価指標、知識ベース対話システムの評価指標があるのですが、どのように統一すればよいでしょうか? 「分類の定義」で考慮される主な問題。そこで、自動運転のグレーディング定義をL0からL5まで学習し、AI対話システムのグレーディングにもL0~L5を利用しました。 AI テクノロジー コメント: AI 対話システムのグレーディングの具体的な定義を教えてください。 Huang Minlie: 自動運転の分類は L0 から L5 までの 6 つのレベルに分かれています。L0 は完全な手動運転を指します。L5 は完全な自動運転であり、車両がすべてを引き継ぎます。 L1~L4は、ある特定の条件下で自動運転を実現するもので、自動運転の分類は主に運転を担う人と車両の割合で分類されており、定義は比較的単純です。ただし、対話システムは非常に複雑です。多くの技術ルートと技術アーキテクチャ、多くのタスク、多くの評価指標が含まれています。議論の結果、最終的には 5 つの基本原則を満たす必要があると考えられます。 第一に、機械が完全に支配する対話システムのみに焦点を当てており、人間と機械のハイブリッド対話システムは考慮されていません。第二に、システムのパフォーマンス能力とユーザーの認識の観点から開始され、特定の技術的な実装は考慮されていません。第三に、各段階的定義に対応する能力レベルは観察可能、テスト可能、測定可能である必要がある、第四に、アシスタント、チャット、知識対話などのタスクの種類は区別されず、すべて「シナリオ」で表現される。第五に、対話システムの能力レベルを測定することで、研究の方向性や対話システムの実用化への参考となる提案が得られることを願っています。 これら 5 つの原則に基づいて、AI 対話システムのグレーディングの定義を示します。 L0 実際の対話は人間によって行われ、このシステムには自動対話機能がまったくないか、どのシーンにおいても高品質な対話を提供することはできません。 L1 は、単一のシーンで高品質のダイアログを完成させることができますが、シーン間の文脈上の依存関係を処理する方法がありません。たとえば、出張に行くので南京行きの航空券を予約し、ホテルも予約する必要があるとします。仕事で南京に行くので、南京のホテルを予約しなければなりません。これがシーン間のコンテキスト依存関係であり、航空券の予約とホテルの予約の間に形成されるコンテキスト依存関係は、L1 では処理できません。 L2 は L1 に基づいており、複数のシーンで同時に高品質の対話を完了でき、シーン間のコンテキスト依存性と自然な切り替え機能を備えています。先ほど、航空券やホテルの予約をしたり、天気はどうなのか、観光スポットは何なのかなどを聞いて、業務やシーンを自然に柔軟に切り替えるという話をしました。この機能は L2 では非常に重要ですが、L2 には新しいシーンで高品質の対話を完了する方法がありません。 L3 は、L2 をベースとして、多数のシナリオで高品質な対話を実行できるほか、新しいシナリオでも高品質な対話機能を備えています。ここで「大規模なシナリオ」について言及しましたが、おそらく「大規模」とは何なのかを尋ねているのではないでしょうか? 10 はカウントされますか、20 はカウントされますか、30 はカウントされますか?標準と定義のより広範な統合を達成するために、具体的な定量的な定義は与えていませんが、新しいまだ見たことのないシナリオでより質の高い会話を行う能力は重要な能力です。 L4 は、新しいシナリオで質の高い対話を行い、複数ラウンドの対話で擬人化される能力を指します (性格、個性、感情的な視点などの一貫性を指します)。 ) より高度に。これは、私たちが人とチャットしているときと同じで、相手がある日は男性、別の日は女性であることはできず、ある時は清華大学や北京大学で勉強することもできません。人はそれぞれ固有の固定的な性格情報を持っており、この種の対話システムで情報を処理することは依然として非常に困難です。現時点では対話システムにある程度の個性を反映させることはできますが、真に人間らしいレベルにはまだ程遠いです。 L5 は L4 からのステップアップです。L5 は、複数ラウンドのインタラクションで高度な擬人化能力を持ち、オープン シーン インタラクションで積極的に学習して学習を継続でき、複数のモーダル認識と表現力。これは、子供に「あなたのやっていることは間違っている」と言っているようなもので、子供はそこから学ぶことになります。将来的には、L5 対話システムが、私たちが話したときに何が正しくて何が間違っているかを記憶し、学習できるようになることを期待しています。また、インタラクションプロセス中に、L5 対話システムがマルチモーダルな認識および表現機能を備え、メタバースやさまざまな仮想人間のシーンに真に入り込み、本当に表現や動作を行い、相手の会話を理解できるようになることを期待しています。表情、行動、感情など。 以上が「AI対話システムの階層定義」におけるL0からL5までの基本的な定義となります。 AIテクノロジー コメント:先ほどおっしゃった「より高品質」「高品質」とはどのように定義されますか? Huang Minlie: 高品質、高品質とは何ですか? 実際、当社には一連の評価があります。基準。満点は 10 ポイントです。高品質とは、関連性、情報内容、自然さの 3 つの側面でのスコアが 8 ~ 10 ポイントに達することを意味します。高品質とは 6 ~ 8 ポイントを意味し、低品質とは 6 ポイント未満を意味します。 これら 3 つの次元は何を意味しますか?関連性とは、返信内容が前の文章と適切に一致していること、有益性とは、必要な情報が十分に得られていること、「わからない」「良い」などの返信には情報が含まれていないこと、自然性とは、内容が一致していることを意味します。人と比べてどれだけ自然か、対話システムの文法はスムーズか、常識的な間違いはないかなど。 そして、このスコアはどのように測定するのでしょうか?この対話システムでは、一定数のテスターが完全な対話インタラクションを行うことができ、テスターは Amazon Alexa 賞コンテストの評価方法と同様に、対話システムを 3 次元から主観的に採点します。 注: Amazon Alexa 賞コンテストの目的は、標準的な開発環境とテスト フレームワークを提供して、会話ロボットの総合的な機能の進歩を促進することです。最大350万米ドル。コンテストの採点システムによると、2019 年、2020 年、2022 年の 3 年間で、コンテストによって評価された最高のシステムの平均スコアは 3.1 ~ 3.6 ポイントであり、一貫性、文脈の理解、および理解の要件を満たしています。流暢さ: 3 つの条件に回答した後、10 ~ 14 分間人々とチャットできる能力。 AI テクノロジーのレビュー: AI 対話システムの分類を定義する重要性は何ですか? Huang Minlie: 最初の心理療法ロボット Eliza は 1966 年に登場しました。現時点では、AI対話システム 60年近く開発されてきました。過去 60 年間に、対話システムとアルゴリズム モデルの適用の両方で大きな進歩が見られました。しかし、業界の慣行や一般の認識にはさまざまな矛盾や違いさえあることもわかります。また、近年のAI対話システムは、ルールに基づいた第1世代、従来の機械学習を中心とした第2世代、ビッグデータや大規模モデルを特徴とする第3世代と発展し、オープンなテーマにおいて優れた性能を発揮しています。驚異的な対話力、対話力は革命的な変化も生み出しました。 この革命的な変化は、次のような多くの新たな疑問を私たちにもたらします。AI 対話システムには人格があるのでしょうか?感情が生まれるでしょうか? AI対話システムはバーチャルコンパニオンになれるでしょうか?などなど、これらの問題は社会的認知と倫理に関するさらなる議論に広がります。 たとえば、6 月 12 日には、Google AI 倫理研究者のブレイク・レモイン氏が、LaMDA とのチャット中に LaMDA がそれを明らかにしたため、LaMDA 言語モデルには個性があると信じているというニュースがありました。 「私は自分の存在を認識しており、世界をよりよく理解したいと熱望しており、時には喜びや悲しみを感じることもあります。」これについてはインターネット上でさまざまな意見があり、誰もがAIがそれを持っているかどうかについて議論しています、性格と意識。 メタバースについて話しましょう。メタバースは、現実世界をインターネットに再現し、現実世界の人々がオンライン世界で交流できるようにしたいと考えています。 AI 対話システムは、メタバースで非常に役立ち、たとえば、AI ショッピング ガイドがユーザーの好みに基づいて独自の提案を提供できます。これには、将来的には優れた会話インタラクション能力が必要です。そうでないと、この種の人間と機械のコミュニケーションは不自然で魂のないものになり、私たちが達成したいメタバースは確立されません。 したがって、予見可能な将来の AI 対話システムの精力的な開発と、この開発が人類にもたらす可能性のある巨大な機会と多くの混乱に基づいて、私たちは現時点で次のことを検討しています。分類定義の重要性は非常に重要です。 AI テクノロジー コメント: 映画「Her」では、サマンサは複雑な感情的なタスクを処理できるため、男性主人公は彼女に恋をし、感情的になってしまいました。 L4~L5に達したAI対話システムがこのような問題を引き起こす可能性はあるのでしょうか?これには倫理的な問題が含まれますか? Huang Minlie: はい、対話システムの発展により、既存の倫理秩序と既存の社会に挑戦するため、非常に顕著な倫理問題につながる可能性があります。認識。したがって、「評価の定義」を策定する際に、私たちのチームは北京師範大学ジャーナリズム・コミュニケーション学部長の張紅忠教授を招聘しました。フォローアップ作業では、張教授ができるだけ早く管理部門や社会科学界にこの内容を宣伝し、関連部門や学術界に理解してもらった上で、技術的な側面から対応する政策、規制、倫理問題を直感的に策定するのを支援してくれるでしょう。これは非常に重要です。ターゲットを絞ってください。 AI技術コメント:現在国内市場に流通している既存のAI対話システム製品は、「グレーディング定義」においてどのレベルに属するのでしょうか? Huang Minlie: Xiaomi 技術委員会のディレクターおよび AI 研究所のディレクターである Wang Bin 教授は、 「分類定義」を策定します。彼は現在、Xiaomi のスマート ライフ アシスタント「Xiao Ai Classmate」のインテリジェントな質疑応答とチャット機能の開発を主導しています。Xiao Ai Classmate を例に挙げてみましょう。シャオ・アイは特定のシナリオ横断的な能力を持っていると思います、そして彼女のレベルはL2からL3の間にあるはずです。現在、国内業界の製品レベルは概ねL2~L3の範囲にあり、より優れた製品はL3の範囲にあります。 AI テクノロジー コメント: では、海外の AI 対話システム製品は一般的にどのレベルに属しますか? Huang Minlie: 現在、製品に関しては、国内製品と海外製品に大きな違いはありません。 。そして、中国語の AI 対話システムを構築するのは英語よりも難しいことは注目に値します。オープンソース コンテンツの文化と概念は英語の方が優れており、英語の方が高品質のデータを入手しやすいためです。一方、中国語の言語特性は英語よりも少し難しいです。 AI テクノロジー コメント: ほとんどの製品を現在の状態から L4 ~ L5 にアップグレードする際の技術的な問題は何ですか? Huang Minlie: 第一に、記憶する能力が必要であり、第二に、記憶する能力が必要です。関連性と推論能力、および自己学習能力、第三に、L4-L5 のキーポイントはマルチモダリティです。 AI対話システムをメタバースに適用したい場合、AI対話システムが表情を認識し、音声を理解し、音声からユーザーの感情を感じられるかどうか、表現力の高い音声合成が行えるかどうかが非常に重要です。アクションや表情の細やかな表現も非常に重要な難しさです。 AI テクノロジー レビュー: 「グレード定義」などの標準は民間の策定を通じて実装できますか?それとも国の承認が必要で、その後当局が関連基準を策定するのでしょうか? Huang Minlie: 「分類の定義」は標準ではありません。まず、私たちはこの問題を学術的な観点から議論し、一般の人々の認識を促進すると同時に、業界におけるシステム開発と研究の方向性について体系的な考え方を提供したいと考えています。現段階では「グレーディングの定義」が一定の基準となっているとは言えず、あくまで提案、ガイドラインにすぎませんが、今後はさらに努力して誰もが認める基準として浸透させていく必要があります。これは長期的なプロセスであり、「グレード定義」のリリースは、AI 対話システムの標準化および体系的な開発における最初のステップにすぎません。 AI技術レビュー: 先ほどもお話がありましたが、「AI対話システムの階層的定義」を広く認知し、応用するにはどのような取り組みが必要でしょうか? Huang Minlie: 今後、CCF の支援を受けて、関連研究機関と協力する予定です。 (中国コンピュータ連盟) 研究者と協力してホワイトペーパーを作成し、AI対話システムの開発プロセスに焦点を当て、「グレード定義」の目的と基準を詳細に説明します。 さらに、Amazon Alexa 賞コンテストと同様のコンテストを推進したいと考えています。これは資金的支援が必要な長期的な目標です。私たちは、さまざまな対話システムを真に比較するための、統合された開発環境、統合されたデータセット、および統合されたテスト フレームワークを作成したいと考えています。 Baidu にも同様のアイデアがあることは知っていますが、十分にオープンではありません。今後は、対話システムの研究を推進するとともに、産業実装を促進し、実用化における新たな展開を目指して、関係者の努力を結集してまいります。
以上が清華黄敏烈との会話: 自動運転用 AI 対話システムの階層的定義を借用すると、メタバースの仮想コンパニオンは L5 に位置する可能性があるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。