「言語は人間の知識全体のほんの一部しか担っていません。人間の知識のほとんどと動物の知識はすべて非言語です。したがって、大規模な言語モデルは人間レベルの知能に近づくことはできません。」これはチューリング賞受賞者のヤン・ルカン氏の言葉です。人工知能の展望に関する最新の考え方。
昨日、ニューヨーク大学博士研究員ジェイコブ・ブラウニング氏と共著した彼の新しい論文が「NOEMA」に掲載されました。人々の議論。
この記事の中で、著者は現在普及している大規模言語モデルについて論じており、これには明らかな限界があると考えています。 AI 分野における今後の取り組みの方向性は、現実世界の他のレベルの知識を機械に優先的に理解させることになるかもしれません。
彼らが何を言っているか見てみましょう。
少し前に、元 Google AI 倫理研究者のブレイク・ルモイン氏は、AI チャットボット LaMDA には人間と同じ意識があると主張し、この分野で大騒ぎを引き起こしました。
LaMDA は、実際には、特定のテキストに対して次に考えられる単語を予測するように設計された大規模言語モデル (LLM) です。多くの会話はある程度予測可能であるため、これらのシステムは会話を効率的に保つ方法を推測できます。 LaMDA はこの種のタスクで非常に優れた仕事をするため、Blake Lemoine は AI に「意識」があるのではないかと疑問に思うようになりました。
この問題について、この分野の研究者はさまざまな見解を持っています。機械に意識があるという考えを嘲笑する人もいれば、LaMDA モデルはそうではないかもしれないと考える人もいますが、次のことは次のことです。モデルは意識しているかもしれません。機械が人間を「騙す」のは難しくないと指摘する人もいる。
回答の多様性は、より深刻な問題を浮き彫りにしています。LLM がより一般的かつ強力になるにつれて、これらのモデルに関する私たちの見解に同意することがますます困難になっているように思えます。長年にわたり、これらのシステムは多くの「常識」言語推論ベンチマークを上回ってきましたが、テストするとこれらのシステムはほとんど常識を持っていないように見え、ナンセンスで非論理的で危険な提案をする傾向さえあります。これは厄介な疑問を引き起こします: これらのシステムはなぜこれほどインテリジェントでありながら、機能がこれほど限定されているのでしょうか?
実際、最も根本的な問題は人工知能ではなく、言語の限界です。意識と言語の関係についての仮定を放棄すると、これらのシステムは世界を表面的に理解するだけになり、人間の「総合的思考」には決して近づくことはできません。つまり、これらのモデルはすでに地球上で最も優れた AI システムの一部となっていますが、これらの AI システムが私たち人間ほどインテリジェントになることは決してないのです。
19 世紀から 20 世紀にかけて、哲学と科学の主要なテーマは、「知識は単なる言語である」というものでした。つまり、1 つのことを理解するには、文の内容を理解し、その文を他の文と関連付けるだけで済みます。この論理によれば、理想的な言語形式は、厳密な推論規則によって接続された任意の記号で構成される論理数学形式になります。
哲学者ウィトゲンシュタインは「真の命題の総和が自然科学である」と述べました。この立場は 20 世紀に確立され、その後多くの論争を引き起こしました。
高学歴の知識人の中には、今でも次のような見解を持っている人がいます。「私たちが知ることのできることはすべて百科事典に含まれているので、百科事典の内容をすべて読むだけで、私たちは包括的な理解ができるようになります」この考え方は、シンボリック AI に関する初期の研究の多くにも影響を与え、シンボリック処理をデフォルトのパラダイムにしました。これらの研究者にとって、AI の知識は、手作りのロジックによって相互に接続された実際の文章の大規模なデータベースで構成されており、AI システムの目標は、適切なタイミングで適切な文章を出力すること、つまり、シンボルを適切な方法で処理することです。適切な方法です。
この概念はチューリング テストの基礎です。機械が言うべきことをすべて「言う」場合、それは、機械が正しい文を知っているため、自分が何を話しているのかを知っていることを意味します。そしてそれらをいつ使用するかについては、上記の人工知能の知識を使用します。
しかし、この見解は厳しく批判されており、これに対する反論は、機械が何かを話すことができるからといって、それが何を言っているのかを理解しているわけではないということです。なぜなら、言語は非常に具体的で非常に限定された知識の表現にすぎないからです。プログラミング言語、記号論理言語、日常の話し言葉など、すべての言語は特定の種類の表現モードを可能にしており、離散オブジェクトとプロパティ、およびそれらの間の関係を非常に高い抽象レベルで表現することに優れています。
ただし、すべての表現モードには物事に関する情報の圧縮が含まれますが、圧縮の際に何が残され、何が省略されるかは異なります。言語の表現方法では、不規則な形状、物体の動き、複雑な機構の機能、絵画の細心の注意を払った筆運びなどの記述など、いくつかの特定の情報が失われる可能性があります。一部の非言語表現スキームでは、象徴的な知識、分散された知識など、この情報をわかりやすい方法で表現できます。
言語表現モデルの欠点を理解するには、まず言語がどれほど多くの情報を伝えるかを認識する必要があります。実際、言語は情報を伝達するための非常に低帯域幅の方法であり、特に孤立した単語や文が文脈なしにほとんど情報を伝えない場合にはそう言えます。さらに、同音異義語や代名詞が多いため、多くの文の意味は非常に曖昧です。チョムスキーなどの研究者が指摘しているように、言語は明確で曖昧さのないコミュニケーション ツールではありません。
しかし、人間は非言語言語を理解するシステムを共有しているため、完璧なコミュニケーション ツールは必要ありません。文の理解は、多くの場合、その文が置かれている文脈の深い理解に依存しており、言語表現の意味を推測することができます。私たちはサッカーの試合など、目前にある事柄について直接話すことがよくあります。または、ウェイターに食べ物を注文するなど、状況における社会的役割とコミュニケーションをとることもできます。
同様のことは、テキストの一節を読む場合にも当てはまります。このタスクは、AI による常識へのアクセスを損なうタスクですが、文脈に依存しない読解スキルを子供たちに教える一般的な方法です。このアプローチは、文章を理解するために一般的な読解戦略を使用することに焦点を当てていますが、研究によると、子供がそのトピックについて持っている背景知識の量が、実際には理解の重要な要素であることがわかっています。文や段落が正しいかどうかを理解するには、主題の基本的な把握が必要です。
#「これらのシステムが表面的な理解に囚われており、人間の思考の全範囲に決して近づくことはできないことは明らかです。」
# #Word と文に固有の文脈特性は、LLM の仕事の中核です。ニューラル ネットワークは通常、知識をノウハウとして表します。つまり、文脈に非常に敏感なパターンを把握し、入力を精巧な方法で処理するために必要だが限られた人にしか適さない規則性 (具体的および抽象的) を要約する熟練した能力です。タスク 。
LLM では、既存のテキストの複数のレベルでパターンを識別し、段落内で単語がどのように接続されているか、および文がどのように構成されているかを確認するシステムが重要です。段落。その結果、モデルによる言語の把握は必然的に文脈に依存することになります。それぞれの単語は、辞書の意味に従ってではなく、さまざまな文の中での役割に従って理解されます。 「キャブレター」、「メニュー」、「チューニング」、「エレクトロニクス」などの多くの単語は、ほぼ特定の分野でのみ使用されるため、これらの単語の 1 つが含まれる単独の文であっても、予想どおり文脈から外れてしまいます。
つまり、LLM は各文の背景知識を理解し、周囲の単語や文を見て何が起こっているのかをつなぎ合わせるように訓練されています。これにより、さまざまな文やフレーズを入力として使用し、会話を続けたり、記事の残りを埋めるための合理的な (完璧とは言えませんが) 方法を考え出す無限の可能性が与えられます。日常のコミュニケーションで使用するために人間が書いた段落でトレーニングされたシステムは、高品質の会話を行うために必要な一般的な理解を備えている必要があります。
一部の人々は、この文脈で「理解」という言葉を使用したり、LLM を「インテリジェント」と呼ぶことに抵抗を感じます。意味論はまだ言えません。誰でも納得させます。批評家はこれらのシステムを一種の模倣であると非難しますが、それは当然のことです。これは、LLM の言語理解が印象的ではあるものの、表面的なものであるためです。この表面的な認識は、よく知られたものに感じられます。教室には、自分たちが何を話しているのか全く分からない「専門用語を話す」学生が溢れており、事実上、教授や読んでいるテキストを真似しているのです。それは人生の一部にすぎません。私たちは、特に言語から得られる知識に関して、自分が知っていることについて不明確であることがよくあります。
LLM は、すべてについてこの表面的な理解を獲得します。 GPT-3 のようなシステムは、文の一部をマスクしたり、段落内の次の単語を予測したりして、ギャップを埋める可能性が最も高い単語を機械に推測させ、誤った推測を修正することによってトレーニングされます。このシステムは最終的に、最も可能性の高い単語を推測することに熟達し、効果的な予測システムになります。
これにより、本当の理解がもたらされます。どのような質問やパズルにも、通常、正しい答えはわずか数個しかありませんが、間違った答えは無数にあります。これにより、システムは、この種の質問に対する正しい答えを定期的に予測するために、ジョークの解釈、文章問題の解決、論理パズルの解決など、言語固有のスキルを学習する必要があります。
これらのスキルと関連知識により、機械は複雑な物事がどのように機能するかを説明し、難しい概念を単純化し、ストーリーを書き直して語り直し、その他多くの言語関連の能力を獲得できるようになります。シンボリック AI が主張するように、機械は、論理的なルールによってリンクされた文の膨大なデータベースの代わりに、前の行を考慮して合理的な次の文を思いつくために使用される文脈上のハイライトとして知識を表します。
「すべての知識は言語的であるという考えを放棄すると、私たちの知識のどれだけが非言語的であるかがわかります。」
しかし、概念を言語で説明する能力と、それを実際に使用する能力は異なります。システムは、長い除算を実際には実行できないにもかかわらず、その実行方法を説明することができます。または、システムは、それと矛盾している点を説明しながら、喜んで説明を続けることもできます。文脈知識は、言語の知識を言語化する能力というある形には組み込まれていますが、共感的になることや難しい問題に敏感に対処することなど、物事のやり方に関するスキルとしては別の形には組み込まれません。
後者の専門知識は言語ユーザーにとって不可欠ですが、言語スキルを習得できるわけではありません。言語コンポーネントは主要なものではありません。これは、講義や本から学んだ概念も含め、多くの概念に当てはまります。科学の授業には講義の要素がありますが、学生の得点は主に研究室での作業に基づいています。特に人文科学以外では、何かについて話せることは、物事をうまく進めるために必要な基本的なスキルほど役に立たず、重要でもないことがよくあります。
もう少し深く掘り下げると、これらのシステムが実際にどれほど浅いのかが簡単にわかります。システムの注意持続時間と記憶力は、およそ 1 段落に相当します。会話をしていると、最後の 1 ~ 2 つのコメントに注目して次の返信に取り組む傾向があるため、これを見逃しがちです。
しかし、より複雑な会話のコツ、つまり積極的に聞くこと、前のコメントを思い出して再検討すること、気を散らさずに特定の論点を主張するためにトピックに固執することなど、すべてにさらなる注意が必要です。そして機械が持つ以上の記憶力。
これにより、彼らが理解できる内容の種類はさらに減ります。数分ごとに話題を変えたり、言葉を変えたり、奇妙になったりすることで、彼らをだますのは簡単です。戻りすぎると、システムは最初からやり直し、新しいビューを古いコメントと一緒にまとめたり、チャットの言語を切り替えたり、あなたの言うことを信じたりします。一貫した世界観を構築するために必要な理解は、機械の能力をはるかに超えています。
すべての知識は言語的なものであるという考えを放棄すると、私たちの知識のかなりの部分が非言語的なものであることがわかります。本には、開梱して利用できる情報がたくさん含まれていますが、他の多くのアイテムにも同じことが当てはまります。IKEA の説明書では、図の横にキャプションをわざわざ書くことさえありませんし、AI 研究者は、ネットワーク アーキテクチャを理解する前に、論文の図をよく見ます。旅行者はテキストを閲覧することで、地図上の赤または緑の線に従って行きたい場所に移動できます。
ここでの知識は、単純なアイコン、チャート、マップを超えています。人類は世界を探索することで多くのことを直接学び、物質や人が表現できるものと表現できないものを示してきました。物質の構造や人間の環境は、ドアノブが手の高さである、ハンマーの柄が柔らかいなど、多くの情報を視覚的に伝えます。動物や人間における非言語的精神シミュレーションは一般的であり、シナリオを計画するのに役立ち、アーティファクトの作成やリバース エンジニアリングに使用できます。
同様に、社会の習慣や儀式を模倣することで、食べ物や薬の準備からストレスの多い時の心を落ち着かせることまで、さまざまなスキルを次世代に教えることができます。私たちの文化的知識の多くは象徴的なもの、または熟練した実践者から見習いに受け継がれる正確な動きの形をしています。これらの情報の微妙なパターンは言葉で表現して伝えるのが難しいですが、それでも他の人には理解できます。これは、ニューラル ネットワークが取得して洗練するのが得意な、正確なタイプのコンテキスト情報でもあります。
「言語のみで訓練されたシステムは、たとえこれから宇宙が熱的に滅亡するまで訓練されたとしても、決して人間の知性に近づくことはできません。」
言語は、小さな形式で大量の情報を伝えることができるため、特に印刷とインターネットの出現によりコンテンツが複製され、広く配布されるようになったために重要です。しかし、言語による情報の圧縮にはコストがかかります。密集した文章を解読するには多大な労力が必要です。人文科学の授業では、授業時間の多くを難しい文章を読むのに費やすなど、外部での広範囲にわたる読書が必要となる場合があります。深い理解を構築するには時間と労力がかかりますが、有益です。
これは、言語訓練を受けた機械が非常に多くのことを知っていながら、何も理解できない理由を説明しています。小さなボトルネックを通じて人間の知識のごく一部にアクセスしているのです。しかし、人間の知識のその小さな断片は、愛であれ天体物理学であれ、あらゆるものに関わることができます。つまり、これは鏡に似ています。奥行きがあるように錯覚させ、ほとんどすべてのものを反射できますが、厚さはわずか 1 センチメートルです。その深さを探ろうとすると壁にぶつかります。
これは、機械が愚かになるわけではありませんが、機械がどれほど賢くなれるかには本質的に限界があることを示しています。言語だけを訓練したシステムは、たとえ今から宇宙の熱による死まで訓練されたとしても、決して人間の知性に近づくことはできません。これは知識システムを構築する間違った方法です。しかし、ほんの表面をなぞるだけでも、機械は確かに人間に近づいているように見えます。そして多くの場合、表面だけで十分です。実際に他の人にチューリング テストを適用し、積極的に理解の深さを疑問視したり、複数桁の掛け算の問題を強制したりする人はほとんどいません。ほとんどの会話は世間話です。
ただし、LLM が持つ表面的な理解と、人間が世界の驚異を観察し、探索し、実践し、文化と交流することによって獲得する深い理解を混同すべきではありません。と他の人が混在しています。言語は世界の理解を広げるのに役立つ要素かもしれませんが、言語によって知性が枯渇するわけではありません。この点は、カラス、タコ、霊長類などの多くの種の行動から理解できます。
逆に、深い非言語理解は、言語が意味を持つために必要な条件です。人間は世界を深く理解しているからこそ、他人の言っていることがすぐに理解できるのです。このより広範で状況に応じた学習と知識は、物理的な生物学的知覚の出現の基礎となり、生存と繁栄を可能にする、より基本的な古代の知識です。
これは、人工知能研究者が人工知能の常識を探すときに焦点を当てるより重要なタスクでもあります。 LLM には認識できる安定した身体や世界がありません。そのため、彼らの知識は言葉で始まり言葉で終わることが多く、この常識は常に表面的なものです。目標は、AI システムが言葉そのものではなく、話している世界に焦点を当てられるようにすることですが、LLM はその違いを理解していません。この深い理解を言葉だけで表現することはできませんが、それは間違った方向性です。
人間がさまざまな大規模な言語モデルを処理した広範な経験は、音声だけからは得られるものがいかに少ないかを明らかに示しています。
以上がヤン・ルカン氏、巨大模型では人間の知性に近づくという目標は達成できないと語るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。