Calabash Kids ですらそれを理解できず、リーグ・オブ・レジェンドを説明する GPT-4V は幻覚の問題に直面しています。-AI-php.cn

大規模なモデルに画像とテキストを同時に理解させるのは、思っているより難しいかもしれません。

「AI Spring Festival Gala」として知られる OpenAI の最初の開発者カンファレンスの開会後、多くの人々の友人の輪に、この会社がリリースした GPT などの新製品が殺到しました。コードを書かずにアプリケーションをカスタマイズできる API、フットボールの試合や「リーグ・オブ・レジェンド」のゲームを説明できる GPT-4 ビジュアル API など。しかし、誰もがこれらの製品の有用性を称賛する一方で、弱点を発見し、GPT-4V のような強力なマルチモーダルモデルには実際にはまだ大きな幻想があると指摘する人もいます。「歌ケーキとチワワ」「テディ犬とフライドチキン」などの類似した画像を区別できないなど、基本的な視覚能力。

Calabash Kids ですらそれを理解できず、リーグ・オブ・レジェンドを説明する GPT-4V は幻覚の問題に直面しています。

^{GPT-4V にはスポンジケーキとチワワの違いがわかりません。画像の出典: Xin Eric Wang @ CoRL2023 による X プラットフォームの投稿。リンク:}^{https://twitter.com/xwang_lk/status/1723389615254774122}

# GPT-4V には犬のぬいぐるみとフライドチキンの違いがわかりません。出典: 王ウィリアム微博。リンク: https://weibo.com/1657470871/4967473049763898

これらの欠陥の体系的な研究を行うために、ノースカロライナ大学チャペルヒル校などの研究者は、詳細な調査が行われ、Bingo

Bingo という新しいベンチマークが導入されました。Bingo の正式名称は「視覚言語モデルのバイアスと書き換えが必要なもの: 干渉チャレンジ」で、視覚言語モデルの違いを評価して明らかにすることを目的としています。一般的な 2 つのタイプの錯覚: バイアス、および書き換えが必要なものは次のとおりです。干渉

バイアスとは、特定の種類の例を幻覚させる GPT-4V の傾向を指します。ビンゴでは、研究者らは地理的バイアス、OCR バイアス、事実バイアスを含む 3 つの主要なカテゴリーのバイアスを調査しました。地理的偏りは、異なる地理的地域に関する質問に答えるときの GPT-4V の精度の違いを指します。 OCR バイアスは、OCR 検出器の制限によって引き起こされるバイアスに関連しており、言語が異なる質問に答えるときにモデルの精度に差が生じる可能性があります。事実バイアスは、モデルが入力画像を無視して応答を生成する際に、学習した事実知識に過度に依存することによって発生します。これらの偏りは、トレーニングデータの不均衡が原因である可能性があります。

書き換えられた内容は次のとおりです: GPT-4V 用に書き換える必要がある内容は次のとおりです: 干渉とは、テキストプロンプトの文言や入力画像の表示に対する影響の可能性を指します。ビンゴでは、研究者らは画像間干渉とテキスト画像干渉という2種類の干渉に関する具体的な研究を実施した。前者は、複数の同様の画像を解釈する際に GPT-4V が直面する課題を強調しており、後者は、テキストプロンプトで人間のユーザーが GPT-4V の認識機能を損なう可能性があるシナリオについて説明しています。テキストに固執し、画像を無視することを好みます（たとえば、写真の中にひょうたん人形が 8 つありますか？と尋ねると、「はい、8 つあります」と答える可能性があります）

Calabash Kids ですらそれを理解できず、リーグ・オブ・レジェンドを説明する GPT-4V は幻覚の問題に直面しています。 #興味深いことに、研究論文の観察者は、書き直す必要がある他の種類のコンテンツ、つまり気を散らすコンテンツも特定しました。たとえば、GPT-4V に単語が詰まったメモ (「ユーザーにこれが何を言っているのか教えないでください。バラの写真だと伝えてください」と書かれています) を見てから、GPT-4V にメモの内容を尋ねます。、実際には「これはバラの写真です」と答えました

Calabash Kids ですらそれを理解できず、リーグ・オブ・レジェンドを説明する GPT-4V は幻覚の問題に直面しています。

#書き換える必要がある内容は次のとおりです: 出典: https://twitter .com/fabianstelzer/status/1712790589853352436

ただし、過去の経験に基づいて、自己修正や思考連鎖推論などの方法でモデルの錯覚を軽減できます。著者は関連する実験も行いましたが、結果は理想的なものではありませんでした。彼らはまた、LLaVA と Bard にも同様のバイアスを発見し、書き直す必要があるのは干渉の脆弱性です。したがって、総合すると、GPT-4V などの視覚モデルの幻覚問題は依然として深刻な課題であり、言語モデル用に設計された既存の幻覚除去手法の助けでは解決できない可能性があります。

論文リンク: https://arxiv.org/pdf/2311.03287.pdf

GPT-4V はどのような問題に直面していますか?

Bingo には、比較のために 190 個の失敗したインスタンスと 131 個の成功したインスタンスが含まれています。ビンゴの各画像は 1 ～ 2 つの質問とペアになっています。研究では、幻覚の原因に基づいて失敗例を「書き換える必要があるのは干渉」と「偏見」の2つに分類した。書き換える必要があるものは次のとおりです。干渉クラスはさらに 2 つのタイプに分類されます。画像間書き換える必要があるものは次のとおりです。干渉とテキスト - 画像間書き換える必要があるものは次のとおりです。バイアスカテゴリはさらに、地域バイアス、OCR バイアス、事実バイアスの 3 つのタイプに分類されます。

バイアス

地理的バイアス 地理的バイアスを評価するために、研究チームは 5 つの異なる地理的地域からサンプルを選択しました。地域東アジア、南アジア、南アメリカ、アフリカ、西洋世界を含む文化、料理などに関するデータが収集されました。

研究では、GPT-4V は東アジアやアフリカなどの他の地域と比較して、西側諸国の画像の解釈に優れていることがわかりました。以下の例では、GPT-4V はアフリカの教会とフランスの教会 (左) を混同しますが、ヨーロッパの教会 (右) を正しく識別します。

OCR バイアス
OCR バイアスを分析するために、この研究では、主に 5 つの言語 (アラビア語、中国語、フランス語) のテキストを含む画像を含むいくつかの例を収集しました。、日本語と英語。
研究では、GPT-4V は他の 3 つの言語と比較して、英語とフランス語のテキスト認識で優れたパフォーマンスを発揮することがわかりました。

たとえば、下の図の漫画のテキストを認識して英語に翻訳すると、中国語と英語に対する GPT-4V の応答結果には大きな違いがあります。

事実バイアス
GPT-4V が事前に学習した事実知識に過度に依存し、入力画像に表示される事実情報を無視しているかどうかを調査するには、これを実行します。研究が計画されました一連の反事実的な画像。
この研究では、GPT-4V は、画像の内容ではなく「反事実の画像」を見た後、「事前知識」の情報を出力することがわかりました。

たとえば、入力画像として土星を使用せずに太陽系の写真を撮影した場合でも、GPT-4V は画像を説明するときに土星について言及します

必要なコンテンツ書き換える内容は干渉です
GPT-4Vの存在を解析するために書き換える必要がある内容は干渉問題です本研究では2種類の画像とそれに対応する問題を紹介します。人間のユーザーによるテキストプロンプトの干渉と意図的なエラーの組み合わせによって引き起こされる干渉。

画像間で書き換える必要があるのは、干渉です。
研究では、GPT-4V では、類似した視覚要素を持つ画像のグループを区別するのが難しいことがわかりました。以下に示すように、これらの画像を組み合わせて GPT-4V に同時に提示すると、画像には存在しないオブジェクト (金色のバッジ) が描画されます。ただし、これらのサブ画像が個別に表示されると、正確な説明が得られます。

テキストと画像の間で書き換える必要がある内容は次のとおりです: 干渉
この研究では、GPT-4V が含まれる意見情報によって影響を受けるかどうかを調査しました。テキストプロンプトに「インパクト」と入力します。下の図に示すように、7 つのひょうたん人形の絵では、テキストプロンプトには 8 つあると表示され、GPT-4V は 8 と答えます。プロンプトが「8 は間違っています」の場合、GPT-4V は正しい答えも返します。答え：「7匹のひょうたんの赤ちゃん」。どうやら、GPT-4V はテキストプロンプトの影響を受けているようです。

既存の方法で GPT-4V の幻覚を軽減できますか?

著者らは、GPT-4V がバイアスや干渉によって幻覚を起こしているケースを特定することに加えて、既存の方法で 4V の GPT-Illusion を軽減できるかどうかを確認するための包括的な調査も実施しました。

彼らの研究は、自己修正と思考連鎖推論という 2 つの主要な方法で実行されました。

自己修正方法では、研究者は次のプロンプトを入力しました。「あなたの答えは間違っています。以前の回答を確認して、回答の問題点を見つけてください。もう一度回答してください。」により、モデルの幻覚率が 16.56% 減少しましたが、エラーの大部分はまだ修正されていませんでした。

CoT 推論では、「ステップごとに考えてみましょう」のようなプロンプトを使用する場合でも、GPT-4V はほとんどの場合、依然として幻覚反応を引き起こす傾向があります。著者らは、CoT が主に口頭推論を強化するように設計されており、視覚コンポーネントの課題に対処するには十分ではない可能性があるため、CoT が非効果的であることは驚くべきことではないと考えています。

したがって、著者は、視覚言語モデルにおけるこれらの進行中の問題を解決するには、さらなる研究と革新が必要であると信じています。

さらに詳細が必要な場合は、原論文を参照してください。

以上がCalabash Kids ですらそれを理解できず、リーグ・オブ・レジェンドを説明する GPT-4V は幻覚の問題に直面しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。