現在、この論文は CVPR2023 に採択されました。
画像を読み取れるGPT-4が衝撃リリース!ただし、利用するには並ぶ必要があります。 。 。
まずはこれを試してみませんか~
小さなモデルを追加すると、テキストのみを簡単に理解できる ChatGPT や GPT-3 などの大きな言語モデルを作成できます画像を読むあらゆる種類の 厄介な詳細 に簡単に対処できます。
そして、この小さなモデルをトレーニングします。これは 1 枚のカード (RTX 3090) で実行できます。
効果については、写真をご覧ください。
たとえば、訓練された GPT-3 に「音楽シーン」の写真を入力し、「その現場ではどのような活動が行われているのですか?」と質問します。
GPT-3 は迷うことなく、コンサートに答えを出しました。
さらに難しくするには、GPT-3 に Jiang Zi の写真を与え、写真にあるカーテンの素材の種類を識別させます。
GPT-3: レース。 ######ビンゴ! (何か付いているようです)
この方法は、杭州電子科学技術大学と合肥理工大学のチーム
Prophetの最新の成果です。半年前にすでに開発されていたので、これに取り掛かります。 論文の筆頭著者は杭州典子大学大学院生の邵振偉さんで、1歳の時に「進行性脊髄性筋萎縮症」と診断され、在学中に浙江大学に合格しなかったことを後悔していたという。受験して家から近い杭州典子大学を選びました。
この論文は CVPR2023 に採択されました。
クロスモーダル タスクで新しい SOTA に到達する
まず、データセットのテスト結果を見てみましょう。
研究チームは、外部知識に基づいた 2 つの視覚的な質問と回答のデータセット、OK-VQA と A-OKVQA で Prophet をテストし、両方とも
新しい SOTAを作成しました。
具体的には、OK-VQA データセット上で、80B パラメーターを備えた Deepmind の大規模モデル Flamingo と比較して、Prophet は精度を達成しました成功率は61.1%で、フラミンゴ(57.8%)を破ることに成功しました。
そして、必要なコンピューティング能力リソースの点でも、Prophet は Flamingo を「上回っています」。
Flamingo-80B は
1536 TPUv4 グラフィックス カードで 15 日間 トレーニングする必要がありますが、Prophet に必要なのは 1 つの RTX-3090 グラフィックス カード のみです。 VQA モデルを 4 日 トレーニングしてから、OpenAI API を一定回数呼び出します。
実際、GPT-3 によるクロスモーダル タスクの処理を支援する Prophet と同様のメソッド (PICa など) や、その後の KAT や REVIVE などがありました。
ただし、一部の詳細の処理では満足できない場合があります。
栗を渡して、下の絵を一緒に読んでもらい、次の質問に答えてもらいます。絵の中の木にはどんな実がなりますか?
PICa、KAT、および REVIVE が写真から抽出した唯一の情報は、背後にココナッツの木があることを完全に無視して広場を歩いている人々のグループでした。最終的な答えは推測することしかできません。
Prophet ではこのような事態は起こらず、上記の方法で抽出された画像情報が不足する問題を解決し、GPT-3 の可能性をさらに引き出します。
では、預言者はどのようにしてそれを行ったのでしょうか?
小規模モデル 大きなモデル
を利用しています。 これら 2 つの段階間の役割分担も明確です:
まず、第 1 段階で、研究チームは、特定の外部知識 VQA データセットに対して、改良された MCAN モデル (VQA モデル) をトレーニングしました。
モデルをトレーニングした後、モデルから 2 つのヒューリスティックな回答 (回答候補と回答を認識した例) を抽出します。
このうち、回答候補をモデル分類層が出力する信頼度に基づいてソートし、上位10件を選出します。
応答認識の例は、モデル分類層の前の特徴をサンプル (この特徴空間で最も類似したラベル付きサンプル) の潜在的な回答特徴として使用することを指します。
次のステップは第 2 段階ですが、これは比較的単純で大まかです。
前のステップで取得した「感動的な回答」をプロンプトに整理し、そのプロンプトを GPT-3 に入力して視覚的な質問を完成させ、特定のプロンプトの下で質問に回答します。
ただし、前のステップでいくつかの回答のヒントが示されていますが、これは GPT-3 がこれらの回答に限定されることを意味するものではありません。
プロンプトによって与えられる回答の信頼度が低すぎる場合、または正しい回答がそれらのプロンプトの中にない場合、GPT-3 が新しい回答を生成する可能性は十分にあります。
もちろん、研究結果に加えて、この研究を支えたチームについても言及する必要があります。
筆頭著者Shao Zhenweiは、1歳のときに「進行性脊髄性筋萎縮症」と診断され、第1級の身体障害であり、自力でのケアができません。生活も勉強も母親の全面的な世話が必要です。
しかし、身体的な限界にもかかわらず、シャオ・ジェンウェイの知識への渇望は衰えていません。
2017 年の大学入学試験では 644 点の高得点を獲得し、杭州電子科学技術大学コンピューター専攻に首席で入学しました。
この期間中、彼は2018年の中国大学生自己啓発スター、2020年の全国奨学金、2021年の浙江省優秀卒業生などの栄誉も獲得しました。
シャオ・ジェンウェイは学部時代に、周裕教授とともに科学研究活動を開始していました。
2021年、シャオ・ジェンウェイさんは大学院への昇進の準備をしていたときに浙江大学と偶然出会い、同大学に残り、周余教授の研究グループに参加して修士号取得を目指しました。大学院2年目。研究方向はクロスモーダル学習。
Yu Zhou教授は、この研究論文の第二著者および責任著者であり、杭州点平大学コンピューターサイエンス学部の最年少教授であり、「複雑システム研究会」のメンバーです。文部省「モデリングとシミュレーション」研究室副所長。
Yu Zhou は、長年にわたり マルチモーダル インテリジェンス の方向を専門としており、研究チームを率い、国際的なビジュアル質問応答チャレンジ VQA チャレンジで優勝と準優勝を果たしました。何度も。
研究チームのメンバーのほとんどは、杭州電子 メディア インテリジェンス研究所 (MIL) に所属しています。
当研究室は、国家優秀人材であるユ・ジュン教授が所長を務めており、近年では、多方面に焦点を当てたハイレベルな学会論文(TPAMI、IJCV、CVPRなど)を次々と発表しています。モーダル学習の分野で多くの IEEE ジャーナル賞を受賞しており、会議では最優秀論文賞を受賞しています。 当研究室は、国家重点研究開発計画や中国国家自然科学財団など20以上の国家プロジェクトを主催しており、浙江省自然科学賞で一等賞、教育自然科学賞で二位を受賞しています。科学賞。以上が杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。