


新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。
Editor | ScienceAI
質問と回答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。
現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。
まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答の選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、公開質問応答 (openQA) では、モデルの機能をより包括的に評価できますが、適切な評価指標がありません。
第二に、既存のデータセットの内容の多くは大学レベル以下の教科書からのものであり、実際の学術研究や生産環境でLLMの高度な知識保持能力を評価することが困難です。
第三に、これらのベンチマーク データセットの作成は人間の専門家のアノテーションに依存しています。
これらの課題に対処することは、より包括的な QA データセットを構築するために重要であり、科学的 LLM のより正確な評価にも役立ちます。
イラスト: 科学文献から高品質の科学的な質問と回答のペアを生成するための SciQAG フレームワーク。
この目的のために、米国のアルゴンヌ国立研究所、シカゴ大学のイアン・フォスター教授のチーム(2002年ゴードン・ベル賞受賞者)、ニューサウスウェールズ大学のブラム・ホークス教授のUNSW AI4Scienceチーム、オーストラリア、AI4Science 企業 GreenDynamics、および香港城市大学の Jie Chunyu 教授のチームは共同で、大規模な言語モデルに基づいて大規模な科学文献コーパスから高品質の科学的公開質問と回答のペアを自動的に生成する初の新しいフレームワークである SciQAG を提案しました。 (LLM)。
論文リンク:https://arxiv.org/abs/2405.09939
githubリンク:https://github.com/MasterAI-EAM/SciQAG
研究者らはSciQAGに基づいて構築したSciQAG-24D は、大規模で高品質のオープンな科学 QA データセットで、24 の科学分野の 22,743 の科学論文から抽出された 188,042 の QA ペアが含まれており、LLM の微調整と科学的問題の評価に役立つように設計されています。解決能力。
実験では、SciQAG-24D データセットで LLM を微調整すると、自由回答形式の質問応答や科学的タスクのパフォーマンスが大幅に向上することが実証されました。
AI for Science コミュニティによるオープンな科学 Q&A の共同開発を促進するために、データセット、モデル、評価コードがオープンソース化されました (https://github.com/MasterAI-EAM/SciQAG)。
SciQAG-24D ベンチマーク データセットを備えた SciQAG フレームワーク
SciQAG は、QA ジェネレーターと QA エバリュエーターで構成され、科学文献に基づいた多様な未解決の質問と回答のペアを大規模に迅速に生成することを目的としています。まず、ジェネレータが科学論文を質問と回答のペアに変換し、次に評価者が品質基準を満たさない質問と回答のペアをフィルタリングして、高品質の科学的質問と回答のデータセットを取得します。
QA ジェネレーター
研究者らは比較実験を通じて 2 段階のプロンプト (プロンプト) を設計し、LLM が最初にキーワードを抽出し、次にそのキーワードに基づいて質問と回答のペアを生成できるようにしました。
生成された質問と回答のデータセットは「クローズドブック」モードを採用しているため、つまり元の論文は提供されず、抽出された科学的知識自体にのみ焦点を当てています。プロンプトは、生成された質問と回答のペアが依存しないことを要求します。元の論文に含まれる固有の情報について言及したり、「この論文」、「この研究」などの現代的な命名法を使用したり、その表や写真について質問したりすることはできません。記事)。
パフォーマンスとコストのバランスを取るために、研究者らはオープンソース LLM をジェネレーターとして微調整することを選択しました。 SciQAG ユーザーは、微調整またはプロンプト ワード エンジニアリングを使用して、独自の状況に応じて、オープン ソースまたはクローズド ソースの LLM をジェネレーターとして選択できます。
QA エバリュエーター
エバリュエーターは、(1) 生成された質問と回答のペアの品質を評価する、(2) 設定された基準に基づいて低品質の質問と回答のペアを破棄する、という 2 つの目的を達成するために使用されます。
研究者らは、関連性、不可知論、完全性、正確性、合理性の 5 つの側面から構成される包括的な評価指標 RACAR を開発しました。
この研究では、研究者らは QA 評価ツールとして GPT-4 を直接使用し、生成された QA ペアを RACAR に従って 1 ~ 5 の評価レベルで評価しました (1 は許容できないことを意味し、5 は完全に許容できることを意味します)。
図に示すように、GPT-4 と手動評価の間の一貫性を測定するために、2 人のドメイン専門家が RACAR メトリクスを使用して 10 件の記事 (合計 100 の質問と回答のペア) に対して手動評価を実行しました。ユーザーは、ニーズに応じて、オープンソースまたはクローズドソースの LLM を評価者として選択できます。
図: GPT-4 に割り当てられたスコアと専門家の注釈スコアの間のスピアマンとピアソンの相関関係。
SciQAG フレームワークの適用
この研究では、Web of Science (WoS) コア コレクション データベースから、材料科学、化学、物理学、エネルギーなどの分野から、24 のカテゴリーで合計 22,743 件の高被引用論文を取得しました。 、信頼性が高く、豊富でバランスの取れた代表的な科学知識の情報源を構築することを目指しています。
オープンソース LLM を微調整して QA ジェネレーターを形成するために、研究者らは論文コレクションから 426 の論文を入力としてランダムに選択し、GPT-4 をプロンプトすることで 4260 のシード QA ペアを生成しました。
トレーニング済み QA ジェネレーターを使用して残りの論文に対して推論を実行し、合計 227,430 の QA ペア (シード QA ペアを含む) が生成されました。各カテゴリから 50 件の論文 (合計 1,200 件の論文) が抽出され、GPT-4 を使用して生成された各 QA ペアの RACAR スコアが計算され、いずれかのディメンション スコアが 3 未満の QA ペアがテスト セットとして除外されました。
残りの QA ペアについては、ルールベースの方法を使用して、論文の一意の情報を含むすべての質問と回答のペアをフィルタリングして除外し、トレーニング セットを形成します。
SciQAG-24D ベンチマーク データ セット
上記に基づいて、研究者はオープン科学 QA ベンチマーク データ セット SciQAG-24D を確立しました。フィルターされたトレーニング セットには 21,529 の論文と 179,511 の QA ペアが含まれ、フィルターされたテスト セットには次のものが含まれます。 1,199 件の論文と 8,531 件の QA ペア。
統計によると、回答内のデータの 99.15% は元の論文からのものであり、質問の 87.29% の類似性は 0.3 未満であり、回答は元のコンテンツの 78.26% をカバーしています。
このデータセットは広く使用されています。トレーニングセットはLLMを微調整し、科学的知識を注入するために使用できます。テストセットは、特定または全体的な科学分野におけるオープンQAタスクにおけるLLMのパフォーマンスを評価するために使用できます。 。テスト セットが大きいため、微調整用の高品質データとしても使用できます。
図: SciQAG-24D データセットのトレーニングとテストにおけるさまざまなカテゴリの記事の割合。
実験結果
研究者らは、異なる言語モデル間の科学的質問応答のパフォーマンスの違いを比較し、微調整の影響を調査するために包括的な実験を実施しました。
ゼロショット設定
研究者らは、SciQAG-24D のテストセットの一部を使用して、5 つのモデルのゼロショット性能を比較しました。そのうちの 2 つはオープンソース LLM、LLaMA1 (7B) と LLaMA2-chat (7B) で、残りはクローズドソース LLM です。
API 経由で呼び出します: GPT3.5 (gpt-3.5-turbo)、GPT-4 (gpt-4-1106-preview)、および Claude 3 (claude-3-opus-20240229)。テストでは各モデルに 1,000 の質問が表示され、その出力は CAR メトリクス (応答評価のみに焦点を当て、RACAR メトリクスから適応) によって評価され、科学研究の質問に答えるゼロショット能力が測定されました。
図に示すように、すべてのモデルの中で、GPT-4 は完全性 (4.90) と妥当性 (4.99) のスコアが最も高く、Claude 3 は精度スコア (4.95) が最も高くなります。 GPT-3.5 も非常に優れたパフォーマンスを示し、すべての指標で GPT-4 および Claude 3 に僅差のスコアを付けています。
特に、LLaMA1 は 3 つの次元すべてで最も低いスコアを持っています。対照的に、LLaMA2 チャット モデルは GPT モデルほどスコアは高くありませんが、すべての指標において元の LLaMA1 よりも大幅に向上しています。この結果は、科学的な質問に答える上で商用 LLM の優れたパフォーマンスが実証されている一方、オープンソース モデル (LLaMA2 チャットなど) もこの点で大きな進歩を遂げています。
図: SciQAG-24D でのゼロサンプルテストと微調整テスト (LLAMA1-QA)
微調整設定 (微調整設定)
研究者は、最悪のゼロを持つ LLaMA1 を選択しました。サンプルパフォーマンス SciQAG-24D のトレーニングセットに対して微調整を実行し、LLaMA1-QA を取得します。 3 つの実験を通じて、研究者らは、SciQAG-24D が下流の科学タスクのパフォーマンスを向上させるための効果的な微調整データとして使用できることを実証しました:
(a) 目に見えない SciQAG-24D テスト セットでの LLaMA-QA と元の LLaMA1 のパフォーマンス比較。
上の図に示すように、LLaMA1-QA のパフォーマンスは、元の LLaMA1 と比較して大幅に向上しました (完全性は 13% 向上、精度と妥当性は 30% 以上向上)。これは、LLaMA1 が SciQAG-24D の訓練データから科学的質問に答えるロジックを学習し、科学的知識を内面化していることを示しています。
(b) 科学的な MCQ ベンチマークである SciQ での微調整パフォーマンスの比較。
以下の表の最初の行は、LLaMA1-QA が LLaMA1 よりわずかに優れている (+1%) ことを示しています。観察によると、微調整によりモデルの命令追従能力も向上しました。解析できない出力の確率は、LLaMA1 の 4.1% から LLaMA1-QA の 1.7% に低下しました。
(c) さまざまな科学的タスクにおける微調整パフォーマンスの比較。
評価指標としては、分類タスクにはF1スコア、回帰タスクにはMAE、変換タスクにはKLダイバージェンスが使用されます。以下の表に示すように、LLaMA1-QA は、科学的タスクにおいて LLaMA1 モデルと比較して大幅な改善が見られます。
最も明らかな改善は回帰タスクに反映されており、MAE が 463.96 から 185.32 に低下しました。これらの発見は、トレーニング中に QA ペアを組み込むことで、科学的知識を学習して適用するモデルの能力が向上し、それによって下流の予測タスクのパフォーマンスが向上する可能性があることを示唆しています。
驚くべきことに、LLM は、機能を備えた特別に設計された機械学習モデルと比較して、一部のタスクでは同等またはそれを上回る結果を達成できます。たとえば、バンド ギャップ タスクでは、LLaMA1-QA は MODNet (0.3327) などのモデルほどのパフォーマンスはありませんが、AMMExpress v2020 (0.4161) を上回っています。
多様性タスクでは、LLaMA1-QA が深層学習ベースライン (0.3198) を上回りました。これらの発見は、LLM が特定の科学的タスクにおいて大きな可能性を秘めていることを示しています。
図: SciQ および科学的タスクにおける LLaMA1 および LLaMA1-QA のパフォーマンスの微調整 (M は多肢選択を表し、C は分類を表し、R は回帰を表し、T は変換を表します)
概要と展望
( 1) SciQAG は、科学文献から QA ペアを生成するためのフレームワークであり、QA ペアを評価およびスクリーニングするための RACAR メトリクスと組み合わせることで、リソースが乏しい科学分野向けに大量の知識ベースの QA データを効率的に生成できます。
(2) チームは、SciQAG-24D と呼ばれる、188,042 の QA ペアを含む包括的なオープンソースの科学 QA データセットを生成しました。トレーニング セットは LLM を微調整するために使用され、テスト セットはオープンエンドのクローズドブック科学 QA タスクにおける LLM のパフォーマンスを評価します。
SciQAG-24D テスト セット上のいくつかの LLM のゼロサンプル パフォーマンスが比較され、LLaMA1-QA を取得するために SciQAG-24D トレーニング セット上で LLaMA1 が微調整されました。この微調整により、複数の科学的タスクにおけるパフォーマンスが大幅に向上します。
(3) 研究によると、LLM には科学的タスクにおける可能性があり、LLaMA1-QA の結果は機械学習のベースラインを超えるレベルに達する可能性があります。これは、SciQAG-24D の多面的な有用性を示しており、科学的な QA データをトレーニング プロセスに組み込むことで、科学的知識を学習して適用する LLM の能力を強化できることを示しています。
以上が新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undress AI Tool
脱衣画像を無料で

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Stock Market GPT
AIを活用した投資調査により賢明な意思決定を実現

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

どんな時でも集中力は美徳です。著者 | 編集者 Tang Yitao | 人工知能の復活により、ハードウェア革新の新たな波が起きています。最も人気のある AIPin は前例のない否定的なレビューに遭遇しました。マーケス・ブラウンリー氏(MKBHD)はこれを、これまでレビューした中で最悪の製品だと評したが、ザ・ヴァージの編集者デイビッド・ピアース氏は、誰にもこのデバイスの購入を勧めないと述べた。競合製品である RabbitR1 はそれほど優れていません。この AI デバイスに関する最大の疑問は、これが明らかに単なるアプリであるのに、Rabbit は 200 ドルのハードウェアを構築したということです。多くの人がAIハードウェアのイノベーションをスマートフォン時代を打破するチャンスと捉え、スマートフォン時代に全力を注ぐ。

中国のAIは世界をリードしています。BaituBiotechXtrimov3 Biological Modelは、Stanford UniversityとNvidiaが共同でリリースしたEVO2の生物学的AIモデルを上回っていますが、その論文の詳細は、中国のAI:Baitu Biotechのシリーズの台頭を強調しています。米国市場による生命科学の基本モデルの先駆者と見なされている企業であるBaitu Biotechは、2020年以来、この分野での努力を深め続けています。 2024年10月、Xtrimov3のフルモーダル生物学的モデルが発売され、2100億パラメーターを備えた世界最大の基本ライフサイエンスAIモデルの新しい記録を樹立しました。 Xtrimov3のブレークスルーは、最初にあります

これまでのところ、AI ウェアラブル デバイス分野で特に優れた結果を達成した製品はありません。今年初めのMWC24で発表されたAIPinは、評価プロトタイプが出荷されると、発表当時に喧伝された「AI神話」が崩れ始め、わずか1年で大規模なリターンを獲得した。数か月; RabbitR1 も当初は比較的よく売れましたが、大量に出荷されたときは「Android ケース」と同様に否定的な評価を受けました。さて、別の企業がAIウェアラブルデバイス分野に参入しました。テクノロジーメディアのTheVergeは昨日、AIスタートアップのPlaudがNotePinという製品を発売したとのブログ投稿を公開した。まだ「絵を描いている」段階にあるAIFriendとは異なり、NotePinはすでに開始されています

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

編集者 | ScienceAI 1年前、GoogleのTransformer論文の最後の著者であるLlion Jones氏は起業するために退職し、元Google研究者のDavid Ha氏と人工知能会社SakanaAIを共同設立した。 SakanaAI は、自然からインスピレーションを得たインテリジェンスに基づいて新しい基本モデルを作成すると主張しています。さて、SakanaAIは解答用紙を提出しました。 SakanaAI は、自動化された科学研究とオープンディスカバリのための世界初の AI システムである AIScientist のリリースを発表します。 AIScientist は、着想、コードの作成、実験の実行、結果の要約から、論文全体の執筆、査読の実施まで、AI 主導の科学研究と加速を可能にします。

最近、Xiaomi が待望の HyperOS 2.0 バージョンを 10 月に発売するというニュースが流れました。 1.HyperOS2.0はXiaomi 15スマートフォンと同時にリリースされる予定です。 HyperOS 2.0 は、特に写真やビデオの編集における AI 機能を大幅に強化します。 HyperOS2.0 は、よりモダンで洗練されたユーザー インターフェイス (UI) をもたらし、よりスムーズでクリアで美しい視覚効果を提供します。 HyperOS 2.0 アップデートには、マルチタスク機能の強化、通知管理の改善、ホーム画面のカスタマイズ オプションの追加など、多数のユーザー インターフェイスの改善も含まれています。 HyperOS 2.0 のリリースは、Xiaomi の技術力の実証であるだけでなく、スマートフォン オペレーティング システムの将来に対するビジョンでもあります。

Machine Power Report 編集者: Yang Wen 大型モデルや AIGC に代表される人工知能の波は、私たちの生活や働き方を静かに変えていますが、ほとんどの人はまだその使い方を知りません。そこで、直感的で興味深く簡潔な人工知能のユースケースを通じてAIの活用方法を詳しく紹介し、皆様の思考を刺激するコラム「AI in Use」を立ち上げました。また、読者が革新的な実践的な使用例を提出することも歓迎します。最近、あるブロガーが世界の有名人たちの自画像のアニメーションを作成し、多くのネチズンが視聴するようになりました。たとえば、フィンセント・ファン・ゴッホは赤ひげを少し憂鬱そうに撫でた:貴族のように見えるモーツァルトはドレスをいじった:「高慢と偏見」を書いたジェーン・オースティンは椅子に座って微笑んだ:ベートーベンは自分を忘れて小さな子供を引っ張っていた地面
