画像理解の分野では、マルチモーダル大型モデルがその優れた性能を遺憾なく発揮しています。しかし、仕事で頻繁に扱われる図の理解と生成タスクに関しては、既存のマルチモーダル モデルにはまだ改善の余地があります。
グラフ理解の分野における現在の最先端のモデルは、単純なテスト セットでは良好に機能しますが、より複雑な質問と回答のタスクを処理することはできません。言語理解と出力能力の欠如。一方で、大規模な言語モデルに基づいてトレーニングされたマルチモーダル大規模モデルのパフォーマンスも満足のいくものではありません。これは、主にグラフのトレーニング サンプルが不足していることが原因です。これらの問題は、チャートの理解と生成タスクにおけるマルチモーダル モデルの継続的な進歩を著しく制限しています。
最近、テンセント、南洋理工大学、東南大学が ChartLlama を提案しました。研究チームは高品質のグラフ データセットを作成し、グラフの理解と生成タスクに焦点を当てたマルチモーダル大規模言語モデルをトレーニングしました。 ChartLlama は、言語処理やチャート生成などの複数の機能を組み合わせて、科学研究者や関連専門家に強力な研究ツールを提供します。
紙のアドレス: https://arxiv.org/abs/2311.16483
ホームページのアドレス: https://tingxueronghua.github.io/ChartLlama/
ChartLlama チームは、GPT-4 を使用して特定のテーマ、分布、傾向を持つデータを生成する、賢明で多様なデータ収集戦略を設計しました。データセットの多様性を確保するためのデータの量。チームは、オープンソースのプロット ライブラリと GPT-4 のプログラミング機能を組み合わせて、正確なグラフ コードを記述し、正確なグラフィック データ表現を生成しました。さらに、チームは GPT-4 を使用してチャートの内容を記述し、質問と回答のペアを生成し、トレーニングされたモデルがチャートを完全に理解できるようにするため、チャートごとに豊富で多様なトレーニング サンプルを生成しました。
##チャート理解の分野では、従来のモデルは、数値の読み取りやその他の単純な質問と回答のタスクなど、いくつかの単純な質問のみを完了でき、より複雑な質問には答えることができません。これらのモデルは長い命令に従うことが難しく、数学的演算を伴う質問や回答で間違いを犯すことがよくあります。対照的に、ChartLlama はこれらの問題を効果的に回避できます。具体的な比較は次のとおりです:
研究チームは、従来のタスクに加えて、いくつかのタスクも定義しました。新しいタスク。これには、チャート生成に関連する 3 つのタスクが含まれます。この文書には、関連する例が記載されています。
##チャート例を生成するプロセスは、指示と生データに基づいていますChartLlama は、さまざまなベンチマーク データ セットで良好に動作し、最先端のレベルに達しています。また、必要なトレーニング データの量も少なくなります。柔軟なデータ生成と収集方法を採用し、チャートの理解と生成タスクにおけるチャートの種類とタスクの種類を大幅に拡張し、フィールドの開発を促進します。
手法の概要
ChartLlama は、GPT-4 の強力な言語とプログラミング機能を活用して、豊富なマルチモーダル チャート データセットを作成する柔軟なデータ収集方法を設計しました。
ChartLlama のデータ収集は 3 つの主要なフェーズで構成されます:
#上記の手順を使用して、ChartLlama は複数のタスクと複数のグラフ タイプを含むデータセットを構築しました。データ セット全体におけるさまざまな種類のタスクとグラフの割合は次のとおりです。
詳細な手順と詳細については、元の論文を参照してください。手順
従来のタスクであっても、新しいタスクであっても、ChartLlama は最も優れていることを実証しました。パフォーマンス。従来のタスクには、グラフの質疑応答、グラフの概要、グラフの構造化データの抽出が含まれます。 ChartLlama を以前の最先端のモデルと比較した結果は以下のとおりです:
研究者らはまた、ChartLlama の独自のタスク機能も評価しました。チャートコードの生成、チャートの要約、チャートの編集。また、対応するタスクのテスト セットを作成し、現在最も強力なオープン ソースのグラフィックおよびテキスト モデルである LLaVA-1.5 と比較しました。結果は次のとおりです:
研究チームは、さまざまな種類のチャートで ChartLlama の質問と回答の精度をテストし、以前の SOTA モデルと比較しました。 Unichart を提案されたベースライン モデルと比較した結果は次のとおりです。
全体的に見て、ChartLlama はマルチモーダル学習の限界を押し広げるだけではありません。 、また、チャートの理解と生成のためのより正確かつ効率的なツールも提供します。学術論文でも企業プレゼンテーションでも、ChartLlama を使用すると、グラフの理解と作成がより直観的かつ効率的になり、複雑な視覚データの生成と解釈において重要な一歩を踏み出すことができます。
興味のある読者は、論文の原文にアクセスして、さらに研究内容を入手できます
以上がチャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。