チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

王林
リリース: 2023-12-03 11:22:48
転載
1545 人が閲覧しました

画像理解の分野では、マルチモーダル大型モデルがその優れた性能を遺憾なく発揮しています。しかし、仕事で頻繁に扱われる図の理解と生成タスクに関しては、既存のマルチモーダル モデルにはまだ改善の余地があります。

グラフ理解の分野における現在の最先端のモデルは、単純なテスト セットでは良好に機能しますが、より複雑な質問と回答のタスクを処理することはできません。言語理解と出力能力の欠如。一方で、大規模な言語モデルに基づいてトレーニングされたマルチモーダル大規模モデルのパフォーマンスも満足のいくものではありません。これは、主にグラフのトレーニング サンプルが不足していることが原因です。これらの問題は、チャートの理解と生成タスクにおけるマルチモーダル モデルの継続的な進歩を著しく制限しています。

最近、テンセント、南洋理工大学、東南大学が ChartLlama を提案しました。研究チームは高品質のグラフ データセットを作成し、グラフの理解と生成タスクに焦点を当てたマルチモーダル大規模言語モデルをトレーニングしました。 ChartLlama は、言語処理やチャート生成などの複数の機能を組み合わせて、科学研究者や関連専門家に強力な研究ツールを提供します。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

紙のアドレス: https://arxiv.org/abs/2311.16483

ホームページのアドレス: https://tingxueronghua.github.io/ChartLlama/

ChartLlama チームは、GPT-4 を使用して特定のテーマ、分布、傾向を持つデータを生成する、賢明で多様なデータ収集戦略を設計しました。データセットの多様性を確保するためのデータの量。チームは、オープンソースのプロット ライブラリと GPT-4 のプログラミング機能を組み合わせて、正確なグラフ コードを記述し、正確なグラフィック データ表現を生成しました。さらに、チームは GPT-4 を使用してチャートの内容を記述し、質問と回答のペアを生成し、トレーニングされたモデルがチャートを完全に理解できるようにするため、チャートごとに豊富で多様なトレーニング サンプルを生成しました。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手##チャート理解の分野では、従来のモデルは、数値の読み取りやその他の単純な質問と回答のタスクなど、いくつかの単純な質問のみを完了でき、より複雑な質問には答えることができません。これらのモデルは長い命令に従うことが難しく、数学的演算を伴う質問や回答で間違いを犯すことがよくあります。対照的に、ChartLlama はこれらの問題を効果的に回避できます。具体的な比較は次のとおりです:

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手研究チームは、従来のタスクに加えて、いくつかのタスクも定義しました。新しいタスク。これには、チャート生成に関連する 3 つのタスクが含まれます。この文書には、関連する例が記載されています。

##チャート例を生成するプロセスは、指示と生データに基づいています

ChartLlama は、さまざまなベンチマーク データ セットで良好に動作し、最先端のレベルに達しています。また、必要なトレーニング データの量も少なくなります。柔軟なデータ生成と収集方法を採用し、チャートの理解と生成タスクにおけるチャートの種類とタスクの種類を大幅に拡張し、フィールドの開発を促進します。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手手法の概要

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

ChartLlama は、GPT-4 の強力な言語とプログラミング機能を活用して、豊富なマルチモーダル チャート データセットを作成する柔軟なデータ収集方法を設計しました。

ChartLlama のデータ収集は 3 つの主要なフェーズで構成されます:

  • グラフ データの生成: ChartLlama は、従来のデータ ソースからデータを収集するだけでなく、GPT-4 の機能を活用して合成データを生成します。 GPT-4 は、トピック、分布、トレンドなどの特定の機能を提供することで、多様でバランスのとれたチャート データを生成するようにガイドされています。生成されたデータには既知のデータ分布特性が含まれているため、指示データの構築がより柔軟かつ多様になります。
  • チャートの生成: 次に、GPT-4 の強力なプログラミング機能を使用し、オープン ソース ライブラリ (Matplotlib など) を使用して、生成されたデータに基づいてチャートを作成します。描画スクリプトにより、注意深くレンダリングされた一連の図が作成されました。チャートの描画は完全にオープンソース ツールに基づいているため、このアルゴリズムはトレーニング用にさらに多くの種類のチャートを生成できます。 3 つのチャート タイプのみをサポートする ChatQA などの既存のデータ セットと比較して、ChartLlama によって構築されたデータ セットは最大 10 のチャート タイプをサポートし、任意に拡張できます。
  • 指示データの生成: チャートのレンダリングに加えて、ChartLlama はさらに GPT-4 を使用してチャートの内容を記述し、トレーニングを確実にするためにさまざまな質問と回答のデータを構築します。実績のあるモデルはグラフを完全に理解できます。この包括的な命令に適応したコーパスには、説明文、質問と回答のペア、および図のソース コードまたは修正コードが組み込まれています。過去のデータ セットは 1 ~ 3 個のグラフ理解タスクのみをサポートしますが、ChartLlama は最大 10 個のグラフ理解および生成タスクをサポートします。これにより、アイコン内の情報を理解するために大規模なグラフィックスおよびテキスト モデルをトレーニングするのに役立ちます

#上記の手順を使用して、ChartLlama は複数のタスクと複数のグラフ タイプを含むデータセットを構築しました。データ セット全体におけるさまざまな種類のタスクとグラフの割合は次のとおりです。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

詳細な手順と詳細については、元の論文を参照してください。手順

実験結果

従来のタスクであっても、新しいタスクであっても、ChartLlama は最も優れていることを実証しました。パフォーマンス。従来のタスクには、グラフの質疑応答、グラフの概要、グラフの構造化データの抽出が含まれます。 ChartLlama を以前の最先端のモデルと比較した結果は以下のとおりです:

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

研究者らはまた、ChartLlama の独自のタスク機能も評価しました。チャートコードの生成、チャートの要約、チャートの編集。また、対応するタスクのテスト セットを作成し、現在最も強力なオープン ソースのグラフィックおよびテキスト モデルである LLaVA-1.5 と比較しました。結果は次のとおりです:

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

研究チームは、さまざまな種類のチャートで ChartLlama の質問と回答の精度をテストし、以前の SOTA モデルと比較しました。 Unichart を提案されたベースライン モデルと比較した結果は次のとおりです。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

全体的に見て、ChartLlama はマルチモーダル学習の限界を押し広げるだけではありません。 、また、チャートの理解と生成のためのより正確かつ効率的なツールも提供します。学術論文でも企業プレゼンテーションでも、ChartLlama を使用すると、グラフの理解と作成がより直観的かつ効率的になり、複雑な視覚データの生成と解釈において重要な一歩を踏み出すことができます。

興味のある読者は、論文の原文にアクセスして、さらに研究内容を入手できます

以上がチャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート