ホームページ > ハードウェアチュートリアル > ハードウェアのレビュー > SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

Barbara Streisand
リリース: 2025-03-12 13:03:01
オリジナル
740 人が閲覧しました

上海ジョートン大学、上海AIラボ、香港中国大学の研究者は、Visual Language Mockups(LVLM)のパフォーマンスを大幅に向上させるために少量のデータのみを必要とする視覚RFT(視覚エンハンスメントファインチューニング)オープンソースプロジェクトを開始しました。 Visual-RFTは、DeepSeek-R1のルールベースの強化学習アプローチとOpenAIの強化微調整(RFT)パラダイムを巧みに組み合わせて、このアプローチをテキストフィールドから視野に拡張しました。

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

視覚的サブカテゴリ化やオブジェクト検出などのタスクの対応するルール報酬を設計することにより、Visual-RFTは、テキスト、数学的推論、その他のフィールドに限定されているDeepSeek-R1メソッドの制限を克服し、LVLMトレーニングの新しい方法を提供します。

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

Visual-RFTの利点:

従来の視覚指導微調整(SFT)メソッドと比較して、Visual-RFTには次の重要な利点があります。

  • サンプル学習能力が低い:効果的な微調整を実現するために、10〜1000個のデータのみを使用できます。
  • より強力な一般化:データが限られているシナリオでは、パフォーマンスはSFTよりも優れています。

研究者は、複数の視覚認識タスク(検出、分類、場所など)の視覚RFTを検証し、結果は、視覚RFTがオープンな語彙および小規模サンプル学習の設定でも容易なパフォーマンスの改善を達成し、能力転送を容易に達成したことを示しました。

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

研究者は、さまざまなタスクに対応する検証可能な報酬を設計しました。Iouベースの報酬は、検出および配置タスクに使用され、分類正しさベースの報酬が分類タスクに使用されます。

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

推論の位置決めタスクでは、Visual-RFTは、アスリートが写真で着用する必要がある防水メガネを正確に識別するなど、強力な視覚的推論機能を実証します。

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

実験結果:

QWEN2-VL 2B/7Bモデルに基づく実験は、視覚RFTがオープンオブジェクト検出、小さなサンプル検出、細粒分類、推論の位置決めタスクにおいてSFTよりも優れていることを示しています。 特定のアニメキャラクター(SLIMEなど)を検出したとしても、少量のデータでVisual-RFTを実現できます。

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

オープンソース情報:

Visual-RFTプロジェクトはオープンソースであり、トレーニング、評価コード、データが含まれています。

プロジェクトアドレス: https://m.sbmmt.com/link/ec56522bc9c2e15be17d11962eeec453

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます

以上がSFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
最新の問題
JavaScript ネイティブ参照型
から 1970-01-01 08:00:00
0
0
0
TypeScript 型からの Nuxt `defineProps`
から 1970-01-01 08:00:00
0
0
0
Null値の型チェック
から 1970-01-01 08:00:00
0
0
0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート