社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 硬體教學 > 硬體測評 > 显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

Barbara Streisand

發布： 2025-03-12 13:03:01

原創

740 人瀏覽過

上海交大、上海AI Lab和港中文大学的研究人员推出Visual-RFT（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（LVLM）性能。Visual-RFT巧妙地将DeepSeek-R1的基于规则奖励的强化学习方法与OpenAI的强化微调（RFT）范式相结合，成功地将这一方法从文本领域扩展到视觉领域。

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

通过为视觉细分类、目标检测等任务设计相应的规则奖励，Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性，为LVLM训练提供了新的途径。

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

Visual-RFT的优势：

与传统的视觉指令微调（SFT）方法相比，Visual-RFT具有以下显著优势：

少样本学习能力: 仅需10到1000条数据即可实现有效微调。
更强的泛化性: 在数据有限的场景下，性能优于SFT。

研究人员在多个视觉感知任务（检测、分类、定位等）上对Visual-RFT进行了验证，结果表明，即使在开放词汇和少样本学习的设定下，Visual-RFT也能取得显著的性能提升，轻松实现能力迁移。

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

研究人员针对不同的任务设计了相应的可验证奖励：基于IoU的奖励用于检测和定位任务，基于分类正确性的奖励用于分类任务。

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

在推理定位任务中，Visual-RFT展现出强大的视觉推理能力，例如，准确识别图片中运动员需要佩戴的防水眼镜。

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

实验结果:

基于QWen2-VL 2B/7B模型进行的实验表明，Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上均优于SFT。即使是检测特定动漫角色（例如史莱姆），Visual-RFT也只需少量数据即可实现。

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

开源信息:

Visual-RFT项目已开源，包含训练、评测代码和数据。

项目地址：//m.sbmmt.com/link/ec56522bc9c2e15be17d11962eeec453

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

以上是显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

git ai 模型背後模態 DeepSeek o1 sft 显著

上一篇：vivo Y200 GT首發體驗：輕薄機身下的續航「怪獸」下一篇：MWC 新品前瞻：榮耀全面接入 DeepSeek “一句話的事”落地榮耀 AI PC

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

最新問題

javascript - autodesk forge viewer 多模型載入模型瀏覽器問題

來自於 1970-01-01 08:00:00

0

0

0

關於模型的問題

來自於 1970-01-01 08:00:00

0

0

0

模型不收斂是怎麼回事？

來自於 1970-01-01 08:00:00

0

0

0

Laravel關聯模型的問題

來自於 1970-01-01 08:00:00

0

0

0

Laravel - 將模型關係更新到另一個模型

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1437191
php入門教程之一週學會PHP

4296958
JAVA 初級入門影片教學

2665430
小甲魚零基礎入門學習Python影片教學

516608
PHP 零基礎入門教學

877362

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板