首页 > 科技周边 > 人工智能 > 视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

Linda Hamilton
发布: 2025-03-12 13:12:02
原创
236 人浏览过

重磅推荐:Visual-RFT——视觉强化微调开源项目,赋能视觉语言模型!

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

AIxiv专栏持续关注全球顶尖AI研究,已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Visual-RFT (Visual Reinforcement Fine-Tuning) 项目,将基于规则奖励的强化学习与强化微调(RFT)范式成功应用于视觉语言大模型(LVLM),突破了以往方法仅限于文本、数学等领域的局限。通过为视觉细分类、目标检测等任务设计特定规则奖励,Visual-RFT 为LVLM训练提供了全新思路!

图1展示了Visual-RFT的强大泛化能力:模型仅需少量数据,便能准确识别视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源中特定宝可梦并定位其坐标。

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

图1. Visual-RFT 将强化微调扩展到多模态,只需10-1000条数据即可显着提升模型性能。

从RFT到Visual-RFT:强化学习在多模态领域的突破

OpenAI的强化微调技术,只需少量样本即可实现模型能力迁移。 DeepSeek-R1揭示了其强大的推理能力源于基于可验证奖励的强化学习策略。然而,该策略此前主要应用于文本、数学等领域。 Visual-RFT将此策略成功拓展至视觉领域,通过构建可验证规则奖励,解决了传统方法在视觉领域的局限性,实现高效、高泛化性的视觉理解与推理。

传统的视觉指令微调(SFT)需要大量数据,而Visual-RFT的少样本学习能力使其在数据稀缺场景下更具优势。

为了验证Visual-RFT的泛化能力,研究团队在目标检测、分类、 grounding等多个视觉任务上进行了测试。结果显示,Visual-RFT在开放词汇、少样本学习等设定下,仅需少量数据即可实现显着性能提升,并优于SFT方法。尤其在推理定位任务中,Visual-RFT展现出卓越的视觉推理能力。 (详见论文)

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

图2. Visual-RFT在多个视觉任务上显着超越SFT。

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

图3. Visual-RFT框架图,利用IoU和cls奖励以及强化学习策略更新模型参数。

研究团队使用基于IoU的可验证奖励用于检测和grounding任务,使用基于分类正确性的cls奖励用于分类任务。 (如图3所示)

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

图4. 推理定位结果展示,Visual-RFT超越SFT,更精准地定位物体。

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

图5. 推理细粒度分类结果展示,Visual-RFT超越SFT,更精准地定位物体。

图4和图5展示了模型输出结果,Visual-RFT通过强化学习策略,进行深入的推理分析,取得了优于SFT的性能。

Visual-RFT实验结果

基于QWen2-VL 2B/7B模型,Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上全面超越SFT。实验数据涵盖COCO、LVIS等通用场景和互联网卡通人物等开放场景。仅需少量数据,Visual-RFT即可实现能力迁移,展现出卓越的性能和鲁棒性。

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

图5. 部分实验结果展示,Visual-RFT显着超越SFT。

Visual-RFT已开源!

Visual-RFT项目已开源,包含训练、评估代码和数据。欢迎参与!

项目地址: //m.sbmmt.com/link/ec56522bc9c2e15be17d11962eeec453

以上是视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
最新问题
企业公众号怎么推广
来自于 1970-01-01 08:00:00
0
0
0
作业在哪
来自于 1970-01-01 08:00:00
0
0
0
课后作业
来自于 1970-01-01 08:00:00
0
0
0
作业
来自于 1970-01-01 08:00:00
0
0
0
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板