首页 > 硬件教程 > 硬件测评 > 显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

Barbara Streisand
发布: 2025-03-12 13:03:01
原创
740 人浏览过

上海交大、上海AI Lab和港中文大学的研究人员推出Visual-RFT(视觉强化微调)开源项目,该项目仅需少量数据即可显着提升视觉语言大模型(LVLM)性能。 Visual-RFT巧妙地将DeepSeek-R1的基于规则奖励的强化学习方法与OpenAI的强化微调(RFT)范式相结合,成功地将这一方法从文本领域扩展到视觉领域。

显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

通过为视觉细分类、目标检测等任务设计相应的规则奖励,Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性,为LVLM训练提供了新的途径。

显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

Visual-RFT的优势:

与传统的视觉指令微调(SFT)方法相比,Visual-RFT具有以下显着优势:

  • 少样本学习能力:仅需10到1000条数据即可实现有效微调。
  • 更强的泛化性:在数据有限的场景下,性能优于SFT。

研究人员在多个视觉感知任务(检测、分类、定位等)上对Visual-RFT进行了验证,结果表明,即使在开放词汇和少样本学习的设定下,Visual-RFT也能取得显着的性能提升,轻松实现能力迁移。

显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

研究人员针对不同的任务设计了相应的可验证奖励:基于IoU的奖励用于检测和定位任务,基于分类正确性的奖励用于分类任务。

显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

在推理定位任务中,Visual-RFT展现出强大的视觉推理能力,例如,准确识别图片中运动员需要佩戴的防水眼镜。

显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

实验结果:

基于QWen2-VL 2B/7B模型进行的实验表明,Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上均优于SFT。 即使是检测特定动漫角色(例如史莱姆),Visual-RFT也只需少量数据即可实现。

显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

开源信息:

Visual-RFT项目已开源,包含训练、评测代码和数据。

项目地址: //m.sbmmt.com/link/ec56522bc9c2e15be17d11962eeec453

显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

以上是显着超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
最新问题
关于模型的问题
来自于 1970-01-01 08:00:00
0
0
0
模型不收敛是怎么回事?
来自于 1970-01-01 08:00:00
0
0
0
Laravel关联模型的问题
来自于 1970-01-01 08:00:00
0
0
0
Laravel - 将模型关系更新到另一个模型
来自于 1970-01-01 08:00:00
0
0
0
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板