社区

学习

工具库

AI工具

休闲

简体中文

首页 > 硬件教程 > 硬件测评 > 显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

Barbara Streisand

发布： 2025-03-12 13:03:01

原创

740 人浏览过

上海交大、上海AI Lab和港中文大学的研究人员推出Visual-RFT（视觉强化微调）开源项目，该项目仅需少量数据即可显着提升视觉语言大模型（LVLM）性能。 Visual-RFT巧妙地将DeepSeek-R1的基于规则奖励的强化学习方法与OpenAI的强化微调（RFT）范式相结合，成功地将这一方法从文本领域扩展到视觉领域。

显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

通过为视觉细分类、目标检测等任务设计相应的规则奖励，Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性，为LVLM训练提供了新的途径。

显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

Visual-RFT的优势：

与传统的视觉指令微调（SFT）方法相比，Visual-RFT具有以下显着优势：

少样本学习能力:仅需10到1000条数据即可实现有效微调。
更强的泛化性:在数据有限的场景下，性能优于SFT。

研究人员在多个视觉感知任务（检测、分类、定位等）上对Visual-RFT进行了验证，结果表明，即使在开放词汇和少样本学习的设定下，Visual-RFT也能取得显着的性能提升，轻松实现能力迁移。

显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

研究人员针对不同的任务设计了相应的可验证奖励：基于IoU的奖励用于检测和定位任务，基于分类正确性的奖励用于分类任务。

显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

在推理定位任务中，Visual-RFT展现出强大的视觉推理能力，例如，准确识别图片中运动员需要佩戴的防水眼镜。

显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

实验结果:

基于QWen2-VL 2B/7B模型进行的实验表明，Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上均优于SFT。即使是检测特定动漫角色（例如史莱姆），Visual-RFT也只需少量数据即可实现。

显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

开源信息:

Visual-RFT项目已开源，包含训练、评测代码和数据。

项目地址： //m.sbmmt.com/link/ec56522bc9c2e15be17d11962eeec453

显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

以上是显着超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

git ai 模型背后模态 DeepSeek o1 sft 显著

上一篇：vivo Y200 GT首发体验：轻薄机身下的续航「怪兽」下一篇：MWC 新品前瞻：荣耀全面接入 DeepSeek “一句话的事”落地荣耀 AI PC

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

最新问题

javascript - autodesk forge viewer 多模型加载模型浏览器问题

来自于 1970-01-01 08:00:00

0

0

0

关于模型的问题

来自于 1970-01-01 08:00:00

0

0

0

模型不收敛是怎么回事？

来自于 1970-01-01 08:00:00

0

0

0

Laravel关联模型的问题

来自于 1970-01-01 08:00:00

0

0

0

Laravel - 将模型关系更新到另一个模型

来自于 1970-01-01 08:00:00

0

0

0

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1437192
php入门教程之一周学会PHP

4296962
JAVA 初级入门视频教程

2665439
小甲鱼零基础入门学习Python视频教程

516612
PHP 零基础入门教程

877366

最新下载

更多>

网站特效

网站源码

网站素材

前端模板