概述
近年来,多模态基础模型(MFM),例如 CLIP、ImageBind、DALL・E 3、GPT-4V、Gemini 和 Sora,已成为人工智能领域最引人注目且发展迅速的领域之一。同时,MFM 的开源社区也涌现出了诸如 LLaVA、LAMM、MiniGPT-4、Stable Diffusion 和 OpenSora 等具有代表性的开源项目。
不同于传统计算机视觉和自然语言处理模型,这类 MFM 正在积极探索通用问题解决方案。通过引入 MFM,具身智能(EAI)能够在模拟器和现实世界环境中更好地处理各种复杂任务。然而,在 MFM 和 EAI 的交叉领域,仍有许多尚未探讨和解决的问题,包括智能体长期决策、智能体运动规划、新环境泛化能力等。
本次 Workshop 将致力于探讨几个关键问题,包括但不限于:
Workshop 征稿
该 workshop 聚焦于多模态基础模型(MFM)、具身智能(EAI)以及两项研究的交叉领域。本次征稿主题包括但不限于:
投稿规则
本次投稿将通过 OpenReview 平台实行双盲审稿。投稿的正文篇幅为 4 页,参考文献和补充材料篇幅不限。
时间节点
所有时间节点均为 [AoE] (Anywhere on Earth)。
MFM-EAI 挑战赛三个赛道(可同时参与)
EgoPlan 挑战旨在评估多模态大模型在现实世界场景中,针对人类日常活动所涉及的真实任务的规划能力。模型需要依据任务目标描述、第一人称视角视频和当前环境观察,选择合理的动作推进任务完成。
奖项设置:
Composable Generalization 挑战旨在评估规划-执行组合系统在开放场景下的任务能力和泛化能力。模型根据语言任务描述和多模态视觉输入进行任务拆解,控制器执行拆解后子任务。
World Model 挑战旨在评估世界模拟器在具身智能场景中的应用表现。模型根据具身任务描述和实时场景观测生成符合任务指令的视频,评估视频生成质量和指导 agent 完成任务的能力。
委员会成员
Workshop 组织者
指导委员会联系方式Workshop 相关问题icmlmfmeai@gmail.com以上是大模型与具身智能的火花,ICML 2024 MFM-EAI Workshop征稿和挑战赛启动的详细内容。更多信息请关注PHP中文网其他相关文章!