阿里发布首个具身大模型Qwen-Robot系列:三个模型支持协同运转

我爱百科网 热点资讯 1

6月16日消息,据媒体报道,近日阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列,涵盖VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav与世界模型Qwen-RobotWorld三大核心模型。

这是千问大模型家族首个完整的具身智能模型矩阵——三个模型分别为机器人赋予操作能力、导航能力和环境认知能力,既可独立部署,亦可协同运转,为各类形态的机器人走向真实场景提供了统一的“通用底座”。

当前,全球具身智能正处于从实验室研发向商业化应用跨越的关键阶段。能否在未知环境中理解自然语言指令并稳定执行任务,是跨越这一门槛的核心难题。

Qwen-Robot系列通过三大模型的协同设计,让系统能够理解语言、感知三维环境、掌握物理规律,从而指挥机器人在真实世界中自主完成复杂操作与精准移动,甚至泛化到未曾见过的任务。

VLA(视觉-语言-动作)模型是具身智能的核心基础架构之一,融合视觉感知、语言理解与动作决策,使机器人能够看懂指令并执行操作。传统VLA模型的主要痛点是迁移能力不足——更换机器人平台或应用场景后性能明显下降。

要让不同形态的机器人统一听懂同一个模型,须解决动作表征与空间感知的统一问题。Qwen-RobotManip正是从这两点切入:

一方面,它采用一套80维的统一动作表征,为不同硬件定义了通用的“肢体语言”,使机器人习得基础物理规律与动作逻辑,动作不再停留于简单的模仿。

另一方面,它摒弃了繁琐的绝对坐标计算,直接基于摄像头画面中的相对位置进行操作,面对环境变化时反应更快更准。

搭载于不同硬件平台后,Qwen-RobotManip仅需少量交互反馈即可自动适配,性能稳定高效——如同经验丰富的司机坐进陌生车辆,稍试脚感便能上路。

在训练层面,Qwen-RobotManip完成了超过38000小时的语料预训练。值得注意的是,该模型全程仅基于开源数据训练,打破了行业高度依赖私有采集数据的常规路径,依然取得了优异表现。

在横跨30项真实任务、4个机器人平台的三方真机测评RoboChallenge Table30 v1中,代号为“Lira”和“Atlas”的两个Qwen-RobotManip版本包揽前两名,任务涵盖拧水龙头、插网线、双臂倒薯条等,评测方评价其“基础任务稳定,高难任务可突破”。

如果说VLA模型赋予机器人动手能力,VLN(视觉-语言-导航)模型则让机器人具备认路与移动能力。Qwen-RobotNav基于Qwen-VL构建,将语言指令导航、目标搜索、自动驾驶等五大导航任务统一至同一框架,面对复合任务无需人工切换模型。

针对传统VLN模型因记忆策略僵化而出现的“记少则迷路、记多则混乱”问题,Qwen-RobotNav创新推出任务自适应观察机制,能根据任务需求灵活切换记忆策略。

同时,该模型被设计为通用接口,可被上层系统调用,是业内少数原生支持多种智能体框架的VLN模型。它使机器人实现“边走、边看、边规划最优路径”,并将导航能力从孤立模块升级为可供统一调用的工具,为完整的具身智能系统提供了关键一环。

以搭载该系统的宇树Go2四足机器人为例,当指令为“帮我找找不知道放在哪里的行李箱”时,机器人可自主巡逻并结合视觉推理,最终顺畅完成寻物导航任务。

会动手、能跑腿,还需要“想得深”。正如体操运动员在脑海中反复预演动作,机器人也需要具备对物理世界的推演能力,这依托于具身智能领域的世界模型。

Qwen-RobotWorld是千问在此方向的最新探索——基于对物理规律的建模,可推演并模拟机器人下一时刻的合理动作与状态,让机器人在现实世界中按图索骥地执行任务。

在实际应用中,Qwen-RobotWorld不仅能生成视频数据用于模型训练,有效缓解训练数据不足的问题,还可在动作执行前帮助机器人预演未来轨迹,使操作更加精准可靠。

抱歉,评论功能暂时关闭!