阿里发布首个具身大模型Qwen-Robot系列：三个模型支持协同运转

我爱百科网热点资讯 2026-06-16 17:36:13 9

6月16日消息，据媒体报道，近日阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列，涵盖VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav与世界模型Qwen-RobotWorld三大核心模型。

这是千问大模型家族首个完整的具身智能模型矩阵——三个模型分别为机器人赋予操作能力、导航能力和环境认知能力，既可独立部署，亦可协同运转，为各类形态的机器人走向真实场景提供了统一的“通用底座”。

当前，全球具身智能正处于从实验室研发向商业化应用跨越的关键阶段。能否在未知环境中理解自然语言指令并稳定执行任务，是跨越这一门槛的核心难题。

Qwen-Robot系列通过三大模型的协同设计，让系统能够理解语言、感知三维环境、掌握物理规律，从而指挥机器人在真实世界中自主完成复杂操作与精准移动，甚至泛化到未曾见过的任务。

VLA（视觉-语言-动作）模型是具身智能的核心基础架构之一，融合视觉感知、语言理解与动作决策，使机器人能够看懂指令并执行操作。传统VLA模型的主要痛点是迁移能力不足——更换机器人平台或应用场景后性能明显下降。

要让不同形态的机器人统一听懂同一个模型，须解决动作表征与空间感知的统一问题。Qwen-RobotManip正是从这两点切入：

一方面，它采用一套80维的统一动作表征，为不同硬件定义了通用的“肢体语言”，使机器人习得基础物理规律与动作逻辑，动作不再停留于简单的模仿。

另一方面，它摒弃了繁琐的绝对坐标计算，直接基于摄像头画面中的相对位置进行操作，面对环境变化时反应更快更准。

搭载于不同硬件平台后，Qwen-RobotManip仅需少量交互反馈即可自动适配，性能稳定高效——如同经验丰富的司机坐进陌生车辆，稍试脚感便能上路。

在训练层面，Qwen-RobotManip完成了超过38000小时的语料预训练。值得注意的是，该模型全程仅基于开源数据训练，打破了行业高度依赖私有采集数据的常规路径，依然取得了优异表现。

在横跨30项真实任务、4个机器人平台的三方真机测评RoboChallenge Table30 v1中，代号为“Lira”和“Atlas”的两个Qwen-RobotManip版本包揽前两名，任务涵盖拧水龙头、插网线、双臂倒薯条等，评测方评价其“基础任务稳定，高难任务可突破”。

如果说VLA模型赋予机器人动手能力，VLN（视觉-语言-导航）模型则让机器人具备认路与移动能力。Qwen-RobotNav基于Qwen-VL构建，将语言指令导航、目标搜索、自动驾驶等五大导航任务统一至同一框架，面对复合任务无需人工切换模型。

针对传统VLN模型因记忆策略僵化而出现的“记少则迷路、记多则混乱”问题，Qwen-RobotNav创新推出任务自适应观察机制，能根据任务需求灵活切换记忆策略。

同时，该模型被设计为通用接口，可被上层系统调用，是业内少数原生支持多种智能体框架的VLN模型。它使机器人实现“边走、边看、边规划最优路径”，并将导航能力从孤立模块升级为可供统一调用的工具，为完整的具身智能系统提供了关键一环。

以搭载该系统的宇树Go2四足机器人为例，当指令为“帮我找找不知道放在哪里的行李箱”时，机器人可自主巡逻并结合视觉推理，最终顺畅完成寻物导航任务。

会动手、能跑腿，还需要“想得深”。正如体操运动员在脑海中反复预演动作，机器人也需要具备对物理世界的推演能力，这依托于具身智能领域的世界模型。

Qwen-RobotWorld是千问在此方向的最新探索——基于对物理规律的建模，可推演并模拟机器人下一时刻的合理动作与状态，让机器人在现实世界中按图索骥地执行任务。

在实际应用中，Qwen-RobotWorld不仅能生成视频数据用于模型训练，有效缓解训练数据不足的问题，还可在动作执行前帮助机器人预演未来轨迹，使操作更加精准可靠。

本文地址： http://www.wajm.cn/505824.html

文章来源：我爱百科网