机器之心编辑部
还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?
【资料图】
上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。
昨天,1X 公司带着它的全新「大脑」亮相:1X World Model。这一次,NEO 似乎准备把「背后的操作员」给解放了。
简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界是如何运作的:东西掉了会下落,门是可以推开的。
他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动,才能把这段想象变成现实。
不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。
那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量已突破 500 万。
看来,在经历了 AI 时代各式各样炫酷 Demo 的轮番轰炸之后,大家还是忍不住想看看:这一回,它是真长脑子了吗?
以下是 1X 技术团队对这颗「新大脑」的硬核拆解:
家庭机器人要真正走进现实环境,必须具备常识性的行为能力以及对物理世界的深刻理解。
当前许多机器人基础模型采用的是 VLA 范式:即在一个预训练的 VLM 之上,增加一个用于预测机器人动作的输出头(例如 PI0.6、Helix、Groot N1.5)。VLM 能够从互联网规模的数据中学习到丰富的知识,但其训练目标更侧重于视觉与语义理解,而非对物理动态过程的预测。
因此,即便是对人类而言非常简单的任务,模型往往也需要数万小时、成本高昂的机器人数据才能学会完成。此外,为了进一步强化模型对物理交互中空间关系的理解,研究者通常还需要引入各种辅助训练目标(如 MolmoAct、Gemini-Robotics 1.5)。
在这篇博客中,1X 介绍了基于视频预训练的世界模型——1XWM,并将其集成进 NEO 机器人作为其控制策略。
与 VLA 模型直接从静态的图像-语言输入中预测动作轨迹不同,世界模型驱动策略是通过文本条件下的视频生成来推导机器人应采取的动作。借助互联网规模视频中蕴含的真实世界动力学规律,该世界模型能够在无需大规模机器人数据预训练、也不依赖任何相关的遥操作演示的情况下,即可泛化到全新的物体、运动方式和任务场景。
这标志着机器人智能范式的一次转变:机器人开始直接受益于视频预训练规模化带来的能力跃迁,而这一切得以实现,离不开一整套为高保真人类具身到机器人具身迁移而设计的硬件系统支持。
从视频知识到世界模型
如今,诸如 Veo 和 Sora 等前沿文生视频模型已经能够生成极其逼真的视频内容。然而,这些模型在零样本生成场景下并未与机器人具身形态对齐,因而在控制任务所需的多个关键维度上往往存在不足,表现在以下几个方面:
原始视频能够提供看起来会发生什么,但并未给出如何去做。为了将视频知识转化为真正可用于控制的世界模型,1X 借助自身的端到端系统架构,采用了一种两阶段的对齐过程,思路与 DreamGen、UniPi 等已有工作一脉相承:
在推理阶段,系统接收一个文本指令和一帧初始画面:世界模型负责生成符合意图的未来场景演化,逆动力学模型从中提取所需的动作轨迹,最终由机器人在现实世界中执行该动作序列。
1XWM 的训练与推理流程
1XWM 的主干模型基于一个 140 亿参数的生成式视频模型。为了使该模型适配 NEO 的具身形态,1X 还采用了一种多阶段训练策略:
以 DALL·E 3 等工作为例,已有研究表明,通过使用更具描述性的视觉文本标注进行训练,可以显著提升视觉基础模型对提示词的遵循能力。然而,许多第一视角数据集仅包含简要的任务描述。为此,1X 利用一个 VLM 生成更加详细的描述性字幕,并通过字幕上采样的方式将其用于训练。
此外,IDM 在 400 小时未经过滤的机器人数据上进行训练,其中既包括随机探索数据,也包含与任何具体任务无关的运动轨迹。这使得模型能够在任意状态下对 NEO 的运动进行准确追踪。
在测试阶段,系统接收一帧初始画面以及一条指导 NEO 执行动作的文本指令。1XWM 负责生成未来的视频序列,随后由 IDM 从生成视频中提取对应的机器人动作轨迹,并将其直接下发至机器人执行。为保证轨迹的平滑性,IDM 的输出会在多个初始噪声样本和滑动窗口维度上进行时间平均处理。
NEO 后训练数据集主要包含高质量的抓取和放置数据(98.5%),这些数据经过筛选,仅包含桌面操作且手部可见的场景。通过利用基础视频模型的网络级预训练,1XWM 模型可以泛化到各种未曾见过的物体、环境和任务。
1XWM 到底能做啥
研究团队进一步评估了 1XWM 在任务泛化方面的能力,重点关注其是否能够完成 NEO 从未经历过的任务,以及生成视频与真实机器人执行之间的一致性程度。
在实验中,搭载 1XWM 的 NEO 被用于执行多种超出既有经验的任务,包括:
实验结果显示,1XWM 生成的视频与真实世界中的执行过程整体高度一致。将模型生成的视频与机器人实际完成任务后拍摄的视频进行并排对比,可以发现二者在视觉表现上非常接近。这表明,1XWM 在空间结构理解、运动学约束建模以及物理一致性等方面已经具备较强能力。
抓取:
新动作:清洁
接下来,1X 尝试需要双手协调和人机交互的任务。这些能力并未包含在训练数据集中。这表明此类知识来源于视频预训练和以第一人称视角进行的人机交互训练。由于 NEO 的身体结构与人类非常相似,因此从人类视频数据中学习到的功能可以直接迁移应用。
研究团队还通过系统性的实物实验评估了 1XWM 在分布内(ID)与分布外(OOD)任务上的表现。每类任务均重复执行 30 次。结果显示,1XWM 在多种动作原语上都保持了稳定的成功率,不过部分对精细操作要求较高的任务(例如倒液体、绘图等)仍然具有一定挑战性。
能否将视频质量与任务成功率联系起来?
如果可以,就能使用视觉指标来衡量和改进视频质量,并估计实际任务成功的可能性。
有时,生成的视频是否可能成功一目了然。例如,向 1XWM 模型输入拉取纸巾指令,有时会生成 NEO 机器人拿起纸巾盒而不是拉取纸巾的视频。执行这些错误生成的视频时,成功率几乎为 0%。
1X 团队注意到像测试时计算这样的方法可以提高任务成功率。受此启发,他们尝试并行生成多个视频,并执行其中质量最好的一个。这个选择过程可以手动完成,但也可以使用 VLM 评估器进行自动化。
第一视角数据与高质量字幕的重要性
基于此前假设:生成视频的质量与任务成功率之间存在相关性,研究团队对若干训练选择进行了视觉层面的消融分析,重点考察了字幕上采样以及第一视角人类数据训练这两项因素的影响。
实验共使用了三个评测数据集,每个数据集均包含 500 组起始图像–提示词对:
下面是新任务数据示例:
团队还要求人工标注员审查每个生成的视频,并根据物理合理性、任务完成情况以及与 NEO 的形态和能力的一致性来决定接受或拒绝该视频。
字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更加匹配,也能更清晰地引导具体动作生成。
引入第一视角人类数据则显著提升了新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验,且与 NEO 的类人具身高度契合。
不过,在已有大量 NEO 数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限,甚至略有负面影响。
参考链接:https://www.1x.tech/discover/world-model-self-learning
免责声明:本网站所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。
1月14日,上海华谊新材料丙烯酸异辛酯华东送到价格9000元/吨,与上一个报价日价格上涨了200元/吨,实单商谈为主。
1月13日甲醇外盘市场收盘价格持稳:CFR东南亚甲醇市场收于321.5-322.5美元/吨。FOB美国海湾甲醇市场收于于87.5-88.5美分/加仑;欧洲FOB鹿特丹甲醇市场收于259.5-260.5
为响应国铁集团及建设单位对隧道施工机械化、信息化、自动化的要求,五新装备自2017年起陆续推出L0、L1、L2系列智能凿岩台车,实现从电控、半电脑到全电脑的跨越式演进,全线产品覆盖公路、铁路、水利、洞库等多领域隧洞工程,以智能化硬核科技,重新定义隧道施工效率与安全标杆。L0 电控版标配智能角度功能、钻孔日志、数据存储和上传、故障语音报警功能。电比例遥控操作,操作简单易学。钻臂具备推进梁智能...
500万次围观,1X把「世界模型」真正用在了机器人NEO身上,实验,机器人,运动学,neo,世界模型
同花顺(300033)数据中心显示,雅艺科技(301113)1月13日获融资买入688.22万元,该股当前融资余额2959.85万元,占流通市值的2.14%,
佳缘科技:公司一直以来为航天领域客户提供相关产品或技术,包括但不限于:安全载荷、计算载荷、地面数传设备、信息化技术和服务等,相关产品和服务已经形成订单
曝莫兰特热火互有兴趣!迈阿密内部讨论:能否助其重返全明星状态,全明星,热火队,nba,杰克逊,迈阿密热火,贾·莫兰特,孟菲斯灰熊队
天眼查App显示,近日,河间市朔安保温材料店(个体工商户)成立,法定代表人为史佳顺,注册资本2万人民币,经营范围为一般项目:保温材料销售;制冷、空调设备销售;橡
每经AI快讯,美国财政部拍卖30年期国债,得标利率4.825%(12月11日为4.773%),投标倍数2.42(前次2.36)。
鲁网1月13日讯近日,由首届鲁迅文学奖得主徐剑创作的文化行走之书——《阅山河》由河南文艺出版社出版发行。该书将地理风貌、历史记忆与精神价值融为一体,是一部兼具知
13日晚间,包括浙数文化、浙文互联、人民网、新华网等在内的多家上市公司密集发布公告,回应在AI应用方面的业务相关情况。
上证报中国证券网讯北京时间1月13日晚间,摩根大通发布最新财报。公司2025年第四季度实现营收457.98亿美元,同比增长约7%,上一年同期为427.68亿美元;净利润130.25亿美元,同比下降约7
又走一猛将,成都蓉城雪上加霜,新赛季别说冠军,前五都难进!,蓉城,鹏城,深圳,猛将,周定洋,新赛季,成都市,伦敦德比
电网设备概念股龙头股有哪些?据南方财富网概念查询工具数据显示,电网设备概念股龙头股有:国电南瑞:国电南瑞在近30日股价上涨9.34%,最高价为24.84元,最低价为22.03元。当前
易车讯1月12日,中国汽车工业协会发布了关于中欧电动汽车反补贴案磋商取得积极成果的声明。中汽协在生命中表示,中欧双方秉持相互尊重的原则,通过持续对话与多轮磋商
3分险胜火箭,12分斩杀湖人!国王背靠背喜提2连胜,威少把话挑明,威少,火箭,雄鹿队,湖人球员,萨克拉门托国王队
人民财讯1月13日电,凌钢股份(600231)1月13日公告,预计2025年将出现亏损,实现归属于母公司所有者的净利润亏损14.5亿元—16.7亿元,上年同期亏损16.78亿元。

起重机作为一种高度复杂的运输系统,其运行涉及多个运动维度的精确协调。在典型的起重机操作中,起升机构负责垂直方向的载荷移动,大车机构实现水平方向的整体位移,而小车机构则完成精确的定位调整。这些运动往往需要同时或交替进行,这就要求驱动系统中的减速机必须具备出色的负载能力和精准的控制性能。针对起重机系统的特殊需求,诺...

乡村振兴有效衔接考核评估反馈问题整改工作开展以来,海东市乐都区把整

村民送水给施工人员。收边。运输混凝土。施工现场。施工现场。农村道路