Science Robotics 最新| 机器人一天学会 1000 项任务!
帝国理工学院团队在《Science Robotics》发表论文,提出基于“检索+分解”的MT3新范式。该方法仅需单次演示即可让机器人学会新技能,并在24小时内成功教会机器人1000项日常任务,大幅提升了数据效率。
- 24小时内教会机器人1000项任务
- 提出MT3(检索+分解)新范式
- 仅需单次演示即可实现技能泛化
- 将任务拆解为对齐与交互两阶段
- 少样本场景下远超传统行为克隆
帝国理工学院团队在《Science Robotics》发表论文,提出基于“检索+分解”的MT3新范式。该方法仅需单次演示即可让机器人学会新技能,并在24小时内成功教会机器人1000项日常任务,大幅提升了数据效率。
VibeVoice是一款集成了TTS、ASR和实时流式处理的开源语音AI框架。基于Qwen2.5模型与7.5Hz超低帧率Tokenizer,支持长文本多说话人合成、高精度识别及低延迟交互。
北京具身智能企业灵心巧手在国家信创园展示了能穿针引线的高自由度灵巧手。该企业占据全球超80%市场份额,并致力于掌握核心技术,从北京出发打造世界级灵巧手产业生态。
OpenClaw作为开源AI Agent框架登顶GitHub,凭借接管系统权限实现办公自动化引发全球关注。其爆火带动国产大模型调用激增,多地政府出台高额补贴,算力产业链全线受益,多家上市公司积极适配,同时需注意配置不当引发的安全风险。
开源AI框架OpenClaw(“龙虾”)因强大的自主执行能力迅速走红,引发科技圈与云厂商的热捧。然而,作为典型的“执行型智能体”,其暴露出的系统级安全风险与隐私隐患引起了官方与专家的强烈预警。
OpenClaw 是一款本地优先的开源 AI 执行引擎,通过三层架构实现对电脑的原生操作与全场景自动化。文章详细介绍了其系统级操控能力、数据主权保护机制及与现有大模型的区别,标志着 AI 从对话工具向自主执行数字员工的转变。
本文提出一种基于纯视觉和大模型的腿式机器人无SLAM导航框架。系统利用分层视觉-语言感知和语义概率拓扑图替代几何地图,结合LLM进行全局推理,实现了轻量级、鲁棒的语义级自由漫步。
本文深入拆解了机器人学的核心体系,涵盖定义、核心组件及控制架构。详细解析了从慎思式到基于行为的多种控制模式,并探讨了感知、学习机制及未来应用与伦理,是初学者的全面指南。
NASA联合团队提出WildOS系统,通过融合视觉大模型与稀疏几何导航图,解决了野外机器人在无地图环境下长距离语义搜索的难题。该系统利用视觉推理和粒子滤波实现超视距目标定位与分层规划,显著提升了机器人在非结构化环境中的自主探索效率与安全性。
文章预测2026年将成为灵巧手商业化落地的突破之年,深入剖析了硬件集成、软件数据及传感器三大技术壁垒。同时梳理了腱驱、连杆、直驱三大技术路线及核心厂商格局,指出行业融资加速,将率先在工业场景实现规模化应用。