让机器人飞入寻常百姓家丨青源Workshop「人形机器人」观点集锦

2023-09-21 17:00:22

388b892d8f575630e21d5943432ba819.png

人形机器人并非新事物,早在上世纪70年代,日本早稻田大学加藤一郎就带领团队研发出世界上第一台人形智能机器人——WABOT-1。而去年马斯克Optimus的发布,也对“机器人热”再度推波助澜。人形机器人领域的发展,需要软件和硬件的共同迭代和优化,同时相比于无人驾驶,人形机器人涉及更加复杂的真实世界多模态环境。机器人技术依赖于机械控制、自动化、机器视觉、高精度定位、场景建模、导航与决策等基础,形成了极为复杂的技术体系。

同时对于普通用户来讲,人形机器人究竟多久从实验室走入千家万户?让机器人辅助倒咖啡、从事家居服务、甚至为人类提供情感陪伴,是否能成为未来真正的刚需?

上周的「人形机器人」青源Workshop上,与会专家就人形机器人前沿进展进行了深入探讨,以下为观点集锦,供读者参考(扫码文末二维码或点击阅读原文,下载完整版观点集锦)

报告目录

◆ 清华大学陈建宇:构建人形通用智能机器人

◆ 达闼机器人王斌:云网端融合的具身智能人形机器人

◆ 香港城大殷鹏:从无人驾驶到人形机器人落地的思考

研讨嘉宾名单(无先后顺序)

眭亚楠丨清华大学副教授

殷   鹏丨香港城市大学助理教授、前卡内基梅隆大学项目科学家

高   阳丨清华大学交叉信息研究院助理教授

王   斌丨达闼机器人股份有限公司 副总裁

陈建宇丨清华大学交叉信息研究院助理教授、星动纪元创始人

赵   行丨清华大学交叉信息研究院助理教授

车万翔丨哈尔滨工业大学教授

青源Workshop丨No.24

人形机器人主题研讨会

构建人形通用智能机器人

陈建宇丨清华大学交叉信息研究院助理教授、星动纪元创始人

ChatGPT 的强大能力有目共睹,然而要解放语言大模型的能力还需要将其与物理载体(机器人)结合起来,赋予它手、脚、眼睛、耳朵。我们认为,机器人的形态越接近人类,其通用性可能越高。

20f24239eab411aa806c04329c4a22ca.png

我们期望,人形机器人可以前往所有人类可以到达的场所,做到人类所有可以做的事情,包括运动、感知、导航、操作物体等。

04cc017a180ce55fa54bd07ef1c4bfcb.png

为了实现上述功能,从硬件和软件上说,人形机器人研发遭遇了前所未有的挑战。同时,人形机器人强大、全面的功能也解锁了广阔的商业应用空间,有望定义新的商业生态。就专用机器人而言,面对新的应用场景,需要重新研发新的硬件和软件。而就人形机器人而言,随着技术的积累,其软硬件可以复用,面临新业务可以节省较大的成本。

硬件技术路线

e1b08181820a053c3ec538ecdbe0ddb1.png

目前,人形机器人硬件整体构造的技术路线主要包含 4 类:(1)传统工业机械臂的方案(2)液压方案(3)串联弹性制动器(3)本体感知驱动器的方案

将继承自工业机器人本体构建的技术直接应用到人形机器人的研发具有诸多缺陷,无法满足个性化的需求。实际上,波士顿动力和 ETH 提出的方案面临着成本较高或动态性能不够好的问题,大多数成功商业化的案例采用的是 MIT 的技术路线,比如现在市面上的四足机器人。

d639770a22aeb7620357162c85fcb1b6.png

基于本体感知驱动器的机器人路线兼具高性能和低成本的特性,促成了四足机器人的商业化落地,这种四足机器人可以较快地奔跑,完成空翻、跳跃等动作。然而,人形机器人的重量远远大于四足机器人,其关节的自由度也更高,需要用两条腿支撑起整个机器人的身体。直到今年年初,基于这种方案的人形机器人硬件技术路线才被打通。

8668203a15b0a22e0a019e6f51f2465a.png

陈建宇博士团队目前已开发出了五款用于人形机器人的本体感知制动器模组,包括高扭矩密度电机、行星齿轮减速器。目前,星动纪元研发的「小星」系列机器人已经迭代到第三代,已展现了户外陪伴、家居服务等功能演示。

7c7190190fa89cdd5d9984ac74a3cc32.gif

软件技术路线

9d6e41e797a94ae6c9ee0d5a6f760aa8.png

用于人形机器人的软件技术路线经过了三个阶段的发展:


(1)简化模型+基于规则的控制(LIPM+ZMP)。该方案易于实现,但是机器人的步态并不自然,只能进行周期性的行走;

(2)动力学模型+数值优化。该方案支持更多的动作,但是难以对复杂的环境和机器人模型进行建模和优化;

(3)物理仿真+强化学习。该方案可以与复杂环境交互,用仿真代替了建模,可以通过神经网络学习代替在线的优化。

a6cafdb2072c6dd807b429da0304ec4b.png

陈建宇博士团队将人体运动数据作为参考运动数据,将模仿学习和强化学习相结合,引导机器人更好地学会自然的控制策略。同时,他们也使用强化学习技术尝试挖掘机器人的极限运动性能,使其胜任具有挑战性的任务。

有关双臂灵巧手的研究是人形机器人特有的研究领域,旨在探究如何同时控制两个手臂完成较为复杂的任务。我们很难通过传统方法对这种复杂的物理过程建模、优化,通常采用基于强化学习的方法,进行大规模的并行训练。目前,陈建宇博士团队的机器人已经可以完成传递物品、托举、开门等双臂动作。

去中心化手腿协同训练

7e1c54488dfab952978c0365c0787dc8.png

对于人形机器人而言,结合手部操作和腿部移动,实现手腿协同是重要的研究方向。人形机器人可以在行走的过程中做出很多不同的手部操作。目前,中心化的训练框架会同时将所有环节的信息输入,直接输出所有控制量,而此时机器人做出的某些动作会影响整体的稳定性。

10c90bd1f391234517d9b82e388477b6.png

为此,陈建宇博士团队在论文《Decentralized Motor Skill Learning for Complex Robotic Systems》中提出了一种用于复杂机器人系统的去中心化运动学习框架。他们的方案可以让机器人自动判断在做出某些动作时,需要解耦或耦合的部分,可以在稳定移动的同时完成手部操作。

将语言模型用于机器人任务

b7b14a833676a16a95cc1753ada90ce4.png

目前,有研究探究通过 Transformer 模型将任务规划和运动执行结合,即融合机器人的「大脑」和「小脑」。仅仅从算力层面上来说,机器人「大小脑」的融合难度较大。在论文《DoReMi:Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》中,陈建宇博士团队利用大语言模型进行顶层的任务规划,再利用强化学习模块进行底层的控制器执行。他们引入了一个通用的「视觉-语言」模型,将其作为约束,实时监控下层任务的执行,反馈检测结果,并在出现问题时重新进行任务规划。

efcff27da68cf5fb73d6e759e87c67fa.png

在论文《Asking Before Action:Gather Information in Embodied Decision Making with Language Models》中,陈建宇博士团队赋予机器人「提出问题」的动作,使其不仅可以调用语言模型,还可以通过与具有「上帝视角」的另一个语言模型主动对话,从而获取更多的信息,对机器人的语言模型进行微调,增强其功能。


扫码下方二维码,下载完整版观点集锦

94a1eda370e03a83ff086844d0ecb057.png

更多推荐

SkyWalking入门之Agent原理初步分析

一、简介当前稍微上点体量的互联网公司已经逐渐采用微服务的开发模式,将之前早期的单体架构系统拆分为很多的子系统,子系统封装为微服务,彼此间通过HTTP协议RESETAPI的方式进行相互调用或者gRPC协议进行数据协作。早期微服务只有几个的情况下,我们遇到问题可以直接简单、快速地通过采集日志进行分析,是A服务存在问题还是B

ReadWriteLock(读写锁)和阻塞队列BlockingQueue与同步队列SynchronousQueue

1.ReadWriteLockpackagecom.kuang.rw;importjava.util.HashMap;importjava.util.Map;importjava.util.concurrent.locks.ReadWriteLock;importjava.util.concurrent.locks.R

传导和辐射EMI有什么区别?

当我们设计原型或使用开发板时,通常可以忽略电磁干扰。但EMI在现实生活中的电子设备和系统中是一个重要的主题,工程师有责任确保电路能够在预期的EMI水平下正常运行,并且不会产生过多的EMI。我倾向于将EMI与无线干扰联系起来,考虑到名称,这并不令人惊讶:它被称为电磁干扰,我们自然将其与电磁辐射联系起来。但正如您从本文标题

实在智能携手40+央企,探索财务大模型及数智化实践与应用

“这次培训给我一个最大的感触就是,过去以为AI智能化、大模型技术是很高深的事情。但现在,我们通过RPA等数字化工具,自主根据自己的工作岗位,完成业务自动化流程的开发和设计。AI技术没有想象中的那么难入门。”这是一位参加了“财务大模型及AI+RPA数智化实践与应用”专题研修班的学员,培训后有感而发的心得。探索财务数智化落

基于矩阵分解算法的智能Steam游戏AI推荐系统——深度学习算法应用(含python、ipynb工程源码)+数据集(三)

目录前言总体设计系统整体结构图系统流程图运行环境模块实现1.数据预处理2.模型构建1)定义模型结构2)优化损失函数3.模型训练及保存1)模型训练2)模型保存4.模型应用1)制作页面2)模型导入及调用3)模型应用代码相关其它博客工程源代码下载其它资料下载前言本项目采用了矩阵分解算法,用于对玩家已游玩的数据进行深入分析。它

10年经验之谈 —— 如何做接口测试呢?接口测试有哪些工具?

回想入职测试已经10年时间了,初入职场的我对于接口测试茫然不知。后来因为业务需要,开始慢慢接触接口测试。从最开始使用工具进行接口测试到编写代码实现接口自动化,到最后的测试平台开发。回想这一路走来感触颇深,因此为了避免打算学习接口测试的同学走冤枉路,特此分享我的学习经验。之前我已经在知乎做过几次接口的分享一、接口的重要性

5W2H分析法

1.概念它的历史可以追溯到二战时期的美国陆军兵器修理部,虽然具体由谁发明可能存在争议,但可以肯定的是,这种方法在当时被广泛应用,并被证明是一种非常有效的创新和问题解决方法。5W2H分析法以五个以W开头的英语单词和两个以H开头的英语单词为线索,帮助人们发现问题,寻找解决方案,进行设计构思,从而创新和发明新的项目。它与其他

QT Day5

目录1.针对登入框,新加入了注册功能,使用数据库存储账号密码信息widget.hwidget.cppsecond.hsecond.cpp2.思维导图1.针对登入框,新加入了注册功能,使用数据库存储账号密码信息widget.h#ifndefWIDGET_H#defineWIDGET_H#include<QWidget>#

7.1 实现进程内存块枚举

在Windows操作系统中,每个进程的虚拟地址空间都被划分为若干内存块,每个内存块都具有一些属性,如内存大小、保护模式、类型等。这些属性可以通过VirtualQueryEx函数查询得到。该函数可用于查询进程虚拟地址空间中的内存信息的函数。它的作用类似于Windows操作系统中的TaskManager中的进程选项卡,可以

安达发|APS软件多工厂架构引领生产管理新革命

APS多工厂架构是一种生产管理系统,它通过将多个工厂的生产过程进行整合和优化,实现了生产效率的提高和成本的降低。在APS多工厂架构中,每个工厂都有自己的生产线和生产计划,但是它们之间可以进行协调和协作,以确保整个生产过程的顺利进行。APS多工厂架构的核心是生产计划和调度。在生产过程中,需要对各个工厂的生产计划进行协调和

java正则表达式

用于模式匹配,例如查询串中的数字、验证邮箱是否符合要求等。在java中主要实现类有Pattern类、Matcher类。Pattern类没有公共构造方法由静态方法Pattern.compile()构建,主要用于构造正则表达式并创建Matcher类。Matcher类是对输入字符串进行解释和匹配的引擎。实例演示//创建Pat

热文推荐