ASCII码 ASCII码

在大模型时代推动机器人智能化

发布于:2024-04-04 14:50:42  栏目:技术文档

作为优必选副总裁、研究院副院长,庞建新正领导团队,将大模型技术应用于人形机器人的多模态感知和决策规划中,提升人形机器人智能化水平。

在从业的近三十年里,他的专业背景横跨语音处理、计算机视觉,再到人形机器人技术;从中科大的博士,到中国科学院深圳先进技术研究院的 PI,再到优必选的技术高管,他的职业生涯,已然是中国智能科技崛起的一个缩影。

现如今,大模型的横空出世,除了让庞建新看到了一些可能性,更多是冷静。

他坦陈,“因为在技术快速发展时,整个技术路线和应用场景还存在不确定性,但同时也正是国内人形机器人企业快速发展的最佳时期。”

这是一种强烈的矛盾感。

在谈及大模型技术对人形机器人智能化进程的影响时,庞建新提出了自己的见解。

他认为,大模型技术的核心是其能够融合大量知识和数据,这对于人形机器人领域来说是一个巨大的机遇,但同时也带来了新的挑战。比如如何将大语言模型技术(可理解为“大脑”)与人形机器人的“小脑”(控制大模型)和“本体”结合,以及如何处理大语言模型可能产生的“幻觉”问题等等。

而要落到实际操作层面,庞建新表示,优必选的策略是双管齐下,既要一种分层结构的解决方案,同时也不能放弃端到端的解决方案。

前者是将大模型分为处理知识、常识推理的“大脑”层,指导动作规划的“小脑”层,以及直接与控制相结合的动作执行层。这种分层解耦的方法,使得每一层都可以专注于其特定的任务和数据需求,提高了技术的应用效率。

后者则是从感知直接到控制的全过程,这种方法导致数据获取更为复杂,却能够提供更为直接的解决方案。

针对大模型与机器人智能化现状,庞建新说了四个字:百花齐放。

“当下人工智能和人形机器人技术的结合正处于一个开放性问题的时期。”这正是当下人形机器人从业者的乐趣所在。而换句话说,这也意味着目前技术尚未开始收敛,仍需在一些小规模场景中进行实验和测试。

今年 2 月,优必选与新能源车厂的合作,正是他们在多模态感知决策技术应用实训方面的一次尝试。庞建新坚信,大模型技术将是推动未来技术进步和产业化的关键。

近期在与雷峰网-AI 科技评论的对话中,庞建新分享他对于大模型技术推动人形机器人智能化进程的见解,以及国内企业如何在技术快速发展的背景下把握机遇。

以下为对话(经编辑):

4 月 8 日(周一)20:00-22:00,雷峰网将举办主题为「大模型时代,机器人的技术革新与场景落地」的线上圆桌论坛,届时庞博士将分享更多前沿观察。

01 寻找最适合机器人的大模型

雷峰网:首先请问庞博,您的团队目前在 AI+ 人形机器人领域有哪些探索,有哪些不错的技术成果可以分享?

庞建新:我们确实有一些颇具前瞻性的课题项目,在近期进展不错。

众所周知,当前人工智能已经迈入了一个崭新的时代,其中大模型、多模态技术以及具身智能等重要进展,对于机器人领域产生了深远影响。这些变革性的技术正在推动着许多传统观念的更新换代。

我们的团队也致力于类似的研究工作,特别是在如何运用大型模型和具身智能,来解决以往基于传统 DNN、CNN 方法所无法克服的问题。

我们的研究重点之一是多模态感知问题。

传统上,感知技术往往专注于单任务,并且只在决策层面进行信息融合。而现在,我们希望能够将多模态技术应用到人形机器人技术中,将视觉感知、语音感知、上下文信息以及相关知识等统一作为输入,以促进人形机器人的决策过程。

此外,我们还关注于人形机器人的决策和任务规划。

通过多模态感知信息的整合,我们期望引导人形机器人进行更为高效的决策。传统的决策过程往往较为复杂,依赖于状态转移和条件判断。而我们现在正尝试利用大型模型的技术,充分发挥大模型的逻辑和推理能力,以解决人形机器人在决策和推理方面的挑战。

具体到人形机器人的能力方面,因为人形机器人通常需要具备几大核心能力:人机交互、对话、移动和操作能力。这些能力在传统上对于人形机器人而言并不容易自主实现,往往需要凭借大量的外部输入和条件限制。而我们现在的研究,正是通过大型模型技术的应用,充分利用大模型内含的知识逻辑和推理能力,提升人形机器人的自主性和智能化水平,把机器人各种能力链接起来。

雷峰网:大模型这项技术将如何影响人形机器人的智能化进程?相应地,大模型对人形机器人来说是否也带来了新的挑战?

庞建新:将大模型技术融入人形机器人领域,确实存在一些挑战和问题,我们在做实际项目时就能感受到。

首先,大模型的核心是在于其能够集成大量知识,供人类使用。然而在人形机器人领域,许多场景与知识并无直接关联。

许多行为,如人类的本能反应或动作智能,并不完全依赖于显性的知识。比如说我们在抓取物体或在不平坦地面行走时,往往不需要经过深思熟虑,身体能够自动适应环境。

在人形机器人的设计中,我们可以将其分为“大脑”、“小脑”和“躯体”三部分。小脑部分与大模型中的知识学习并不直接相关。因此,在大模型技术落地时,我们需要解决如何将大脑与小脑结合,以及如何通过小脑驱动躯体的问题。

其次,大模型依赖数据,当任务与数据关系不大,或者数据难以采集和学习时,这构成了一个重大挑战。大模型训练和推理的高算力要求也是一个问题,特别是当应用场景对实时性有高要求时。

第三个挑战是大模型本身的特性,伴随着“涌现”的同时,这也可能导致“幻觉”问题。如何抑制这些幻觉,通过各种方式抑制或者控制大模型输出错误信息,是我们需要克服的难题。

此外,大模型的成功率或者有效率问题也至关重要。对于大多数用户,往往需要多次尝试输入才能得到有效答案,如何尽可能降低使用者的专业水平,比如通过自动生成相关提示语高效地获得正确结果,也是当前大模型需要解决的重要问题。

雷峰网:大模型与人形机器人的结合正在发展期,是否分化为几种不同流派?

庞建新:我个人认为,可能有两种流派。

一种流派采用分层结构,将大模型分为三个层次:

第一层与大脑相关,主要处理知识、常识推理等;

第二层与动作决策和任务规划相关,类似于小脑的功能,指导动作的规划;

第三层则直接与控制相结合,处理动作的规划与控制。

这种分层解耦的方法,使得每一层都可以专注于其特定的任务和数据需求。

在大脑层面,可以使用现有的大模型数据,如与场景相关的知识和数据。

而在动作规划层面,由于大语言模型中缺乏这方面的内容,我们需要在仿真环境或物理环境中采集新的数据,以丰富这一层次的数据集。

至于控制层面,可能需要通过强化学习等技术,在虚拟或物理环境中生成所需数据。

另一种流派则追求端到端的解决方案,即从感知直接到控制的全过程。

这种方法虽然数据更为复杂,但能够提供更为直接的解决方案。然而,这种端到端的数据同样难以获取。

在实践中,我们的选择并不局限于单一流派。我们同时探索了解耦的分层方法和端到端的技术,以技术储备和实际应用需求为导向。也就是说,由于人形机器人存在特殊的非刚体特性,我们目前更倾向于采用解耦的分层方法。同时,我们也在进行端到端技术的探索和研究,以适应未来可能的需求和发展。

相关推荐
阅读 +