机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类:物体感知、场景感知、行为感知、表达感知。具身感知的过程主要包括以下几步:任务规划、导航、具身问答。
◼ 任务规划:任务规划(Task Planning)是具身智能的核心任务之一,将抽象的非可执行人类指令转换为具体的可执行技能。这一步骤的完成需要两步:1)将人类指令分解为机器人可执行的技能,2)执行技能。
◼ 结合大模型的任务规划:大模型作为转换器、大模型作为分解器。
• 作为转换器:LLM+P,用LLM将状态信息描述成PDDL语言再进行规划,取代以往需要人工针对实际问题书写PDDL语言对任务进行建模;
• 作为规划器:可以zero-shot进行任务规划。
◼ 具身问答:机器人需要主动探索环境,定位目标物体或位置获取环境中的信息,然后基于获取的信息回答问题。该任务可视为导航、VQA任务的结合。
• 相比于VQA等已有问答任务,具身问答的特点在于机器人具有主动行动能力。