面向工业场景的具身智能移动操作机器人大模型设计与泛化能力研究
DOI:
https://doi.org/10.70695/IAAI202504A13关键词:
Embodied Intelligence; Mobile Manipulation Robot; Large Industrial Model; Multimodal Perception; Command Fine-tuning; Generalization Ability摘要
针对多工位、多工艺的工业场景,传统规则控制以及小规模策略网络在面对任务扩展和设备差异时,容易出现性能下降的情况。于是,研究创建了具身智能移动操作平台,该平台统一了移动底盘、机械臂以及多模态传感的观测—动作接口,还设计出一种工业级大模型,此模型整合了视觉、点云、力觉和语言指令,并借由预训练和指令微调进行改进。 以真实车间任务库为依据开展的实验显示,该模型在源域多任务中的表现与人工操作精度较为接近,且在零样本及少样本情境下,对未见过的任务合成和工位布局具有较高的适应能力。消融实验与工程案例进一步验证了多模态融合、分层动作及泛化改进在节拍、人工工时和安全方面的效益,体现出其具可复制性的工程应用价值。