面向工業場景的具身智能移動操作機器人大模型設計與泛化能力研究

作者

  • 偉峰 趙 佛山隆深機器人有限公司 作者

DOI:

https://doi.org/10.70695/IAAI202504A13

關鍵詞:

Embodied Intelligence; Mobile Manipulation Robot; Large Industrial Model; Multimodal Perception; Command Fine-tuning; Generalization Ability

摘要

針對多工位、多工藝的工業場景,傳統規則控制以及小規模策略網絡在面對任務擴展和設備差異時,容易出現性能下降的情況。於是,研究創建了具身智能移動操作平台,該平台統一了移動底盤、機械臂以及多模態傳感的觀測—動作接口,還設計出一種工業級大模型,此模型整合了視覺、點雲、力覺和語言指令,並藉由預訓練和指令微調進行改進。

以真實車間任務庫為依據開展的實驗顯示,該模型在源域多任務中的表現與人工操作精度較為接近,且在零樣本及少樣本情境下,對未見過的任務合成和工位佈局具有較高的適應能力。消融實驗與工程案例進一步驗證了多模態融合、分層動作及泛化改進在節拍、人工工時和安全方面的效益,體現出其具可複製性的工程應用價值。

已發表

2025-12-31