上海人工智能實驗室Intern Robotics團隊近日宣布,其開發的統一視覺-語言-動作框架InternVLA-M1取得重大突破。這項發表于arXiv平臺的研究(編號:2510.13778v1)通過創新的空間引導訓練策略,成功解決了機器人理解復雜指令并精準執行動作的難題。實驗數據顯示,該系統在多個基準測試中超越現有方法,特別是在真實世界雜亂環境中的表現提升超過20%,為通用機器人研發開辟了新路徑。
傳統機器人系統在執行"將桌上紅色蘋果放入籃子"這類任務時面臨雙重挑戰:既要理解人類語言的模糊性,又需在三維空間中精準定位物體。研究團隊提出的解決方案借鑒人類認知模式,構建了包含41億參數的雙系統架構。該系統由VLM規劃器和動作專家組成,前者負責分析任務要求、識別物體位置并制定行動計劃,后者則將高層規劃轉化為精確的機械臂控制信號。這種分工模式使系統在單張RTX 4090顯卡上即可實現每秒10幀的推理速度,內存占用控制在12GB以內。
訓練策略的創新是該研究的核心突破。團隊采用分階段訓練法:首先通過230萬個空間推理樣本構建基礎能力,涵蓋物體檢測、點定位、軌跡預測等核心任務;隨后在仿真環境中生成24.4萬個可泛化場景,訓練系統將空間理解轉化為具體動作。這種"先理解空間再執行動作"的策略,使系統在SimplerEnv測試中成功率提升14.6%,在真實世界雜亂場景中的表現提升達20.6%。特別是在長時程任務中,系統展現出強大的規劃能力,能動態調整策略應對物理干擾和任務變更。
為支撐大規模訓練需求,研究團隊構建了高度逼真的仿真平臺。該平臺整合14716個物體模型、200余張桌子、80種光照條件和1676種紋理,通過分離物理計算與渲染過程,實現高效數據生成。每個訓練樣本都經過雙重驗證:物理引擎確保動作可行性,場景圖驗證器檢查任務完成度。這種嚴格的質量控制機制,使系統在未見物體和新配置場景中仍能保持穩定性能,顯著提升了仿真到現實的遷移能力。
在評估環節,InternVLA-M1展現了全方位優勢。在LIBERO基準測試中,系統在空間推理和長時程任務子集上分別達到98.2%和97.5%的成功率,超越最強基線方法1.6個百分點。真實世界測試中,配備Robotiq夾爪的Franka機械臂在23個已見物體和5個已見容器的分類任務中,通過協同訓練將未見物體操作成功率提升至20.6%。特別在抽屜操作任務中,系統能實時感知人為干預并調整動作序列,展現出強大的環境適應能力。
技術細節方面,研究團隊設計了輕量級查詢變換器連接雙系統,通過梯度衰減因子平衡多模態知識學習。空間提示策略的引入,使系統在執行任務時自動激活預訓練的空間感知能力。雙重監督機制則確保VLM規劃器與動作專家協同優化,在保持語義推理能力的同時實現高效端到端訓練。這些創新使系統在處理絕對/相對位置指令時表現出色,有效解決了數據驅動模型泛化不足的問題。
該研究的公開資源為后續研究奠定基礎。團隊不僅發布了完整代碼和模型參數,還開源了包含300萬個多模態樣本的訓練數據集。詳細的評估基準覆蓋從簡單抓取到復雜推理的200余個任務,為機器人學習領域提供了標準化測試平臺。隨著技術持續完善,這種空間引導訓練范式有望推動通用機器人進入更多實際應用場景,實現更自然的人機協作。




















