在智能駕駛技術的浪潮中,理想汽車再次站上了風口浪尖。CEO李想近期在理想AI Talk系列活動中,對智能駕駛技術的未來藍圖進行了深入剖析,特別是關于VLA(視覺語言行動模型)的探討,引起了業界的廣泛關注。
早在2024年末,李想在第一季AI Talk上就預言,智能駕駛的基座模型終將進化為VLA。這一觀點,在理想汽車于同年10月推出端到端+VLM(視覺語言模型)智駕方案后不久,便顯得尤為前瞻。然而,年底時李想又明確表示,理想汽車將全力押注VLA,這一轉變或許讓部分用戶感到困惑,畢竟端到端+VLM方案尚處推廣初期。
進入2025年,理想AI Talk第二季上,李想進一步闡述了為何選擇VLA作為現階段的最強架構。他指出,VLM在處理復雜場景時,如京承高速等擁有眾多ETC出入口的路段,其位置判斷能力顯得力不從心。VLM的架構缺陷,使得單純增加語料數據無法從根本上解決問題。相比之下,VLA通過結合視覺、語言及行動數據,展現出更接近甚至超越人類駕駛能力的潛力。
為了構建VLA,理想汽車采取了三步走的策略:首先是VL(視覺語言)基座預訓練,這一步相當于人類通過學習視覺、語言及二者聯合數據來認知世界;其次是輔助駕駛后訓練,類似于人類在駕校學習駕駛,通過實際操作數據訓練出VLA司機大模型;最后是強化學習,通過日常駕駛中的反饋,進一步優化VLA對交通規則的理解及符合用戶駕駛習慣的能力。
理想汽車的VLA方案,最終以司機Agent的形式呈現,能夠理解人類自然語言指令,實現用戶意圖與車輛動作的精準匹配。在測試中,司機Agent能夠根據語音指令在不退出NOA(導航輔助駕駛)的情況下切換路線,或在高速出入口選擇人工通道,展現了極高的靈活性和智能性。
面對VLA方案仍存在的黑盒問題,理想汽車采取了積極措施。他們組建了超過1000人的超級對齊團隊,并構建了仿真世界模型,以在虛擬環境中驗證司機Agent的專業性、職業性和信任構建能力。這一舉措不僅大大降低了驗證成本,還提高了測試效率。
針對英偉達Orin-X芯片無法直接運行語言模型的挑戰,理想汽車憑借自研的底層推理引擎和INT4量化技術,成功實現了VLM在芯片上的運行。這一技術創新,彰顯了理想汽車在智能駕駛技術領域的深厚底蘊和原創能力。
對于近期輔助駕駛車型事故頻發、消費者信任度下降的現象,理想汽車持樂觀態度。他們認為,這只是技術發展過程中的暫時挫折,不會阻礙技術的進步。理想汽車將繼續秉持謹慎態度,加強驗證頻次,確保技術的安全性和可靠性。
作為國內輔助駕駛技術的領軍者,理想汽車正通過VLA方案,為整個行業帶來新的啟示和思考。未來,隨著技術的不斷演進和完善,智能駕駛技術將更加成熟、可靠,為人們的出行帶來更多便利和安全。