在科技巨頭紛紛布局人工智能領域的浪潮中,小米公司近期宣布了一項重大進展,正式推出了其首個專注于提升模型推理能力的大型語言模型——Xiaomi MiMo,并且決定將其開源,以供全球開發者共同研究和使用。
據小米方面介紹,MiMo模型的誕生,源于對當前大模型技術瓶頸的深刻洞察以及對提升模型推理能力的迫切需求。該模型旨在通過技術創新,打破現有預訓練模型的局限性,進一步激發AI在復雜邏輯推理、數學運算及代碼生成等高級認知任務上的潛力。
在基準測試方面,MiMo模型展現出了令人矚目的表現。小米公布的測試數據顯示,其7B參數的MiMo模型在多個衡量模型推理能力的公開基準測試中,性能超越了同類甚至更大規模的模型。特別是在AIME 24-25評測集和LiveCodeBench v5評測集上,MiMo的表現不僅超過了OpenAI的閉源推理模型o1-mini,還超越了參數量高達32B的阿里開源推理模型QwQ-32B-Preview。
MiMo模型在強化學習領域也展現出了顯著的優勢。與當前業內廣泛用作強化學習起始模型的DeepSeek-R1-Distill-7B和Qwen2.5-32B相比,MiMo-7B在數學與代碼領域的強化學習潛力評估中表現更優。這一成果進一步證明了MiMo模型在推理效率和效果上的行業領先地位。
那么,MiMo模型是如何在推理能力上取得如此突破的呢?這得益于小米大模型Core團隊在模型設計與訓練流程上的多項技術創新。在預訓練階段,團隊著重挖掘富推理語料,并創新性地合成了約200B tokens的高質量推理數據,采用三階段訓練模式,逐步提升難度,累計訓練數據量達到25T tokens。
在后訓練階段,小米團隊引入了創新的強化學習算法和框架。他們提出了Test Difficulty Driven Reward機制,旨在緩解困難推理問題中的獎勵稀疏性,并引入Easy Data Re-Sampling策略以提高訓練穩定性。同時,通過設計的Seamless Rollout系統,顯著提升了強化學習訓練效率和驗證效率。
為推動人工智能社區在推理能力方向的共同發展,小米已將Xiaomi MiMo-7B的四個變體模型全部開源,并托管于HuggingFace平臺。這一舉措使得全球的開發者和研究人員能夠免費獲取并使用這些模型,進一步促進了人工智能技術的創新和發展。
據了解,Xiaomi MiMo是小米新近成立的「小米大模型Core團隊」的首個重要對外成果。該團隊表示,將繼續秉持務實創新的精神,探索人工智能的前沿領域,致力于通過技術突破不斷拓展智能的邊界。這一成果不僅展示了小米在人工智能領域的實力,也為全球開發者提供了寶貴的研究資源。