微軟亞洲研究院的數(shù)學(xué)與人工智能研究團隊近日取得了一項新的技術(shù)突破,他們專為解決數(shù)學(xué)問題設(shè)計并開發(fā)了名為rStar-Math的技術(shù)。這項技術(shù)于1月10日通過官方博文正式對外公布。
與微軟此前推出的Phi-4技術(shù)相比,rStar-Math采用了蒙特卡洛樹搜索(Monte Carlo Tree Search)進行推理。這種方法模擬了人類逐步解決問題的思維方式,通過將復(fù)雜問題分解成更小的部分,逐步求解,從而提高了解決數(shù)學(xué)問題的效率。
在開發(fā)過程中,研究團隊要求模型輸出自然語言描述和Python代碼形式的“思維鏈”步驟,并將自然語言作為Python代碼的注釋。他們僅使用Python代碼輸出進行訓(xùn)練,這一做法旨在使模型更加清晰地展示其解題過程。
為了進一步提升模型的性能,研究團隊還訓(xùn)練了一個“策略模型”來生成數(shù)學(xué)推理步驟,并使用“過程偏好模型”(PPM)來選擇最有希望的解題步驟。這兩個模型通過四輪“自我進化”相互改進,不斷優(yōu)化其解題能力。
在訓(xùn)練過程中,研究團隊使用了74萬道公開的數(shù)學(xué)應(yīng)用題及其解答作為初始數(shù)據(jù),并利用上述兩個模型生成了新的解題步驟。這一做法不僅豐富了訓(xùn)練數(shù)據(jù),還有助于模型更好地理解和解決數(shù)學(xué)問題。
測試結(jié)果顯示,應(yīng)用rStar-Math技術(shù)后,Qwen2.5-Math-7B模型的準確率從58.8%躍升至90.0%,Phi3-mini-3.8B模型的準確率也從41.4%提升到86.4%。與OpenAI的o1-preview模型相比,rStar-Math技術(shù)在兩個模型上的表現(xiàn)分別高出4.5%和0.9%。
為了讓其他研究者能夠使用和改進rStar-Math技術(shù),研究團隊已在Hugging Face上宣布,他們計劃將rStar-Math的代碼和數(shù)據(jù)在GitHub上公開。這一舉措將促進數(shù)學(xué)與人工智能領(lǐng)域的交流與合作,推動相關(guān)技術(shù)的進一步發(fā)展。