蘋果公司研究團隊近期發表了一篇深入探討大型語言模型(LLM)在數學推理方面局限性的論文。該論文指出,盡管LLM在生成類似人類的文本方面表現出色,但在處理簡單數學問題時,若對問題稍作修改,如增添無關信息,其表現便會顯著下降。
論文中舉了一個例子,當詢問“奧利弗三天內共摘了多少個奇異果”時,LLM能夠正確計算。然而,一旦加入如“其中5個奇異果比平均小”這樣的無關細節,LLM便會給出錯誤答案。研究人員對數百個類似問題進行了修改,并發現幾乎所有這些修改都導致LLM的回答成功率大幅降低。
研究團隊認為,這一現象顯示出LLM并未真正理解數學問題,而是依賴于訓練數據中的模式進行預測。當需要進行真正的邏輯推理時,模型往往無法得出合理結果。這一發現為人工智能的發展提供了重要的參考依據。盡管LLM在多個領域都表現出色,但其推理能力仍需進一步提升。