rStar-Math展示了小型模型的潛力。
微軟近日宣布了其新的 rStar-Math 技術(shù),這一創(chuàng)新的推理方法可以應(yīng)用于小型語言模型(SLMs),該技術(shù)目前仍處于研究階段,相關(guān)研究論文已發(fā)布在 arXiv.org 上,由微軟、北京大學(xué)和清華大學(xué)的八位作者共同完成。
rStar-Math核心在于,讓小模型具備深度思考的能力,利用蒙特卡羅樹搜索,這種方法模擬人類的 “深度思考”,通過逐步細(xì)化數(shù)學(xué)問題的解決方案來幫助小型模型自我演進(jìn)。
在測試中,rStar-Math 技術(shù)被應(yīng)用于多個小型開源模型,包括微軟的 Phi-3迷你模型、阿里巴巴的 Qwen-1.5B(15億參數(shù)模型)和 Qwen-7B(70億參數(shù)模型)。測試結(jié)果顯示,所有參與的模型性能都有所提升,其中在 MATH 基準(zhǔn)測試中,rStar-Math 甚至超越了 OpenAI OpenAI o1-preview。
rStar-Math除了基準(zhǔn)測試成績亮眼,對比優(yōu)勢也十分明顯。它能顯著提升小型語言模型的推理能力,在模型規(guī)模遠(yuǎn)小于競爭對手的情況下,超越了許多現(xiàn)有的 System 2 基線方法。它在不同類型的數(shù)學(xué)基準(zhǔn)測試中都具有很強的泛化能力,在 Olympiad Bench、College Math 和高考數(shù)學(xué)等測試中均取得了新的領(lǐng)先成績。
微軟通過 rStar-Math 展示了小型模型的潛力,強調(diào)了高效能的方向。
論文地址:https://arxiv.org/pdf/2501.04519