該模型具備長思維能力,并能在推理過程中進行自我反思和糾正。

強推理模型書生InternThinker開放體驗,在數(shù)學推理場景表現(xiàn)突出

2024-11-29 09:54:31發(fā)布     來源:多知    作者:Doris  

  多知11月29日消息,近日,上海AI實驗室展示了自主生成高智力密度數(shù)據(jù)、具備元動作思考能力的“模型”等一系列創(chuàng)新進展,并開放強推理模型書生InternThinker試用體驗。該模型具備長思維能力,并能在推理過程中進行自我反思和糾正,從而在數(shù)學、代碼、推理謎題等多種復雜推理任務上取得更優(yōu)結果。

  為高效提升模型的推理能力,InternThinker采用了更接近人類學習方式的路徑。

  人在學習解決復雜推理任務時,并非從海量的樣本中進行單點知識的學習,而是思維模式的學習——在解決問題的過程中,通過回憶相關知識點,對正確的解題過程進行理解、記憶,對錯誤解題等過程進行反思和修正,即對自我的認知過程進行覺察和調節(jié)——該能力也被稱作元認知能力。元認知理論的相關研究發(fā)現(xiàn),通過顯式地引導和感知人在解決問題過程中的思想模式,可提升復雜任務的學習和解決效果。

  受元認知理論的啟發(fā),研究團隊設計了一系列元動作來引導模型解決問題的過程,如對問題的理解、知識回憶、規(guī)劃、執(zhí)行、反思、總結等。模型在面對復雜任務時,會顯式且動態(tài)地選擇元動作,再進一步展開相關動作的具體思維過程。通過這種設計,利用部分訓練任務,可強化模型對關鍵元動作組合的使用,顯著提升模型學習效率。

  因此,InternThinker模型在解決復雜的數(shù)學題上具有優(yōu)勢,它能獲取已有強推理模型的思維鏈數(shù)據(jù)并進行蒸餾。

  目前,InternThinker模型仍在持續(xù)迭代中。