“相信這個(gè)大門一旦打開,就不會(huì)再關(guān)上?!?/p>

周楓:o1是大模型發(fā)展的里程碑時(shí)刻,打開了邏輯性思維大門的一條縫隙

2024-09-16 10:46:14發(fā)布     來源:多知    作者:周楓  

  編者按:

  本文轉(zhuǎn)載自網(wǎng)易有道CEO周楓。OpenAI o1推出后,掀起熱議。周楓分享了自己的思考:“o1是大模型發(fā)展的一個(gè)里程碑時(shí)刻,打開了‘系統(tǒng)2思維’大門的一條縫隙,相信這個(gè)大門一旦打開,就不會(huì)再關(guān)上。”

  以下文章來源于周楓:

  背景大家應(yīng)該都了解,OpenAI o1-preview上周推出,達(dá)到了數(shù)理推理(reasoning)的全新水平,比如數(shù)學(xué)奧林匹克IMO美國(guó)資格賽AIME達(dá)到了前500水平,CodeForces編程競(jìng)賽社區(qū)89%排名,等等。以下是我這兩天關(guān)于o1-preview的一些筆記,和大家分享。

  1. 思維鏈

  OpenAI在o1-preview的介紹文章"Learning to Reason with LLMs"中說(我譯成中文):

  “我們的大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在高數(shù)據(jù)效率的訓(xùn)練過程中有效地使用其思維鏈(chain of thought)進(jìn)行思考。我們發(fā)現(xiàn),隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)間計(jì)算)和更多的思考時(shí)間(測(cè)試時(shí)間計(jì)算),o1的性能不斷提高。擴(kuò)展這種方法的限制與LLM預(yù)訓(xùn)練的限制有很大的不同,我們正在繼續(xù)研究它們。”

  思維鏈(CoT)本身是行業(yè)熟悉的成熟方法了,來自2022年的"Large Language Models are Zero-Shot Reasoners"這篇文章,意思就是通過加入“讓我們一步步思考”這樣的提示,可以從大模型得到質(zhì)量更好的數(shù)理推理結(jié)果。這個(gè)也是在有道的子曰教育模型中使用廣泛的方法。

  雖然"讓我們一步步思考"這樣一句經(jīng)常和做題的小學(xué)生講的話有點(diǎn)搞笑,但CoT背后的直覺很有道理,如果你觀察大模型的計(jì)算過程,會(huì)理解到每生成一個(gè)token,背后大模型完成的計(jì)算量是基本固定的,那么對(duì)于數(shù)學(xué)題這樣“費(fèi)腦子”的問題,“慢慢回答”,多說一些話,也就自然等于“更多思考”。讓模型分步回答,輸出更多的token,也就是融入了更多的思考,可以理解可以得到更好的結(jié)果。這是思維鏈這個(gè)方法的有效性背后的基本邏輯。

  從目前公開信息來看,除了思維鏈之外,o1主要還依賴增強(qiáng)學(xué)習(xí)(reinforcement learning),增強(qiáng)學(xué)習(xí)是讓軟件自主做決定以取得最佳結(jié)果的機(jī)器學(xué)習(xí)方法,它很特別的特點(diǎn)是不需要有人教,或者說需要的反饋非常少,只需要外部有一個(gè)評(píng)分的函數(shù),就是判斷做成沒做成就可以了,而不需要外界告訴系統(tǒng)怎么做。增強(qiáng)學(xué)習(xí)RL以前主要用于機(jī)器人領(lǐng)域(比如雙足行走),而這些年來RL和LLM的結(jié)合現(xiàn)在越來越多,o1是一個(gè)最新的例子。

  2. 系統(tǒng)1和系統(tǒng)2思維

  思維鏈背后的思想,來自認(rèn)知學(xué)和心理學(xué)的研究,2011年的Daniel Kahneman的《思考,快與慢》(Thinking, Fast and Slow)是討論這個(gè)問題的一本好書(此書有中文版)?;镜谋尘笆牵?strong>人的思維可以分成兩個(gè)模式,“系統(tǒng)1”是快速、本能和情感思維,“系統(tǒng)2”是緩慢、仔細(xì)和邏輯性的思維。

  所以從這個(gè)角度,可以認(rèn)為在o1之前的大模型,總體上都是“系統(tǒng)1”思維為主。從系統(tǒng)的行為來說,就是得到一個(gè)問題后,就一邊想一邊說,想到哪里是哪里,并沒有一個(gè)回答問題之前的深度思考過程。這也解釋了為什么在教育領(lǐng)域,之前的大模型強(qiáng)于文科,而弱于理科,就是因?yàn)樗季S偏直覺和情感,而在需要反復(fù)琢磨的邏輯思維上比較差。

  對(duì)于這個(gè)問題,之前的LLM增強(qiáng)能力依靠不斷加大參數(shù)量,o1給出了一個(gè)另外的思路,就是在訓(xùn)練階段和推理(inference)階段都加入增強(qiáng)學(xué)習(xí)和思維鏈,通過反復(fù)計(jì)算,來加強(qiáng)模型的數(shù)理推理能力。另外一個(gè)變化是和以前的模型相比,推理(inference)階段的計(jì)算占比加大,對(duì)于數(shù)理問題,這應(yīng)該是一個(gè)必要的變化。

  具體的算法OpenAI并沒有公布,行業(yè)內(nèi)不少公司之前也都在探索類似的方向,而OpenAI是第一個(gè)出成果的團(tuán)隊(duì),相信一段時(shí)間后,o1的細(xì)節(jié)會(huì)更多被大家了解,國(guó)內(nèi)外其它團(tuán)隊(duì)也會(huì)有相關(guān)成果出來。

  3. 一些例子

  OpenAI自己給了一系列的o1的例子,比如下面這個(gè)簡(jiǎn)單的“密文”解碼:

  "oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

  模型成功解出了這是兩個(gè)字母ASCII碼取平均值得到一個(gè)明文字母(oy -> t, fj -> h)。

  然后編程例子,寫了一個(gè)轉(zhuǎn)置矩陣的bash腳本,而GPT-4寫不出來。

  X上面一些用戶給出了早期的評(píng)測(cè)結(jié)果,比如MMLU-Pro從79%提升到91%:

  截屏2024-09-16 10.48.57.png

  然后三分鐘解出了最近一次LeetCode周賽的全部三道題:

截屏2024-09-16 10.49.46.png  

  4. 成本

  這套服務(wù)目前很貴,o1-preview100萬的tokens價(jià)格是15美元,與之對(duì)比,OpenAI便宜的模型GPT-4o mini(和GPT-3.5差不多)的價(jià)格是0.15美元/百萬tokens,也就是100倍的價(jià)格差距。

  另外對(duì)于個(gè)人開發(fā)者來說,還有一個(gè)門檻是需要tier-5賬號(hào),就是已經(jīng)花過1000美元的賬號(hào),才能訪問o1-preview/o1-mini。OpenAI財(cái)技不錯(cuò)。

  另外,計(jì)價(jià)方法也有變化,OpenAI新增了“reasoning tokens”,就是在結(jié)果中不顯示,但是推理過程中用到的tokens,這個(gè)也會(huì)計(jì)入價(jià)格中??傮w來說,就是目前這個(gè)模型能力特別,但價(jià)格很貴。

  o1是大模型發(fā)展的一個(gè)里程碑時(shí)刻,打開了“系統(tǒng)2思維”大門的一條縫隙,相信這個(gè)大門一旦打開,就不會(huì)再關(guān)上,全球AI社區(qū)一定會(huì)研發(fā)出更多的快速提升模型推理能力的創(chuàng)新方法來,大家繼續(xù)親歷歷史吧。