周楓：o1是大模型發(fā)展的里程碑時(shí)刻，打開(kāi)了邏輯性思維大門的一條縫隙

2024-09-16 10:46:14發(fā)布來(lái)源：多知作者：周楓

　　編者按：

　　本文轉(zhuǎn)載自網(wǎng)易有道CEO周楓。OpenAI o1推出后，掀起熱議。周楓分享了自己的思考：“o1是大模型發(fā)展的一個(gè)里程碑時(shí)刻，打開(kāi)了‘系統(tǒng)2思維’大門的一條縫隙，相信這個(gè)大門一旦打開(kāi)，就不會(huì)再關(guān)上。”

　　以下文章來(lái)源于周楓：

　　背景大家應(yīng)該都了解，OpenAI o1-preview上周推出，達(dá)到了數(shù)理推理(reasoning)的全新水平，比如數(shù)學(xué)奧林匹克IMO美國(guó)資格賽AIME達(dá)到了前500水平，CodeForces編程競(jìng)賽社區(qū)89%排名，等等。以下是我這兩天關(guān)于o1-preview的一些筆記，和大家分享。

　　1. 思維鏈

　　OpenAI在o1-preview的介紹文章"Learning to Reason with LLMs"中說(shuō)(我譯成中文)：

　　“我們的大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在高數(shù)據(jù)效率的訓(xùn)練過(guò)程中有效地使用其思維鏈(chain of thought)進(jìn)行思考。我們發(fā)現(xiàn)，隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)間計(jì)算)和更多的思考時(shí)間(測(cè)試時(shí)間計(jì)算)，o1的性能不斷提高。擴(kuò)展這種方法的限制與LLM預(yù)訓(xùn)練的限制有很大的不同，我們正在繼續(xù)研究它們。”

　　思維鏈(CoT)本身是行業(yè)熟悉的成熟方法了，來(lái)自2022年的"Large Language Models are Zero-Shot Reasoners"這篇文章，意思就是通過(guò)加入“讓我們一步步思考”這樣的提示，可以從大模型得到質(zhì)量更好的數(shù)理推理結(jié)果。這個(gè)也是在有道的子曰教育模型中使用廣泛的方法。

　　雖然"讓我們一步步思考"這樣一句經(jīng)常和做題的小學(xué)生講的話有點(diǎn)搞笑，但CoT背后的直覺(jué)很有道理，如果你觀察大模型的計(jì)算過(guò)程，會(huì)理解到每生成一個(gè)token，背后大模型完成的計(jì)算量是基本固定的，那么對(duì)于數(shù)學(xué)題這樣“費(fèi)腦子”的問(wèn)題，“慢慢回答”，多說(shuō)一些話，也就自然等于“更多思考”。讓模型分步回答，輸出更多的token，也就是融入了更多的思考，可以理解可以得到更好的結(jié)果。這是思維鏈這個(gè)方法的有效性背后的基本邏輯。

　　從目前公開(kāi)信息來(lái)看，除了思維鏈之外，o1主要還依賴增強(qiáng)學(xué)習(xí)(reinforcement learning)，增強(qiáng)學(xué)習(xí)是讓軟件自主做決定以取得最佳結(jié)果的機(jī)器學(xué)習(xí)方法，它很特別的特點(diǎn)是不需要有人教，或者說(shuō)需要的反饋非常少，只需要外部有一個(gè)評(píng)分的函數(shù)，就是判斷做成沒(méi)做成就可以了，而不需要外界告訴系統(tǒng)怎么做。增強(qiáng)學(xué)習(xí)RL以前主要用于機(jī)器人領(lǐng)域(比如雙足行走)，而這些年來(lái)RL和LLM的結(jié)合現(xiàn)在越來(lái)越多，o1是一個(gè)最新的例子。

　　2. 系統(tǒng)1和系統(tǒng)2思維

　　思維鏈背后的思想，來(lái)自認(rèn)知學(xué)和心理學(xué)的研究，2011年的Daniel Kahneman的《思考，快與慢》(Thinking, Fast and Slow)是討論這個(gè)問(wèn)題的一本好書(此書有中文版)?；镜谋尘笆牵?strong>人的思維可以分成兩個(gè)模式，“系統(tǒng)1”是快速、本能和情感思維，“系統(tǒng)2”是緩慢、仔細(xì)和邏輯性的思維。

　　所以從這個(gè)角度，可以認(rèn)為在o1之前的大模型，總體上都是“系統(tǒng)1”思維為主。從系統(tǒng)的行為來(lái)說(shuō)，就是得到一個(gè)問(wèn)題后，就一邊想一邊說(shuō)，想到哪里是哪里，并沒(méi)有一個(gè)回答問(wèn)題之前的深度思考過(guò)程。這也解釋了為什么在教育領(lǐng)域，之前的大模型強(qiáng)于文科，而弱于理科，就是因?yàn)樗季S偏直覺(jué)和情感，而在需要反復(fù)琢磨的邏輯思維上比較差。

　　對(duì)于這個(gè)問(wèn)題，之前的LLM增強(qiáng)能力依靠不斷加大參數(shù)量，o1給出了一個(gè)另外的思路，就是在訓(xùn)練階段和推理（inference）階段都加入增強(qiáng)學(xué)習(xí)和思維鏈，通過(guò)反復(fù)計(jì)算，來(lái)加強(qiáng)模型的數(shù)理推理能力。另外一個(gè)變化是和以前的模型相比，推理（inference）階段的計(jì)算占比加大，對(duì)于數(shù)理問(wèn)題，這應(yīng)該是一個(gè)必要的變化。

　　具體的算法OpenAI并沒(méi)有公布，行業(yè)內(nèi)不少公司之前也都在探索類似的方向，而OpenAI是第一個(gè)出成果的團(tuán)隊(duì)，相信一段時(shí)間后，o1的細(xì)節(jié)會(huì)更多被大家了解，國(guó)內(nèi)外其它團(tuán)隊(duì)也會(huì)有相關(guān)成果出來(lái)。

　　3. 一些例子

　　OpenAI自己給了一系列的o1的例子，比如下面這個(gè)簡(jiǎn)單的“密文”解碼：

　　"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

　　模型成功解出了這是兩個(gè)字母ASCII碼取平均值得到一個(gè)明文字母(oy -> t, fj -> h)。

　　然后編程例子，寫了一個(gè)轉(zhuǎn)置矩陣的bash腳本，而GPT-4寫不出來(lái)。

　　X上面一些用戶給出了早期的評(píng)測(cè)結(jié)果，比如MMLU-Pro從79%提升到91%:

　　截屏2024-09-16 10.48.57.png

　　然后三分鐘解出了最近一次LeetCode周賽的全部三道題：

截屏2024-09-16 10.49.46.png 　　

　　4. 成本

　　這套服務(wù)目前很貴，o1-preview100萬(wàn)的tokens價(jià)格是15美元，與之對(duì)比，OpenAI便宜的模型GPT-4o mini(和GPT-3.5差不多)的價(jià)格是0.15美元/百萬(wàn)tokens，也就是100倍的價(jià)格差距。

　　另外對(duì)于個(gè)人開(kāi)發(fā)者來(lái)說(shuō)，還有一個(gè)門檻是需要tier-5賬號(hào)，就是已經(jīng)花過(guò)1000美元的賬號(hào)，才能訪問(wèn)o1-preview/o1-mini。OpenAI財(cái)技不錯(cuò)。

　　另外，計(jì)價(jià)方法也有變化，OpenAI新增了“reasoning tokens”，就是在結(jié)果中不顯示，但是推理過(guò)程中用到的tokens，這個(gè)也會(huì)計(jì)入價(jià)格中。總體來(lái)說(shuō)，就是目前這個(gè)模型能力特別，但價(jià)格很貴。

　　o1是大模型發(fā)展的一個(gè)里程碑時(shí)刻，打開(kāi)了“系統(tǒng)2思維”大門的一條縫隙，相信這個(gè)大門一旦打開(kāi)，就不會(huì)再關(guān)上，全球AI社區(qū)一定會(huì)研發(fā)出更多的快速提升模型推理能力的創(chuàng)新方法來(lái)，大家繼續(xù)親歷歷史吧。

商學(xué)院

Open Talk

周楓：o1是大模型發(fā)展的里程碑時(shí)刻，打開(kāi)了邏輯性思維大門的一條縫隙

相關(guān)閱讀

商學(xué)院

Open Talk

周楓：o1是大模型發(fā)展的里程碑時(shí)刻，打開(kāi)了邏輯性思維大門的一條縫隙

相關(guān)閱讀

周楓：o1是大模型發(fā)展的里程碑時(shí)刻，打開(kāi)了邏輯性思維大門的一條縫隙