推理大模型來(lái)了，OpenAI o1解答物理、生物和化學(xué)問(wèn)題水平超越人類(lèi)博士

2024-09-13 23:50:41發(fā)布來(lái)源：多知作者：Penny

　　來(lái)源|多知

　　作者|Penny

　　9月12日晚，OpenAI開(kāi)發(fā)了一系列新的人工智能模型，旨在讓大模型花更多時(shí)間思考后再做出反應(yīng)。它們可以推理復(fù)雜的任務(wù)，解決比以前的科學(xué)、編碼和數(shù)學(xué)模型更難的問(wèn)題。

　　根據(jù)OpenAI的官方博客顯示，OpenAI o1 在競(jìng)爭(zhēng)性編程問(wèn)題(Codeforces)中排名第 89 位，在美國(guó)數(shù)學(xué)奧林匹克 (AIME) 預(yù)選賽中躋身美國(guó)前 500 名學(xué)生之列，并在物理、生物和化學(xué)問(wèn)題 (GPQA) 基準(zhǔn)測(cè)試中超越人類(lèi)博士級(jí)準(zhǔn)確度。

　　OpenAI o1 就是此前被傳的內(nèi)部代號(hào)為“草莓”的項(xiàng)目，這是一個(gè)不同于大語(yǔ)言模型的新模型，更像一個(gè)推理模型。

　　除了官方博客，OpenAI還發(fā)布了o1的多個(gè)視頻，包括解數(shù)學(xué)題、做貪吃蛇游戲、破譯韓文、破解邏輯謎題、解答量子物理等?？梢钥吹?，o1的推理能力得到極大提升，帶來(lái)范式的變化。

　　根據(jù)OpenAI研究團(tuán)隊(duì)的采訪(fǎng)顯示，o1被定義為"推理模型”，這些系列的新特點(diǎn)：

　　1）注重思考過(guò)程：“推理模型”會(huì)在回答問(wèn)題之前進(jìn)行更多思考，采取了用思考時(shí)間來(lái)給出更優(yōu)的結(jié)果，這與語(yǔ)言大模型一步到位給出答案不同;

　　2）自生成思維鏈：團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練模型生成和完善自己的思維鏈，而不僅僅依賴(lài)人類(lèi)編寫(xiě)的思路鏈;

　　3）可以自我反思：o1能夠質(zhì)疑自己、反思錯(cuò)誤，展現(xiàn)出更復(fù)雜的推理過(guò)程，尤其是在數(shù)學(xué)能力上。

　　OpenAI稱(chēng)：“我們大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在高度數(shù)據(jù)高效的訓(xùn)練過(guò)程中利用其思路進(jìn)行有效思考。我們發(fā)現(xiàn)，隨著強(qiáng)化學(xué)習(xí)的增加（訓(xùn)練時(shí)間計(jì)算）和思考時(shí)間的增加（測(cè)試時(shí)間計(jì)算），o1 的性能會(huì)持續(xù)提高。擴(kuò)展此方法的限制與 LLM 預(yù)訓(xùn)練的限制大不相同，我們將繼續(xù)研究這些限制。”

　　OpenAI稱(chēng)，在競(jìng)爭(zhēng)性編程平臺(tái) Codeforces 的測(cè)試中，OpenAI o1 取得排名前 89% ，位于頂級(jí)選手行列。而在美國(guó)數(shù)學(xué)奧林匹克預(yù)選賽（AIME）中，o1解答正確率為 83% ，而GPT-4o 僅能解答對(duì) 13%。此外，o1在物理、生物和化學(xué)等領(lǐng)域的基準(zhǔn)測(cè)試（GPQA）中，表現(xiàn)甚至超過(guò)了一些博士級(jí)別的準(zhǔn)確度。

　　OpenAI還對(duì)o1在GPQA鉆石版上進(jìn)行了評(píng)估，這是一個(gè)測(cè)試化學(xué)、物理和生物學(xué)專(zhuān)業(yè)知識(shí)的困難智能基準(zhǔn)。

　　為了將模型與人類(lèi)進(jìn)行比較，OpenAI還招募了擁有博士學(xué)位的專(zhuān)家來(lái)回答GPQA鉆石版的問(wèn)題。結(jié)果是o1超越了這些人類(lèi)專(zhuān)家的表現(xiàn)，成為第一個(gè)在這一基準(zhǔn)上做到這一點(diǎn)的模型。

　　OpenAI坦言，這些結(jié)果并不意味著o1在所有方面都比擁有博士學(xué)位的人更有能力——只是表明該模型在解決博士學(xué)位預(yù)期解決的一些問(wèn)題上更為熟練。

　　在其他幾個(gè)機(jī)器學(xué)習(xí)基準(zhǔn)上，o1也超越了最先進(jìn)的水平。

　　在啟用了視覺(jué)感知能力后，o1在MMMU(多模態(tài)大規(guī)模在多學(xué)科任務(wù)上的表現(xiàn)基準(zhǔn))評(píng)測(cè)集上得分為78.2%，使其成為第一個(gè)與人類(lèi)專(zhuān)家競(jìng)爭(zhēng)的模型。它還在57個(gè)MMLU子類(lèi)別中的54個(gè)上超越了GPT-4o。

　　OpenAI首席執(zhí)行官山姆·奧特曼在其個(gè)人社交平臺(tái)表示，“o1是迄今為止我們最強(qiáng)大的模型，雖然它的表現(xiàn)仍然存在缺陷，不過(guò)在你第一次使用它的時(shí)候仍然會(huì)感到震撼。”

　　o1此次發(fā)布的有兩個(gè)版本：標(biāo)準(zhǔn)版 o1-preview 和簡(jiǎn)化版 o1-mini。雖然 o1-preview 在處理復(fù)雜問(wèn)題時(shí)表現(xiàn)更加精準(zhǔn)，但它的成本也相對(duì)更高。而 o1-mini 則是一款更輕便、經(jīng)濟(jì)的模型，價(jià)格比 o1-preview 便宜 80%，主要面向?qū)ν评硇阅芤筝^低的用戶(hù)。

　　OpenAI o1 的發(fā)布標(biāo)志著開(kāi)發(fā)具有復(fù)雜推理能力的人工智能邁出了重要一步。它在專(zhuān)門(mén)任務(wù)中超越人類(lèi)的能力，加上其強(qiáng)化學(xué)習(xí)框架，使其適合于科學(xué)、工程和其他需要批判性思維的領(lǐng)域的應(yīng)用。

　　可以說(shuō)，o1在推理能力上的提升將進(jìn)一步改變教育領(lǐng)域，雖然仍有不足之初，但教育領(lǐng)域又多了一個(gè)參考工具。

　　END

　　作者：Penny

商學(xué)院

Open Talk

推理大模型來(lái)了，OpenAI o1解答物理、生物和化學(xué)問(wèn)題水平超越人類(lèi)博士

相關(guān)閱讀

商學(xué)院

Open Talk

推理大模型來(lái)了，OpenAI o1解答物理、生物和化學(xué)問(wèn)題水平超越人類(lèi)博士

相關(guān)閱讀

推理大模型來(lái)了，OpenAI o1解答物理、生物和化學(xué)問(wèn)題水平超越人類(lèi)博士