推理能力提升帶來(lái)范式變化。

推理大模型來(lái)了,OpenAI o1解答物理、生物和化學(xué)問(wèn)題水平超越人類(lèi)博士

2024-09-13 23:50:41發(fā)布     來(lái)源:多知    作者:Penny  

  來(lái)源|多知

  作者|Penny

  9月12日晚,OpenAI開(kāi)發(fā)了一系列新的人工智能模型,旨在讓大模型花更多時(shí)間思考后再做出反應(yīng)。它們可以推理復(fù)雜的任務(wù),解決比以前的科學(xué)、編碼和數(shù)學(xué)模型更難的問(wèn)題。

  根據(jù)OpenAI的官方博客顯示,OpenAI o1 在競(jìng)爭(zhēng)性編程問(wèn)題(Codeforces)中排名第 89 位,在美國(guó)數(shù)學(xué)奧林匹克 (AIME) 預(yù)選賽中躋身美國(guó)前 500 名學(xué)生之列,并在物理、生物和化學(xué)問(wèn)題 (GPQA) 基準(zhǔn)測(cè)試中超越人類(lèi)博士級(jí)準(zhǔn)確度。

  OpenAI o1 就是此前被傳的內(nèi)部代號(hào)為“草莓”的項(xiàng)目,這是一個(gè)不同于大語(yǔ)言模型的新模型,更像一個(gè)推理模型。

  除了官方博客,OpenAI還發(fā)布了o1的多個(gè)視頻,包括解數(shù)學(xué)題、做貪吃蛇游戲、破譯韓文、破解邏輯謎題、解答量子物理等??梢钥吹?,o1的推理能力得到極大提升,帶來(lái)范式的變化。

  根據(jù)OpenAI研究團(tuán)隊(duì)的采訪(fǎng)顯示,o1被定義為"推理模型”,這些系列的新特點(diǎn):

  1)注重思考過(guò)程:“推理模型”會(huì)在回答問(wèn)題之前進(jìn)行更多思考,采取了用思考時(shí)間來(lái)給出更優(yōu)的結(jié)果,這與語(yǔ)言大模型一步到位給出答案不同;

  2)自生成思維鏈:團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練模型生成和完善自己的思維鏈,而不僅僅依賴(lài)人類(lèi)編寫(xiě)的思路鏈;

  3)可以自我反思:o1能夠質(zhì)疑自己、反思錯(cuò)誤,展現(xiàn)出更復(fù)雜的推理過(guò)程,尤其是在數(shù)學(xué)能力上。

  OpenAI稱(chēng):“我們大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在高度數(shù)據(jù)高效的訓(xùn)練過(guò)程中利用其思路進(jìn)行有效思考。我們發(fā)現(xiàn),隨著強(qiáng)化學(xué)習(xí)的增加(訓(xùn)練時(shí)間計(jì)算)和思考時(shí)間的增加(測(cè)試時(shí)間計(jì)算),o1 的性能會(huì)持續(xù)提高。擴(kuò)展此方法的限制與 LLM 預(yù)訓(xùn)練的限制大不相同,我們將繼續(xù)研究這些限制。”

  OpenAI稱(chēng),在競(jìng)爭(zhēng)性編程平臺(tái) Codeforces 的測(cè)試中,OpenAI o1 取得排名前 89% ,位于頂級(jí)選手行列。而在美國(guó)數(shù)學(xué)奧林匹克預(yù)選賽(AIME)中,o1解答正確率為 83% ,而GPT-4o 僅能解答對(duì) 13%。此外,o1在物理、生物和化學(xué)等領(lǐng)域的基準(zhǔn)測(cè)試(GPQA)中,表現(xiàn)甚至超過(guò)了一些博士級(jí)別的準(zhǔn)確度。

  OpenAI還對(duì)o1在GPQA鉆石版上進(jìn)行了評(píng)估,這是一個(gè)測(cè)試化學(xué)、物理和生物學(xué)專(zhuān)業(yè)知識(shí)的困難智能基準(zhǔn)。

  為了將模型與人類(lèi)進(jìn)行比較,OpenAI還招募了擁有博士學(xué)位的專(zhuān)家來(lái)回答GPQA鉆石版的問(wèn)題。結(jié)果是o1超越了這些人類(lèi)專(zhuān)家的表現(xiàn),成為第一個(gè)在這一基準(zhǔn)上做到這一點(diǎn)的模型。

  OpenAI坦言,這些結(jié)果并不意味著o1在所有方面都比擁有博士學(xué)位的人更有能力——只是表明該模型在解決博士學(xué)位預(yù)期解決的一些問(wèn)題上更為熟練。

  在其他幾個(gè)機(jī)器學(xué)習(xí)基準(zhǔn)上,o1也超越了最先進(jìn)的水平。

  在啟用了視覺(jué)感知能力后,o1在MMMU(多模態(tài)大規(guī)模在多學(xué)科任務(wù)上的表現(xiàn)基準(zhǔn))評(píng)測(cè)集上得分為78.2%,使其成為第一個(gè)與人類(lèi)專(zhuān)家競(jìng)爭(zhēng)的模型。它還在57個(gè)MMLU子類(lèi)別中的54個(gè)上超越了GPT-4o。

  OpenAI首席執(zhí)行官山姆·奧特曼在其個(gè)人社交平臺(tái)表示,“o1是迄今為止我們最強(qiáng)大的模型,雖然它的表現(xiàn)仍然存在缺陷,不過(guò)在你第一次使用它的時(shí)候仍然會(huì)感到震撼。”

  o1此次發(fā)布的有兩個(gè)版本:標(biāo)準(zhǔn)版 o1-preview 和簡(jiǎn)化版 o1-mini。雖然 o1-preview 在處理復(fù)雜問(wèn)題時(shí)表現(xiàn)更加精準(zhǔn),但它的成本也相對(duì)更高。而 o1-mini 則是一款更輕便、經(jīng)濟(jì)的模型,價(jià)格比 o1-preview 便宜 80%,主要面向?qū)ν评硇阅芤筝^低的用戶(hù)。

  OpenAI o1 的發(fā)布標(biāo)志著開(kāi)發(fā)具有復(fù)雜推理能力的人工智能邁出了重要一步。它在專(zhuān)門(mén)任務(wù)中超越人類(lèi)的能力,加上其強(qiáng)化學(xué)習(xí)框架,使其適合于科學(xué)、工程和其他需要批判性思維的領(lǐng)域的應(yīng)用。

  可以說(shuō),o1在推理能力上的提升將進(jìn)一步改變教育領(lǐng)域,雖然仍有不足之初,但教育領(lǐng)域又多了一個(gè)參考工具。

  END

  作者:Penny