解決教育場景大模型幻覺的一種新思路。

解題出海產(chǎn)品競爭紅?;?,TutorEva憑什么收獲200萬用戶?

2024-07-30 09:52:18發(fā)布     來源:多知    作者:徐晶晶  

  來源|多知

  作者|徐晶晶

  2023年5月,一款名為“TutorEva”的AI解題產(chǎn)品登陸北美市場。

  與字節(jié)Gauth、作業(yè)幫Question AI、Answer AI等面向泛學(xué)生群體的解題類出海產(chǎn)品均不同的是,TutorEva面向北美大學(xué)生提供多模態(tài)解題功能。體現(xiàn)在交互上,TutorEva的AI老師,可以邊講解、邊板書畫圖,引導(dǎo)學(xué)生一步步思考。

  截至目前,TutorEva已有200多萬用戶,預(yù)計(jì)ARR(Annual Recurring Revenue)超過百萬美金。

  TutorEva的背后是一家名為“悉之智能”(以下簡稱“悉之”)的教育科技公司。

  不過,這并不是一家新公司。早在2017年,悉之便已成立,主攻“自動(dòng)解題/講題”,與頭部教育公司開展了To B合作。2022,其開始尋求轉(zhuǎn)型,探索“自動(dòng)解題/講題”出海的可能。

  近兩年,悉之在開源大模型的基礎(chǔ)上深入一步:自研了KAS(Knowledge Agent)架構(gòu),訓(xùn)練了千億基座模型EVA-LLM。當(dāng)下,除了深耕海外市場外,悉之也將以To B模式拓展國內(nèi)教育市場。

  不過,顯而易見的挑戰(zhàn)是,國內(nèi)的通用大模型、教育垂直大模型林立,悉之在教育生態(tài)位上的機(jī)會又在哪?

  借助自研的KAS架構(gòu),其表示能讓大模型的數(shù)學(xué)推理能力和準(zhǔn)確性獲得顯著提升。如此來看,它更像是教育AI產(chǎn)品背后的大模型解決方案提供商。

  實(shí)際上,在很多教育產(chǎn)品背后,已然有悉之的身影。例如,其與新東方優(yōu)編程、希沃、紫光摩度均達(dá)成了合作。

  和大多數(shù)To B的科技公司一樣,悉之一貫低調(diào),不過,其創(chuàng)始人孫一喬卻并不欠缺一個(gè)典型的“95后”技術(shù)派該有的自信。目前,其團(tuán)隊(duì)接近80人,核心團(tuán)隊(duì)均來自清華北大。

  近日,孫一喬向多知分享了他在當(dāng)下階段的思考:關(guān)于AI老師、關(guān)于教育解題產(chǎn)品的出海前景、關(guān)于教育垂直大模型、關(guān)于通用大模型的教育場景落地、關(guān)于GPT-4o的講題功能……

  01

  解決教育場景大模型幻覺的一種新思路:“在推理層基于聯(lián)合模型做輸出”

  “今年開始,我們明顯感覺到,國內(nèi)公司對AI教育的熱情高漲。光是來這間辦公室找我們談合作的上市公司高管、行業(yè)大咖就有好幾位。”

  春江水暖。

  在AIGC熱潮下,作為一家以To B業(yè)務(wù)起家的公司,孫一喬顯然比周圍人更早感知到了今年非比尋常的一些變化。這給悉之帶來的直接影響是,團(tuán)隊(duì)將今年的工作重心由此前的To C產(chǎn)品的出海轉(zhuǎn)至To B解決方案業(yè)務(wù)。

  當(dāng)前,除了與新東方優(yōu)編程合作研發(fā)“優(yōu)香農(nóng)大模型”外,悉之智能還與紫光摩度、希沃均達(dá)成了合作,共研大模型及應(yīng)用層的AI老師產(chǎn)品。

  這也不免讓人好奇,這家公司究竟有什么樣的核心競爭力?

  故事要從一個(gè)青年的堅(jiān)持講起。

  2017年,孫一喬從清華大學(xué)電子工程系畢業(yè),躍入教育創(chuàng)業(yè)潮:他一直夢想著實(shí)現(xiàn)AGI。而要實(shí)現(xiàn)AGI,最重要的基石便是AI的數(shù)學(xué)能力及其背后的邏輯能力。

  “要解決AI的數(shù)學(xué)能力,就要為AI提升數(shù)學(xué)能力這件事找到一個(gè)有價(jià)值的場景,這個(gè)場景必定是教育。”孫一喬篤定。

  如何讓AI提升數(shù)學(xué)能力?

  起初,團(tuán)隊(duì)基于BERT架構(gòu)結(jié)合KAS系統(tǒng)模型研究自動(dòng)解題。當(dāng)這波大模型熱潮出現(xiàn)后,悉之在底層技術(shù)方面進(jìn)行了迭代,引入了大模型。但是,大模型仍面臨幻覺和邏輯推理等問題,在容錯(cuò)率極低的教育場景下,只有解決大模型幻覺和邏輯推理問題,才能解決AI的解題能力。當(dāng)前,解決大模型幻覺問題常用的方式是RAG(Retrieval-augmented Generation,檢索增強(qiáng)生成),但是悉之另辟思路,“在推理層基于聯(lián)合模型做輸出”??梢院唵卫斫鉃椋o了飛行員一本“操作手冊”。

  孫一喬舉了個(gè)例子:

  “如果現(xiàn)在讓你坐飛船去月球,但駕駛員是GPT-4,你肯定不敢坐,因?yàn)榇竽P偷幕糜X避免不了。

  但是,假設(shè)GPT-4在做任何操作前,都有一本完整的飛行員操作手冊指引,這種情況下,你是不是就放心多了?

  基于這本手冊,GPT-4要做的只是規(guī)劃和調(diào)度‘去月球走哪條路最快’,但無論走哪條路,都已經(jīng)有寫好的算法等待啟用,這就會大大提高GPT-4帶你去月球的可靠性。”

  悉之要做的事,就是為大模型找到這本飛行員“操作手冊”,降低其幻覺的產(chǎn)生。

  孫一喬認(rèn)為,純粹的統(tǒng)計(jì)模型無法很好地解決數(shù)學(xué)題。而他的思路是,基于數(shù)學(xué)構(gòu)建一套完整的知識體系,讓AI在解數(shù)學(xué)題時(shí)能調(diào)用這些數(shù)學(xué)知識解題,以提升大模型的準(zhǔn)確性。

  在具體的技術(shù)路徑上,悉之自研了KAS架構(gòu)。

  孫一喬自信地說:“我們認(rèn)為類KAS架構(gòu)正在成為主流,而且這個(gè)架構(gòu)一定是最終的架構(gòu)。”

  

  悉之要做的是,“在推理層基于聯(lián)合模型做輸出”,“由一個(gè)大模型把題目拆解調(diào)度,在解決具體問題的時(shí)候,調(diào)用數(shù)學(xué)模型輸出,比如有邏輯的推理、數(shù)學(xué)的推演,整個(gè)過程叫聯(lián)合推理。”

  孫一喬認(rèn)為,RAG只是在大模型的輸入中增加了prompt,本質(zhì)上不改變大模型的能力。而KAS架構(gòu)作用在大模型的推理和訓(xùn)練過程。一方面通過SFT和強(qiáng)化學(xué)習(xí),教會大模型用工具調(diào)用的方式使用相關(guān)數(shù)學(xué)知識和解題技巧,另一方面,在模型的推理過程中,對它的求解結(jié)果進(jìn)行推理、計(jì)算等的校驗(yàn)和修正。

  也就是說,在KAS架構(gòu)的幫助下,大模型增加了推理邏輯能力,讓大模型“知其然,更知其所以然”。

  如果KAS架構(gòu)成為主流架構(gòu),是否意味著任何科技公司都可以探索這一方向?悉之的價(jià)值又在哪里?

  孫一喬表示,KAS架構(gòu)的實(shí)現(xiàn),頗有門檻。“如果說,Transformer架構(gòu)的門檻在于需要海量的數(shù)據(jù)。那我們這套架構(gòu)的難點(diǎn)在于開發(fā)量是線性的,是一個(gè)耗時(shí)耗力的浩大工程,相當(dāng)于把人類的所有的數(shù)學(xué)知識都要用AI能夠編譯的方式標(biāo)注出來,還要用數(shù)據(jù)教會AI怎么使用它。”

  02

  “我們絕不做Chatbot”:一位擅長多模態(tài)講題的AI老師是如何誕生的?

  循著上述技術(shù)路線,從2021年開始,悉之花了近兩年時(shí)間研發(fā)了這一架構(gòu)。

  在應(yīng)用層,TutorEva也隨之誕生。

  相比GPT-4來說,TutorEva依托的高等教育模型有怎樣的提升呢?孫一喬透露:“我們內(nèi)部測試過,如果是微積分題,GPT-4的解題率不到70%。但是通過我們的模型做了提升和優(yōu)化后,GPT-4的解題率可以提升到80%左右。”

  當(dāng)解數(shù)學(xué)題時(shí),通用大模型的做法只是像寫小作文一樣不斷輸出結(jié)果。但TutorEva不同,內(nèi)置AI老師,會先給解題思路,然后邊講解、邊板書畫圖,一步步引導(dǎo)學(xué)生思考。

  雖然可能最后輸出的答案都是相同的,但孫一喬解析了這兩種輸出方式背后的底層不同:

  “其他公司使用通用大模型講題的方法往往是把參考答案作為Prompt喂給大模型,讓它講,這樣出錯(cuò)率很高。因?yàn)榇竽P偷耐评磉^程是不可解釋的。

  而我們不同,在解題過程中,將解題任務(wù)拆分為題意理解、預(yù)設(shè)思路、運(yùn)用知識、邏輯推理、計(jì)算等子任務(wù),調(diào)用不同的Agent執(zhí)行。本質(zhì)上是AI老師知道要用什么方法,再講什么方法。大家總說大模型是不可解釋的,我們首先讓大模型的解題變得可解釋,后面再加講解。這才是順理成章的。”

  基于此,孫一喬認(rèn)為,市面上很多AI老師不過是Chatbot(聊天機(jī)器人),但TutorEva并不是。“我們絕不做Chatbot。AI帶來的最大的價(jià)值是AI老師可以對每個(gè)孩子都進(jìn)行實(shí)時(shí)互動(dòng)講題。未來AI老師若要在很大程度上替代部分真人老師,那AI老師就一定不能只是聊天機(jī)器人。”

  據(jù)孫一喬透露,TutorEva的AI講解平均每道題的聽講時(shí)間超過3分鐘。

  截至目前,TutorEva有200多萬用戶,單月MRR(Monthly Recurring Revenue)超過10萬美金,預(yù)計(jì)ARR(Annual Recurring Revenue)超過百萬美金,續(xù)費(fèi)率60%,講解好評率84%。

  孫一喬透露,接下來,TutorEva會聚焦在三個(gè)方向:

  其一,繼續(xù)優(yōu)化模型能力。“我們很清楚,這個(gè)場景對AGI有巨大的幫助,所以我們要做一件模型層有壁壘的事兒,避免比如GPT新版本一出、創(chuàng)業(yè)公司死一堆的情況。”

  其二,要構(gòu)建一個(gè)生態(tài)。“現(xiàn)在做AI應(yīng)用的公司,一定要實(shí)現(xiàn)大模型、場景、收入、數(shù)據(jù)飛輪的閉環(huán)。如果只是調(diào)個(gè)OpenAI接口,那肯定長久不了。如果你構(gòu)造的是一個(gè)完整生態(tài),大模型公司對你也有需求,你也能持續(xù)地為大模型公司產(chǎn)生場景、創(chuàng)造價(jià)值。”

  其三,場景深耕,繼續(xù)聚焦北美大學(xué)生,開發(fā)更多垂直功能。

  悉之智能最近一次大范圍走入人們的視野,是在今年5月底,和新東方優(yōu)編程聯(lián)合推出信息學(xué)領(lǐng)域首個(gè)垂直大模型——“優(yōu)香農(nóng)大模型”。信息學(xué)AI老師“悉加加”也依然采取互動(dòng)式多模態(tài)講題方式。

  在孫一喬看來,“優(yōu)香農(nóng)大模型”帶來了信息學(xué)領(lǐng)域師資供給側(cè)改革的可能性。

  03

  “解題出海產(chǎn)品競爭紅?;?rdquo;,“教育生態(tài)細(xì)分且復(fù)雜,單純的大模型公司無暇入場”

  孫一喬判斷,就海外的To C解題市場而言,當(dāng)下已然處于紅海競爭階段,沒有新入局的創(chuàng)業(yè)者的機(jī)會了。

  “凡是基于大模型接口做應(yīng)用的AI教育創(chuàng)業(yè)公司,都沒有壁壘,這也意味著這是一個(gè)完全競爭市場,利潤為零。

  調(diào)接口做應(yīng)用就是一個(gè)資本游戲,看誰能融到更多的錢,看誰能持續(xù)燒錢獲客直至最后跑出來。

  但這個(gè)時(shí)代已經(jīng)沒有這樣的資本環(huán)境了,現(xiàn)在投放這么激烈,VC們早不相信這種套殼應(yīng)用能夠通過燒錢打品牌。

  除非你做的事有一些壁壘,比如你的課程體系、模型、管理能力等,或者一些真正能解決技術(shù)難題的公司,或者對AGI有追求的大模型公司在這方面布局是有機(jī)會的。

  但在當(dāng)下,對新創(chuàng)業(yè)者挑戰(zhàn)也很大。我們公司如果沒有過去四五年的積淀,從頭開始再做這件事,可能需要幾千萬美金。

  如今,誰又能靠做AI教育垂直產(chǎn)品就融到幾千萬美金呢?”

  盡管否定了新創(chuàng)業(yè)者的機(jī)會,但是,孫一喬認(rèn)為,大廠生態(tài)下仍然有機(jī)會。“由于是有戰(zhàn)略意義的,大廠一定要把解題場景占住。”

  “在AI老師這個(gè)領(lǐng)域,如果GPT-4o講題的場景真的能落地,基本上就贏了。但這條路其實(shí)還蠻漫長的,要達(dá)到理想狀態(tài),大概需要一兩年。

  今年以來,孫一喬將視角切回到國內(nèi)。

  他認(rèn)為,“如果在國內(nèi)市場只提供解題功能,那還不如以小猿搜題為代表的這類工具產(chǎn)品。小猿們多年來已經(jīng)通過人工題庫的方式做到了解題的90%,國內(nèi)大模型的解題能力在兩年之內(nèi),不可能超過這些解題工具,起碼從成本側(cè)、性能側(cè)來看,大模型還不足以和小猿們形成代際差。”

  因此,在國內(nèi)市場,悉之堅(jiān)持做To B,“選擇每個(gè)領(lǐng)域最頭部的伙伴深度戰(zhàn)略綁定”。“我們要做(就要做)這個(gè)生態(tài)位上最好的公司。”孫一喬說。

  在國內(nèi),悉之基于開源模型,訓(xùn)練了千億基座模型EVA-LLM。對比開源基座模型,悉之訓(xùn)練的模型在數(shù)學(xué)解題方面可以提升15%-25%的表現(xiàn)。

  當(dāng)前,一些通用大模型公司希望在教育場景落地,也在向教育領(lǐng)域拓展商業(yè)化場景。

  不過,孫一喬認(rèn)為,“國內(nèi)教育生態(tài)復(fù)雜且細(xì)分,單純的通用大模型公司無暇入場,它們應(yīng)該聚焦AGI實(shí)現(xiàn),不應(yīng)該、也沒有這個(gè)基因做教育。”

  他提到,現(xiàn)在通用大模型公司的能力和教育公司真正的需求相差甚遠(yuǎn)。“而我們這類公司(作為橋梁)能很好地綜合這兩點(diǎn)?;诖竽P凸镜幕竽P停诮逃h(huán)境下開發(fā)出針對性的算法和功能。”

  創(chuàng)業(yè)七年,兜兜轉(zhuǎn)轉(zhuǎn)。

  悉之有過一些成績,也有一些壓力:

  “現(xiàn)在的大模型公司純粹做模型和基礎(chǔ)應(yīng)用就行,教育公司純粹做教育服務(wù)就行,而我們需要把全鏈條都做了。

  我們要自訓(xùn)模型,需要大量的算力,它需要很大參數(shù)的基座模型。我們還要基于這個(gè)基座模型,自訓(xùn)我們的模型,也需要大量算力,所以我們的科研投入是很大的??蒲型度胪辏覀冞€要給客戶交付完整的產(chǎn)品方案。

  但是目前的大環(huán)境要支持我們做全鏈條這件事有一定的難度。就現(xiàn)在的資本環(huán)境來說,除了大模型公司有很高的溢價(jià)外,并沒有給到我們這類公司很高的溢價(jià),這讓我覺得我們的價(jià)值跟做的全鏈條事情有一點(diǎn)被低估。

  這導(dǎo)致我們在資源上有點(diǎn)緊張,所以我們也在尋求跟一些大模型公司合作,由他們來提供算力,我們給他們提供一些價(jià)值,彼此合作。”

  2023年9月的一場直播上,談及值得投資人付出耐心的項(xiàng)目時(shí),啟明創(chuàng)投副總裁李定政回憶起2021年那次“堅(jiān)定地”下注:

  “當(dāng)時(shí)(指2021年上半年)所有人都猜到教育新政策馬上就要來了,也都預(yù)感到這次政策將會產(chǎn)生很大影響,但我們還是堅(jiān)持在這樣的環(huán)境下投了一家教育領(lǐng)域的AI創(chuàng)新公司。

  它不僅能把一道微積分難度的數(shù)學(xué)題,解出答案,還能給到分步的交互式講解。講的過程中還會加入解題技巧、引用定理、類似題型處理等。

  這是一個(gè)完整的師生交互的過程。這意味著每個(gè)人都可以擁有一位擅長個(gè)性化教學(xué)的AI老師。而這套過程要用真人老師來解決的話,成本通常是每小時(shí)200-400塊錢。但是用AI解決,它的成本可能是幾塊錢的算力,對應(yīng)的產(chǎn)品價(jià)格如果定在10塊錢,對一些家庭來說,或許無法支付每小時(shí)200-400塊錢,但肯定能付得起每小時(shí)10塊錢。

  這其實(shí)就是我們風(fēng)險(xiǎn)投資機(jī)構(gòu)最應(yīng)該去賭的東西。”

  李定政口中的這家公司便是悉之。

  直到今天,我們依然無法判斷啟明創(chuàng)投的這筆投資是賺是賠,但在這個(gè)年輕的團(tuán)隊(duì)身上,能看到新一代創(chuàng)業(yè)者用科技改變教育的努力。