先找到大模型落地場景,再去針對性解決。

對話|有道硬件業(yè)務負責人吳迎暉:將推硬件新品,大模型“千人千面”依賴于場景

2023-09-07 14:32:18發(fā)布     來源:多知網(wǎng)    作者:馮瑋  

  來源|多知網(wǎng)

  作者|馮瑋

  圖片來源|網(wǎng)易有道

  一整個夏天,有道不斷地釋出屬于自己的“好消息”。

  子曰開始成型,大模型落地到六個場景,虛擬人口語教練、詞典筆與聽力寶新品面市,Q2營收12億元同比增長26.2%……

  網(wǎng)易有道CEO周楓曾在8月初發(fā)布會現(xiàn)場強調(diào),此前發(fā)布的六個應用(LLM翻譯、虛擬人口語教練、AI作文指導、語法精講、AIBox以及文檔問答)在智能硬件上的落地將在今年的8-9月全部準備完成。

  至此有道正進入第二個階段——增加更多手段去滿足用戶需求,相關(guān)業(yè)務全面加速。

  大模型、AIGC等技術(shù)的發(fā)展,為有道的“全面加速”勾勒出想象空間,智能硬件身處其中,在技術(shù)落地的過程中一馬當先,成為絕對的試驗田。

  但即便不同于在線營銷服務業(yè)務、學習服務業(yè)務的增長,二季度智能硬件收入為2.2億元,上年同期為2.4億元。有道依舊堅信憑借AI技術(shù)的落地,將為硬件業(yè)務帶來新的可能。

  怎么做?

  多知獨家對話網(wǎng)易有道高級副總裁、智能硬件業(yè)務負責人吳迎暉,在他看來:

  區(qū)別于市面上的熏聽產(chǎn)品,“有道在聽力寶上想提供的價值是讓用戶學會自己想學的東西,但熏聽還是更泛一些;第二,熏聽更強調(diào)低幼內(nèi)容本身,這個長期也不見得一定是我們的優(yōu)勢,不成為劣勢就好。”

  對于聽力寶的下個階段,有道想要實現(xiàn)的是“不管給什么材料,或者家長從哪里找到的聽力材料放到聽力寶里面,聽力寶都會分析并給出材料難度水平。”

  詞典筆新品的驚喜是“新的芯片從開始立項時候的目標是把Transformer模型直接運用在上面,這個目標應該說基本達成。我們做的過程中認為功耗也很重要,把這件事情也放進去做了,確實也做成了。”

  數(shù)學的陷阱,大模型有時并不能很快搞懂;后者落地到英語場景也并不意味著順風順水。

  一個具體功能在不同人手上會有不同的結(jié)果,“千人千面”將更容易在場景上實現(xiàn)……

  以下為部分對話內(nèi)容,多知編輯整理。

  01

  堆疊內(nèi)容的學習機,并不能解決學習問題

  多知:大模型落地學習機這件事您怎么看?

  吳迎暉:我覺得是難的,大模型可以改作文、練口語了,但是事實上大家對于學習機的期望是掌握知識,這個過程中大模型的作用能夠有多少還很難講。

  在現(xiàn)階段來說,大模型很容易被當成之前的AI一樣成為還不錯的賣點,但做學習產(chǎn)品最后還是離不開教研、內(nèi)容的。

  

  多知:當下的學習機市場有哪些特點?

  吳迎暉:看不太懂。

  學習機市場肯定是進化到了新的狀態(tài),區(qū)別于前兩年,今年大家明顯開始競爭內(nèi)容和課程,我們很難確定這個競爭最終終點會在哪里。

  這個競爭對長期的結(jié)果會是什么,我們也沒有想好。

  多知:有道的學習機會朝著什么方向努力?

  吳迎暉:我們也會想這件事情,有道做這件事情的一個普遍方向是希望找到某個領(lǐng)域的獨特創(chuàng)新切入點,以及找到硬件、AI、內(nèi)容結(jié)合起來做場景的機會。

  這對于我們來說是更舒服的。

  我們今年也會有新產(chǎn)品出來。

  有道有自己的在線內(nèi)容作為積累,希望能在學習機上找到自己的優(yōu)勢,就像在詞典筆、聽力寶上的發(fā)力是利用英語優(yōu)勢一樣的邏輯。

  多知:如果用戶對于學習機的期待是提分的話,內(nèi)容變多肯定是不能完全起到作用把?

  吳迎暉:對,答案目前是否定的。

  其實當大家拼命往里面裝越來越多內(nèi)容的時候,背后的邏輯是這些內(nèi)容變得越來越不值錢,或者說塞進去的東西,也沒有認真去編排它的體系,也沒有認真考慮它的學習路徑和方法是什么。

  學習不是內(nèi)容越多越好,學習是最適合我的內(nèi)容是最好的內(nèi)容,只是裝內(nèi)容不能解決學習的問題,這也是我認為當前這個狀態(tài)不是特別好的一個原因。

  好像想往里面裝內(nèi)容,內(nèi)容越來越多,沒有觸及到問題本質(zhì)。

  02

  先找到大模型落地場景,再去針對性解決

  多知:大模型落地到教育場景的時候, 面對語數(shù)英等不同學科,會有各自的水土不服,有道怎么看這個狀態(tài)?

  吳迎暉:以前大家比較樂觀,覺得大模型能力很強,適應性很強。

  大家樂觀的時候覺得數(shù)學都可以得到解決,我們也去看了數(shù)學問題,會發(fā)現(xiàn)數(shù)學問題在里面有些特別具體的問題是比較難解決的。

  可能80%的題目可以解決,但會有一些題目類型對大模型特別難,我們自己內(nèi)部稱為“陷阱”,是數(shù)學給大模型設下的陷阱。

  之前有一個例子,說小明有10支鉛筆,小紅有5支鉛筆,小明給了小紅3支鉛筆,問他們一共有多少支,其實他給了他3支鉛筆這件事情沒有任何意義,但是這個部分給大模型設置了陷阱。

  大模型會在交換事情上折騰半天,這就是典型的水土不服,遇到這個問題之后它就很麻煩。

  

  多知:英語和大模型的融合會更容易吧?

  吳迎暉:當教育公司真正去做大模型落地教育的時候,不同學科會遇到很多很多類似的問題,有道做英語語法這件事情的時候,相對來說算是大模型匹配度較高的了,因為語法這件事情它的種類數(shù)目沒有那么多,是可數(shù)的,看起來可行性很高,但實際做的時候也有不少問題。

  你得設計比較多的知識點讓學生真正地學會,看起來大模型是可以講語法知識點,但一落地就發(fā)現(xiàn)很多語法知識點實際在中文和英文里面不見得一定匹配。

  過程中會有特別多的具體問題,導致它落地英語學科時與期待的依舊有很大鴻溝。

  再比如工具這個屬性,學習本身有很大的時間是花在重復上,重復去學,重復理解,重復練習,這個過程本身和工具關(guān)系不大、和內(nèi)容有關(guān)。

  所以考慮教育這件事情時需要去仔細尋找這里面落地場景是哪幾個,有針對性地去解決問題,別奢求大模型能解決一切。

  多知:大模型暫時不能解決一切問題,又如何實現(xiàn)千人千面?

  吳迎暉:千人千面看你怎么理解了,當一個產(chǎn)品本身能夠覆蓋的場景化足夠多的時候,每一個人遇到的場景不一樣,都能夠解決的話就可以。

  像語法精講功能,如果是簡單老師給你講解,他能夠覆蓋的場景是非常有限的,但是如果是一個具體功能,在不同人手上就有不同結(jié)果出來,你可能是中學生、高中生,句子難度不一樣,結(jié)果就不一樣,我們認為千人千面更多是場景上面。

  03

  語音AI團隊的嘗試,都將落地于聽力寶

  多知:聽力寶目前的用戶群在哪個階段?

  吳迎暉:主要在小學到初中。

  聽力機類的產(chǎn)品在這兩年開始熱鬧起來,其中大部分主要面向低幼,以熏聽類的需求為主。

  有道恰恰相反,我們選擇的是面向偏大一點的孩子,產(chǎn)品設計本身也更專業(yè)化和工具化,很多用戶對有道的認知就是這個方向,我們自己的定位也是如此,還是服務于學習這件事本身。

  多知:考慮熏聽這個方向么?

  吳迎暉:目前不考慮,我們會在硬件上提供熏聽的能力,這件事情100塊錢的聽力機就能搞定,但是我們現(xiàn)在賣1000塊錢,這就沒法弄了,想賣1000塊錢得有1000塊錢的道理。

  核心在于提供的價值在哪兒,有道在聽力寶上想提供的價值是讓用戶學會自己想學的東西,但熏聽還是更泛一些;第二,熏聽更強調(diào)低幼內(nèi)容本身,這個長期也不見得一定是我們的優(yōu)勢,不成為劣勢就好。

  多知:面向小學高年級或是初中學生,社交似乎很重要?有道在去年的聽力寶升級中也加入了學習小組這個功能。

  吳迎暉:對我們確實感受到在硬件產(chǎn)品中讓小朋友能感受到伙伴這件事很有意思,也是我們在這次的新品中保留下的一個功能。

  現(xiàn)在最受學生歡迎的是PK比拼、挑戰(zhàn)升級等等,這個方向包含了群體性社交性的特質(zhì),大家一起學是一個不錯的嘗試。

  但整體我們不會做得很著急或者很重,過程要慢慢沉淀,一方面是沉淀用戶,另一方面是做學習營本身就比較難,核心在于內(nèi)容,我們這次上線了一個KET相關(guān)內(nèi)容,之后也會做更多,K2也會很快上線,像托福這樣的內(nèi)容也會慢慢融入。

  多知:這次有什么新增功能是聚焦于小初學生特點的么?

  吳迎暉:這次新增還是比較多的,比較大的變化是把OS整個做到了聽力寶上,應用也已經(jīng)做到了互通,包括喜馬拉雅、網(wǎng)易云音樂都上去了。

  OS本身也在持續(xù)的進化,且這些變化是在不斷發(fā)生的,可能兩個月前我們還不能在OS上面輸入中文,現(xiàn)在已經(jīng)有中文輸入法了,

  另外一個變化在于大模型帶來的自然表達的能力,我們把口語做了比較大的增強,聽和說都是在這些基礎能力支配下有了升級,聽里面也有說,有句子去跟讀、糾音這些。

  比如,我們?nèi)粘B牭降哪切┞犃Y源和真實的日常生活交流狀態(tài)是有非常大的參差和鴻溝,鴻溝表現(xiàn)在哪里?我和AI團隊聊過,核心就是韻律、詞的連讀,句子連讀,節(jié)奏等等。

  聽力寶升級后,我們教小孩子發(fā)音過程中就把連讀做進去,詞匯和詞匯之間的連讀什么地方會標注出來,這樣可以發(fā)音更準確。

  多知:有沒有一些功能是本來想做但暫時放棄或即將實現(xiàn)的?

  吳迎暉:我們最初設計一代產(chǎn)品的時候有比較多的想法,當時是希望把整個訓練過程做完整,比如當時我們希望AI團隊能夠滿足不論給什么英語材料,聽力寶都可以告訴用戶它的分級是多少。

  確實最后發(fā)現(xiàn)這件事情挺難的,所以這個功能沒上,但是這個功能未來一定會有——不管給什么材料,或者家長從哪里找到的聽力材料放到聽力寶里面,聽力寶都會分析并給出材料難度水平。

  這個行業(yè)有很多難度分級,我們也有自己的分級體系,我們會把實際分級能力做出來,它會分析聽力材料語言復雜度、聽力本身對話的復雜度、語音本身口音等等都會放在一塊。

  我們希望做成從內(nèi)容的獲取到最終完成練習這件事情,都能變得暢通無阻。

  我們常??吹郊议L在給孩子做聽力的過程中常常是連最基礎最簡單的第一步都難以解決——應該聽什么?

  當家長不知道該聽什么、怎么聽的時候就會聽別人的,別人說聽新概念就聽新概念,但新概念真的適合自己的孩子么?我們希望聽力寶這樣的產(chǎn)品去解決這些問題,雖然這次還沒來得及搞定,但很快就能了。

  我們自己語音AI團隊最近一年時間還是做了很多事情的,所有這些事情最后都會反映在聽力寶上面。

  04

  “詞典筆自身的門檻已經(jīng)很高”

  多知:詞典筆有沒有一開始想做的功能但暫時沒上線的?

  吳迎暉:詞典筆和聽力寶這兩個產(chǎn)品還是有區(qū)分的,當然詞典筆也有很多想加進去的,不過暫時不能透露,會有的。

  多知:詞典筆這個品類似乎已經(jīng)很久沒有令人興奮的功能或者新的形態(tài)。

  吳迎暉:詞典筆從出來那一刻開始,自身門檻就已經(jīng)很高了,這也導致它確實難住了很多參與者——比較大的問題在于其核心的翻譯場景,想做到好用這件事并不容易。

  這些年有很多參與者以各種各樣的辦法去嘗試了,但創(chuàng)新卻很難:因為想在核心場景之外去做創(chuàng)新這件事情是極難的,所以當這個產(chǎn)品本身沒有新的能力去拓展它的場景的時候,大家可能會看到的是沒有那么快。

  對于我們來說,我們在這件事情上會關(guān)注核心場景的創(chuàng)新機會在哪里?

  像這次我們用了新的芯片,芯片在待機功耗方面做得非常好,不用關(guān)機了,這是很大的變化;之前都是要關(guān)機的,因為即使處于待機狀態(tài)下電流還是比較大。

  但是其實有一個我們沒有和大家說的,新的芯片從開始立項時候的目標是把Transformer模型直接運用在上面,這個目標應該說基本達成。

  這個意思是什么,現(xiàn)在像語音識別、TTS以及翻譯都已經(jīng)出現(xiàn)模型了,這些引擎都可以直接運用到NPO上,帶來的好處是性能肯定會好,有了更高的性能就會有更大的模型做更好的東西,這是我們做芯片的初衷,這個功耗是意外之喜。

  我們做的過程中認為功耗也很重要,把這件事情也放進去做了,確實也做成了。所以我們依舊會覺得說,當你從這個方面來考慮創(chuàng)新的話,還是有一些東西是可以做的。

  這次詞典筆在翻譯能力的準確性上能夠持續(xù)有提升,也得益于這個變化。

  多知:大模型落地會給詞典筆市場帶來新的階段競爭么?

  吳迎暉:一定程度上我覺得大模型會帶來很多能力上的變化,比如我們的口語教練就是實實在在的變化,這和以前是不一樣的。

  另外一個角度,大模型從基礎基座大模型到真正產(chǎn)品落地的困難依舊是比較高的,不是有了大模型就立即可以解決所有問題。具體產(chǎn)品落地有很多工作要做,我們實際做了像語法類似這樣的口語之后就覺得還是挺好的。

  我個人傾向于大模型確實會給詞典筆學習工具帶來比較大的變化。詞典筆的升級中,有些事情看起來沒有那么大,但是解決起來很難,如果運氣特別好把這個問題搞定,對用戶就是有用的。

  像口語這樣的東西這次解決了就很驚艷,但是后面還有很長的路要走,有一些東西沒有解決,比如動力在哪里?

  學習是一個反復練習的過程,如果你沒有辦法做到讓用戶能夠持續(xù)練習的話,這件事情就還沒有完。

  多知:說到學習動力,還有什么途徑可以解決它么?

  吳迎暉:我覺得和家長一起可能是解決這個問題的方法,能夠有針對性地做好規(guī)劃,能夠最終和家長一起實施,可能是解決方案的一部分。

  也有一些產(chǎn)品會提到游戲化的設計去推動,其實這只是學習過程中挺小的部分,游戲化也是偽命題,它有游戲好玩嗎?沒有。

  讓學習變得更好玩是好的事情,但是并沒有根本性解決這個問題。

  多知:帶動家長也并不容易吧?

  吳迎暉:對這個問題很難,但是如果你真的考慮學習這件事情,應該朝這些方向去想。工具是解決問題的,但想讓學生真的學會一件事情,整個事情的難度在變得越來越大,是值得考慮的事情。

  多知:詞典筆、聽力寶、單詞卡、學習機等等,不同產(chǎn)品之間的功能有一些是趨同的,產(chǎn)品與產(chǎn)品之間的邊界在哪兒?

  吳迎暉:這個問題我們仔細想過,詞典筆目前給它的定義更多是解決問題的工具,像我們做語法精講,試圖解決的是學生遇到的語法、長難句這樣的問題。

  用什么工具解決這些問題,以及在問題解決后,再向前一步去做實際具體題目的推薦解析、舉一反三這樣的。

  聽力寶和詞典筆的邊界就是你會不會去實際做練習,比如非常深入地花半個小時在上面做練習題,這件事情我們詞典筆屏幕還是有比較大的限制。

  聽力寶這樣的屏幕上面可以做一些輕度練習,所以聽力寶上面做了學習營這個設計,輕度是什么樣的程度,比如10道題PK,這是寓教于樂的感受,時間也不會太長,這是很適合的。

  再重度的,類似于接近平板邊界的深度學習,和詞典筆差的就會比較遠,但是在解決問題那一刻還是比較好的。

  多知:有道也做了自己的單詞卡片機,在看輕型產(chǎn)品的機會么?

  吳迎暉:單詞卡片機還好,我覺得它是能做好的,背單詞這件事情是有它道理的,有背詞法,有提供什么樣的內(nèi)容,每個部分你要真的深入去做的話還是挺難的。

  我們也做背單詞做了好多年,我們沒有覺得把這個事情做得非常透非常深入的,這件事情很難。另外角度來說,背單詞價值部分沒有想象的那么大。

  多知:這個市場接下來是什么樣的走勢?

  吳迎暉:我有時候會覺得,當用戶對一件事情非常認真,特別想強調(diào)它效果的時候,他會對手上的設備非常認真,他會對它要求很高,這點來說卡片機滿足的不是完整的背單詞,他滿足的是碎片時間學點單詞的需求,還有另外一個需求,就是備考。

  如果想?yún)^(qū)分它的話,這兩類需求都在,看你要去滿足什么,比如托??荚嚤硢卧~肯定會用這個,因為我每次坐下來要背半個小時,這個時候我對于面前這個設備希望比較認真的記錄下來我的過程和需求。

  END

  本文作者:馮瑋