在做題庫和教學(xué)產(chǎn)品時(shí)有哪些經(jīng)驗(yàn)?面向K12的題庫產(chǎn)品如何積累有效數(shù)據(jù)?現(xiàn)在的數(shù)據(jù)是否能支撐起人工智能在教育領(lǐng)域的應(yīng)用?1對(duì)1教學(xué)有哪些問題,要如何解決?近日,李行武接受了愛分析專訪,對(duì)這些問題交流了自己的看法。

學(xué)吧課堂李行武:粗粒度的個(gè)性化是偽個(gè)性化

2017-03-22 14:06:52發(fā)布     來源:愛分析    作者:東起  

  調(diào)研 | 凱文 東起

  撰寫 | 東起

  學(xué)吧課堂創(chuàng)始人&CTO李行武畢業(yè)于清華大學(xué)計(jì)算機(jī)系,在校期間曾在Intel、微軟亞洲研究院和搜狗實(shí)習(xí),畢業(yè)后參與兩家公司創(chuàng)業(yè),后加入奇跡通訊擔(dān)任CTO,2013年進(jìn)入教育領(lǐng)域,創(chuàng)立了博學(xué)慎思教育科技有限公司。

  公司旗下產(chǎn)品學(xué)吧課堂,是一款針對(duì)中學(xué)數(shù)學(xué)的練習(xí)產(chǎn)品;在積累了約200萬用戶和7億條做題數(shù)據(jù)后,開始推出教學(xué)服務(wù),其基于教學(xué)導(dǎo)航系統(tǒng)的1對(duì)1輔導(dǎo)產(chǎn)品已上線內(nèi)測(cè)。

  在做題庫和教學(xué)產(chǎn)品時(shí)有哪些經(jīng)驗(yàn)?面向K12的題庫產(chǎn)品如何積累有效數(shù)據(jù)?現(xiàn)在的數(shù)據(jù)是否能支撐起人工智能在教育領(lǐng)域的應(yīng)用?1對(duì)1教學(xué)有哪些問題,要如何解決?近日,李行武接受了愛分析專訪,對(duì)這些問題交流了自己的看法。

  題庫產(chǎn)品篇

  

  愛分析:14年的時(shí)候推出了虛擬老師,當(dāng)時(shí)做這個(gè)產(chǎn)品有哪些技術(shù)難點(diǎn)?

  李行武:兩個(gè)難點(diǎn)吧,第一個(gè)是內(nèi)容生產(chǎn),一道題能有這么多變化,這些內(nèi)容不可能是合成出來的,所以實(shí)際上是在事先錄好了大量的有關(guān)聯(lián)的十幾秒到幾十秒的短視頻,組成一個(gè)巨大的內(nèi)容樹;第二個(gè)是如何帶學(xué)生走出一條路徑來,這條路徑拼出來就是這道題,這個(gè)過程其實(shí)就是人腦思考的過程,需要去模擬這個(gè)過程。

  愛分析:后來是如何解決第二個(gè)難點(diǎn)的?

  李行武:一開始沒有什么特別好的辦法,更多的是像大家說的,你得去理解這個(gè)事情。今天AI的概念大行其道,大部分都是偽的。

  它從中長期來看是靠數(shù)據(jù)驅(qū)動(dòng)的,但它早期不是,尤其在這個(gè)場景中,因?yàn)槟銢]有數(shù)據(jù)驅(qū)動(dòng)算法,所以它極大程度上是基于策略的,就像教小朋友下跳棋,你說第一步走這個(gè),如果他走了這步,你就走這步,這是最簡單的策略,但實(shí)際會(huì)復(fù)雜很多。這相當(dāng)于要把人思考的策略用機(jī)器實(shí)現(xiàn),所以更多的是基于對(duì)上課這件事情的理解,這就是你去上了課才會(huì)知道的。

  愛分析:所以目前AI在教育領(lǐng)域還是偽概念?

  李行武:看你怎么定義了,這個(gè)講起來比較細(xì),要看不同的場景。

  即使在練習(xí)場景,所有的做題產(chǎn)品講的故事都是一樣的,會(huì)根據(jù)同學(xué)們的做題情況推送適合的題,使做題更加高效,這個(gè)故事邏輯是成立的,但不謙虛的講,可能在第一階段只有我們做到了。

  這其實(shí)也是我們轉(zhuǎn)型做做題產(chǎn)品的一個(gè)非常重要的原因。

  15年我們?cè)谵D(zhuǎn)型的時(shí)候,去看市面上已經(jīng)滿街的做題產(chǎn)品了,但是你會(huì)發(fā)現(xiàn)沒有一家起來了,做題產(chǎn)品沒有人用。一個(gè)品類都沒有做出來的時(shí)候,它只有兩種情況:一個(gè)是這個(gè)事本身錯(cuò)了,一個(gè)是大家沒找到路。我們的判斷是這事沒錯(cuò),因?yàn)樵诰€教育真能成立的話,學(xué)練測(cè)這重要的三大場景,一定都會(huì)在線化,所以一定是存在在線做題這樣的事情的。那么問題出在哪?就去找問題,解決。

  愛分析:那問題出在哪呢?

  李行武:有一個(gè)很簡單的結(jié)論,做題不是小朋友的需求。中國的K12教育整體上是反人性的,這也是K12領(lǐng)域最難的部分之一,就是它是一個(gè)反人性的行業(yè);所有偉大的產(chǎn)品都是順應(yīng)人性的,你如何在一個(gè)反人性的領(lǐng)域做出一個(gè)有用戶活躍度的產(chǎn)品。

  那同學(xué)們?yōu)槭裁床粣蹖W(xué)習(xí)?咱們最終要對(duì)學(xué)習(xí)有幫助其實(shí)就是兩件事,傳統(tǒng)行業(yè)早有定論,第一是學(xué)習(xí)動(dòng)力問題,第二是學(xué)習(xí)方法問題。如果優(yōu)先選一個(gè)解決,那肯定是學(xué)習(xí)動(dòng)力問題。

  回到大的邏輯,互聯(lián)網(wǎng)對(duì)一個(gè)行業(yè)產(chǎn)生所謂巨大的影響,一定是解決行業(yè)一些根本性的問題,絕對(duì)不是細(xì)枝末節(jié)的;如果在線教育這個(gè)命題成立的話,它一定是要最終解決大問題,那行業(yè)的大問題也有定論,其中一個(gè)就是學(xué)習(xí)動(dòng)力問題,影響學(xué)習(xí)動(dòng)力的原因其實(shí)也有結(jié)論了,叫做累計(jì)的挫敗感。

  這是同學(xué)們不愛學(xué)習(xí)的核心原因,解決它的方案是讓它進(jìn)入正循環(huán)。所以我們當(dāng)時(shí)就沿著這個(gè)思路去做了學(xué)吧課堂。

  愛分析:解決學(xué)習(xí)動(dòng)力問題,學(xué)吧課堂是怎么做的?

  李行武:大家都喜歡做的是有成就感的事情,落地到做題上就是這題我剛好會(huì)做,所以你要出他會(huì)做的題。同時(shí),我們把整個(gè)評(píng)價(jià)體系改了,我們營造了一個(gè)“學(xué)渣“的結(jié)界。

  比如我舉一個(gè)小的點(diǎn),我們分很多區(qū),一萬人一個(gè)區(qū),我們每個(gè)區(qū)的排行榜前十名可能只有兩個(gè)是“學(xué)霸”,剩下八個(gè)是“學(xué)渣”,為什么呢?咱們一起做題,因?yàn)槟闶菍W(xué)霸,所以你的題是競賽題,而我的是剛好會(huì)做的簡單的題,咱倆都做對(duì)了,你得5分我也得5分,所以誰在前面真不好說。

  

  愛分析:那在產(chǎn)品設(shè)計(jì)和技術(shù)層面,是怎么實(shí)現(xiàn)的?

  李行武:對(duì)于練習(xí)產(chǎn)品,首先要解決的問題就是有人用,并且能活躍的用起來,核心就是剛才講的動(dòng)力問題。這靠兩件事,第一是用很特殊的激勵(lì)體系,第二是真正能夠出適合學(xué)生的題目。

  對(duì)于激勵(lì)體系,外界有些聲音說學(xué)吧是靠給學(xué)生補(bǔ)貼,那這個(gè)我們完全不避諱,就是同學(xué)們來我們這做題是有收入的,但問題是收入是多少呢,就是一個(gè)學(xué)生他幾乎天天來做題,而且還要盡量把題做對(duì)的情況下一個(gè)月最多獲得價(jià)值5塊錢的東西。

  所以我會(huì)問大家說,給你5塊錢你愿意每天來做對(duì)幾十道題嗎?而且退一步講,對(duì)家長來說,我去問家長,你給我5塊錢,我讓你孩子天天做題,你干不干?這件事本身是有價(jià)值的,所以不單純是靠激勵(lì)。

  還有另外一件事在輔助它就是出題,你要讓激勵(lì)體系配合看不見的出題,才有可能使你的模型最終成立,獲得持續(xù)的活躍用戶,這是我們?cè)?016年所謂寒冬能拿到錢的主要原因,我們?cè)谝粋€(gè)大家覺得幾乎已經(jīng)判死刑的賽道上做出一個(gè)完全不一樣的產(chǎn)品,雖然看起來是一樣的。

  愛分析:出適合的題的基礎(chǔ)是打標(biāo)簽,在這方面有哪些經(jīng)驗(yàn)?

  李行武:我們認(rèn)為這件事的關(guān)鍵點(diǎn)在于顆粒度,粗粒度的個(gè)性化是偽個(gè)性化。比如把“集合的運(yùn)算”這個(gè)考點(diǎn)作為標(biāo)簽,有教學(xué)經(jīng)驗(yàn)的老師來看就會(huì)感覺到它有多粗;如果以這樣的詞作為標(biāo)簽,那中學(xué)數(shù)學(xué)大概也就是百這個(gè)量級(jí)的知識(shí)點(diǎn),我們的知識(shí)點(diǎn)是在千這個(gè)量級(jí)。

  當(dāng)顆粒度粗的時(shí)候,機(jī)器是分辨不出來的。比如大家都知道AI最近的突破都是在視覺領(lǐng)域,最經(jīng)典的例子就是識(shí)別貓,機(jī)器怎么認(rèn)識(shí)一張圖是貓?因?yàn)槟憬o了它10000張圖片去做訓(xùn)練,但是你想象一下,如果我給的這10000張圖片全是打馬賽克的貓,它能認(rèn)出來嗎?

  那問題在哪呢,也有人反問我,如果我給它10000張高清的貓,它會(huì)不會(huì)認(rèn)的更好,好像也沒有,所以就是這個(gè)度到底在哪里?當(dāng)你定性分析完,定量去分析,到底什么樣算是正好到這個(gè)要求了,這就是應(yīng)用決定的,應(yīng)用到什么級(jí)別,你的數(shù)據(jù)就要到什么級(jí)別。這是很粗層的一個(gè)理解。

  所以打標(biāo)簽這件事情,關(guān)鍵在于能打的多細(xì)多準(zhǔn),當(dāng)你到某個(gè)量級(jí)以前,打多少都是廢的,過不了那個(gè)閾值。

  愛分析:那目前打標(biāo)簽有哪些方式呢?

  李行武:現(xiàn)在行業(yè)通行的做法是找?guī)装賯€(gè)大學(xué)生,按計(jì)件的方式進(jìn)行,因?yàn)槟悴豢赡苷颐麕焷泶驑?biāo)。問題就在于如何保證這些人的輸出是穩(wěn)定的,質(zhì)量可靠的。

  這件事是需要深刻理解知識(shí),只依靠做工程的人是做不出來的,你要想辦法去把這個(gè)標(biāo)做好的分解。打標(biāo)的過程其實(shí)就是要去區(qū)分,是在多個(gè)之中去做選擇。那怎么才能盡量選擇對(duì)呢?其實(shí)就是你的選項(xiàng)越正交,越容易選出來。

  再比如說你在流程設(shè)計(jì)上,比如一個(gè)人打是不可信的,通常至少三個(gè)人打,其中兩個(gè)人一樣就過,這是個(gè)簡單有效的策略。那你說我可不可以先讓兩個(gè)人打,當(dāng)兩個(gè)人不一樣的時(shí)候,再讓第三個(gè)人打,這個(gè)和剛才那個(gè)的區(qū)別就在于人效比差了1.5倍,因?yàn)榇蟛糠謺r(shí)候會(huì)有兩個(gè)人打一樣的。

  所以最終的結(jié)果是,通過對(duì)工程以及領(lǐng)域本身的理解,使得你做這件事情的效率遠(yuǎn)遠(yuǎn)高于別人。

  舉個(gè)例子,我們的查錯(cuò)成本大概是別人的1/50以下,我們是這么干的:由于我的同學(xué)們已經(jīng)相對(duì)認(rèn)真的做題了,題目從老師那邊經(jīng)過初步的過濾之后,會(huì)小范圍的推給認(rèn)真做題的同學(xué),這些人就會(huì)有反饋,如果到了一定的閾值,題目會(huì)自動(dòng)打回。

  如果比如100個(gè)人都沒問題,就進(jìn)入第二階段,再過了,就可以推出去了,這會(huì)使整個(gè)查錯(cuò)的過程發(fā)生本質(zhì)的變化。所以在內(nèi)容這件事,核心是你怎么讓效率遠(yuǎn)遠(yuǎn)高于別人。

  愛分析:其它公司這么做似乎也不是很難?

  李行武:所以問題在于這個(gè)過程是聯(lián)動(dòng)的。

  當(dāng)我們?cè)谥v數(shù)據(jù)的時(shí)候,除了內(nèi)容數(shù)據(jù),還有一個(gè)很重要的就是行為數(shù)據(jù),也就是同學(xué)們做題的數(shù)據(jù)。

  做題數(shù)據(jù)有一個(gè)重要的指標(biāo),叫做正確率,如果正確率很差,那不管是一億條還是十億條,讓機(jī)器去訓(xùn)練,機(jī)器只可能有兩個(gè)結(jié)論:一是從單題來看,這題很難;二是從任何一個(gè)個(gè)體來看,全是“學(xué)渣”。所以這個(gè)數(shù)據(jù)不僅沒辦法讓你判斷這道題是對(duì)還是錯(cuò),更沒有辦法判斷這道題的難度,更不要說去計(jì)算。

  沒有用戶就沒有數(shù)據(jù),沒有數(shù)據(jù)就不能很好的給用戶出題,然后就更沒有用戶。我的結(jié)論是說,大家可以用錢先去解決用戶的問題,在跑起來進(jìn)入正循環(huán)之后,你的出題會(huì)比較好,用戶感知就會(huì)比較好,然后用戶的做題行為就會(huì)相對(duì)好,使得數(shù)據(jù)更好。

  那怎么樣進(jìn)入正循環(huán)?第一是啟動(dòng)點(diǎn),第二個(gè)是收斂速度。

  愛分析:收斂速度怎么理解?

  李行武:所有產(chǎn)品都會(huì)面臨所謂冷啟動(dòng)問題,就是不了解用戶。關(guān)鍵在于你能在多短時(shí)間內(nèi)跨過那個(gè)閾值,做到還比較適合用戶,使他開始用起來。如果你說要在用戶做100道題之后,才有辦法出適合的題,那大部分人可能還沒到100題就已經(jīng)走了,所以啟動(dòng)靠外部動(dòng)力,在啟動(dòng)那件事情沒有消失之前要收斂。

  教學(xué)產(chǎn)品篇

  

  愛分析:在練完成后還有個(gè)教的問題,只有教才能實(shí)現(xiàn)規(guī)?;杖?,學(xué)吧課堂在這方面有哪些考慮?

  李行武:練是不能完成最后的商業(yè)模式的,只是路徑的一環(huán),我們已經(jīng)開始從練走向教了。

  教書從形式上就是班課和1對(duì)1。我們認(rèn)為在線教學(xué)這件事情,一定是1對(duì)1先起,它有個(gè)很重要的邏輯,就是從需求角度來看,大部分家長不相信學(xué)生可以在沒有監(jiān)督的情況下,在電腦前聽一個(gè)老師講大課聽一個(gè)小時(shí);但是1對(duì)1他又覺得有戲,因?yàn)?對(duì)1老師就帶你一個(gè),還有視頻回放和雙方錄音,這是一個(gè)看似小但是決定性的點(diǎn)。

  所以第一個(gè)結(jié)論是要從1對(duì)1切,而且1對(duì)1也正好跟我們的大邏輯一脈相承。

  愛分析:1對(duì)1的問題也被討論的很多了,你怎么看?

  李行武:傳統(tǒng)行業(yè)1對(duì)1的問題,其實(shí)也有非常明確的定論就是做不大,從財(cái)務(wù)角度看它的成本結(jié)構(gòu)很痛苦。

  成本問題的根源在于三點(diǎn),獲客,場地和教師。對(duì)于在線教學(xué),場地的問題沒有了,現(xiàn)在大家關(guān)注最多的就是獲客,那么獲客的問題在我們看來原因只有兩個(gè):上游流量的集中化和服務(wù)同質(zhì)化。

  流量集中化這個(gè)事情比較好理解,大趨勢(shì)擺在這里,所以流量成本會(huì)越來越高,我們今天看到大家的做法都是在流量端做文章,做法有幾種:

  第一種是沒有自有流量,就是傳統(tǒng)的靠買,新媒體矩陣也好,線下開體驗(yàn)店也好,都是想嘗試用一些方法去抓流量,但是這種方法最好的結(jié)果是短期有效。因?yàn)楸举|(zhì)上沒解決問題,一旦你找到了一個(gè)方法,大家就會(huì)立刻蜂擁而上,那你唯一的辦法就是不停的有創(chuàng)新,去抓一開始短暫的紅利。

  第二種是2B2C,先明確一點(diǎn)這個(gè)客是家長而不是學(xué)生,家長是一個(gè)很神奇的群體,我們把他稱作沒有用戶畫像,因?yàn)樗腥硕际羌议L,所以不存在一個(gè)聚集家長量的地方,但有一個(gè)特例是好未來的家長幫,當(dāng)然這是另外一個(gè)故事,我們不展開;除非是母嬰那個(gè)特殊的品類,那無非就是,一種是2B通過抓老師影響家長,還有一種是2C通過抓學(xué)生再去抓家長。

  但是各自面臨問題:2B的問題是說,因?yàn)樽吖⑿?,所以在做商業(yè)化的時(shí)候遇到的最大的風(fēng)險(xiǎn)是政策風(fēng)險(xiǎn),這是一個(gè)非常難拿捏的度,如果要轉(zhuǎn)化成家長付費(fèi)的話,怎么過這關(guān)?當(dāng)然有一些做法,大邏輯的做法就是把這個(gè)流量導(dǎo)成另外一個(gè)流量,脫離出來。2C的問題是孩子的需求和家長的需求是對(duì)立的。

  而服務(wù)同質(zhì)化,因?yàn)?對(duì)1教學(xué)發(fā)展到今天,最大的坑就在于無法做到規(guī)?;钠房?,品控的核心是控制下限,你要保證輸出的下限比較高。

  愛分析:學(xué)吧課堂打算怎么做?

  李行武:我們?nèi)ツ曜鲎鲱}產(chǎn)品,本源的切入點(diǎn)是數(shù)據(jù);但是我們?cè)谏虡I(yè)化思考的時(shí)候,發(fā)現(xiàn)了一個(gè)附帶的好處:當(dāng)做題產(chǎn)品解決了活躍度問題之后,它成為了一種新的流量池,這個(gè)轉(zhuǎn)化是比較高的,這就是我們從流量端去解決獲客的一個(gè)點(diǎn)。那這還是偏戰(zhàn)術(shù)層面,因?yàn)楫?dāng)你有了用戶量,開始考慮后端上課服務(wù)的時(shí)候,會(huì)發(fā)現(xiàn)獲客問題的本源還是在服務(wù)端。

  我們?cè)诜?wù)端的方法還是靠系統(tǒng),稱之為教學(xué)導(dǎo)航系統(tǒng)。具體形態(tài)比如講義,真的是根據(jù)學(xué)生情況來出,因?yàn)榱髁縼碜晕覀冏约旱淖鲱}用戶,你對(duì)他是非常熟悉的;然后在教的時(shí)候這個(gè)講義會(huì)告訴教師具體的安排。這個(gè)東西做出來就可以做過程管控了,你可以很好的去做一些定量的評(píng)價(jià),老師這堂課上的好還是不好,有沒有按你的計(jì)劃走。

  無論是做出自己新的流量池,還是做好品控,都會(huì)使成本降低。成本的本源其實(shí)是你的價(jià)值到底在哪里,1對(duì)1行業(yè)在傳統(tǒng)中是營銷驅(qū)動(dòng)的,而機(jī)構(gòu)沒有在教學(xué)本身這件事上提供價(jià)值,所以收不來這個(gè)錢。所以如果它能真的往健康的方向發(fā)展的話,一定是對(duì)教學(xué)這件事情提供了價(jià)值,比如說你讓老師借助系統(tǒng)把課上好。

  愛分析:對(duì)于教學(xué)產(chǎn)品的未來有哪些期待?

  李行武:未來教學(xué)我們認(rèn)為是兩個(gè)階段走,第一個(gè)階段是由于整個(gè)系統(tǒng)的介入,使得在不降低服務(wù)質(zhì)量的前提下,對(duì)服務(wù)提供者的要求極大下降,從而使服務(wù)提供者極大增加,解決供應(yīng)問題。

  第二階段是讓人借助系統(tǒng),使生產(chǎn)力數(shù)量級(jí)的放大。也就是今天一個(gè)老師,如果他真的個(gè)性化的去教,只能教十幾個(gè)孩子;但是未來我們希望可以做到,教師可以個(gè)性化的教幾百個(gè)孩子。今天老師可以通過大課教幾百個(gè)孩子,但是所有的孩子未來一定是個(gè)性化的,所以反個(gè)性化的大課會(huì)一直存在,但不會(huì)是主流。

(本文來源:愛分析,作者為東起)