創(chuàng)辦三年時間,最近獲得了數千萬元的A輪投資。在“決勝東方創(chuàng)業(yè)大賽”上,獲得“最佳商業(yè)模式”和“最具盈利能力”兩個獎項。據官方數據,全國有1600所學校使用批改網,包括清華、北大、復旦等高校,清華將他們的產品融入到了日常教學體系中。10萬名大學英語教師中,4萬名在使用他們的產品。

句酷批改網:用機器批改作文的創(chuàng)業(yè)故事

2014-11-24 13:21:09發(fā)布     來源:多知網    作者:車錦文  

  句酷批改網(以下簡稱“批改網”)創(chuàng)辦三年時間,最近獲得了數千萬元的A輪投資,正在進行B輪融資。在“決勝東方創(chuàng)業(yè)大賽”上,獲得“最佳商業(yè)模式”和“最具盈利能力”兩個獎項。據官方數據,全國有1600所學校使用批改網,包括清華、北大、復旦等高校,清華將他們的產品融入到了日常教學體系中。10萬名大學英語教師中,4萬名在使用他們的產品。

  多知網采訪批改網創(chuàng)始人之一陳瑞江,聽他講批改網是如何做到這些的。

  批改網的創(chuàng)辦和發(fā)展,與創(chuàng)始人張躍的技術背景有很大的關系。張躍曾經在微軟、奇虎360公司工作,其工作的主要內容是語言的搜索及處理。

  因為看好語言搜索這個領域的發(fā)展,張躍在2006年創(chuàng)辦了雙語例句搜索網站“句酷網”。那個時候張躍還沒有找到明確的創(chuàng)業(yè)方向,但是開始了最原始的數據積累。這些數據積累,在開發(fā)產品時派上了大用場。

  偶然發(fā)現英語老師的需求

  在2010年,一次偶然的機會讓他們發(fā)現高校英語老師的需求。

  批改網在向南京大學推廣英語學習綜合平臺時,南京大學的老師告訴他們,這樣的平臺意義不大。高校實行大班制,每位老師帶一百多名學生。教師批改作文,花費時間太長。1分鐘一篇,看完需要兩個小時。而老師最痛苦的地方還在于重復的錯誤反復出現。此外,學生寫作文,如果老師反饋及時,那學生就有寫作的動力。但是,因為各種原因,老師的反饋要隔一周甚至兩周。

  所以高校老師最大的需求是改善作文批改環(huán)節(jié)。

  回到北京后,批改網立刻開始研發(fā)。利用之前的數據積累,三個月開發(fā)出批改軟件的第一個版本。陳瑞江現在說起那個版本時,仍忍不住要說,第一個版本很難看。但還是堅持給南京大學的外語教師試用,希望得到真實的反饋。

  自此,批改網的團隊每個月到南京3次,聽完老師的建議后回北京修改,改完繼續(xù)讓老師試用。這樣的狀態(tài)保持了一年的時間。在這一年,試用人數不斷擴大,但是沒有收入。做項目掙的錢也難以支持批改軟件的研發(fā)。所以他們接受了一些天使投資。

  2011年6月28日,批改網帶著軟件的第二版,分別詢問了南京大學教師和北京部分英語寫作教學經驗豐富的教師,是否可以推廣到其他學校。當得到肯定的答復時,2011年9月份,批改網開始在江蘇省的一個學術會議上推廣。

  剛開始推廣地點選擇了重點高校比較多的北京和江蘇。團隊所有人員出去拜訪高校老師,請他們免費試用。漸漸地,批改網被清華、復旦、上海交通等高校接受。

  現在批改網通過組織大賽或者會議的方式進行營銷。全國使用批改網的學校有1600所,學生400萬,老師4萬。

  為了使產品的功能更完善,批改網采取兩個方式:一是多了解國外同行的發(fā)展水平,了解目前最新的人工智能技術。將自己的產品與國外產品作對比,但不盲目修改。目前全球范圍內擁有英語作文機改核心引擎的不超過十家。主要以麥格勞希爾、培生集團、美國ETS協(xié)會三家為主。

  二是技術團隊每周周一將收集來的用戶反饋逐一分析,了解用戶需求。能夠改的立刻就改。改完后給用戶發(fā)感謝信。

  批改網的營收模式是將產品賣給學校,向學校收費。學校的老師、學生免費使用。至于營收數額,陳瑞江稱,批改網在2013年底就已經營收平衡。目前員工有五十多位。其中技術人員占到三分之一,銷售和運營人員占到三分之一。

   機器如何改作文?

  批改網修改作文的原理是,作文提交后,網站將作文從“詞匯”、“句子”、“篇章結構”、“內容相關度”4個大類192個維度進行拆分,每個維度都會與批改網建立的英語本族語語料庫(即國外英語文章的素材)作對比。語料庫越豐富,對比的客觀性就越高,機器批改與人工批改的一致率就越高。

  比如,在作文中經常出現“learn knowledge”這樣的中式英語。將這樣的語言搭配與語料庫資料對比后發(fā)現,以英語為母語的國家中,使用“learn knowledge”的頻率為0次,使用頻率最高的是“have knowledge”。所以,會建議學生使用“have knowledge”。

  這4個維度總共占比100%??梢愿鶕己诵枰フ{整每個維度所占比例。比如,側重考核詞匯,可以將詞匯比列調高。在批改時,機器就會側重詞匯。作文改完后,機器會打分。分數越高,說明作文的表達方式越接近英語本族的表達方式。目前能夠批改的文章包括英語四六級、雅思、托福等等。

  所以,機器批改作文,使用的是搜索、抓取技術,搜索國外的文章素材并抓取過來。而且,語言是動態(tài)變化的,語料庫需要實時更新。目前,批改網積累了30億字詞的語料庫,每天都在增加。

  為了測試機器批改與人工批改的基本一致率,批改網在2011年嘗試批改南京大學的1456份英語作文,將批改結果與人工批改結果對比發(fā)現,兩者基本一致率為92.05%。美國ETS的E-Rater公布的基本一致率是92%。

  此外,考慮到不同專業(yè)學生需要寫出不同文體。比如新聞專業(yè)學生會用英語寫新聞。教育專業(yè)學生寫論文時,寫英文摘要。所以,批改網語料庫中會實時抓取不同文體的文章。新聞方面抓取《紐約時報》等報刊。教育專業(yè)論文會采集教育雜志、期刊。

  學生在寫作文時還存在一種情況,就是抄襲。所以,批改網花費了不少精力改善“抄襲檢測”功能。當學生提交作文后,點擊“抄襲檢測”,批改網會將與作文內文相似的文章全部排列出來。相似度越高,排名越靠前。

  批改網的核心是利用積累的大數據與用戶對話,及時給每位用戶個性化反饋,并記錄每個學生的學習過程。通過反饋驅動學生學習。比如告訴學生作文錯在哪里,錯的原因是什么,如何修改。將使用過程中積累的數據進行分析,生成學生診斷報告、寫作能力分析報告,驅動教師教學。

   未來產品研發(fā)大方向:人機合作

  在與高校老師交流的過程中,經常有老師詢問批改網的技術人員:機器能否判斷出文章是否具有創(chuàng)新性,文章是否具有邏輯性?

  陳瑞江解釋道,目前通過技術難以判斷一篇文章是否符合邏輯。前后連貫性,可以通過連接詞的使用判斷。語義的邏輯性,文章的創(chuàng)新性,從目前人工智能的角度來講還是比較困難。批改網更多的是從語言的表達方面做批改。

  此外,批改網還要提高對文章錯誤的識別率;產品的趣味性、師生之間和學生之間的互動都不夠。

  批改網近日宣布獲得數千萬元A輪投資。采訪過程中,陳瑞江向多知網透露,目前已經開始接觸B輪投資。投資所獲資金將主要用于產品研發(fā)和市場擴張方面。

  未來批改網產品研發(fā)大方向是如何實現人機合作,如何利用好群體智慧。

  “人機合作”就是將人工批改與智能修改相結合。陳瑞江稱,目前人工智能領域有一個共識,就是機器不能代替人工,人機合作才是未來發(fā)展的大方向。未來機器批改,教師評閱,學生互評,學生自評四者會相互結合。

  群體智慧是指,個別學生或者個別老師反饋,團隊可能不會重視。如果反饋的人數很多,就會引起重視。所以,批改網后臺不斷在分析用戶的反饋數據。因此批改網的產品增加“點贊”“評價有用或者沒有”等功能。

  三維擴張是指文體擴張、目標人群擴張、區(qū)域擴張。

  從作文單一文體擴張到摘要、論文、書信、漢譯英、聽寫、口語等方面;從大學生這個目標人群向上擴展到研究生,博士,向下延伸到中小學;從目前的大陸市場向港澳臺、日本、韓國等地擴張。據了解,香港和臺灣已經有大學在付費使用批改網。拓展國外的團隊已經開始籌備。

  陳瑞江認為,中國要“走出去”,要學會輸出標準,批改網未來5年最重要的任務就是收集數據,用真實的數據成為事實上的標準。