一個月前,Coursera的聯(lián)合創(chuàng)始人、斯坦福大學人工智能實驗室的主管
Andrew Ng宣布加入百度位于硅谷的深度學習研究院(IDL),他說:“我決定將我接下來的這段時間投入到建造更先進的深度學習系統(tǒng)中去。而我認為,百度將是合適的地方。”
上周,Andrew在加入百度后首次發(fā)表關于深度學習和商業(yè)應用的公開演講,在
PingWest舉辦的SYNC 2014舊金山大會上,他分享了他對下一代深度學習系統(tǒng)的期待,和他將在百度要做的事情。
深度學習并不只是一個學術概念,它是許多現(xiàn)代科技產(chǎn)品背后的“引擎”,作為核心技術支撐著商業(yè)上的應用,比如網(wǎng)絡搜索、機器翻譯、產(chǎn)品推薦和醫(yī)學圖像等,帶來了相當可觀的經(jīng)濟價值。
一些手機里,也可以看到“深度學習”的基因。比如每部Android手機上的語音識別功能。上周剛剛發(fā)行的
Amazon Fire Phone,其所配備的6個攝像頭和商品推薦等功能,也是基于機器學習和深度學習來實現(xiàn)的。
Andrew說:“許多你聽過的,像我這樣的家伙分享的和深度學習有關的演講里,有兩個概念都會被混淆在一起。今天,我要把這兩個大的概念分開來解釋清楚。”
這兩個大的概念指的是,
在已標記數(shù)據(jù)上進行的深度學習(也被稱之為在監(jiān)管下進行的深度學習,supervised learning),和在未標記的數(shù)據(jù)上進行的深度學習(unsupervised learning)。
Andrew和他的團隊在斯坦福實驗室做的實驗,可以清楚地解釋這兩者的區(qū)別:早前,他們造了一些機器人,試圖讓機器人找出一個辦公空間內的馬克杯。他們跑遍了舊金山灣區(qū),買來所有他們可以買到的馬克杯,并從各個維度給這些杯子都拍了照片,總共獲得了5萬張馬克杯的照片,并將這些照片都展示給這個機器人訓練它。經(jīng)過這個實驗后,機器人最終可以在一個辦公空間內,找到所有的馬克杯。
“之所以深度學習可以奏效,是因為在學習被標記的數(shù)據(jù)上,它的表現(xiàn)很好。”但Andrew馬上說:“我們發(fā)現(xiàn),這和動物及人類學習的還是不同。我相信,即使是最最深沉地愛著自己孩子的父母,也不會跑遍舊金山灣區(qū),找出5萬個馬克杯的照片指認給自己的孩子看,來讓他認識什么是馬克杯的。人類和動物的學習方式是,進入環(huán)境,由我們自己去感受這個環(huán)境并學習。”
“跑遍整個舊金山灣區(qū)找出的所有馬克杯照片”就是標記數(shù)據(jù),而“進入環(huán)境,由自己去感受環(huán)境”指的則是在未標記數(shù)據(jù)中進行的學習。
“深度學習”的研究者們又重新回頭借助神經(jīng)科學審視人類大腦學習的過程。
他們發(fā)現(xiàn)——人類大腦在看到實物的第一個步驟,是尋找實物的邊緣。幸運的是,來自伯克利的研究者的實驗表明,復制這個人腦處理視覺早期步驟的過程,是可以被模擬神經(jīng)網(wǎng)絡所實現(xiàn)的,而且這個“神經(jīng)網(wǎng)絡”不僅對于圖像識別奏效,對于音頻識別也可以產(chǎn)生相同的結果。現(xiàn)在,Andrew和他的團隊正在對這一部分的“深度學習算法”進行解析。
從非標記數(shù)據(jù)中學習——這是現(xiàn)在讓Andrew感到非常興奮的點,因為這能讓深度學習普及到更多的應用領域,他解釋說:“因為對于許多應用方向而言,我們沒有那么多標記數(shù)據(jù)。其二,這更接近人類學習的過程。”
但要完成這部分的工作,單靠學?;蚴茄芯繖C構很難實現(xiàn),必須要借助外部的力量,因為所有的實驗結果都指向了這樣一個趨勢:
模擬出的神經(jīng)系統(tǒng)越大,實驗效果越好。2010年,Andrew加入Google,按他自己的話說,“我上下求索,到處去找誰有最多的電腦、并且還愿意讓我使用的?”Google幫助Andrew開發(fā)出了擁有十億個連接單元的“深度學習”系統(tǒng),Andrew說:“有了Google我才能造出比原先大百倍的系統(tǒng)。” 他所帶來的研究成果也幫助Google開發(fā)出了不少商業(yè)產(chǎn)品。
但這些算法的應用范圍仍然十分局限,只有像Google這樣的科技巨頭,才擁有這樣的資源,進而擁有這樣的技術。創(chuàng)業(yè)公司或者是普通研究學者,并沒有機會在這么大的模擬神經(jīng)網(wǎng)絡上,去試驗自己的想法和算法。
“我們真正感興趣的是,如何讓深度學習更加的民主化?”Andrew說。對此,他和他的學生Adam Coates決定用GPU替代CPU,降低造價——GPU是Graphics Processing Unit的縮寫,是用來進行視覺圖像處理的,在每個人的電腦里都有。
但今天的人工智能,仍然是一個對資本要求很高的生意,而只有像Google、Baidu這樣以搜索起家的公司,才能提供盡可能多的實驗數(shù)據(jù)和計算力——這是他選擇加入百度的一個原因。
Andrew說:“這有點悲哀。你需要大量的數(shù)據(jù)和電腦,幸運的是,百度有這些東西。其次,百度是一個敏捷的機構,能快速地調配資源去需要的地方。同時,我被我所遇到的人所折服,比如百度美國的總經(jīng)理Alex Cheng,我的好朋友余凱和張潼,他們多么的友好、聰明、努力和謙遜。他們愿意讓我加入他們和他們合作,我覺得這是我的榮幸。”
加入百度后,現(xiàn)在Andrew正在著手為下一代的“深度學習系統(tǒng)”搭建基礎設施和準備工具——這也是他讓深度學習民主化的重要一步,他要讓在該領域做研究和想要應用深度學習概念的人們,有一個可使用的系統(tǒng)測試自己的點子。他說:“
我知道下一代的百度深度學習系統(tǒng)不會來自于我個人,我們現(xiàn)在在建造為下一代深度學習系統(tǒng)而準備的工具和基礎設施,來讓研究人員和我們合作,測試點子和進行學習。
我想做的是,建立起來基礎設施,讓別人來和我們合作,讓他們成為下一代深度學習領域內的英雄。”