ZDNet 發(fā)表于:14年09月10日 11:12 [來稿] DOIT.com.cn
2014百度世界大數(shù)據(jù)論壇在北京大飯店舉行,百度研究院副院長余凱給大家分享了對深度學(xué)習(xí)構(gòu)建百度大腦的思考,下面是余凱的演講內(nèi)容。
余凱
以下為百度深度學(xué)習(xí)實驗室主任余凱演講實錄:
余凱:各位來賓、各位同行、各位朋友,歡迎來到百度大數(shù)據(jù)論壇,剛才祥云醫(yī)療胡總舉的例子,其中拍照識別皮膚病技術(shù)是我們IDL的小伙伴們開發(fā)的基于深度學(xué)習(xí)的圖象識別技術(shù),通過我們的技術(shù)創(chuàng)新讓大家的生活更加健康,更加美好,這就是我們工作的意義所在。下面我給大家分享一下我們從事深度學(xué)習(xí)構(gòu)建百度大腦的思考。
人工智能很重要
這個是麻省理工學(xué)院科技理工雜志在三天前提供的一個文章,他講的是介紹百度的人工智能之夢,介紹百度技術(shù)、人才方面的積累。百度從它誕生的第一天開始它就是一個人工智能公司,一方面我們通過搜索引擎滿足用戶每天的搜索請求,產(chǎn)生大量的用戶數(shù)據(jù)。另一方面我們提供價值,連接人和廣告,讓千千萬萬的商家能夠找到他的顧客資源,這種從數(shù)據(jù)到價值之間有一個橋梁,這個橋梁在百度就是基于百度大數(shù)據(jù)人工智能,包括自然語言的理解,包括機(jī)器學(xué)習(xí),也包括今天Robin和勁都提到語音識別圖象識別等方方面面的技術(shù),使得百度能夠把大量的海量數(shù)據(jù)轉(zhuǎn)化成商業(yè)價值。
在座某些朋友可能知道這個著名的曲線,這個是Gartner每年都要發(fā)表的趨勢表,顯示出科技往前發(fā)展的趨勢,這個HYPE是什么意思,可以理解為我們中國人講的“忽悠”,所以比如說3D打印到現(xiàn)在到一個期望的頂點。但是當(dāng)前的技術(shù)并不是那么成熟,因此大家對他的期待會降低。但是市場不斷往前推進(jìn),同時技術(shù)也會逐漸成熟,慢慢真正的市場機(jī)會來臨,比如語音識別,圖像識別就是。
這個圖表里面大量的技術(shù),比如說語音識別,虛擬現(xiàn)實,機(jī)器人,智能推薦,都是跟人工智能有關(guān)。人工智能就是如此重要,包括最近我們看到在美國的Google,F(xiàn)acebook,他們都相當(dāng)重視人工智能。在中國,百度是最重視人工智能研發(fā)的互聯(lián)網(wǎng)公司。前不久,我們的國家領(lǐng)導(dǎo)人習(xí)總書記在院士大會上也提及人工智能是第三代產(chǎn)業(yè)革命。
核心戰(zhàn)略——深度學(xué)習(xí)
人工智能取得最突破性的進(jìn)展并且迅速在工業(yè)界產(chǎn)生影響的一個極為成功的例子,就是深度學(xué)習(xí)。同樣這也是麻省理工學(xué)院科技評論雜志將深度學(xué)習(xí)技術(shù)列為十大通用技術(shù)之首的原因,這個最初來自學(xué)術(shù)界的研究成果影響到各大高科技公司的速度和廣度是非常罕見的。我們有幸把包括Google大腦之父吳恩達(dá)在內(nèi)的世界最頂級專家吸引到百度,他是在這個領(lǐng)域赫赫有名的人物。
百度在整個互聯(lián)網(wǎng)業(yè)和高科技行業(yè)是領(lǐng)先者,因為我們是最早把深度學(xué)習(xí)做為公司的核心戰(zhàn)略方向的高科技公司。我們在去年年初宣布成立IDL,這是百度歷史上第一次宣布成立研究機(jī)構(gòu),核心目標(biāo)是研究基于大數(shù)據(jù)的人工智能。
機(jī)器學(xué)習(xí)在過去30多年的時間里大致分為兩個階段,第一個階段是淺層學(xué)習(xí)。第二個階段從2006年開始進(jìn)行更深層的學(xué)習(xí)。深度學(xué)習(xí)最吸引大家的一個原因在于它在很大程度上模擬了人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和行為,這里面的細(xì)節(jié)不多講,但是就我們目前所知道的比如說對于圖象的處理,我們通過訓(xùn)練得到的深度卷積網(wǎng)絡(luò),跟我們目前所知道的對人的視覺皮層神經(jīng)元的行為有驚人的類似,我們同樣發(fā)現(xiàn)人對聽覺感知也有類似的情況。
百度大腦經(jīng)過過去一年多的時間,它經(jīng)歷了一個高速發(fā)展的階段。今天,百度大腦無時無刻不在學(xué)習(xí),就像人腦一樣,今天和昨天是不一樣的,會越來越聰明。我們現(xiàn)在能構(gòu)建世界上最大的深度神經(jīng)網(wǎng)絡(luò),達(dá)到百億級參數(shù)。剛剛永忠提到我們的GPU,我們的數(shù)據(jù)中心,方方面面的能力不是一朝一夕能夠積累的,百度過去在大數(shù)據(jù)方方面面的積累,通過這種能力我們才能更好的開發(fā)各自不同的深度學(xué)習(xí)模型,應(yīng)用于圖像和語音識別,搜索,和廣告推薦技術(shù)等等。
百度大腦智能連接
百度大腦讓連接更智能。首先人來到百度這個平臺,表達(dá)他的搜索需求,這個搜索需求有可能是關(guān)鍵詞,有可能是一段話,有可能是拍個照片,就要靠百度大腦來識別用戶的意圖,在精確識別用戶搜索意圖后,我們用深度學(xué)習(xí)來對網(wǎng)頁語義相關(guān)性排序,從而匹配用戶需求,這就完成了人與信息的連接。另一方面是連接人與廣告和服務(wù),我們通過大規(guī)模的深度學(xué)習(xí),去估計和優(yōu)化點擊率和轉(zhuǎn)化率,進(jìn)而把人連接到所需要的廣告和服務(wù)。我們的深度學(xué)習(xí)已經(jīng)用在百度核心業(yè)務(wù)的方方面面,真正實現(xiàn)智能連接人和信息,智能連接人和服務(wù)。
深入百度大腦,百度大腦里用到一種叫深度語義神經(jīng)網(wǎng)絡(luò)的模型,它是百度大腦用于自然語言,去匹配query和網(wǎng)頁的語義相關(guān)性,這是業(yè)界第一次把深度學(xué)習(xí)用于提升搜索精度的成功案例,也是迄今為止深度學(xué)習(xí)用于語言文本信息最成功的應(yīng)用。另外,我們的鳳巢廣告系統(tǒng),它背后基于機(jī)器學(xué)習(xí)的點擊率預(yù)估模型,從第一代淺層的機(jī)器學(xué)習(xí)模型,已經(jīng)過度到到用更復(fù)雜的模型、更深的模型的時代。
同樣我們不斷的講到大數(shù)據(jù),大數(shù)據(jù)實際上給深度學(xué)習(xí)給人工智能帶來很大的機(jī)會。但如何處理大數(shù)據(jù)、如何獲得大知識、給我們帶來了新的技術(shù)挑戰(zhàn)。怎么樣去處理?我們是世界上最早大規(guī)模的利用GPU做深度學(xué)習(xí)的高科技公司,我們通過各種各樣的數(shù)據(jù)并行,模型并行去處理這些海量數(shù)據(jù)。我們還可以支持,生成,配置針對不同的應(yīng)用、不同的場景和不一樣的網(wǎng)絡(luò)結(jié)構(gòu)。在今天Robin也提到了,在中文語音移動搜索的方面,在基于內(nèi)容的圖像搜索方面,我們現(xiàn)在做到了世界領(lǐng)先,這個是跟我們在大數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)所取得的進(jìn)展分不開的。
基于深度學(xué)習(xí)的OCR技術(shù),還可以像人一樣讀懂文字。比如一個實際的例子,我一個外國朋友在上?吹侥硞菜單,他想知道這個菜單中是否滿足他想要的菜品需求,他拍照用百度翻譯,識別菜單上道菜是牛肉拉面,通過識別后翻譯成英文,并有語音的合成,所以這一款小小的APP,體現(xiàn)了百度在方方面面的人工智能領(lǐng)域都有非常深的積累。
我們剛剛上線的拍照答題,在一款產(chǎn)品叫作業(yè)幫里。我估計在小朋友們的暑假中可得到廣泛應(yīng)用,如果假期玩得很開心,但臨近開學(xué)還沒有做作業(yè)怎么辦。就像這頁PPT顯示的例子,他們可以用這款產(chǎn)品拍下題目,我們的作業(yè)幫馬上就識別題目,并能找到答案。小朋友們該多開心啊。當(dāng)然,也許這個對于家長就不那么喜歡了。
不僅是中文OCR,在英文OCR識別方面,我們也都做到世界領(lǐng)先。這里展現(xiàn)的這些例子,人不一定都認(rèn)清的英文,但是我們的機(jī)器能夠識別。
百度擁有世界領(lǐng)先的基于內(nèi)容的圖像搜索技術(shù),比如跟我們的競爭對手比,無論是識別結(jié)果還是搜索相關(guān)性都大幅度領(lǐng)先。希望機(jī)器能夠像人一樣去理解圖片,這個是很有挑戰(zhàn)性的。在兩個禮拜前百度推出了百度移動搜索APP 5.5版本,這個是歷史的進(jìn)步。這是世界上第一款基于深度學(xué)習(xí)的拍照實物搜索?催@些例子:拍書可以知道這個書的價格,知道它在哪里能夠買到;小朋友拿著爸爸媽媽的手機(jī),看著好玩的玩具直接下單,這是多么開心的一件事情;再比如說你要是看見朋友的衣服或者包包非常好看,拍了直接可以下單。
我們在這里看看百度大腦的全景圖。我們以前是獲取互聯(lián)網(wǎng)信息,然后做搜索做廣告,所有一切都是在虛擬世界完成。但是現(xiàn)在所有的服務(wù)離現(xiàn)實世界越來越近,離人越來越近,所以我們通過自然交互,通過穿戴式,了解人的需求,另外物理世界的信息,比如商店,場景,街道,天氣等等,都跟我們推送的服務(wù)的相關(guān)性息息相關(guān),我們現(xiàn)在需要通過智能感知技術(shù)獲取人和場景的信息,才能推薦更加相關(guān)的服務(wù)。還有,我們看服務(wù)的執(zhí)行階段,以前互聯(lián)網(wǎng)上完成一個預(yù)測,做出一個決策,之后是由人去執(zhí)行,從而完成整個互聯(lián)網(wǎng)服務(wù)環(huán)節(jié)。未來的互聯(lián)網(wǎng)服務(wù),需要機(jī)器,或者說機(jī)器人,自動的完成這服務(wù)的最后一公里。比如說某一個人想吃披薩,在網(wǎng)上下單后,一般是要由人來完成制作披薩,然后遞送到家的。但是,這個體驗不一定最好,因為如果機(jī)器知道個性化的口味需求,能千人千面的私人定制這個披薩,而且,自動駕駛能更高效便捷的將披薩送到家里。所以說,互聯(lián)網(wǎng)的人工智能一定會從數(shù)字世界的智能延伸到物理世界的智能,機(jī)器人是大勢所趨。
王勁也講到了,自動駕駛項目,需要建立感知能力,決策能力,還有不斷自主學(xué)習(xí)的能力,可以說是人工智能技術(shù)的集大成者。從這里的畫面可以看到,我們的團(tuán)隊是非常精神飽滿的去做這個項目,不光是硬件,我們需要算法做各種條件下面的路面目標(biāo)檢測,比如車和行人,我們還需用OCR技術(shù)識別交通標(biāo)志,還有集成配準(zhǔn)各種傳感器的信息,形成統(tǒng)一的路況感知。所以你們能夠看到今天早上在勁的演講里的視頻,車能夠在路面對各種路況做精確識別和理解。
更多深刻學(xué)習(xí)的思考
此外,我們還能做哪些基于人工智能的產(chǎn)品去影響人的生活?我們看到過去移動設(shè)備發(fā)展的趨勢,現(xiàn)在每個人每天都會用移動設(shè)備進(jìn)行大量拍照,移動攝像頭已經(jīng)成為人眼的延伸,順著這個趨勢,2014年后會發(fā)生什么事情,會有什么樣的智能硬件,我們不斷的在思考?催@頁ppt, 人眼的延伸的這款智能設(shè)備,是這樣的一種形態(tài)嗎?我們看過去在智能穿戴行業(yè),智能眼鏡成為智能穿戴設(shè)備的一個品類,大家都在探討它的應(yīng)用場景,應(yīng)該怎么樣往前。但我們覺得它可能是要糾正,我們覺得它應(yīng)該是人眼的“自然”延伸,我們覺得這個自然非常非常重要。大家看,這款設(shè)備叫BaiduEye,就是我們思考的一個結(jié)果,我們非常強(qiáng)調(diào)它是Eye,而不是Glass,因為Eye是自然的人的身體的一部分,Glass是附帶外加的。它就像一個助手一樣,它真的知道你無時無刻在看什么東西,從而真的把互聯(lián)網(wǎng)后臺的服務(wù)變成你的大腦,讓你知道如何去更加精準(zhǔn)的決策。
這樣的設(shè)備戴在人的腦袋上面是怎么樣一個情況?那我們大家來感受一下,看這頁PPT。
大家可能也關(guān)心,在一個真實的場景下面,人們戴著BaiduEye是不是足夠帥。下面我們請百度的少帥學(xué)者顧嘉唯先生上來 …[一段互動和演示]。謝謝嘉唯。我們看看在更多的場景下,大家用BaiduEye可以干什么,請大家來看一段視頻。
看了這段視頻,我們體會到,科技讓我們發(fā)現(xiàn)這個世界更加精采。正如今天上午王勁的那句話,有了這么樣一款設(shè)備,我們整個世界都變成一個大的櫥窗。這里實際上透露了我們對BaiduEye的應(yīng)用場景的一個思考。下面我想跟大家介紹下一位演講嘉賓。在過去不長的時間里面,我有幸認(rèn)識到一個朋友,這個朋友他帶領(lǐng)著中國家喻戶曉的一個非常高端、非常成功的一個商業(yè)集團(tuán),但是真正吸引我的,他不但是商界領(lǐng)袖,更是對未來的一個思考者。他跟我分享未來科技會在線下的場景給零售服務(wù)業(yè)帶來革命,他有很多的思考,讓我覺得非常受啟發(fā)。我現(xiàn)在給大家隆重介紹這位朋友,他就是銀泰投資有限公司,銀泰商業(yè)集團(tuán)的CEO陳曉東先生。在陳總上做精彩分享之前,我們先看一段視頻,看看BaiduEye對于商家來說它意味著什么,它跟商業(yè)零售在線下結(jié)合,它會引發(fā)什么樣的事情,請看視頻。謝謝!
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.