IBM系統(tǒng)與科技部大中華區(qū)Power Systems服務(wù)器產(chǎn)品部總經(jīng)理韓忠恒
十五年后,人類發(fā)現(xiàn)自己被機(jī)器落下的,早已不僅僅是邏輯能力,當(dāng)沃森以計(jì)算機(jī)的形態(tài)站在美國(guó)著名的智力問答節(jié)目“危險(xiǎn)邊緣”的時(shí)候,不祥的陰云已經(jīng)籠罩在人類的頭頂,繼邏輯之王的頭銜被埋葬,人類所擁有并且為之所驕傲的“自然語言/語義表達(dá)能力”及“事物關(guān)系的建立能力”卻被敲響了“喪鐘”——在一場(chǎng)網(wǎng)絡(luò)上的投票對(duì)賭中,幾乎所有的人都認(rèn)為,作為人類我們毫無勝算,而作為機(jī)器的沃森,將最終勝利。
這是注定的結(jié)局,這是從一開始就知道點(diǎn)大點(diǎn)小的賭局,這是從一開始就知道比賽結(jié)果的一場(chǎng)毫無懸念的比賽,我們不得不承認(rèn),邏輯分析能力的差距我們已經(jīng)無法趕上,現(xiàn)在,機(jī)器在語義與關(guān)系方面的能力也開始讓我們望成莫及。
這一切,都是如何發(fā)生的?
Watson全景
沃森的勝利:當(dāng)我們的語言不再是秘密
美國(guó)電視競(jìng)答節(jié)目《危險(xiǎn)邊緣》很像是CCTV的《幸運(yùn)52》,這是一檔輕松且云集智慧的電視問答節(jié)目,與國(guó)內(nèi)的節(jié)目不同的是,《危險(xiǎn)邊緣》的問題更加刁鉆、古怪且包含很多隱含、晦澀的信息——哪怕題目也是如此——甚至有時(shí)你并不知道真正的問題是什么?
微妙含義、反諷、謎語、甚至腦筋急轉(zhuǎn)彎等種種線索充斥著這個(gè)競(jìng)答節(jié)目的問題,這意味著,所有的選手不能夠僅憑字面意思了解問題的本質(zhì),而對(duì)于沃森,重點(diǎn)也就從問答本身,轉(zhuǎn)移到了如何理解人類語言文字意義表面之下,所蘊(yùn)藏的“語義”而非簡(jiǎn)單的字面意義的理解。在回答問題的時(shí)候,沃森不可以聯(lián)網(wǎng)、要理解并答復(fù)這種“狡猾”提問(實(shí)際上,連接互聯(lián)網(wǎng)并非是最好的辦法,過多的信息意味著過多的錯(cuò)誤信息,很可能影響沃森的判斷), 主要依靠的是它對(duì)自然語言的理解和高速的計(jì)算。
當(dāng)沃森被問到某個(gè)問題的時(shí)候,100多種運(yùn)算法則會(huì)通過不同的方式對(duì)問題進(jìn)行分析,并給出很多可能的答案,而這些分析都是同時(shí)進(jìn)行的。在得出這些答案之后,另一組算法會(huì)對(duì)這些答案進(jìn)行分析并給出得分。對(duì)于每個(gè)答案,沃森都會(huì)找出支持以及反對(duì)這個(gè)答案的證據(jù)。因此,這數(shù)百個(gè)答案中的每一個(gè)都會(huì)再次引出數(shù)百條證據(jù),同時(shí)由數(shù)百套算法對(duì)這些證據(jù)支持答案的程度進(jìn)行打分。
而對(duì)于最后給出的答案,證據(jù)評(píng)估的結(jié)果越好,沃森的信心值也就越高,而評(píng)估成績(jī)最高的答案會(huì)最終成為電腦給出的答案。但在比賽中,如果連評(píng)估成績(jī)最高的答案都無法達(dá)到足夠高的信心閾值,沃森會(huì)決定不搶答問題,以免答錯(cuò)而輸?shù)舄?jiǎng)金。這所有的一切計(jì)算、選擇與決策都在3秒鐘之內(nèi)完成。
如今在經(jīng)歷了三天的比賽后,沃森毫無懸念的贏得了比賽,雖然尚且不能證明沃森“真的比人類聰明”,但是沃森在語義理解與關(guān)系建立方面的成就超越了此前所有的計(jì)算系統(tǒng)——同樣也證明了他并不輸于人類——沃森的勝利證明,人類的語言在計(jì)算機(jī)面前可能已經(jīng)不是秘密,雖然據(jù)IBM中國(guó)研究院資深經(jīng)理潘越表示,沃森在中文理解力方面尚且處在0歲階段,但是對(duì)于以英文為代表的拉丁語系的理解已經(jīng)幾乎達(dá)到了人類的水平。
“我們把Watson稱之為機(jī)器學(xué)習(xí)的系統(tǒng),換成一個(gè)領(lǐng)域的話是具有一定程度的適應(yīng)性的。所以,機(jī)器學(xué)習(xí)最后做綜合判斷的方法,當(dāng)Watson換到一個(gè)新領(lǐng)域的時(shí)候,我們?yōu)樗O(shè)計(jì)新的數(shù)據(jù),但是是不是要設(shè)計(jì)新的算法,或者說要不要改新的系統(tǒng)結(jié)構(gòu),這方面還有很強(qiáng)的適應(yīng)能力,很有可能我的算法不用改,但是我要用新的領(lǐng)域的數(shù)據(jù)對(duì)于綜合判斷的模型做一個(gè)訓(xùn)練,然后訓(xùn)練出來得到新的模型就可以適用新的領(lǐng)域,也有可能需要這個(gè)新的領(lǐng)域做出新的算法。但是這些算法只是說這幾百種里面我再加上幾種,加上幾種之后,整個(gè)體系結(jié)構(gòu)不需要做大的改變,也能適應(yīng)新的問題。”
IBM中國(guó)研究院資深經(jīng)理潘越
沃森是一套計(jì)算系統(tǒng),但卻不是一套平凡的IT,據(jù)潘越介紹,沃森項(xiàng)目實(shí)際上始于四年多以前——可能就是在深藍(lán)II十周年的時(shí)候——前后共有包括美國(guó)、中國(guó)、日本以色列的30多名研究員參與到這個(gè)項(xiàng)目中,潘越與他的五名同事作為中國(guó)研究院的佼佼者也加入了這個(gè)團(tuán)隊(duì)中,負(fù)責(zé)“用結(jié)構(gòu)化的信息來幫助Watson提高回答問題的正確性,同時(shí)避免一些比較愚蠢的回答”。
作為一套計(jì)算系統(tǒng),在潘越及其同事的努力下,在2月的危險(xiǎn)邊緣三場(chǎng)比賽中,它顯示出了出色的語義分析能力,讓人類的語言——至少是西方拉丁語系——在它的面前毫無秘密可言,對(duì)此,有許多媒體記者與看客都驚呼,沃森將是終結(jié)者出現(xiàn)的開端,甚至有人認(rèn)為,沃森的出現(xiàn),意味著我們已經(jīng)開始讓機(jī)器“擬人化”,朝著圖靈測(cè)試的方向發(fā)展。
但沃森的出現(xiàn)沒有必要讓人類風(fēng)聲鶴唳草木皆兵,它確實(shí)是強(qiáng)大的計(jì)算系統(tǒng),能夠分析語義,建立事務(wù)關(guān)系,在“成為人的方面”他還差的很遠(yuǎn),我們只能說,人類的語言在沃森面前已經(jīng)不是秘密,至少,它所代表的信息技術(shù),已經(jīng)為了解所有的人類語言打開了一扇窗。
IBM POWER:惡魔的使者還是上帝的援手?
作為一套計(jì)算系統(tǒng),沃森的成功不僅僅來自于它的設(shè)計(jì)、程序與算法,也不僅僅是潘越及其同事們的不斷優(yōu)化,與十五年前的深藍(lán)及深藍(lán)II相同,沃森的成功同樣來自于軟硬件結(jié)合,它是一套集合了當(dāng)今最先進(jìn)的硬件與最先進(jìn)的人機(jī)交互、語義分析軟件的系統(tǒng)。
“一是DeepQA ?Architecture,深問答架構(gòu),這個(gè)機(jī)器能夠很快的分析,來回答問題。二是他們用的Power7服務(wù)器的產(chǎn)品,是由很多臺(tái)Power7組成的?!?IBM系統(tǒng)與科技部大中華區(qū)Power Systems服務(wù)器產(chǎn)品部總經(jīng)理韓忠恒是沃森粉絲,同時(shí)他所負(fù)責(zé)的POWER產(chǎn)品線也是沃森的重要組成部分之一。
作為沃森的應(yīng)用架構(gòu),DeepQA ?Architecture的信息披露的并不多,只知道這是一個(gè)建設(shè)在開源的Linux操作系統(tǒng)上面,實(shí)現(xiàn)數(shù)據(jù)分析、語義分析、答案篩選、問題自學(xué)習(xí)等沃森必備功能的應(yīng)用系統(tǒng),再加上最后應(yīng)用的UEMA軟件——大計(jì)算量、深度運(yùn)算、并行、高效率與更加開放的應(yīng)用程序與開源代碼是沃森軟件層面的優(yōu)勢(shì),據(jù)稱,這一套系統(tǒng)將會(huì)在未來成為新一代的人機(jī)輔助決策系統(tǒng),在多個(gè)行業(yè)內(nèi)應(yīng)用。
而在沃森的硬件架構(gòu)中,IBM的POWER Systems服務(wù)器平臺(tái)的出現(xiàn)被業(yè)界認(rèn)為是IBM整個(gè)商業(yè)模式的一部分,如十五年前展示IBM的計(jì)算實(shí)力一般,沃森實(shí)則是作為Power的推廣而生的——作為沃森的應(yīng)用平臺(tái),90臺(tái)基于Power 7處理器的Power750服務(wù)器組成的集群,是沃森的硬件平臺(tái),它擁有最多2880個(gè)計(jì)算核心、16TB的內(nèi)存,達(dá)到超過80Teraflops的計(jì)算量,承載了三天內(nèi)快速回答危險(xiǎn)邊緣問題的重任——但韓忠恒和潘越都否定了沃森是為了Power而生的說法,潘越認(rèn)為,從參與這個(gè)項(xiàng)目及對(duì)沃森的了解來看,Power確實(shí)是最好的平臺(tái)。
事實(shí)上,在團(tuán)隊(duì)建設(shè)及沃森項(xiàng)目規(guī)劃的開始階段,基于Power平臺(tái)的沃森,就幫助IBM研究院的團(tuán)隊(duì)解決了一個(gè)大問題:操作系統(tǒng)如何選擇?是不是有現(xiàn)成的開源代碼可以選擇?——“有很多開源的Code,因?yàn)镻ower系統(tǒng)很開放,Linux系統(tǒng)也可以跑?!迸嗽秸f,在最開始,團(tuán)隊(duì)里面就在考慮利用簡(jiǎn)單、高效且開源的一些代碼和架構(gòu)參考設(shè)計(jì),Power芯片的多線程和高主頻的優(yōu)勢(shì)在一開始就是備選,但是團(tuán)隊(duì)希望做的更加開放和開源,所以在選擇硬件平臺(tái)上,還是做了很多工作。
“從軟件上來講,UEMA本身是一個(gè)多平臺(tái)的軟件,本身Java寫的,IBM在Watson這個(gè)項(xiàng)目當(dāng)中也是開放的,包括和八所大學(xué)在一起合作做了一個(gè)計(jì)劃,我們?cè)趪?guó)內(nèi)開發(fā)Watson過程當(dāng)中也邀請(qǐng)了中國(guó)一些大學(xué)參加,這本身是一個(gè)很開放的項(xiàng)目。”潘越表示,當(dāng)初沃森選擇Power平臺(tái),很大的一部分原因是因?yàn)镻ower平臺(tái)的開放性,有對(duì)Linux良好的支持,而核心的UEMA則來自于一個(gè)基于Linux的開源項(xiàng)目。
而另外一方面,Power系統(tǒng)一直以來以高主頻、高運(yùn)算速度、多核心、多線程作為研發(fā)的方向,單機(jī)大節(jié)點(diǎn)的設(shè)計(jì)思考方式,誕生了類似Power750這樣單系統(tǒng)擁有極高性能的產(chǎn)品,從而解決了需要設(shè)計(jì)非常大的系統(tǒng)這樣的問題,換句話說,Power平臺(tái)的高性能避免了大量服務(wù)器堆疊成為計(jì)算系統(tǒng)的設(shè)計(jì)復(fù)雜性和空間、能耗的占用,加上本身RISC架構(gòu)在處理類似問題方面的優(yōu)勢(shì)——RISC架構(gòu)實(shí)現(xiàn)更快的速度執(zhí)行指令,雖然對(duì)編譯器有更高的要求,但是在類似危險(xiǎn)邊緣這種深度、重復(fù)計(jì)算的模型中,擁有天然的優(yōu)勢(shì)。
同時(shí),Power750基于工作負(fù)載優(yōu)化的方式也在一定程度上幫了沃森的忙,在Power750這一個(gè)僅僅是中端Power7系統(tǒng)的產(chǎn)品中,工作負(fù)載優(yōu)化同樣被加以重視,“去年10月份的時(shí)候,Power750除了省空間之外,基于整體的系統(tǒng)來說,來選一個(gè)比較體現(xiàn)工作負(fù)載的系統(tǒng)只有Power7,往x86方面走的話,其實(shí)會(huì)有更多不同的問題?!表n忠恒表示,不選擇X86架構(gòu)一方面是基于目前在類似應(yīng)用中系統(tǒng)的整體水平還是Power7更高,另一方面,是這樣規(guī)模的計(jì)算量——2880個(gè)核心——如果換用CISC架構(gòu)的X86,實(shí)際上并行優(yōu)化、空間、能耗都還存在問題。
潘越也透露,為了能夠讓沃森成為可能,IBM最初的硬件設(shè)計(jì)平臺(tái)考慮的是刀片架構(gòu),X86與Power刀片當(dāng)時(shí)都有所考慮,但是最后隨著IBM不斷提升Power處理器及系統(tǒng)的計(jì)算能力,沃森項(xiàng)目最終才選擇了Power架構(gòu)的Power750服務(wù)器。
Power750,這不是一個(gè)多遙不可及的名字,了解IBM的Power7服務(wù)器產(chǎn)品線的人都知道,Power750只是整個(gè)Power7服務(wù)器家族中的中端產(chǎn)品,并非最高端的“金字塔尖”,或者我們可以這樣說,Power750是Power7家族中面向關(guān)鍵業(yè)務(wù)主流市場(chǎng)的產(chǎn)品,拼的是銷量與價(jià)格的最佳搭配,既不像低端比拼價(jià)格力爭(zhēng)銷量,也不像高端比拼性能獲得高額的利潤(rùn),可以說是Power7家族中的“大路貨”。
開源、高性能的Power750搭載了可能是現(xiàn)在“最了解人類的機(jī)器”沃森,可以想見的是,未來可能它還會(huì)搭載沃森II、沃森III或是其他什么名字的人機(jī)大戰(zhàn)主角,甚至可能在若干年后,在Power平臺(tái)上我們將能夠見到完美實(shí)現(xiàn)“圖靈測(cè)試(測(cè)試機(jī)器是否能夠等同于人類的測(cè)試)”的超級(jí)智慧系統(tǒng),對(duì)于這樣一個(gè)未來可能真正超越人類的機(jī)器的承載著,我們到底會(huì)如何看待Power?它到底是“惡魔的使者還是上帝的援手?”韓忠恒表示,隨著沃森在民用市場(chǎng)的應(yīng)用步驟逐步展開,顯然Power是人類獲得的上帝有力的援手。
沃森的勝利永遠(yuǎn)是人類的勝利:比賽過后“下崗再就業(yè)”
“沃森的勝利永遠(yuǎn)是人類的勝利。”這不是一句嘩眾取寵的話,無論是從硬件層面還是軟件即系統(tǒng)層面,沃森的勝利對(duì)人類本身都是大有裨益的。
就硬件系統(tǒng)而言,Power 750服務(wù)器已經(jīng)在全球廣泛地應(yīng)用于處理復(fù)雜的分析和交易兩種不同的工作負(fù)載,交易處理可以被想象成針對(duì)固定數(shù)據(jù)而采取的行動(dòng),這類工作負(fù)載主要靠緩存子系統(tǒng),重點(diǎn)在于定位正確的信息。
基于工作負(fù)載系統(tǒng)的不同應(yīng)用模式,Power750服務(wù)器滿足了不同工作負(fù)載的不同類型的對(duì)系統(tǒng)的要求——在緩存、內(nèi)存和存儲(chǔ)中,潛伏時(shí)間是最重要的;而分析工作負(fù)載更多地側(cè)重?cái)?shù)據(jù)之間的變換,在分析過程中,數(shù)據(jù)會(huì)迅速地在系統(tǒng)中移動(dòng)。因此在分析系統(tǒng)中,帶寬是最重要的。POWER7無論在潛伏時(shí)間上還是在帶寬上都是行業(yè)領(lǐng)頭羊,因此對(duì)于兩種不同的工作負(fù)載來說都是絕佳的運(yùn)行平臺(tái)。
韓忠恒介紹,Power服務(wù)器在交易處理方面的性能早已達(dá)到了行業(yè)領(lǐng)先,因此沃森最令人興奮的地方還在于它非常清楚地展現(xiàn)了Power 服務(wù)器的商業(yè)智能性――雖然分析處理還是相對(duì)新的工作負(fù)載,但已經(jīng)迅速變成許多機(jī)構(gòu)和企業(yè)的關(guān)鍵業(yè)務(wù)。
提到商業(yè)智能,不得不提到沃森的DeepQA架構(gòu)和UEMA軟件所帶來的算法分析、智能信息搜索、語義分析、事物關(guān)系建立方面的能力——在《危險(xiǎn)邊緣》中,每個(gè)問題都需要沃森從海量信息中進(jìn)行全面篩選——在這一點(diǎn)上,與其他任何商業(yè)性的智能信息搜索指令都是相通的,而沃森與網(wǎng)絡(luò)搜索引擎不差異在于,后者是根據(jù)。
與此同時(shí),沃森的架構(gòu)是可以“學(xué)習(xí)”的,潘越表示,IBM把Watson稱之為機(jī)器學(xué)習(xí)的系統(tǒng),在不同的領(lǐng)域,沃森是具有一定程度的適應(yīng)性的。所以,機(jī)器學(xué)習(xí)最后做綜合判斷的方法——對(duì)于信息分析、信息抽取等技術(shù)——當(dāng)Watson換到一個(gè)新領(lǐng)域的時(shí)候,只需要為它設(shè)計(jì)新的數(shù)據(jù),而不需要設(shè)計(jì)新的算法,或者說要不要改新的系統(tǒng)結(jié)構(gòu)。
“很有可能我的算法不用改,但是我要用新的領(lǐng)域的數(shù)據(jù)對(duì)于綜合判斷的模型做一個(gè)訓(xùn)練,然后訓(xùn)練出來得到新的模型就可以適用新的領(lǐng)域,也有可能需要這個(gè)新的領(lǐng)域做出新的算法。但是這些算法只是說這幾百種里面我再加上幾種,加上幾種之后,整個(gè)體系結(jié)構(gòu)不需要做大的改變,也能適應(yīng)新的問題?!被谖稚谥悄苄畔z索與面向數(shù)據(jù)的機(jī)器學(xué)習(xí)方面的能力,沃森被認(rèn)為在民用領(lǐng)域有極強(qiáng)的潛力,尤其是其智能信息檢索、語義分析、事物關(guān)系建立方面的能力,被認(rèn)為在輔助決策領(lǐng)域有很強(qiáng)的優(yōu)勢(shì),醫(yī)療行業(yè)如已經(jīng)成為沃森在《危險(xiǎn)邊緣比賽之后》“下崗再就業(yè)”的首選。
“各行各業(yè)都有可能,想象空間是很大的,我們不要把這個(gè)定位成就是問答題的一個(gè)游戲的機(jī)器,它能發(fā)揮的功能在各個(gè)方面都是可以的。比如說醫(yī)療,我們?cè)诿绹?guó)等地方已經(jīng)做實(shí)時(shí)分析的應(yīng)用,而且醫(yī)療需要很大的知識(shí)庫和數(shù)據(jù)庫,在那邊搜索和分析非常重要,什么樣的病痛需要什么樣的藥方都會(huì)有分析?!表n忠恒表示,醫(yī)療可能是沃森最先的就業(yè)領(lǐng)域之后,而在此之后,其實(shí)各個(gè)需要決策支持、輔助設(shè)計(jì)、搜索檢索分析的行業(yè)都可能是沃森的“就業(yè)領(lǐng)域”,而這些應(yīng)用在如今各個(gè)行業(yè)中廣泛的被使用著。
“比如說金融行業(yè),也有很大得數(shù)據(jù)庫,怎么做分析,尤其是保險(xiǎn)業(yè)的分析,數(shù)據(jù)量很大,保險(xiǎn)業(yè),以前的那些案例,還有你的身體狀況,可能都要分析出來,這也是用一個(gè)比較好的分析系統(tǒng)能夠做出來的。在服務(wù)支持和技術(shù)方面可能有很大的應(yīng)用空間。所以我想說,各行各業(yè)都可能用到,問題是你在哪個(gè)應(yīng)用里能夠把人工智慧體現(xiàn)出來,只要你能想得到就能做得到,所以空間是很大的。”