王雪楊 發(fā)表于:14年01月24日 12:55 [翻譯] DOIT.com.cn
IBM公司正式推出這個(gè)系統(tǒng)的決策引擎和先進(jìn)自然語(yǔ)言處理技術(shù),并將其作為一個(gè)新的營(yíng)銷賣點(diǎn)。到目前為止,這臺(tái)智能主機(jī)似乎已被證明并不是解決IBM公司所面臨問(wèn)題的靈丹妙藥,倒反而是IBM公司的在背芒刺。2013年作為Watson的概念被提出之后的第七個(gè)年頭,雖然它在這一年的表現(xiàn)不俗,但是相關(guān)收入?yún)s連1億美元都不到。華爾街日?qǐng)?bào)認(rèn)為,其中部分項(xiàng)目還處于低谷中,但是IBM公司的CEO Virginia Rometty希望這項(xiàng)技術(shù)在未來(lái)十年內(nèi)的每一年都能夠?yàn)楣編?lái)一百億美元的收入。
但是,Watson的表現(xiàn)卻并不盡如人意。華爾街日?qǐng)?bào)稱,建立新任務(wù)和進(jìn)行相關(guān)訓(xùn)練都需要花費(fèi)較長(zhǎng)的時(shí)間,而當(dāng)它們開(kāi)始提供預(yù)測(cè)時(shí),其預(yù)測(cè)的可參考性卻非常值得商榷。如果仔細(xì)分析一下這個(gè)超級(jí)計(jì)算機(jī)的底層架構(gòu),我們可能就會(huì)從中發(fā)現(xiàn)個(gè)中原委:
底層軟件引擎
Watson的強(qiáng)大功能源于其DeepQA的分析引擎,這個(gè)軟件引擎整合了Hadoop、Apache UIMA以及其他的工具以實(shí)現(xiàn)機(jī)器學(xué)習(xí)的功能:這個(gè)功能可允許機(jī)器提取大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的信息、分析事件之間的關(guān)系、提出對(duì)應(yīng)相關(guān)問(wèn)題的可能答案,并最終以置信度參數(shù)給出答案的排名。
“DeepQA的主要技術(shù)手段就是大規(guī)模并行處理、專家知識(shí)、置信估計(jì)以及深淺知識(shí)集成等,”2010年IBM公司在其科技研討會(huì)上發(fā)表的一篇人工智能論文中如此寫道。
DeepQA要求IBM公司在諸多的領(lǐng)域進(jìn)行基礎(chǔ)性研究,例如問(wèn)題處理、關(guān)系提取、語(yǔ)言框架提取、段匹配整合以及根據(jù)提取的數(shù)據(jù)進(jìn)行知識(shí)提取。經(jīng)過(guò)藍(lán)色巨人不斷的努力,所有這些非常棘手的問(wèn)題的解決都已實(shí)現(xiàn)了長(zhǎng)足的進(jìn)步。
這些進(jìn)步意味著Watson可以提供足夠多的訓(xùn)練和足夠好的數(shù)據(jù),對(duì)舉措實(shí)施的最佳步驟提出了有效的預(yù)測(cè)。但是,這里需要指出的是,知識(shí)提取的質(zhì)量高低受制于所提供數(shù)據(jù)的數(shù)量。
出于這個(gè)原因的考慮,每一個(gè)Watson的內(nèi)部項(xiàng)目都需要大量的新鮮數(shù)據(jù)、再訓(xùn)練以及一個(gè)長(zhǎng)期的時(shí)間投入才能讓發(fā)出嗡嗡聲的硅質(zhì)大腦正確地解決問(wèn)題。 IBM公司在一篇學(xué)術(shù)論文中詳細(xì)闡述了Watson從Jeopardy!贏家到商品所需面臨的挑戰(zhàn):
針對(duì)任何新領(lǐng)域申請(qǐng)DeepQA都要求在三個(gè)方面的適應(yīng):
· 內(nèi)容適應(yīng)涉及組織用于假說(shuō)和驗(yàn)證生成、建模上下文背景的領(lǐng)域內(nèi)容,在這個(gè)過(guò)程中將產(chǎn)生問(wèn)題
· 訓(xùn)練適應(yīng)涉及通過(guò)樣本訓(xùn)練問(wèn)題和源于目標(biāo)域正確答案的形式增加數(shù)據(jù),以便于這個(gè)系統(tǒng)能夠在估計(jì)答案置信度時(shí)對(duì)其分量學(xué)習(xí)合適的權(quán)重。
· 功能適應(yīng)涉及增加新的特定域問(wèn)題分析、候選答案的生成、假設(shè)得分以及其他的分量。
你可以把它想象成為一臺(tái)主機(jī)。Watson似乎具有以下的若干特征:非常熱衷于長(zhǎng)期運(yùn)行、不公開(kāi)的財(cái)務(wù)支出、默認(rèn)設(shè)置為鎖定,而這項(xiàng)技術(shù)是唯一由IBM公司擁有的。
這并不是一個(gè)非?膳碌膲氖虑椋?yàn)槟承┢髽I(yè)諸如此類的工具可能是有用的。但是,這確實(shí)意味著你可能會(huì)不相信,IBM公司開(kāi)始把Watson模式成為易于上手的云計(jì)算產(chǎn)品。
正是出于這個(gè)原因,藍(lán)色巨人經(jīng)過(guò)縝密規(guī)劃以提供Watson令人印象深刻內(nèi)核計(jì)算能力,而基于云計(jì)算的服務(wù)是具有欺騙性的。
無(wú)論任何,那是誰(shuí)的緩存線?
毫無(wú)疑問(wèn),Watson將通過(guò)在中央存儲(chǔ)庫(kù)中存儲(chǔ)更多數(shù)據(jù)而受益。我們知道DeepQA并不是以簡(jiǎn)單分割至單個(gè)域的方法進(jìn)行開(kāi)發(fā)的,所以IBM公司將必須把數(shù)據(jù)規(guī)整至相關(guān)域以便于在系統(tǒng)中實(shí)現(xiàn)最大置信度。
在一定程度上,IBM公司基于云計(jì)算服務(wù)生成知識(shí)的數(shù)據(jù)要遠(yuǎn)大于單個(gè)開(kāi)發(fā)人員貢獻(xiàn)數(shù)據(jù)的總和,似乎藍(lán)色巨人將不得不增加一個(gè)分層系統(tǒng)以便于為所解決的特定問(wèn)題選擇相關(guān)信息庫(kù)。硬件王道,這是完全可以實(shí)現(xiàn)的(它需要2,880個(gè) Power7 內(nèi)核,外加存儲(chǔ)在15TB RAM中的維基百科和其他文本,在2011年贏得Jeopardy! ),但是目前還不清楚這個(gè)軟件是否存在。
有一件事是肯定的——在其當(dāng)前的狀態(tài)下,以Watson為核心的項(xiàng)目需要IBM公司和潛在客戶投入大量的開(kāi)發(fā)資源,盡管IBM公司正在建立一個(gè)實(shí)驗(yàn)室以幫助硅谷企業(yè)開(kāi)發(fā)Watson應(yīng)用程序,但這似乎是一條困難重重的道路。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.