以下為演講實錄:

各位專家早上好,我今天要講的題目就是大數(shù)據與人工智能研究的思考。關于大數(shù)據,這里有兩個概念,一個是數(shù)據大?,F(xiàn)在大家把這個焦點都集中在數(shù)據大,不管現(xiàn)在講3語義4語義講好多語義,這個語義就是容量大,大確實是問題,但是我們說大數(shù)據的處理問題是一個老問題,這個老問題比如說我們在氣象數(shù)據的處理里頭我們也遇到數(shù)據量也很大,那里頭也有各種不同的有圖象,也有文本,也有動態(tài)的情況所以變化很大,所以應該說數(shù)據大不是網絡時候才有的,無非是現(xiàn)在更加嚴重一些。解決數(shù)據大的問題,我們有很多辦法,這里也是現(xiàn)在大家都提到,比如首先遇到的數(shù)據大的計算復雜度。

如果我們過去說多象計量復雜度就可以了,可是在大數(shù)據情況下面算法都有問題,如何提高算法的速度,如何并行處理等等,從結算上處理它,這個大家都講得很多了,我就不多講。我現(xiàn)在重點講這個數(shù)據,就是大數(shù)據,而不是重點在數(shù)據大。也就是說我們要看一下網絡的數(shù)據跟以往的數(shù)據有什么不同?這里不同就是這里講的,就是這個數(shù)據有用的很少,雖然數(shù)據很多,但是有用的只有30%、40%不到,好用的更不多,經過標志的好用,也就是說有用的30、40%,好用的中間只有7%,經過大家清洗的不到1%。這和我們以往的數(shù)據不大一樣,比如說氣象數(shù)據盡管有噪聲問題,但是從來沒有氣象數(shù)據虛假的沒有用的、造謠的,但是在網絡里頭這種數(shù)據就很不一樣了。

還有一個與以往數(shù)據不同的,這些數(shù)據跟用戶跟社會關聯(lián)起來,也就是說這種數(shù)據是在社會中間,在人與人中間不斷的傳播,因此它所造成的影響,它所造成的效果是跟以往的數(shù)據不一樣的。我們看一看,這樣的數(shù)據會引起什么樣的問題?換句話講,我們過去考慮比較多的是形式、規(guī)模這個維度來考慮大數(shù)據,我們說它形式上很復雜,我們說它數(shù)量很大,可是我們沒有考慮到另外一個維度,網絡數(shù)據我們涉及了內容。

下面我們講到,我們看到網絡的數(shù)據為什么還有這個維度?語義的維度?內容的維度?現(xiàn)在我們先看一下人機交互的變化。我們說在當今時代我們怎么來用計算機呢?人機的截面又是怎么樣呢?我們實際上在用計算機的時候只是把程序輸出去,計算機根據程序來完成這個計算,然后把結果輸給用戶。計算機用不著了解我在干什么,這輸進來的數(shù)據是什么行業(yè),因為所有的數(shù)據在計算機存在的語音和語義,并沒有碼,計算機并沒有了解到它的內容??墒堑骄W絡時代變成計算機人機網絡,人機界面起到非常大的變化。也就是說人們把自己的需求用文本用圖象用語音輸入到計算機里面,計算機必須得通過文本、圖象了解用戶意圖情況,然后根據用戶意圖我輸出用戶需要的信息,從這里我們看到這個時候信息的內容已經包含在計算機里頭要考慮的。

我們在當今時代計算機人機界面在底下,內容語義根本與計算機無關,但是在網絡時代計算機必須要涉及到信息的內容。我們看一下,計算機能了解信息跟內容嗎?我們做一個非常簡單的圖象、圖片的檢索,這個是圖片,我們在Google輸進一個關鍵字,叫做白馬,我們看到計算機輸出很多白馬,但是也輸出很多跟白馬毫無關系的圖片,比如說這兩個女人。什么原因呢?我們看到因為圖片太多了,因此才沒找到白馬。我們至少說這圖片多是一個原因,但絕對不是第一原因。第一原因是什么?因為計算機不知道什么叫白馬,換句話講,我們沒法告訴計算機什么叫白馬,也就是我們沒法告訴計算機白馬這個語義,因為大家都知道,它還能夠根據關鍵字來找,為什么這張圖片找出來?因為這兩個女人在海邊,這個海邊是白馬海濱,因此把它找出來。所以因此說不能準確地找到我們所需要的圖片第一原因不是因為圖片太多,而是由于計算機不懂你要找什么。

我們也可以更進一步看一下,如果我們在百度上打這個碼和數(shù)這兩個關鍵詞,我們意思是想找有馬有樹的圖,這個我們看出來我們找出來這些圖絕大部分跟馬和樹沒關系。原因在哪里?主要的原因也不是因為圖片太多,他沒有找到馬和樹,而是由于它不知道你找什么。為什么找出來這些馬和樹沒有關系的圖呢?因為我查了一下,這個我們國家有一個鎮(zhèn)叫馬樹鎮(zhèn),因此把馬樹鎮(zhèn)里頭馬蜂窩都找出來。網絡不是數(shù)據多,而是由于計算機不了解語義。我們看到計算機系統(tǒng),計算機不僅僅是需要了解用戶意圖,同時要了解用戶的興趣等等。這是語義。我們了解網絡計算機新的需求,要了解用戶意圖,要了解用戶的興趣和體驗。

在這里面我們要做到兩個重要的內容,一個內容就是把怎么樣出的數(shù)據,剛剛講有很多沒用的不好的數(shù)據把它變成為知識,或者說我們理解這個數(shù)據的內容,信息的內容,變成網絡時代信息處理的一個新需求。比如說計算機又從文本中間、圖象中間、語音中間去了解用戶的意圖,我們說理解,這個理解實際上三個層面的問題。比如說數(shù)據文本叫做這屋很冷,或者用另外一種表達方式,首先計算機得了解這句話什么意思,這叫自然語義,它說的是什么?說這屋很冷。這還不夠,他輸這個用意何在,他說這個屋很冷,是不是提醒主人要把這個溫度調高一點。還有一層意思他說這句話是什么含義?是贊同還是不贊同他的說法等等。所以我們因此提供一條網絡信息,網絡至少需要了解這三層的意思,就是在網絡里頭往往都是很需要的。所以在過去計算機信息處理里頭沒有這個要求,這就是我們現(xiàn)在傳統(tǒng)信息面臨的最根本性的挑戰(zhàn)。

我們現(xiàn)在要回答傳統(tǒng)的信息能不能解決信息處理它的理論它的方法,能不能解決剛才的問題?我們回答說很難。這就是現(xiàn)在網絡處理信息遇到根本的困難。為什么很難?我們所有的信息方法是建立在語義無關假設上,不管是通信理論、控制理論或者信息處理理論,當做這個理論的時候它首先說出我這個理論是跟語義無關的,這就是我們這里看到新興論的三種,它在信息論里頭,信息理論有一句話說我這里的問題是跟語義沒有關系。也就是說你在傳統(tǒng)理論里頭必須把信息內容抽掉,這就是所有信息理論建立的依據。因為不做這樣的抽象你不可能建立一般的內容,必須把底層內容抽掉。好了,我們現(xiàn)在要和無關的信息處理方法能不能處理信息的內容,就是這么一個問題。

我們說過去我們用傳統(tǒng)的信息理論來解決圖象、文本處理里頭沒有遇到的問題,為什么在當今時候沒有這個問題?我們做的詞處理,做的圖象壓縮和語音去噪等等都是跟詞組有關系,跟內容沒有關系。所以過去沒有什么困難,到了網絡時代困難產生了。也就是說我們輸入信息送到X出去,對方收到了,閱讀者或者接受者,這個時候機器收到了,沒有誤差。現(xiàn)在問題是我們從X機器能不能了解到X背后說的是什么嗎?傳統(tǒng)的信息處理解決不了這個問題。可是我們現(xiàn)在還是用傳統(tǒng)信息方法來做這個問題,做網絡上的問題,做網絡上的信息處理,我們現(xiàn)在是怎么做的?是這么做的,我們下面提出幾個挑戰(zhàn)性的問題,機器能否處理語義,機器能否處理語義,機器傳統(tǒng)的語義如何處理。這是我剛才說的。

剛才說傳統(tǒng)信息處理直接輸入到語義里面去,它是怎么做?它是把X映射到詞空間,或者圖象的特征里面,然后試圖找到這個特征中間到語義的映射。我們又做這樣的設置,問題出來了,特征空間到語義空間是否存在一對一的映射?如果存在,如何去找?也就是說我們把圖象和文本或者語音也好,我們都叫它數(shù)據,到計算機里頭他們都是零和一一和零,我們要從這個零和一一和零里頭找出來零和一是哪個概念,它背后是什么東西,要找到這個映射?也就是說這堆零和一我們叫馬,這堆零和一叫做牛,非常遺憾,這個一般情況映射不存在。這就是人工,也就是說從底層的數(shù)據時代詞的組合,從顏色從紋理從視頻,我們沒法找到它的文本的含義,去識別這個圖象代表什么,或者識別這個語音。因為這個距離太遠。如果是這樣的話,我們現(xiàn)在不是還在做嗎?這是不幸的。但是有幸的是這種映射在特定數(shù)據處理之下在使用合理的方法這個映射是存在的。所以這個方法非常奇妙,如果這個映射不存在我們就沒有研究工作可做了。恰恰相反,也就是說它只在特定的條件用特定的方法它存在,這就是我們所有現(xiàn)在在搞文本機器翻譯也好,我們搞圖象識別也好,搞語音識別也好,都是在這個前提下面做的。所以我們每當看到人家輸出這個結果的時候,我們首先就是要問你是在什么樣的數(shù)據庫下面做出來的。

所以說你說你這個方法好,我們就要你是在什么樣的條件下做出來的好和壞?所以這個是必須要知道的,就是我們現(xiàn)在只能做在特定的條件下面我們可以把這個工作做好。這個是圖象,語音等等我們現(xiàn)在怎么用,現(xiàn)在大家經常聽到機器學習,深度學習就是用這個方法訓練它,然后再獨立開,對沒有見過的數(shù)據對它進行分類,這是現(xiàn)在的辦法。我們現(xiàn)在看一下,人臉識別現(xiàn)在可以做得不錯,我們現(xiàn)在說你這個人臉識別做的不錯是在什么樣的庫情況下做的呢?如果說我們人臉庫是這個樣子,我們用象素來表述它,我們最后做的結果是這樣。你看,這張圖有70%是噪聲,我們人看起來看不見是什么東西,但是計算機居然可以識別出來他是張三。而且我們從那邊紅色的圖可以看出來,既使這個噪聲50%、60%這個圖這樣,它的識別率是多少呢?百分之百。

意思就是說在特定條件下面你可以做得效果非常好,什么特定條件下?剛剛為什么圖象識別做得那么好?大家看到它的抗干擾能力,大家看一看,為什么做這么好?因為我們用的圖象這上頭往上翻有三個形容詞,這個圖象庫經過規(guī)格化,大是一樣,對齊的,人臉沒有歪,正面圖象。正由于這三個限制詞,它的圖片是規(guī)格化的,是對齊的,而且是正面人臉,因此它的識別率會這么高。如果我們把這個圖象變成沒有規(guī)格化,大小不一,不僅有正面圖象而且也有側面圖象,有一定角度的圖象,這樣我們做出來的結果就會比這個差,這就是目前計算機做的人臉識別,就是剛才說的我們必須得在一定的圖片下面進行比較,你這個方法好和不好,大家必須得在同樣的數(shù)據庫下面做實驗。

我們傳統(tǒng)的信息處理是這么來處理問題的,我們現(xiàn)在說人工智能怎么做?我們剛才說人工智能就像直接去處理語義,這就是人工智能的一個重大的試探。這個試探的結果是根據這么一個假設來做的。我們說傳統(tǒng)的信息處理也有一個假設,叫做語義觀察學,人工智能是在什么情況下做呢,它是認為物理是充分的必要條件,大腦和計算機都是物理符號系統(tǒng),這就是我們所謂著名的PSS假設。人腦和計算機都是物理符號系統(tǒng),我們就有可能用計算機來模擬人腦,這是人工智能幾個創(chuàng)始人提出來的主張,這個主張我們應該說人工智能里頭早期的工作就是在這個主張下面做的。當然這個主張也有人反對,就是說不能把人腦的所有的過程都看成是符號處理,但是沒有關系,這個工作還是在實踐上面取得了很多進展。

我們說這就是在計算機應用的所謂符號模型,但是這個模型有它的局限性。我們說這個模型它可以模擬深思熟慮的行為,可以用來做問題的處理,可以做問題診斷和決策,我們把決策和診斷過程用符號系統(tǒng)處理,這有成功也有不成功的,最主要的成功就是用這套方法來搞模式識別,來搞感知來搞語音識別行不通。這就是后來提出來的多層神經網絡,或者最早叫機器學習神經網絡,現(xiàn)在多層神經網絡就是深度學習。

也就是說我們固然可以用知識推動的方法來解決人類深思熟慮的行為,像推理、診斷、規(guī)劃這類,但是這類方法很難用到感知處理去做,而感知處理現(xiàn)在大家用一種多層神經網絡方法來做這個事情,這個事情基本上是從下面兩個假設出發(fā)來做的,這個做的效果就是這樣。這就是我們現(xiàn)在用的多層神經網絡來做的,這個用神經網絡做的效果挺好,用到語音也好,用到圖象也好,它的識別率比傳統(tǒng)的方法提高了兩位數(shù)的百分點,提高了百分之十幾到百分之二十,這是非常了不起的。因為大家知道提高1%都需要好多年的努力,但是僅僅因為這個方法就提高1%個點,這個很難。目前來講這個也做的比較多。

但是我要給大家提醒一下這個方法也不是完美的,也不是大家想象那樣就完全解決了問題的。那時候吳恩達教授在我們學校講的時候我就跟他開玩笑我說你為什么不說前面的結果,為什么不說后面的結果,也就是說兩萬人臉識別80%幾,為什么對其他兩萬個貓啊其他東西你的識別率只有百分之十幾,幾乎不認識?我們對這兩萬個人都能認識,你計算機訓練了半天識別率只有10%幾,當然比傳統(tǒng)的方法提高很多。有人說超過多少,那是在一定條件下。所以我剛才說我們講機器性能的時候必須要講它在什么條件下做到的。我們說概率方法也有局限性,就是統(tǒng)計關系,也有誤差,這個誤差很大。大家注意用統(tǒng)計方法做肯定有錯誤。這個只是在概念意義上正確,大家注意一下這個公式,這個公式表示什么意思呢?到樣板區(qū)無窮的時候它的錯誤概率不是零,而且它只是說大錯誤的概率會不斷減小,大家要注意這個。換句話講這個方法一定會算錯。

所以今年3月份有發(fā)表的一個智能的問題方法是跟今天的方法一樣。今天的方法是把傳統(tǒng)信息處理和人工智能加起來,所謂傳統(tǒng)信息處理是概率統(tǒng)計方法,而人工智能就是知識驅動方法,前面是數(shù)據驅動方法,所以經過解決大數(shù)據處理的問題,要解決語義問題必須要把這兩個方法結合起來,就是把人工智能和傳統(tǒng)信息處理結合起來。這個就是我們現(xiàn)在從計算方式角度來講,就是傳統(tǒng)的信息處理它處理的力度極小,人工智能處理力度最大,這兩個都有它的缺陷和優(yōu)勢,我們用的辦法是多圖處理,但人腦子里頭是多部處理。因為我在這方面也做了一些工作,大家有興趣可以看一下。謝謝大家!

分享到

sunyingying

相關推薦