LCD屏幕上實(shí)時(shí)顯示的是經(jīng)典的MNIST手寫數(shù)據(jù)集,當(dāng)攜帶MNIST數(shù)字信息的相干光經(jīng)過擋板漫反射后,形成散斑圖。如下圖所示,分別是數(shù)字0-9及其對應(yīng)的散斑圖。由于散射和干涉的作用,所有的圖像都布滿散斑。
所有的數(shù)據(jù)(散斑圖)經(jīng)過預(yù)處理后結(jié)合AI算法,實(shí)現(xiàn)障礙物后面的數(shù)字變化的實(shí)時(shí)識別。散斑圖像的任一部分都包含了整個(gè)被識別物體的信息,因此,即使是散斑圖的很小的一個(gè)部分,也可以用來進(jìn)行物體識別。也就是說,散斑圖像不同大小的裁剪和圖像的不同位置,并不影響最終的識別效果。
為充分探尋該方法的適用性,研究人員還針對不同場景進(jìn)行了實(shí)驗(yàn)。包括經(jīng)過一面墻反射的散斑識別,經(jīng)過兩面墻反射的散斑識別,經(jīng)過旋轉(zhuǎn)墻反射的散斑識別,以及光源和視覺傳感器位于同側(cè)的散斑識別。所有實(shí)驗(yàn)的平均識別準(zhǔn)確率高達(dá)91%以上。如下表是每個(gè)實(shí)驗(yàn)的具體識別率。
數(shù)字還遠(yuǎn)遠(yuǎn)不夠,該論文還驗(yàn)證了障礙物后的人體姿態(tài)識別。如下圖為12個(gè)人的同一個(gè)姿態(tài)對應(yīng)的各自散斑圖,可以看出,人體姿態(tài)識別包含了更多的復(fù)雜特征。即使是同一個(gè)動(dòng)作,不同的人也會(huì)有顯著差異。但是通過相應(yīng)的AI算法,可以從散斑圖像中提煉出隱含的相同特征,從而實(shí)現(xiàn)姿態(tài)的識別。
下圖為同一個(gè)人展示的10種不同的姿態(tài),及其對應(yīng)的散斑圖。區(qū)分不同散斑圖的特征,可以實(shí)現(xiàn)不同姿態(tài)的識別。
通過深度學(xué)習(xí)的AI算法處理,以11個(gè)人的姿態(tài)作為訓(xùn)練樣本,剩下的1個(gè)人做測試,遍歷12個(gè)人(12次實(shí)驗(yàn)),得到的平均識別準(zhǔn)確率為78.18%,高于現(xiàn)有的3姿態(tài)識別的論文報(bào)道的準(zhǔn)確率76.6%。10個(gè)不同姿態(tài)的混淆矩陣如下:
該姿態(tài)識別的研究,在安防監(jiān)控領(lǐng)域有廣泛應(yīng)用場景。比如識別被遮擋角落的危險(xiǎn)行為,包括打架斗毆或其他有危險(xiǎn)性的動(dòng)作、軍事及反恐行動(dòng)中環(huán)境隱藏偵查,以及消防救援時(shí)獲取屋內(nèi)被困人員的信息等。
被遮擋角落的危險(xiǎn)行為檢測示意
【相關(guān)研究】
該論文的方法跟其他的非視域識別相比,有不少優(yōu)勢。
比如熟知的TOF(Time of Flight)飛行時(shí)間法。雖然TOF方法對非視域物體的重構(gòu)精度能達(dá)到厘米量級,但是在實(shí)際應(yīng)用中需要昂貴的設(shè)備,比如單光子探測器和納秒脈沖激光(價(jià)值幾十萬人民幣)。而這篇論文的方法只需要普通激光器和CMOS圖像傳感器,具有普遍適用性。
另外,合刃科技此次論文中采用的是非成像識別方法,比成像識別具有更好的簡易型和魯棒性,無需昂貴的成像設(shè)備,算法中也無需復(fù)雜且耗時(shí)的圖像重構(gòu),從而具有更好的適用性和普遍推廣性。TOF方法一次數(shù)據(jù)采集和圖像重建需要數(shù)分鐘,但是該論文的方法用時(shí)不到一秒。當(dāng)然,該論文的方法也有需要改進(jìn)的地方,比如外界干擾(振動(dòng)等)可能引起散斑圖的漂移,從而降低識別準(zhǔn)確率。另外,經(jīng)過多次漫反射后,光強(qiáng)會(huì)減弱,從而降低信噪比和識別準(zhǔn)確率。因此,為提高非視距物體識別效果,后續(xù)需要更穩(wěn)定的硬件和更優(yōu)化的深度學(xué)習(xí)算法。
【未來】
在此次論文提出的非視距物體識別技術(shù)之外,合刃科技還致力于全息全頻機(jī)器機(jī)器視覺系統(tǒng)的研發(fā)和商業(yè)化。
全息全頻機(jī)器機(jī)器視覺系統(tǒng)從數(shù)據(jù)采集端進(jìn)行重新設(shè)計(jì),應(yīng)用了先進(jìn)的集成光學(xué)技術(shù),顛覆性的對CMOS圖像傳感器進(jìn)行納米結(jié)構(gòu)升級,結(jié)合AI算法,軟硬件一體化采集多個(gè)維度的光學(xué)信息,實(shí)現(xiàn)傳統(tǒng)視覺傳感器和人類視覺所無法完成的多維度全息圖像信息采集。全面提升視覺識別性能,擴(kuò)展多種特殊應(yīng)用場合。
可以進(jìn)行障礙物體識別、雨霧環(huán)境等惡劣環(huán)境的物體識別、黑色、白色等背景色的物體識別、不明顯的瑕疵識別,解決拍照遭遇反光、對玻璃的無法拍照、光譜不夠多等目前計(jì)算機(jī)視覺領(lǐng)域的常見問題,技術(shù)將應(yīng)用于智能制造、安防、無人駕駛輔助駕駛、智能穿戴設(shè)備等多個(gè)領(lǐng)域。
光是一種電磁波,有很多的特征物理量,包含相位、光強(qiáng)、光譜、偏振、方向等信息。傳統(tǒng)的計(jì)算機(jī)視覺僅用到了光強(qiáng)信息,這就導(dǎo)致了原本豐富信息其實(shí)并未得到充分利用,這也將最終影響到識別的邊界和效果。
而此次論文提出的非視距物體識別技術(shù),在此基礎(chǔ)上僅增加了對相位信息的收集與利用,便能夠創(chuàng)造出如此豐富的應(yīng)用場景,解決多個(gè)領(lǐng)域里的難點(diǎn)痛點(diǎn)。隨著我們對“光”的進(jìn)一步探索,對更多的物理量進(jìn)行獲取與計(jì)算,必然能打破識別邊界。
光電+AI,這個(gè)世界遠(yuǎn)比我們能夠看到的更加豐富多彩。