獲獎證書

論文研究的是3D視覺領(lǐng)域經(jīng)典問題,通過單張圖像求解3D物體在真實(shí)世界里的位姿(位置和朝向)。這一技術(shù)方向應(yīng)用前景廣闊,是自動駕駛、機(jī)器人等行業(yè)的基礎(chǔ)技術(shù)。比如在自動駕駛中,只有先計算出周邊車輛的位姿,判斷對方究竟是要加速、剎車還是變道,己方車輛才能做出對應(yīng)操作,計算不準(zhǔn)或者過慢都有可能引發(fā)事故。

3D物體的位姿計算示意

通過單張圖像定位3D物體極具挑戰(zhàn)性。一般有兩類解決方法:一類是基于幾何推理,例如PnP算法,可解釋性好、泛化能力強(qiáng),但需要提前知道物體的尺寸和形狀,具有較大的局限性;另一類是深度學(xué)習(xí)方法,可預(yù)測3D物體的位置坐標(biāo)和朝向角度,但在小規(guī)模數(shù)據(jù)集上容易過擬合。

獲獎?wù)撐奶岢龅男路椒‥Pro-PnP,創(chuàng)造性地引入概率分布,將幾何推理和深度學(xué)習(xí)兩種方法無縫銜接,形成了一個端到端的易用模型,可以快速估算3D物體的位姿。實(shí)驗(yàn)證明,新模型通用性強(qiáng)、定位準(zhǔn)確,不需要提前知道物體的幾何形狀;更要重的是非常簡潔,效率較高,且具有較好的可解釋性,有望用于自動駕駛、機(jī)器人、無人機(jī)、AR等諸多需要通過視覺來估算物體位姿的場景。

EPro-PnP方法示意

據(jù)了解,論文第一作者陳涵晟本碩都就讀于同濟(jì)大學(xué)汽車學(xué)院,目前研究生二年級在讀,導(dǎo)師為熊璐教授,副導(dǎo)師為田煒助理教授,達(dá)摩院導(dǎo)師為王丕超博士。他的研究方向是計算機(jī)視覺中的3D物體位姿估計,研一就已在CVPR發(fā)表論文。2021年到阿里達(dá)摩院做研究型實(shí)習(xí)生后,在達(dá)摩院日常研究討論中碰撞出靈感,嘗試去構(gòu)造統(tǒng)一的理論框架?!拔以瓉硪詾檫@篇論文可能比較冷門,因?yàn)樘珨?shù)學(xué),沒想到能夠獲獎?!标惡烧f。

達(dá)摩院研究型實(shí)習(xí)生、同濟(jì)大學(xué)研究生陳涵晟

論文第一通訊作者、達(dá)摩院算法專家王丕超博士表示,這篇論文特別之處在于,用數(shù)學(xué)的方式解決AI底層問題,帶來了基礎(chǔ)理論上的突破,對3D視覺領(lǐng)域的研究和應(yīng)用都將產(chǎn)生積極影響?!昂诵膭?chuàng)新是轉(zhuǎn)換數(shù)學(xué)視角,引入概率密度,把不可導(dǎo)的函數(shù)變成可導(dǎo),所以能通過反向傳播來訓(xùn)練深度網(wǎng)絡(luò),最終實(shí)現(xiàn)穩(wěn)定收斂,提升3D物體的定位精度?!?/p>

據(jù)悉,研究型實(shí)習(xí)生是阿里巴巴在2017年創(chuàng)立的科研項(xiàng)目,已為全球200多所頂尖高校的1000多名學(xué)子提供科研崗位。

論文鏈接:https://arxiv.org/abs/2203.13254

分享到

xiesc

相關(guān)推薦