相對(duì)于有監(jiān)督行人重識(shí)別(RE-ID)方法,無(wú)監(jiān)督RE-ID因其更佳的可擴(kuò)展性受到越來(lái)越多的研究關(guān)注,然而在非交疊的多相機(jī)視圖下,標(biāo)簽對(duì)(pairwise label)的缺失導(dǎo)致學(xué)習(xí)鑒別性的信息仍然是非常具有挑戰(zhàn)性的工作。為了克服這個(gè)問(wèn)題,我們提出了一個(gè)用于無(wú)監(jiān)督RE-ID的軟多標(biāo)簽學(xué)習(xí)深度模型。該想法通過(guò)將未標(biāo)注的人與輔助域里的一組已知參考者進(jìn)行比較,為未標(biāo)注者標(biāo)記軟標(biāo)簽(類似實(shí)值標(biāo)簽的似然向量)?;谝曈X(jué)特征以及未標(biāo)注目標(biāo)對(duì)的軟性標(biāo)簽的相似度一致性,我們提出了軟多標(biāo)簽引導(dǎo)的hard negative mining方法去學(xué)習(xí)一種區(qū)分性嵌入表示(discriminative embedding)。由于大多數(shù)目標(biāo)對(duì)來(lái)自交叉視角,我們提出了交叉視角下的軟性多標(biāo)簽一致性學(xué)習(xí)方法,以保證不同視角下標(biāo)簽的一致性。為實(shí)現(xiàn)高效的軟標(biāo)簽學(xué)習(xí),引入了參考代理學(xué)習(xí)(reference agent learning)。我們的方法在Market-1501和DukeMTMC-reID上進(jìn)行了評(píng)估,顯著優(yōu)于當(dāng)前最好的無(wú)監(jiān)督RE-ID方法。
Visual Tracking via Adaptive Spatially-Regularized Correlation Filters
基于自適應(yīng)空間加權(quán)相關(guān)濾波的視覺(jué)跟蹤研究
本文提出自適應(yīng)空間約束相關(guān)濾波算法來(lái)同時(shí)優(yōu)化濾波器權(quán)重及空間約束矩陣。首先,本文所提出的自適應(yīng)空間約束機(jī)制可以高效地學(xué)習(xí)得到一個(gè)空間權(quán)重以適應(yīng)目標(biāo)外觀變化,因此可以得到更加魯棒的目標(biāo)跟蹤結(jié)果。其次,本文提出的算法可以通過(guò)交替迭代算法來(lái)高效進(jìn)行求解,基于此,每個(gè)子問(wèn)題都可以得到閉合的解形式。再次,本文所提出的跟蹤器使用兩種相關(guān)濾波模型來(lái)分別估計(jì)目標(biāo)的位置及尺度,可以在得到較高定位精度的同時(shí)有效減少計(jì)算量。大量的在綜合數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本文所提出的算法可以與現(xiàn)有的先進(jìn)算法取得相當(dāng)?shù)母櫧Y(jié)果,并且達(dá)到了實(shí)時(shí)的跟蹤速度。
Adversarial Attacks Beyond the Image Space
超越圖像空間的對(duì)抗攻擊
生成對(duì)抗實(shí)例是理解深度神經(jīng)網(wǎng)絡(luò)工作機(jī)理的重要途徑。大多數(shù)現(xiàn)有的方法都會(huì)在圖像空間中產(chǎn)生擾動(dòng),即獨(dú)立修改圖像中的每個(gè)像素。在本文中,我們更為關(guān)注與三維物理性質(zhì)(如旋轉(zhuǎn)和平移、照明條件等)有意義的變化相對(duì)應(yīng)的對(duì)抗性示例子集??梢哉f(shuō),這些對(duì)抗方法提出了一個(gè)更值得關(guān)注的問(wèn)題,因?yàn)樗麄冏C明簡(jiǎn)單地干擾現(xiàn)實(shí)世界中的三維物體和場(chǎng)景也有可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)錯(cuò)分實(shí)例。在分類和視覺(jué)問(wèn)答問(wèn)題的任務(wù)中,我們?cè)诮邮?D輸入的神經(jīng)網(wǎng)絡(luò)前邊增加一個(gè)渲染模塊來(lái)拓展現(xiàn)有的神經(jīng)網(wǎng)絡(luò)。我們的方法的流程是:先將3D場(chǎng)景(物理空間)渲染成2D圖片(圖片空間),然后經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)把他們映射到一個(gè)預(yù)測(cè)值(輸出空間)。這種對(duì)抗性干擾方法可以超越圖像空間。在三維物理世界中有明確的意義。雖然圖像空間的對(duì)抗攻擊可以根據(jù)像素反照率的變化來(lái)解釋,但是我們證實(shí)它們不能在物理空間給出很好的解釋,這樣通常會(huì)具有非局部效應(yīng)。但是在物理空間的攻擊是有可能超過(guò)圖像空間的攻擊的,雖然這個(gè)比圖像空間的攻擊更難,體現(xiàn)在物理世界的攻擊有更低的成功率和需要更大的干擾。
Learning Context Graph for Person Search
基于上下文圖網(wǎng)絡(luò)的行人檢索模型
本文由騰訊優(yōu)圖實(shí)驗(yàn)室與上海交通大學(xué)主導(dǎo)完成。
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在行人檢索任務(wù)中取得了較大的成功。但是這些方法往往只基于單人的外觀信息,其在處理跨攝像頭下行人外觀出現(xiàn)姿態(tài)變化、光照變化、遮擋等情況時(shí)仍然比較困難。本文提出了一種新的基于上下文信息的行人檢索模型。所提出的模型將場(chǎng)景中同時(shí)出現(xiàn)的其他行人作為上下文信息,并使用卷積圖模型建模這些上下文信息對(duì)目標(biāo)行人的影響。我們?cè)趦蓚€(gè)著名的行人檢索數(shù)據(jù)集CUHK-SYSU和PRW的兩個(gè)評(píng)測(cè)維度上刷新了當(dāng)時(shí)的世界紀(jì)錄,取得了top1的行人檢索結(jié)果。
Underexposed Photo Enhancement using Deep Illumination Estimation
基于深度學(xué)習(xí)優(yōu)化光照的暗光下的圖像增強(qiáng)
本文介紹了一種新的端到端網(wǎng)絡(luò),用于增強(qiáng)曝光不足的照片。我們不是像以前的工作那樣直接學(xué)習(xí)圖像到圖像的映射,而是在我們的網(wǎng)絡(luò)中引入中間照明,將輸入與預(yù)期的增強(qiáng)結(jié)果相關(guān)聯(lián),這增強(qiáng)了網(wǎng)絡(luò)從專家修飾的輸入/輸出圖像學(xué)習(xí)復(fù)雜的攝影調(diào)整的能力?;谠撃P?,我們制定了一個(gè)損失函數(shù),該函數(shù)采用約束和先驗(yàn)在中間的照明上,我們準(zhǔn)備了一個(gè)3000個(gè)曝光不足的圖像對(duì)的新數(shù)據(jù)集,并訓(xùn)練網(wǎng)絡(luò)有效地學(xué)習(xí)各種照明條件的豐富多樣的調(diào)整。通過(guò)這些方式,我們的網(wǎng)絡(luò)能夠在增強(qiáng)結(jié)果中恢復(fù)清晰的細(xì)節(jié),鮮明的對(duì)比度和自然色彩。我們對(duì)基準(zhǔn)MIT-Adobe FiveK數(shù)據(jù)集和我們的新數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn),并表明我們的網(wǎng)絡(luò)可以有效地處理以前的困難圖像。
Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation
基于同態(tài)隱空間插值的不成對(duì)圖片到圖片轉(zhuǎn)換
生成對(duì)抗網(wǎng)絡(luò)在不成對(duì)的圖像到圖像轉(zhuǎn)換中取得了巨大成功。循環(huán)一致性允許對(duì)沒(méi)有配對(duì)數(shù)據(jù)的兩個(gè)不同域之間的關(guān)系建模。在本文中,我們提出了一個(gè)替代框架,作為潛在空間插值的擴(kuò)展,在圖像轉(zhuǎn)換中考慮兩個(gè)域之間的中間部分。該框架基于以下事實(shí):在平坦且光滑的潛在空間中,存在連接兩個(gè)采樣點(diǎn)的多條路徑。正確選擇插值的路徑允許更改某些圖像屬性,而這對(duì)于在兩個(gè)域之間生成中間圖像是非常有用的。我們還表明該框架可以應(yīng)用于多域和多模態(tài)轉(zhuǎn)換。廣泛的實(shí)驗(yàn)表明該框架對(duì)各種任務(wù)具有普遍性和適用性。
X2CT-GAN: Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks
基于生成對(duì)抗網(wǎng)絡(luò)的雙平面X光至CT生成系統(tǒng)
當(dāng)下CT成像可以提供三維全景視角幫助醫(yī)生了解病人體內(nèi)的組織器官的情況,來(lái)協(xié)助疾病的診斷。但是CT成像與X光成像相比,給病人帶來(lái)的輻射劑量較大,并且費(fèi)用成本較高。 傳統(tǒng)CT影像的三維重建過(guò)程中圍繞物體中心旋轉(zhuǎn)采集并使用了大量的X光投影,這在傳統(tǒng)的X光機(jī)中也是不能實(shí)現(xiàn)的。在這篇文章中,我們創(chuàng)新性的提出了一種基于對(duì)抗生成網(wǎng)絡(luò)的方法,只使用兩張正交的二維X光圖片來(lái)重建逼真的三維CT影像。核心的創(chuàng)新點(diǎn)包括增維生成網(wǎng)絡(luò),多視角特征融合算法等。我們通過(guò)實(shí)驗(yàn)與量化分析,展示了該方法在二維X光到三維CT重建上大大優(yōu)于其他對(duì)比方法。通過(guò)可視化CT重建結(jié)果,我們也可以直觀的看到該方法提供的細(xì)節(jié)更加逼真。在實(shí)際應(yīng)用中, 我們的方法在不改變現(xiàn)有X光成像流程的前提下,可以給醫(yī)生提供額外的類CT的三維影像,來(lái)協(xié)助他們更好的診斷。