2、類比學習:基于變換的無監(jiān)督光流估計
Learning by Analogy: Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation
利用視圖合成,進行光流的無監(jiān)督學習,逐漸成為替代光流監(jiān)督學習的一類方法。但是在一些劇烈變化的場景上,可能會違背無監(jiān)督學習的目標,反而導致學習效果不好。這篇文章中,優(yōu)圖提出了一種稱為“增廣正則化”的學習框架。該框架在一些常規(guī)學習框架基礎上,利用增廣變換的數據多做一次前向,并利用原始數據的變換預測作為監(jiān)督。在文章中,優(yōu)圖進一步拓展網絡,支持共享光流解碼器的多視圖輸入。在多個benchmark上,與其它的無監(jiān)督方法比,以顯著的效果提升,取得了當前最好的正確率。另外,優(yōu)圖提出的無監(jiān)督方法,使用更少的參數量,就可以媲美最近一些監(jiān)督方法的效果。
3、面向密集多角度物體檢測的動態(tài)修正網絡
Dynamic Refinement Network for Oriented and Densely Packed Object Detection
目前主流的物體檢測?方法在旋轉(rotated)及密集排列(densely packed)?標場景下,檢測性能顯著下降。騰訊優(yōu)圖認為主要原因是:深度神經?網絡中同層神經元感受野、形狀、?角度單一,不適合處理多?度、多形狀的目標;模型學到的一般性知識不具備針對特定樣本?適應調整的能力。針對以上兩點,優(yōu)圖提出動態(tài)修正?絡(Dynamic Refinement Network,圖1)。具體說來:(1) 設計了自適應感受野調整模塊,使模型能夠根據目標形狀、旋轉角度?適應地調整感受野,緩解單一的感受野與多變的?標之間的矛盾。(2)針對分類與回歸任務設計了動態(tài)修正分類器 (圖2(左))與動態(tài)修正回歸器(圖2(右)),使模型兼顧靜態(tài)知識(statistic knowledge)和動態(tài)知識(dynamic knowledge)的學習,賦予模型依據樣本自適應調整的能?。結合以上兩點, 優(yōu)圖設計了統(tǒng)一的動態(tài)修正網絡。在當前著名的密集旋轉目標檢測數據集 (DOTA、HRSC2016、 SKU110K)上,該?法均取得了新的最佳性能。
4、自適應課程學習人臉識別函數
CurricularFace: Adaptive Curriculum Learning Loss for Deep Face Recognition
人臉識別中常用損失函數主要包括兩類,基于間隔或者難樣本挖掘。前一類方法對所有樣本都采用一個固定的間隔值,忽略了樣本自身的難易信息。后一種方法則在整個網絡訓練周期都強調困難樣本,可能導致網絡無法收斂問題。在工作中,優(yōu)圖基于課程學習的思路,提出了一種新的自適應課程學習損失函數。在訓練初始階段,方法主要關注容易的樣本;隨著訓練進行,逐漸關注較難的樣本。同時,在同一個訓練階段,不同的樣本根據其難易程度被賦予不同的權值。在常用的多個人臉識別benchmark上,該方法相較于SOTA方法都取得了穩(wěn)定一致的提升。
5、基于注意力卷積二叉神經樹的細粒度視覺分類
AttentionConvolutionalBinaryNeuralTree for Fine-Grained Visual Categorization
本文由騰訊優(yōu)圖實驗室和中科院軟件所聯合提出。細粒度視覺分類(Fine-Grained Visual Categorization,FGVC)因樣本類間差異更加細微,往往只能借助微小的局部差異才能區(qū)分出不同的類別,使其成為一項重要但具有挑戰(zhàn)性的任務。本文提出了一種基于注意力機制的卷積二叉神經樹結構。具體來說,將傳統(tǒng)的決策樹與神經網絡結合,在樹的內部節(jié)點中使用路由來確定樹內從根到葉的計算路徑,并且在樹的邊上添加了卷積操作增強表示學習,最終決策融合了所有葉節(jié)點的預測。該模型以一種由粗到細的層次方式學習具有判別力的特征。此外,采用非對稱的策略來增加多尺度特征提取,增強樣本的區(qū)分性特征表示。采用SGD優(yōu)化方法以端到端的方式訓練整個網絡。該方法在CUB-200-2011,Stanford Cars 和 Aircraft數據集上進行了評估,顯著優(yōu)于當前其他的弱監(jiān)督細粒度方法。
6、基于注意力機制及多關系檢測器的小樣本物體檢測
Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
本文由香港科技大學和騰訊優(yōu)圖實驗室聯合提出。目標檢測網絡已經被廣泛應用到安保,自動駕駛,醫(yī)學圖像等各個領域。然而傳統(tǒng)的目標檢測網絡需要使用大量高質量的訓練樣本對模型進行訓練。這些訓練樣本需要大量的人力物力進行標注,往往無法快速獲得,所以無法將目標檢測模型快速部署到新樣本的檢測中,而小樣本目標檢測方法可以很好地解決這一問題。聯合團隊提出了一種基于深度孿生網絡的小樣本目標檢測模型,通過基于注意力機制的候選框網絡,多關系檢測器以及三元組對比訓練方法對網絡進行改進,使得網絡能夠不對新物體重新訓練即可應用于新類別檢測。此外,文章中提供了一個1000類的小樣本物體檢測數據集,希望可以方便該領域的研究。
該聯合團隊的工作主要有以下貢獻:首先,使用注意力機制對物體檢測候選框進行篩選。將待檢測新物體的特征作為濾波器在輸入圖片上進行卷積,以此找出潛在的候選框區(qū)域。然后,使用多關系檢測器對這些候選框進行分類以及位置調整。多關系檢測器對候選框和新物體進行像素級、區(qū)域級和全圖級的多級關系匹配,以此找出匹配程度最高的區(qū)域作為檢測輸出。最后,構建(目標樣本,正樣本,負樣本)訓練樣本三元組對模型進行訓練,使得網絡能夠同時學習到相同物體間的相似性和不同物體間的差異性,從而大大提升網絡在新樣本上的檢測性能。該方法在多個數據集上均取得了最好的結果,且無需在新物體上進行任何訓練。其基本框架圖如下:
7、基于顯著性引導級聯抑制網絡的行人重識別
Salience-Guided Cascaded Suppression Network for Person Re-identification
本文由北京大學、騰訊優(yōu)圖和南方科技大學聯合提出。利用注意力機制對全局和局部特征進行建模,作為最終的行人表征,已成為行人再識別(Re-ID)算法的主流趨勢。這些方法潛在的局限性是,它們側重于提取最突出的特征(顯著性特征),但重新識別一個人可能依賴于不同情況下顯著性特征所掩蓋的各種其他的線索,比如身體、衣服甚至鞋子等。為了解決這一局限性,聯合團隊提出了一種新的顯著性引導級聯抑制網絡(SCSN),該網絡使模型能夠挖掘多樣化的顯著性特征,并通過級聯的方式將這些特征集成融合到最終的特征表示中。
聯合團隊的工作主要有以下貢獻:第一、我們觀察到,以前網絡學習到的顯著性特征可能會阻礙網絡學習其他重要信息。為了解決這一局限性,引入了級聯抑制策略,該策略使網絡能夠逐級挖掘被其他顯著特征掩蓋的各種潛在的、有用的特征,并融合各級提取的特征作為最后的特征表示; 第二、提出一個顯著特征提取(SFE)單元,該單元可以抑制在上一級聯階段學習到的顯著特征,然后自適應地提取其他潛在的顯著特征,以獲得行人的不同線索;第三、開發(fā)了一種有效的特征聚合策略,充分增強了網絡提取潛在顯著特征的能力。實驗結果表明,該方法在四個大規(guī)模數據集上的性能優(yōu)于現有最好的方法。特別是,該方法在CUHK03數據集上比目前最好的方法提升7.4%。其基本框架圖如下:
8、概念歸因的卷積神經網絡的全局解釋
Towards Global Explanations of Convolutional Neural Networks with Concept Attribution
本文由騰訊優(yōu)圖實驗室和香港中文大學合作完成。卷積神經網絡(CNN)的廣泛應用,使得解釋其行為變得越來越重要。其中,全局解釋因其有助于理解整個樣本類別的模型預測,最近引起了極大關注。但是,現有方法絕大多數都依賴于模型的局部逼近和對單個樣本預測的獨立研究,這使得它們無法反映出卷積神經網絡的真實推理過程。聯合團隊提出了一種創(chuàng)新的兩階段框架,即對可解釋性的攻擊(AfI),以更忠實地解釋卷積神經網絡。 AfI根據用戶定義的概念的重要性來解釋模型決策。它首先進行特征遮擋分析,該過程類似于攻擊模型以得出不同特征的重要性的過程,于是有能力學習全局解釋。然后,通過語義任務將特征重要性映射到概念重要性,下圖展示了AfI的框架結構。實驗結果證實了AfI的有效性及其相比于現有方案的優(yōu)越性。本文中還演示了其在提供卷積神經網絡理解方面的用例,例如基礎模型預測和模型認知中的偏差。
9、基于注意力機制提高對抗可遷移性
Boosting the Transferability of Adversarial Samples via Attention
本文由騰訊優(yōu)圖實驗室和香港中文大學合作完成。 深度學習模型的廣泛部署使得在實踐中評估模型的魯棒性成為必需,尤其是對于安防領域和安全敏感領域例如自動駕駛和醫(yī)療診斷。攻擊是一種重要的衡量模型魯棒性的方式,其中針對深度網絡圖像分類器生成對抗圖像是最基本和公認的任務之一。 最近,針對圖像分類器的基于遷移的黑盒攻擊引起了越來越多的興趣。這種攻擊方式,攻擊者需要基于本地代理模型來制作對抗性圖像,而沒有來自遠端實際目標的反饋信息。 在這種具有挑戰(zhàn)性的設置下,由于對所使用的本地模型的過度擬合,合成的對抗性樣本通常無法獲得良好的成績。因此,文章中提出了一種新穎的機制來減輕過度擬合的問題,從而增強黑盒攻擊的可遷移性。不同的網絡架構例如VGG16,ResNet,Inception在識別圖片時會有相似的圖像注意力,比如都傾向于注意貓臉來識別貓?;诖?,通過模型提取特征的注意力梯度來規(guī)范對抗性示例的搜索。 這種基于注意力規(guī)約的對抗樣本搜索使得聯合團隊可以優(yōu)先考慮攻擊可能被各種體系結構共同關注的關鍵特征,從而促進結果對抗實例的可遷移性。在ImageNet分類器上進行的大量實驗證實了文章中策略的有效性,進一步在白盒和黑盒兩種條件下對比了最新方法,該攻擊策略都表現出了一致的優(yōu)越性。下圖呈現了我們的基于注意力機制的模型攻擊框架。