為了驗(yàn)證FashionKLIP方法的實(shí)用性,我們將其應(yīng)用于阿里巴巴國(guó)際部的商品搜索平臺(tái),在圖像-商品和文本-商品兩個(gè)檢索子任務(wù)上進(jìn)行了零樣本場(chǎng)景下的驗(yàn)證,并將其與基線方法CLIP比較,實(shí)驗(yàn)結(jié)果進(jìn)一步證明了FashionKLIP的實(shí)用價(jià)值及高效性。
面向輕量化文圖檢索的Dual-Encoder模型蒸餾算法ConaCLIP
文本-圖像檢索(Text-Image Retrieval)的目的是在給出一個(gè)特定的文本查詢時(shí),從一個(gè)大型的圖像集合中檢索出一個(gè)最相關(guān)的圖像列表。隨著信息交互和社交場(chǎng)景的快速發(fā)展,該任務(wù)一直被認(rèn)為是跨模態(tài)應(yīng)用的一個(gè)關(guān)鍵組成部分,并被各種現(xiàn)實(shí)世界的場(chǎng)景所需求,如電子商業(yè)平臺(tái),網(wǎng)站等?,F(xiàn)有的相關(guān)模型如CLIP在計(jì)算資源有限的邊緣設(shè)備或動(dòng)態(tài)索引場(chǎng)景如私人照片/消息集合上仍然不太實(shí)用。為了解決這個(gè)問(wèn)題,我們的目標(biāo)是從大規(guī)模的預(yù)訓(xùn)練雙流編碼器模型出發(fā),專注于小模型預(yù)訓(xùn)練階段的蒸餾過(guò)程,以獲得一系列更小、更快、更有效的相應(yīng)的輕量化模型。與現(xiàn)有的工作不同,我們的方法引入了全連接知識(shí)交互圖(fully-Connected knowledge interaction graph)用于預(yù)訓(xùn)練階段的蒸餾。除了模態(tài)內(nèi)教師-學(xué)生交互學(xué)習(xí)之外,我們的方法還包括模態(tài)內(nèi)學(xué)生-學(xué)生交互學(xué)習(xí)、模態(tài)間教師-學(xué)生交互學(xué)習(xí)和模態(tài)間學(xué)生-學(xué)生交互學(xué)習(xí),如下圖所示。
這種為學(xué)生網(wǎng)絡(luò)建立的全連接圖可以看做是多視角和多任務(wù)的學(xué)習(xí)方案的集成,以此可以加強(qiáng)預(yù)訓(xùn)練模型所需要的穩(wěn)健性和有效性。同時(shí)我們建議,每種類型的學(xué)習(xí)過(guò)程都應(yīng)該詳細(xì)地測(cè)試各種不同監(jiān)督策略的效果。我們將所提出的技術(shù)應(yīng)用于電子商務(wù)平臺(tái)的端到端跨模態(tài)檢索場(chǎng)景,結(jié)果展示我們?cè)诨颈WC模型性能的同時(shí)顯著的降低了模型的存儲(chǔ)空間并增加了模型的計(jì)算效率。
具有高效推理速度的中文領(lǐng)域文圖生成擴(kuò)散模型和工具鏈
Text-to-Image Synthesis(TIS)是指根據(jù)文本輸入生成圖像的技術(shù),給定一段文本指令,使用計(jì)算機(jī)程序生成符合文本內(nèi)容描述的圖像。然而,由于預(yù)訓(xùn)練語(yǔ)言模型缺乏特定領(lǐng)域的實(shí)體知識(shí)且受限于擴(kuò)散模型的推理速度,目前開源社區(qū)的流行文圖生成模型難以支持特定工業(yè)領(lǐng)域的應(yīng)用。主要問(wèn)題在于,基于擴(kuò)散的方法需要使用預(yù)訓(xùn)練文本編碼器對(duì)輸入文本進(jìn)行編碼,然后作為擴(kuò)散模型的UNet模型的條件輸入。但是目前使用網(wǎng)上收集的文本圖像對(duì)預(yù)訓(xùn)練的文本編碼器模型缺乏特定實(shí)體概念的理解能力,難以捕獲特定實(shí)體知識(shí),這對(duì)于生成逼真的實(shí)體對(duì)象圖片至關(guān)重要。同時(shí),擴(kuò)散模型的推理速度和計(jì)算成本也是需要考慮的重要因素,而迭代逆擴(kuò)散去噪過(guò)程的繁瑣計(jì)算一直是擴(kuò)散模型推理速度的瓶頸。我們提出的新框架用于訓(xùn)練和部署文圖生成擴(kuò)散模型,模型架構(gòu)如下圖所示。為了提升對(duì)特定實(shí)體的理解能力,我們?cè)贑LIP的文本編碼器中注入了豐富的實(shí)體知識(shí),使用知識(shí)圖譜進(jìn)行知識(shí)增強(qiáng)。與開源Stable Diffusion直接利用大規(guī)模分層擴(kuò)散模型不同,我們?cè)趫D像擴(kuò)散模塊之后集成了一個(gè)基于ESRGAN的網(wǎng)絡(luò),以提高生成圖像的分辨率的同時(shí)有效解決了參數(shù)量爆炸和耗時(shí)長(zhǎng)的問(wèn)題。對(duì)于在線部署,我們基于FlashAttention優(yōu)化的神經(jīng)架構(gòu)設(shè)計(jì)了一個(gè)高效的推理流程。生成模型計(jì)算圖的Intermediate Representation(IR)經(jīng)過(guò)端到端人工智能編譯器BladeDISC進(jìn)一步處理,以提高生成模型的推理速度。
我們的實(shí)驗(yàn)證明,我們針對(duì)特定領(lǐng)域場(chǎng)景的知識(shí)增強(qiáng)模型可以更好地理解領(lǐng)域知識(shí),并且可以生成更逼真和多樣化的圖像。在推理速度上,我們使用了端到端人工智能編譯器BladeDISC以及FlashAttention 技術(shù)來(lái)提高模型的推理速度。我們還將這一技術(shù)與阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI進(jìn)行集成,以展示其在實(shí)際應(yīng)用中的實(shí)用價(jià)值,用戶可以在自己的任務(wù)(數(shù)據(jù))上一鍵式的進(jìn)行訓(xùn)練,微調(diào)以及推理自己的模型。
算法開源
為了更好地服務(wù)開源社區(qū),上述三個(gè)算法的源代碼即將貢獻(xiàn)在自然語(yǔ)言處理算法框架EasyNLP中,歡迎NLP從業(yè)人員和研究者使用。EasyNLP是阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI 團(tuán)隊(duì)基于 PyTorch 開發(fā)的易用且豐富的中文NLP算法框架,支持常用的中文預(yù)訓(xùn)練模型和大模型落地技術(shù),并且提供了從訓(xùn)練到部署的一站式 NLP 開發(fā)體驗(yàn)。由于跨模態(tài)理解需求的不斷增加,EasyNLP也將支持各種跨模態(tài)模型,特別是中文領(lǐng)域的跨模態(tài)模型,推向開源社區(qū),希望能夠服務(wù)更多的 NLP 和多模態(tài)算法開發(fā)者和研究者,也希望和社區(qū)一起推動(dòng) NLP/多模態(tài)技術(shù)的發(fā)展和模型落地。
Github地址:https://github.com/alibaba/EasyNLP
論文匯總
論文名字:FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph
論文作者:王小丹、汪誠(chéng)愚、李磊、李直旭、陳犇、金林波、黃俊、肖仰華、高明
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.16.pdf
論文名字:ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval論文作者:汪嘉鵬、汪誠(chéng)愚、王小丹、黃俊、金連文
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.8.pdf
論文名字:Rapid Diffusion: Building Domain-Specific Text-to-Image Synthesizers with Fast Inference Speed論文作者:劉冰雁、林煒豐、段忠杰、汪誠(chéng)愚、吳梓恒、張子鵬、賈奎、金連文、陳岑、黃俊
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.28.pdf