最近2019中文字幕免费版视频8,在线亚洲精品国产二区图片欧美,国产精品亚洲精品久久国语

為了驗(yàn)證FashionKLIP方法的實(shí)用性，我們將其應(yīng)用于阿里巴巴國(guó)際部的商品搜索平臺(tái)，在圖像-商品和文本-商品兩個(gè)檢索子任務(wù)上進(jìn)行了零樣本場(chǎng)景下的驗(yàn)證，并將其與基線方法CLIP比較，實(shí)驗(yàn)結(jié)果進(jìn)一步證明了FashionKLIP的實(shí)用價(jià)值及高效性。

面向輕量化文圖檢索的Dual-Encoder模型蒸餾算法ConaCLIP

文本-圖像檢索（Text-Image Retrieval）的目的是在給出一個(gè)特定的文本查詢時(shí)，從一個(gè)大型的圖像集合中檢索出一個(gè)最相關(guān)的圖像列表。隨著信息交互和社交場(chǎng)景的快速發(fā)展，該任務(wù)一直被認(rèn)為是跨模態(tài)應(yīng)用的一個(gè)關(guān)鍵組成部分，并被各種現(xiàn)實(shí)世界的場(chǎng)景所需求，如電子商業(yè)平臺(tái)，網(wǎng)站等?，F(xiàn)有的相關(guān)模型如CLIP在計(jì)算資源有限的邊緣設(shè)備或動(dòng)態(tài)索引場(chǎng)景如私人照片/消息集合上仍然不太實(shí)用。為了解決這個(gè)問(wèn)題，我們的目標(biāo)是從大規(guī)模的預(yù)訓(xùn)練雙流編碼器模型出發(fā)，專注于小模型預(yù)訓(xùn)練階段的蒸餾過(guò)程，以獲得一系列更小、更快、更有效的相應(yīng)的輕量化模型。與現(xiàn)有的工作不同，我們的方法引入了全連接知識(shí)交互圖（fully-Connected knowledge interaction graph）用于預(yù)訓(xùn)練階段的蒸餾。除了模態(tài)內(nèi)教師-學(xué)生交互學(xué)習(xí)之外，我們的方法還包括模態(tài)內(nèi)學(xué)生-學(xué)生交互學(xué)習(xí)、模態(tài)間教師-學(xué)生交互學(xué)習(xí)和模態(tài)間學(xué)生-學(xué)生交互學(xué)習(xí)，如下圖所示。

這種為學(xué)生網(wǎng)絡(luò)建立的全連接圖可以看做是多視角和多任務(wù)的學(xué)習(xí)方案的集成，以此可以加強(qiáng)預(yù)訓(xùn)練模型所需要的穩(wěn)健性和有效性。同時(shí)我們建議，每種類型的學(xué)習(xí)過(guò)程都應(yīng)該詳細(xì)地測(cè)試各種不同監(jiān)督策略的效果。我們將所提出的技術(shù)應(yīng)用于電子商務(wù)平臺(tái)的端到端跨模態(tài)檢索場(chǎng)景，結(jié)果展示我們?cè)诨颈ＷC模型性能的同時(shí)顯著的降低了模型的存儲(chǔ)空間并增加了模型的計(jì)算效率。

具有高效推理速度的中文領(lǐng)域文圖生成擴(kuò)散模型和工具鏈

Text-to-Image Synthesis（TIS）是指根據(jù)文本輸入生成圖像的技術(shù)，給定一段文本指令，使用計(jì)算機(jī)程序生成符合文本內(nèi)容描述的圖像。然而，由于預(yù)訓(xùn)練語(yǔ)言模型缺乏特定領(lǐng)域的實(shí)體知識(shí)且受限于擴(kuò)散模型的推理速度，目前開源社區(qū)的流行文圖生成模型難以支持特定工業(yè)領(lǐng)域的應(yīng)用。主要問(wèn)題在于，基于擴(kuò)散的方法需要使用預(yù)訓(xùn)練文本編碼器對(duì)輸入文本進(jìn)行編碼，然后作為擴(kuò)散模型的UNet模型的條件輸入。但是目前使用網(wǎng)上收集的文本圖像對(duì)預(yù)訓(xùn)練的文本編碼器模型缺乏特定實(shí)體概念的理解能力，難以捕獲特定實(shí)體知識(shí)，這對(duì)于生成逼真的實(shí)體對(duì)象圖片至關(guān)重要。同時(shí)，擴(kuò)散模型的推理速度和計(jì)算成本也是需要考慮的重要因素，而迭代逆擴(kuò)散去噪過(guò)程的繁瑣計(jì)算一直是擴(kuò)散模型推理速度的瓶頸。我們提出的新框架用于訓(xùn)練和部署文圖生成擴(kuò)散模型，模型架構(gòu)如下圖所示。為了提升對(duì)特定實(shí)體的理解能力，我們?cè)贑LIP的文本編碼器中注入了豐富的實(shí)體知識(shí)，使用知識(shí)圖譜進(jìn)行知識(shí)增強(qiáng)。與開源Stable Diffusion直接利用大規(guī)模分層擴(kuò)散模型不同，我們?cè)趫D像擴(kuò)散模塊之后集成了一個(gè)基于ESRGAN的網(wǎng)絡(luò)，以提高生成圖像的分辨率的同時(shí)有效解決了參數(shù)量爆炸和耗時(shí)長(zhǎng)的問(wèn)題。對(duì)于在線部署，我們基于FlashAttention優(yōu)化的神經(jīng)架構(gòu)設(shè)計(jì)了一個(gè)高效的推理流程。生成模型計(jì)算圖的Intermediate Representation（IR）經(jīng)過(guò)端到端人工智能編譯器BladeDISC進(jìn)一步處理，以提高生成模型的推理速度。

我們的實(shí)驗(yàn)證明，我們針對(duì)特定領(lǐng)域場(chǎng)景的知識(shí)增強(qiáng)模型可以更好地理解領(lǐng)域知識(shí)，并且可以生成更逼真和多樣化的圖像。在推理速度上，我們使用了端到端人工智能編譯器BladeDISC以及FlashAttention 技術(shù)來(lái)提高模型的推理速度。我們還將這一技術(shù)與阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI進(jìn)行集成，以展示其在實(shí)際應(yīng)用中的實(shí)用價(jià)值，用戶可以在自己的任務(wù)（數(shù)據(jù)）上一鍵式的進(jìn)行訓(xùn)練，微調(diào)以及推理自己的模型。

算法開源

為了更好地服務(wù)開源社區(qū)，上述三個(gè)算法的源代碼即將貢獻(xiàn)在自然語(yǔ)言處理算法框架EasyNLP中，歡迎NLP從業(yè)人員和研究者使用。EasyNLP是阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI 團(tuán)隊(duì)基于 PyTorch 開發(fā)的易用且豐富的中文NLP算法框架，支持常用的中文預(yù)訓(xùn)練模型和大模型落地技術(shù)，并且提供了從訓(xùn)練到部署的一站式 NLP 開發(fā)體驗(yàn)。由于跨模態(tài)理解需求的不斷增加，EasyNLP也將支持各種跨模態(tài)模型，特別是中文領(lǐng)域的跨模態(tài)模型，推向開源社區(qū)，希望能夠服務(wù)更多的 NLP 和多模態(tài)算法開發(fā)者和研究者，也希望和社區(qū)一起推動(dòng) NLP/多模態(tài)技術(shù)的發(fā)展和模型落地。

Github地址：https://github.com/alibaba/EasyNLP

論文匯總

論文名字：FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph

論文作者：王小丹、汪誠(chéng)愚、李磊、李直旭、陳犇、金林波、黃俊、肖仰華、高明

論文PDF鏈接：https://aclanthology.org/2023.acl-industry.16.pdf

論文名字：ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval論文作者：汪嘉鵬、汪誠(chéng)愚、王小丹、黃俊、金連文

論文PDF鏈接：https://aclanthology.org/2023.acl-industry.8.pdf

論文名字：Rapid Diffusion: Building Domain-Specific Text-to-Image Synthesizers with Fast Inference Speed論文作者：劉冰雁、林煒豐、段忠杰、汪誠(chéng)愚、吳梓恒、張子鵬、賈奎、金連文、陳岑、黃俊

論文PDF鏈接：https://aclanthology.org/2023.acl-industry.28.pdf

分享到

songjy

相關(guān)推薦

近期文章

熱門標(biāo)簽