伴隨著計(jì)算力、算法和數(shù)據(jù)量的巨大進(jìn)步,人工智能迎來(lái)第三次發(fā)展高潮,開(kāi)始了各行業(yè)的落地探索。然而,在“大數(shù)據(jù)”興起的同時(shí),數(shù)據(jù)分散的情況也越發(fā)明顯,“數(shù)據(jù)孤島”現(xiàn)象廣泛存在。隨著政策法規(guī)的逐漸完善和公眾隱私保護(hù)意識(shí)的加強(qiáng),隱私安全、數(shù)據(jù)保護(hù)等原因限制著數(shù)據(jù)不能輕易互通,如何在保護(hù)數(shù)據(jù)隱私的前提下實(shí)現(xiàn)行業(yè)協(xié)作與協(xié)同治理,是大數(shù)據(jù)時(shí)代人工智能行業(yè)應(yīng)用的一大難題。

多方獲益,聯(lián)邦學(xué)習(xí)破解“數(shù)據(jù)孤島”難題

“聯(lián)邦學(xué)習(xí)”(Federated Learning)指的是在滿足隱私保護(hù)和數(shù)據(jù)安全的前提下,設(shè)計(jì)一個(gè)機(jī)器學(xué)習(xí)框架,使各個(gè)機(jī)構(gòu)在不交換數(shù)據(jù)的情況下進(jìn)行協(xié)作,提升機(jī)器學(xué)習(xí)的效果。其核心就是解決數(shù)據(jù)孤島和數(shù)據(jù)隱私保護(hù)的問(wèn)題,通過(guò)建立一個(gè)數(shù)據(jù)“聯(lián)邦”,讓參與各方都獲益,推動(dòng)技術(shù)整體持續(xù)進(jìn)步。大會(huì)上,來(lái)自微眾銀行AI部門的高級(jí)算法工程師黃啟軍也為觀眾展示了聯(lián)邦學(xué)習(xí)的落地案例之一——視覺(jué)橫向聯(lián)邦學(xué)習(xí)系統(tǒng)。

黃啟軍提到,在目標(biāo)檢測(cè)領(lǐng)域,已標(biāo)注數(shù)據(jù)是非常珍貴的資源,各家公司一般都有各自不同場(chǎng)景的標(biāo)注數(shù)據(jù),但這些數(shù)據(jù)相對(duì)散亂,如想利用其它公司已標(biāo)注好的數(shù)據(jù)模型來(lái)建立更優(yōu)模型,只能通過(guò)拷貝聚攏數(shù)據(jù),但這種行為不符合GDPR、《數(shù)據(jù)安全管理辦法》等法律規(guī)范。而引入橫向聯(lián)邦學(xué)習(xí)機(jī)制以后,個(gè)體可以在本地設(shè)備中直接標(biāo)注數(shù)據(jù),無(wú)需上傳。本地模型的訓(xùn)練數(shù)據(jù)標(biāo)注完成后,客戶端將自動(dòng)加入聯(lián)邦,等待進(jìn)行訓(xùn)練,當(dāng)有兩臺(tái)設(shè)備進(jìn)入到等待訓(xùn)練狀態(tài)時(shí),則開(kāi)始進(jìn)行聯(lián)邦學(xué)習(xí)訓(xùn)練模式。

視覺(jué)橫向聯(lián)邦學(xué)習(xí)系統(tǒng)示意

這一案例真實(shí)展現(xiàn)了聯(lián)邦學(xué)習(xí)技術(shù)的價(jià)值,相比于單點(diǎn)模型,聯(lián)邦學(xué)習(xí)使得本地設(shè)備的mAP大幅提升,同時(shí)Lossless更加穩(wěn)定。mAP平均提升15%的數(shù)據(jù)顯示,整體上聯(lián)邦學(xué)習(xí)遠(yuǎn)比單點(diǎn)模型效果更佳。

深度創(chuàng)新,GPU加速聯(lián)邦學(xué)習(xí)再升級(jí)

作為一門具有前景的新興技術(shù),聯(lián)邦學(xué)習(xí)為了完成隱私保護(hù)下的機(jī)器學(xué)習(xí),使用了很多與傳統(tǒng)機(jī)器學(xué)習(xí)不一樣的方法,也因此迎來(lái)了諸多新挑戰(zhàn)。在會(huì)上,黃啟軍也分享了微眾銀行AI部門攜手星云Clustar突破的聯(lián)邦學(xué)習(xí)計(jì)算三大難題:

首先就是大整數(shù)運(yùn)算問(wèn)題,傳統(tǒng)機(jī)器學(xué)習(xí)一般使用的是32-bit的基本運(yùn)算,這些基本運(yùn)算一般都有芯片指令的直接支持,而聯(lián)邦學(xué)習(xí)中的Paillier/RSA算法依賴的是1024或2048-bit 甚至更長(zhǎng)的大整數(shù)運(yùn)算,但現(xiàn)實(shí)情況是,GPU流處理器并不直接支持大整數(shù)運(yùn)算。面對(duì)這一情況,雙方基于分治思想做元素級(jí)并行,通過(guò)遞歸將大整數(shù)乘法分解成可并行計(jì)算的小整數(shù)乘法,從而實(shí)現(xiàn)“化繁為簡(jiǎn)”,間接完成GPU流處理器的大整數(shù)運(yùn)算。

通過(guò)遞歸將大整數(shù)乘法分解成可并行計(jì)算的小整數(shù)乘法示意

其次,大整數(shù)運(yùn)算中多是模冪、模乘等復(fù)雜運(yùn)算,即ab mod c (a,b,c均為N比特大整數(shù)),而GPU做模冪等運(yùn)算的代價(jià)極大,傳統(tǒng)的樸素算法會(huì)優(yōu)先計(jì)算ab,再計(jì)算值對(duì)c取模,這一算法的缺點(diǎn)是復(fù)雜度高達(dá)O(2^N),且中間乘積結(jié)果很大。而單一的平方乘算法則是通過(guò)ak = (ak/2)2 = ((ak/4)2)2實(shí)現(xiàn),雖然復(fù)雜度下降至O(N),且中間結(jié)果大小不超過(guò)c,但因?yàn)樾枰?N次取模運(yùn)算,GPU在此項(xiàng)上花費(fèi)時(shí)間極高。而雙方摘取平方乘算法優(yōu)勢(shì),并加入蒙哥馬利模乘算法計(jì)算模乘,就完全避免了取模運(yùn)算,大幅度降低了GPU的消耗。

最后,在分布式計(jì)算時(shí),聯(lián)邦學(xué)習(xí)不止涉及數(shù)據(jù)中心內(nèi)網(wǎng)傳輸,也有廣域網(wǎng)傳輸?shù)膱?chǎng)景,且密文數(shù)據(jù)體積要增加幾十倍,傳輸?shù)拇螖?shù)也是傳統(tǒng)機(jī)器學(xué)習(xí)的幾倍,雙方通過(guò)RDMA網(wǎng)絡(luò)技術(shù)加上自研的動(dòng)態(tài)參數(shù)聚合模型技術(shù)以及機(jī)器學(xué)習(xí)專業(yè)的網(wǎng)絡(luò)傳輸協(xié)議,對(duì)聯(lián)邦學(xué)習(xí)在數(shù)據(jù)中心內(nèi)通信場(chǎng)景以及跨廣域網(wǎng)通信場(chǎng)景都進(jìn)行了很好的性能優(yōu)化。

走在前沿,聯(lián)邦學(xué)習(xí)推動(dòng)AI行業(yè)大變革

聯(lián)邦學(xué)習(xí)近年來(lái)在學(xué)術(shù)研究、標(biāo)準(zhǔn)制定和行業(yè)落地等方面發(fā)展迅速,有望成為下一代人工智能協(xié)同算法和協(xié)作網(wǎng)絡(luò)的基礎(chǔ),全球范圍內(nèi)也正在掀起“聯(lián)邦學(xué)習(xí)”的熱潮。從GPU加速聯(lián)邦學(xué)習(xí)這樣的底層技術(shù)研究,到IJCAI 2019首屆聯(lián)邦學(xué)習(xí)國(guó)際研討會(huì)等學(xué)術(shù)交流,再到IEEE標(biāo)準(zhǔn)制定推動(dòng)行業(yè)規(guī)范化,聯(lián)邦學(xué)習(xí)在人工智能領(lǐng)域漸露崢嶸,在該領(lǐng)域的影響力顯著提升。而在工具層面,也有諸多企業(yè)機(jī)構(gòu)開(kāi)展研發(fā),如微眾銀行AI團(tuán)隊(duì)開(kāi)源的全球首個(gè)工業(yè)級(jí)的聯(lián)邦學(xué)習(xí)技術(shù)框架 Federated AI Technology Enabler(FATE),不僅提供一系列開(kāi)箱即用的聯(lián)邦學(xué)習(xí)算法,更重要的是給開(kāi)發(fā)者提供了實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)算法和系統(tǒng)的范本,使大部分傳統(tǒng)算法可以經(jīng)過(guò)改造適配到聯(lián)邦學(xué)習(xí)框架中,從而快速加入聯(lián)邦生態(tài)。

此外,在行業(yè)應(yīng)用落地方面,聯(lián)邦學(xué)習(xí)也扇動(dòng)了一股“變革”的颶風(fēng):在金融領(lǐng)域,基于該技術(shù)的多家機(jī)構(gòu)聯(lián)合風(fēng)控模型能更準(zhǔn)確地識(shí)別信貸風(fēng)險(xiǎn),聯(lián)合反欺詐。多家銀行建立的聯(lián)邦反洗錢模型,能解決該領(lǐng)域樣本少、數(shù)據(jù)質(zhì)量低問(wèn)題,在微眾銀行的實(shí)踐中AUC顯著提升12%。

在智慧零售領(lǐng)域,該技術(shù)能有效提升信息和資源匹配的效率。例如,銀行擁有用戶購(gòu)買能力的特征,社交平臺(tái)擁有用戶個(gè)人偏好特征,電商平臺(tái)則擁有產(chǎn)品特點(diǎn)的特征,聯(lián)邦學(xué)習(xí)能在保護(hù)三方數(shù)據(jù)隱私的基礎(chǔ)上進(jìn)行聯(lián)合建模,為用戶提供更精準(zhǔn)的產(chǎn)品推薦等服務(wù),從而打破數(shù)據(jù)壁壘,構(gòu)建跨領(lǐng)域合作,經(jīng)應(yīng)用實(shí)踐,采購(gòu)備貨準(zhǔn)確率提升可達(dá)21.4%。

聯(lián)邦學(xué)習(xí)是大數(shù)據(jù)使用的未來(lái)范式,也是破解數(shù)據(jù)隱私保護(hù)難題的新思路。人工智能不僅是一個(gè)工具,更應(yīng)該是讓社會(huì)更加公平美好的強(qiáng)大推動(dòng)力。聯(lián)邦學(xué)習(xí)勢(shì)必將在未來(lái)助力更多行業(yè)、更多場(chǎng)景發(fā)揮無(wú)限潛能,推動(dòng)AI普惠的實(shí)現(xiàn)。而作為致力于在全球范圍內(nèi)引領(lǐng)和推動(dòng)數(shù)據(jù)隱私保護(hù)下的AI協(xié)作生態(tài)建設(shè)的微眾銀行AI團(tuán)隊(duì),也必將與諸多企業(yè)機(jī)構(gòu)一起,共建行業(yè)更美好的未來(lái)。

分享到

songjy

相關(guān)推薦