人工智能經過漫長發(fā)展,近些年在算法、算力、數據上取得巨大突破,得以在行業(yè)應用中嶄露頭角,發(fā)揮著舉足輕重的作用。不過隨之而來是一系列的新問題——比如大多數行業(yè)中數據分散形成的「數據孤島」,以及越來越受到關注的「數據隱私保護」問題。針對數據孤島和數據隱私的兩難困境, 微眾銀行AI團隊提出了基于“聯(lián)邦學習”的系統(tǒng)性的通用解決方案,并在GitHub上開源工業(yè)級的聯(lián)邦學習技術框架FATE,能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規(guī)的前提下,進行多方數據使用和聯(lián)合建模。目前微眾AI已經推動FATE在信貸風控、監(jiān)管科技、零售、保險等領域的一系列應用落地。

聯(lián)邦學習的時代背景

陳天健指出,深度學習是技術的選擇,聯(lián)邦學習是歷史的選擇。隨著經濟全球化的發(fā)展,互聯(lián)網時代的到來,產生了海量的數據,深刻地影響著各行各業(yè)。但是伴隨著國外GDPR(《通用數據保護條例》,General Data Protection Regulation)等一系列數據隱私保護法律法規(guī)出臺,數據隱私保護與數據安全問題愈發(fā)受到關注。

國內數據監(jiān)管法律體系研究

同時,國內數據監(jiān)管法律體系也在不斷完善中,并且體現(xiàn)出了兩個特點:

l 嚴格化:數據監(jiān)管越來越嚴格,處罰手段越來越嚴厲;

l 全面化:從個人信息數據的保護,到科學數據、醫(yī)療數據、電商數據等多種數據的保護。

在這種背景下,如何合理合法地運用大數據,讓業(yè)務可以持續(xù)運行下去,就需要聯(lián)邦學習技術。

微眾銀行 AI部門副總經理 陳天健

陳天健表示,聯(lián)邦學習是一種面向安全合規(guī)的大數據合作機器學習技術,和其他技術最本質的區(qū)別在于:聯(lián)邦學習是大數據合作過程中權責和利益的調整工具,是順應當前時代背景而產生的。聯(lián)邦學習的應用場景也十分廣泛,并沒有特別的領域或者具體算法限制,微眾銀行已經在信貸風控、智慧城市管理、機器視覺、裝備故障檢測等各行各樣的應用中和領域合作伙伴開展技術合作,推動聯(lián)邦學習社區(qū)進一步發(fā)展。

無論是中國人工智能開源軟件發(fā)展聯(lián)盟(AIOSS)發(fā)布國內首個聯(lián)邦學習標準,還是越來越多合作咨詢紛至沓來,大量企業(yè)機構都已關注到了聯(lián)邦學習?,F(xiàn)已有多個行業(yè)機構與我們進一步探討聯(lián)邦學習的應用落地,解決數據隱私這一越來越嚴重且全世界人類都在關注的問題。聯(lián)邦學習未來可期。

FATE:新一代聯(lián)邦學習技術及應用實踐

人工智能技術的應用和落地,現(xiàn)實和理想往往有很大差距:

理想:數據質量好、標簽數據充足、數據集中;

現(xiàn)實:數據質量差、缺乏標簽數據、數據分散隔離,80%以上的企業(yè)存在數據孤島問題。

聯(lián)邦學習的分類體系

范濤指出,聯(lián)邦學習是解決上述問題的關鍵技術。其具有:數據隔離數據孤島、無損、對等、共同獲益等特點,根據使用場景的不同,聯(lián)邦學習可以分為:縱向聯(lián)邦學習、橫向聯(lián)邦學習以及聯(lián)邦遷移學習。

微眾銀行 高級研究員  范濤

目前聯(lián)邦學習已經賦能多個領域:

l 銀行+監(jiān)管:聯(lián)合反洗錢建模

l 互聯(lián)網+銀行:聯(lián)合信貸風控建模

l 互聯(lián)網+保險:聯(lián)合權益定價建模

l 互聯(lián)網+零售:聯(lián)合客戶價值建模

遇見 FATE

最后,范濤為大家介紹了微眾銀行主導的聯(lián)邦學習開源項目FATE(Federated AI Technology Enabler)。其核心功能有:

l FATE-Serving:聯(lián)邦在線模型服務

l FATE-Flow & FATE-Board:聯(lián)邦建模Pipeline和可視化

l FATE FederatedML:聯(lián)邦學習算法各個功能組件

l EggRoll:分布式計算和存儲抽象

l Federated Network:跨站點網絡通信抽象

構建端到端的聯(lián)邦學習 Pipeline 生產服務

聯(lián)邦學習的優(yōu)勢在于能夠保證參與各方在數據不出本地,保持數據獨立性的情況下,多方共建模型,共同提升機器學習效果。聯(lián)邦機制下,安全隱私有了優(yōu)勢,但技術上也會面臨更多挑戰(zhàn)。作為一個工業(yè)級的框架,端到端的聯(lián)邦學習Pipeline致力于完成高彈性、高性能的聯(lián)邦學習任務,主要包括建模、訓練、模型管理、生產發(fā)布和在線推理幾個方面。

 端到端的聯(lián)邦學習Pipeline

曾紀策分享了如何靈活調度管理復雜的聯(lián)邦學習任務、可視化聯(lián)邦建模的實現(xiàn)以及在線聯(lián)邦推理服務的思考與實踐,解決實驗性機器學習到實際生產應用落地的難點。

微眾銀行 AI系統(tǒng)架構師  曾紀策

曾紀策重點介紹了:FATE-Flow,端到端的聯(lián)邦學習Pipeline調度平臺。包括如下特性:

l DAG定義聯(lián)邦學習Pipeline:多方非對稱Pipeline DAG、通用json格式DAG DSL、DSL-Parser

l 聯(lián)邦任務協(xié)同調度:多方任務隊列管理、協(xié)同分發(fā)任務、任務一致性保證、多方狀態(tài)同步等

l 聯(lián)邦模型管理:聯(lián)邦模型存取、聯(lián)邦模型一致性、版本管理、發(fā)布管理等

l 聯(lián)邦任務生命周期管理:多方啟停、狀態(tài)檢測等

l 聯(lián)邦任務輸入輸出實時追蹤:數據、模型、自定義指標、日志等實時記錄存儲

分享的最后,曾紀策呼吁大家一起:“Join FATE,Lets Federated Everything!

神盾沙箱:數據合作與安全多方計算揭秘

在數字賦能的浪潮中,機器學習的應用場景非常多。而機器學習又是對數據質量要求極高的應用,產生了較大的數據流通性。無論是特征工程,還是模型訓練和預測,當需要數據合作并保護數據的安全隱私時,安全多方計算技術、聯(lián)邦學習等就有了很大的用武之地。騰訊云神盾數據沙箱基于騰訊現(xiàn)有數字生態(tài),為數據合作提供安全可信的機器學習平臺,覆蓋業(yè)務拉新、聯(lián)合建模與上線服務等場景。

沙箱分布式合作建模

張雄指出:安全多方計算MPC是指針對無可信第三方情況下,安全的進行多方協(xié)同的計算問題。

常用安全多方計算技術有:

l 秘密分享

l 混淆電路

l 不經意傳輸

l 同態(tài)加密

騰訊 神盾沙箱產品技術負責人   張雄 

在分享環(huán)節(jié),張雄首先為大家介紹了MPC中的四個基礎技術。然后從小到大的業(yè)務場景,系統(tǒng)的講解了神盾沙箱的數據合作業(yè)務中,如何應用MPC技術和聯(lián)邦機器學習保護兩個合作方之間的數據安全問題。張雄表示,聯(lián)邦學習框架FATE,可以讓沙箱做到不交互數據資產方和業(yè)務方的原始數據,達到數據隱私保護的目的又可以完成業(yè)務上的數據合作。

最后,張雄講到,神盾沙箱的目標是以騰訊云公有云上現(xiàn)有的大數據生態(tài)為基礎,為那些具備計算或者存儲能力的大數據集群提供一個數據合作的環(huán)境,助力騰訊云上的各行各業(yè)更好的體會到“科技向善,數字賦能”的優(yōu)勢。在未來的規(guī)劃中,會從兩個方面來推進FATE在深度沙箱中的應用。一方面,神盾沙箱會推動公有云上現(xiàn)有的數據資產方使用沙箱部署FATE,幫助那些在己方行業(yè)維度上有數據優(yōu)勢的企業(yè),更深入的挖掘數據的價值,融入到互聯(lián)網數字生態(tài)中。另一方面,神盾數據沙箱希望借助FATE打造騰訊云上的數字生態(tài),吸引那些需要更多數據來提高業(yè)務轉化率的企業(yè),遷移到騰訊云上,實際體會數字賦能的魅力。

此次沙龍為我們揭示了聯(lián)邦學習作為一種可行的辦法如何打破數據孤島。對于聯(lián)邦學習的研究與落地探索不會停止,F(xiàn)ATE也將不斷提升。面對聯(lián)邦學習的未來,陳天健表示:“目前聯(lián)邦學習的應用主要受限于網絡帶寬與芯片的計算力,我們現(xiàn)在主要還是在數據中心做聯(lián)邦學習,這兩者都能比較好地滿足。如果未來需要在手機等邊緣設備上做聯(lián)邦學習,那么更大帶寬的通訊技術和更強勁的邊緣算力必不可少。我非常看好 5G 通訊技術,它能為聯(lián)邦學習帶來足夠的帶寬,同時隨著手機芯片越來越強,聯(lián)邦學習落地到廣大移動端設備并不會太遠?!?/p>

分享到

Fred

baiyan

相關推薦