在談到雙方合作時,王銳將英特爾和阿里巴巴的合作總結為早、大、深、廣四個方面,“早”指的是技術引入的時間早,“大”是指使用的規(guī)模大,“深”就是合作的程度深,而“廣”就是指合作范圍非常的廣。
云棲大會上,英特爾和阿里云回顧了雙方技術創(chuàng)新合作兩大亮點:容器和AI方面。
其中,云原生底層是容器技術生態(tài),容器是虛擬化技術之后IT業(yè)界的又一巨大創(chuàng)新,基于容器的云原生將會為IT架構發(fā)展帶來巨大影響。而AI作為智能時代的技術引領,也將在很大程度上影響未來社會發(fā)展,因此雙方在AI方面也有著深入的合作。
沙箱容器技術
2020年,阿里云發(fā)布了多款基于沙箱容器技術的云原生產品,阿里云容器產品負責人易立表示,沙箱容器技術主要是為了幫助金融、政府等行業(yè)用戶應對容器部署帶來的安全問題,沙箱容器還可以為Serverless輕量、高效、敏捷的算力來充分釋放其彈性優(yōu)勢。
阿里云資深技術專家劉獎表示,阿里云沙箱容器是基于沙箱技術運行的容器服務,沙箱技術要求在保證資源供給的前提下,保障安全、穩(wěn)定、效率以及彈性。為此,阿里云基于硬件虛擬化自研了輕量級虛擬化技術,以此來提供沙箱隔離能力,并把沙箱隔離技術應用到容器服務,滿足容器服務的快速彈性、高效運行以及能快速拉起業(yè)務的需求。技術路線上,阿里云不僅和英特爾的Cloud-Hypervisor一起構建沙箱技術,也加入Kata社區(qū),共同打造構建容器服務所需要的核心技術能力。
螞蟻集團資深技術專家/Kata Containers架構委員會成員王旭表示,Kata Containers是螞蟻金服和英特爾一起來發(fā)布的開源項目,是螞蟻金服的runV和英特爾的Clear Containers合并而成的,Kata Containers用虛擬化來彌補容器技術在隔離性上的不足,將容器和虛擬化進行結合,在最近一年的開發(fā)重點是和英特爾的Cloud-Hypervisor一起去降低整個沙箱的消耗。
多位技術專家都看好開源以及圍繞開源生態(tài)帶來的積極意義,比如樹立業(yè)內都認可的標準,能打造互通的云,能讓更多人都用得上開源技術。
加密計算容器技術
易立表示,為避免在對數據進行分析、處理、交換時,帶來的安全、隱私、合規(guī)問題,需要對數據進行加密。業(yè)內通常是通過機密計算技術,保證數據在處理過程中始終維持一個加密或隔離的狀態(tài),來保證數據的安全和隱私。
英特爾的SGX是一個非常成熟的機密計算技術,從2018年開始,阿里云與英特爾合作推出了可信的執(zhí)行環(huán)境,但對于許多技術人員來說,直接使用英特爾的SGX SDK來開發(fā)應用仍然具備一定的技術門檻,需要對整個應用架構進行重構。為了進一步普及這項技術,阿里云和螞蟻金服一起開源了加密計算容器,提升加密計算應用的開發(fā)效率,降低使用門檻。
王旭指出,Occlum的LibOS是螞蟻金服開源的一個項目,用戶能夠直接對原有的應用程序進行重新編譯,因此可以直接用上SGX,從而大幅降低 SGX 應用的開發(fā)門檻,既可以保護基礎設施不受惡意攻擊,也能保護用戶的數據和算法,讓用戶可以更加信任基礎設施。
隨著容器部署的密度越來越高,如何保證容器性能就顯得越來越重要了,為了保障SLA免受外界干擾,英特爾還有資源調配技術 (英特爾RDT),以提升應用程序、虛擬機 (VM) 和容器使用共享資源方式的可見性和可控性,能夠實時追蹤服務器節(jié)點上的容器和虛機的資源使用狀況,并進行精準控制,從而保證其能有穩(wěn)定的性能輸出,并大幅提高資源利用率。
AI聯合創(chuàng)新
近年來,英特爾至強不斷提升在AI方面的能力,在第一代至強可擴展處理器Sky Lake中,英特爾引入了AVX-512指令,大幅度提升了FP32模型的執(zhí)行效率。在第二代平臺Cascade Lake之中,英特爾引入了支持Int8數據類型的加速指令——英特爾DL Boost的技術。在AI推理方面,相對于FP32,模型推理性能提升可達到4倍之多。
在最新的第三代至強可擴展處理器Cooper Lake之中,英特爾引入了針對BF16數據格式的優(yōu)化指令。所有這些新的硬件加速指令,都可以讓開發(fā)者在開發(fā)新的復雜模型時,有更多的精度選擇,同時,也能夠讓至強處理器在訓練場景應用中發(fā)揮更大作用。
為了充分發(fā)揮硬件加速指令的作用,英特爾還做了許多軟件棧的優(yōu)化,最主要的就是oneAPI。oneAPI包含了一系列高性能加速庫和完整的工具鏈,其中和AI性能加速相關的有兩個,一個是AI分析工具集,另一個是深度學習框架開發(fā)工具集,包括常見的OpenVINO、OneDNN,還有Pytorch、Tensorflow、MXNet等等。
在實際應用過程中,往往還需要一些定制功能,在阿里云機器學習平臺PAI(Platform of Artificial Intelligence)的構建當中就涉及一些與英特爾的定制化合作。
PAI有一個支持拖拉拽方式構建工作流的PAI Studio;有可提供沉浸式開發(fā)體驗的工具DSW,讓機器學習開發(fā)者像用Jupyter一樣在云上運行自己的算法,訓練并部署自己的模型;還有一個命名為PAI-DLC的基于K8S的分布式訓練平臺,以及一系列加速訓練工具和模型構建工具。
與此同時,阿里云第七代ECS也使用了英特爾第三代至強可擴展處理器,基于雙方的深度合作,其充分發(fā)揮了該處理器AI加速指令的作用。PAI作為首批全面支持BF16的PaaS平臺,充分發(fā)揮了硬件的性能,使得訓練和推理都有了明顯的性能加速,而且,用戶無需改變代碼及模型就能直接享受到這些加速能力。
與想象中不同的是,PAI不僅在推理方面的性能有明顯提高,在訓練方面效果也很明顯,阿里云智能研究員林偉表示,PAI的用戶群里有很多人在CPU平臺上進行模型訓練,通過DL Boost的BF16的能力,訓練性能得到了兩倍提升,通過整合英特爾OneDNN1的庫和阿里云的深度學習的引擎,性能又提高1.3倍。
傲騰持久內存應用
阿里云資深技術專家劉獎還表示,如今大數據、AI等許多應用對于內存的需求非常大,為解決傳統(tǒng)內存密度有限的問題,阿里云開始應用英特爾傲騰持久內存?;谟猩疃鹊募夹g使用技巧并結合業(yè)務模型,阿里云應用傲騰持久內存后不僅獲得了較大的內存容量,計算速度和效率也并未受到影響。
阿里云智能技術戰(zhàn)略總監(jiān)陳緒介紹說,阿里云基于英特爾傲騰持久內存推出了阿里云ECS持久內存版,在參數服務器這種內存密集型場景中使用傲騰持久內存后,可以在性能基本不受損失的情況下,大幅降低成本。
同樣基于傲騰持久內存,阿里云還推出了企業(yè)版的Redis數據庫方案(Tair),性能可達傳統(tǒng)內存方案的90%,成本降低30%,而且使每一個操作都是持久化,真正做到了掉電不丟失數據。
結語
對于阿里云來說,超大規(guī)模的用戶數量、多樣化且復雜的應用負載以及對領先性能的極致需求,使其在選擇基礎設施時不僅需要考慮高性價比和高性能,全面的軟硬件支持和完善的生態(tài)體系也必不可少。而作為領先的基礎設施供應端,英特爾通過全面的產品領導力、解決方案創(chuàng)新力和生態(tài)構建力,與阿里云以技術合作為基礎,推動全面創(chuàng)新,加速將技術轉化為產品的速度,為用戶創(chuàng)造更多價值。這種強強合作不僅為雙方帶來諸多積極影響,也將深度造福用戶和產業(yè)。