天翼云作為國家云已經越過了智能云發(fā)展的拐點。面向人工智能時代,天翼云積極構建領先的智算云能力體系,打造“息壤”一體化智算平臺,突破了多項算力互聯調度關鍵技術,擁有強大的算網調度能力、高效的異構計算能力、一站式的訓推服務能力,并積累了豐富的落地應用案例。
強大的算網調度能力 高效調度實現供需匹配
“息壤”突破了多項關鍵技術, 可實現跨域跨服務商異構算力一體化供給。通過算力插件和算力網關,實現了算力的統(tǒng)一、高效和云化接入;通過算數協(xié)同和多級算力互聯調度,實現了算數網的一體化調度,數隨算走,算隨數動,調度區(qū)域更廣,算力更泛在;借助大模型認知能力和業(yè)務調度,實現算力選擇和應用部署簡單化,故障自動恢復與負載均衡,使算力簡便易用。
基于上述技術突破,“息壤”可賦能三大應用場景:一是天翼云自營的公共算力服務,目前已接入多家算力生態(tài)合作伙伴,滿足公有云客戶的多元算力需求;二是行業(yè)算力互聯網,如國資央企智算云管理調度平臺,接入多家央企算力,提升算力利用率;三是城市算力互聯網,通過整合區(qū)域內多方算力,實現算力一網化、統(tǒng)籌一體化、調度一站式。
高效的異構計算能力 為大模型提供高性能計算平臺
依托“息壤”高效的異構計算能力,可破解大模型訓練推理過程中面臨的大算力、高性能、高穩(wěn)定等諸多挑戰(zhàn)。通過并行文件存儲、低延時超大規(guī)模RDMA網絡等措施,有效提升綜合算效,滿足大算力需求;通過AI框架升級、存儲加速,實現checkpoint文件快速保存、加載,將國產算力的綜合算效提升到了行業(yè)可比水平,滿足高性能算力需求;通過多項指標的監(jiān)控分析,實現故障訓前發(fā)現,有效控制大模型訓練中斷恢復時長,實現訓練任務長期穩(wěn)定、高可用運行?;趪a萬卡智算集群和自研智算平臺,天翼云已具備支撐萬億參數基礎大模型訓練的能力。
一站式的訓推服務能力 降低大模型應用創(chuàng)新開發(fā)門檻
面向行業(yè)大模型訓推場景,“息壤”一站式訓推服務能力可有效解決訓練部署工程復雜、訓推效率低、訓練中斷頻繁等問題,降低大模型應用創(chuàng)新開發(fā)門檻。具體而言,“息壤”將大模型精調場景簡化操作至選數據、選硬件和選模型三個步驟,顯著提升部署效率;通過自研AI框架、3D并行加速、自研訓練加速庫、容器調度優(yōu)化等核心技術,大幅提升訓練效率;通過模型量化壓縮、自研推理加速算子庫、自研AI推理加速框架等核心技術,提高推理效率;通過全鏈路故障檢測、定位、告警,全鏈路日志監(jiān)控與可視化、斷點續(xù)訓快速恢復等核心技術,實現訓推過程全鏈路監(jiān)控。當前,“息壤”已在多地智算中心、人工智能實驗室等項目中應用實踐。
共建開放模型應用生態(tài) 共筑AI產業(yè)繁榮
構建開放的產業(yè)生態(tài),是加快推動人工智能和實體經濟深度融合的重要路徑。面對中文AI資源治理匱乏、技術門檻制約AI+應用落地等核心挑戰(zhàn),天翼云魔樂(Modelers)開發(fā)者社區(qū),聚合中文優(yōu)質AI資源,孵化國產原生模型,加速伙伴商業(yè)閉環(huán),促進AI使能千行百業(yè)。魔樂(Modelers)開發(fā)者社區(qū)集成了模型庫、數據集和體驗空間等核心組件,覆蓋自然語言處理、視覺、音頻等領域,提供原生模型、易用開發(fā)工具、豐富的生態(tài)資源,助力開發(fā)者高效進行AI應用創(chuàng)新,促進國產AI生態(tài)繁榮,打造國際AI創(chuàng)新高地。天翼云還開放AI云電腦平臺,打造AI應用中心,提供AI助手、AI空間、AI客服、AI低代碼等AI創(chuàng)新應用,使AI應用能夠更廣泛地接入和使用,全力構建開放的模型、數據、應用生態(tài)。
國云筑基,智算引擎。未來,天翼云將繼續(xù)肩負國云使命,堅持核心技術自主研發(fā),不斷提升智算服務能力,全面賦能新質生產力發(fā)展,攜手行業(yè)合作伙伴,共同開創(chuàng)數字經濟高質量發(fā)展的新未來。