訓(xùn)練大模型燒錢,租用算力更現(xiàn)實(shí)
企業(yè)要做自己的大模型,首先要解決的就是大模型訓(xùn)練的基礎(chǔ)設(shè)施問(wèn)題——算力。企業(yè)自建算力好,還是租用算力好?陳健建議:“大模型對(duì)算力的需求極大,動(dòng)輒十幾億,光電費(fèi)就要幾百萬(wàn),企業(yè)采用租用算力是風(fēng)險(xiǎn)最小、資金利用最優(yōu)的方式。”
“據(jù)我們觀察,在超算領(lǐng)域有90%是自建的,但大模型出來(lái)后自建的比例在明顯降低。一半以上都在租用?!?/p>
做大模型訓(xùn)練不僅關(guān)系到企業(yè)計(jì)算算力成本的問(wèn)題,還關(guān)系到企業(yè)業(yè)務(wù)方向和企業(yè)資金周轉(zhuǎn)效率的問(wèn)題。從企業(yè)經(jīng)營(yíng)風(fēng)險(xiǎn)上看,陳健認(rèn)為:“如果企業(yè)訓(xùn)練的模型是面向ToC領(lǐng)域,產(chǎn)品風(fēng)險(xiǎn)相對(duì)就比較大。如果是做面向ToB的大模型,一般能拿到用戶端在算力方面的費(fèi)用,這樣風(fēng)險(xiǎn)會(huì)相對(duì)較小。如給銀行做客服大模型,這種應(yīng)用場(chǎng)景比較確定,風(fēng)險(xiǎn)也就比較小?!?/p>
算力的利用效率也就是資金的利用效率。陳健表示:“超算領(lǐng)域大家拼的就是算力的利用率。如果企業(yè)大概確定自建算力的利用率能夠連續(xù)5年達(dá)到或超過(guò)60%,那自建就沒(méi)太大風(fēng)險(xiǎn)。在超算云領(lǐng)域,租用的利用率總體上能達(dá)到60%,是國(guó)內(nèi)自建超算算力平均利用率的2倍。”
從企業(yè)經(jīng)營(yíng)策略上看,“服務(wù)器的生命周期大概就是5年。如果采用購(gòu)買服務(wù)器的方式自建,等于將5年的錢投入一次性支付。這種情況對(duì)企業(yè)尤其是初創(chuàng)企業(yè)的現(xiàn)金流是極大的考驗(yàn)。如果過(guò)早地將現(xiàn)金都套在高折舊的資產(chǎn)上,這對(duì)公司的經(jīng)營(yíng)會(huì)帶來(lái)較大的影響,不劃算。從另一個(gè)角度來(lái)看,初創(chuàng)企業(yè)的融資是一輪一輪進(jìn)行的,越在早期,同樣數(shù)量的融資額所占的股份比例就越大,股權(quán)融資成本高。這筆錢如果用來(lái)一次性支付5年的計(jì)算資源,這種做法并不明智。企業(yè)應(yīng)把未來(lái)的錢花在今天的經(jīng)營(yíng)、業(yè)務(wù)增長(zhǎng)上?!标惤∵@樣分析道。
“以并行科技為例,我們是一家提供超算的服務(wù)商,要滿足大模型訓(xùn)練,在GPU或計(jì)算卡上的投入就是幾個(gè)億。我們測(cè)算了一下,購(gòu)買1000張H800,按市場(chǎng)價(jià),就要投入3億資金。如此大額的投資我們也不能貿(mào)然投入。而是采用算力網(wǎng)絡(luò)模式,和三大運(yùn)營(yíng)商合作,由運(yùn)營(yíng)商出錢購(gòu)買算力,我們做總包運(yùn)營(yíng),大家合作分成,來(lái)解決重資產(chǎn)這個(gè)難題?!?/p>
“因此,買不如租,大部分企業(yè)會(huì)選擇租用的模式。企業(yè)在算力規(guī)劃上還是要根據(jù)自身的發(fā)展情況。通用大模型發(fā)展非??欤懔X的速度也非???,都是以億元為計(jì)。企業(yè)如果在沒(méi)有融到足夠的資金,還是不要采用自建算力的模式?!?/p>
加速落地,超算更適合大模型訓(xùn)練
市面上可選的算力租用方式無(wú)非就三種:云計(jì)算模式,采用公有云的方式;裸金屬模式,也就是傳統(tǒng)的服務(wù)器托管,以物理機(jī)的形式交付;還有就是超算模式,用海量的GPU卡,通過(guò)業(yè)務(wù)調(diào)度的方式變成一個(gè)大的計(jì)算池,用戶用的時(shí)候從中選擇自己所需要的GPU卡,用完再釋放掉這張卡資源,以便別人調(diào)用。
“我們認(rèn)為,采用GPU集群的超算模式更適合大模型的訓(xùn)練?!标惤〗忉尩溃骸按竽P偷挠?xùn)練本質(zhì)上就是一個(gè)超大的訓(xùn)練任務(wù),比如在1000張(或更多)GPU卡上跑兩三個(gè)月,就是一個(gè)典型的超算應(yīng)用場(chǎng)景?!?/p>
“云計(jì)算或者說(shuō)云主機(jī)模式,就是一個(gè)GPU服務(wù)器分給很多用戶共享,是海量的單臺(tái)、單節(jié)點(diǎn)的共享,并且還是單節(jié)點(diǎn)內(nèi)部的GPU卡資源的共享??上攵@個(gè)共享級(jí)別不足以支撐大模型訓(xùn)練需要成百上千張卡成功跑一兩個(gè)月這樣的應(yīng)用場(chǎng)景?!?/p>
“采用GPU集群的超算模式是大模型訓(xùn)練較具成本優(yōu)勢(shì)的方式。用戶只需對(duì)自己真實(shí)使用的GPU算力進(jìn)行付費(fèi)。而不是租了一年,調(diào)試要三個(gè)月,這三個(gè)月的調(diào)試期也要付費(fèi)?!彼詿o(wú)論從算力對(duì)大模型訓(xùn)練場(chǎng)景的支撐能力,還是實(shí)際租用帶來(lái)的使用體驗(yàn),尤其是成本消耗上,超算都可謂是大模型訓(xùn)練的上乘之選。
堅(jiān)持“三(數(shù)據(jù)、應(yīng)用、模型)不碰”原則,超算中立且安全
“提供超算的企業(yè)自己并不做模型,也就是不跟自己的客戶進(jìn)行競(jìng)爭(zhēng)?!标惤≌J(rèn)為這是對(duì)那些依靠訓(xùn)練大模型創(chuàng)業(yè)和提升企業(yè)競(jìng)爭(zhēng)力的企業(yè)一種極大的保護(hù)。他表示:“像一些算力服務(wù)商,他們既提供算力又提供模型,也就會(huì)發(fā)生和自己的客戶相競(jìng)爭(zhēng)的局面?!?/p>
“并行科技在商業(yè)邏輯上嚴(yán)格限制自己的行為范圍,我們只做算力或者通過(guò)算力網(wǎng)絡(luò)整合算力,做好平臺(tái),做好與應(yīng)用的適配,做好應(yīng)用執(zhí)行時(shí)的值守,確保應(yīng)用的穩(wěn)定、正常運(yùn)行,讓整個(gè)訓(xùn)練過(guò)程順利完成?!?/p>
“此外,我們更重要的是要做好優(yōu)化,讓程序跑得快。例如,我們有個(gè)客戶用500張GPU卡訓(xùn)練,通過(guò)計(jì)算優(yōu)化,我們幫他提升了40% 的性能。”
“我們主要通過(guò)技術(shù)服務(wù)、應(yīng)用服務(wù)以及性能優(yōu)化,幫助客戶提升訓(xùn)練效率。我們最主要的優(yōu)勢(shì)體現(xiàn)在:一、確保用戶有GPU卡可以用;二、通過(guò)技術(shù)服務(wù)讓客戶感到好用;三、通過(guò)算力優(yōu)化降低用戶用GPU卡的成本并提升效率。”
大模型爆發(fā)式增長(zhǎng),在需求強(qiáng)勁和相關(guān)產(chǎn)業(yè)政策催化的雙輪驅(qū)動(dòng)下,將迎來(lái)智能算力基礎(chǔ)設(shè)施建設(shè)的大擴(kuò)容時(shí)代。企業(yè)在看到市場(chǎng)前景的同時(shí),也要考慮到產(chǎn)業(yè)風(fēng)險(xiǎn)和經(jīng)營(yíng)效率,做好頂層規(guī)劃與技術(shù)積累,才能在機(jī)遇到來(lái)時(shí)既不錯(cuò)過(guò),也不踏空?!咀髡撸黑w曉勤 來(lái)源:并行科技】