(二)擴(kuò)展悖論

128卡集群在16K/32BS場景下,吞吐量反而比64卡下降7%,這一擴(kuò)展悖論進(jìn)一步凸顯了H20芯片在集群部署方面的困境。這表明H20芯片在大規(guī)模集群部署時,無法充分發(fā)揮其性能優(yōu)勢,甚至?xí)霈F(xiàn)性能下降的情況,無法滿足大模型對高并發(fā)、高吞吐的需求。

四、幻方的選擇與H20的算力瓶頸

(一)幻方的部署方案

幻方為實現(xiàn)更大的吞吐、更低的延時,采用了大規(guī)模專家并行的方案來部署DeepSeek推理。在這個方案中,幻方選用了32張H800來部署Prefill節(jié)點,用了144張H800來部署Decoding推理節(jié)點,最終實現(xiàn)了在50ms的時延下,每張H800達(dá)到了令人震驚的1800+tokens/秒的推理性能。

(二)H20的算力瓶頸分析

通過不同時延要求場景的計算,可以清晰地看到H20芯片的算力瓶頸。在輸入長度2k,輸出長度2k,Decode時延100ms的場景下,MLA計算部分在18路并發(fā)下即達(dá)到算力bound,超過18路并發(fā)會出現(xiàn)明顯的單路性能下降;MoE計算部分最多支持20Batch,達(dá)到算力bound后超過20路并發(fā)也會出現(xiàn)性能下降;其他部分計算在超過48路并發(fā)后完全達(dá)到算力bound,超過48路之后幾乎無法再做任何有效處理。在Decode時延要達(dá)到50ms的場景下,H20在24Batch并發(fā)即出現(xiàn)算力完全瓶頸,無法再提升任何吞吐,超過9batch并發(fā)之后,單路的性能也會出現(xiàn)明顯下降。這充分證明H20芯片的算力無法支撐大模型部署所需的更高并發(fā)路數(shù),無法有效提升單卡吞吐。

五、H20芯片的戰(zhàn)略隱患

英偉達(dá)借助H20芯片營造出一種“可用且實用”的假象,誘導(dǎo)國內(nèi)企業(yè)對其產(chǎn)生依賴。如果企業(yè)長期沉浸在這種依賴中,很可能會放緩自主研發(fā)的腳步,忽視對核心技術(shù)的攻堅突破。從長遠(yuǎn)來看,這將給企業(yè)的技術(shù)升級之路設(shè)置重重障礙,使企業(yè)在全球科技競爭中處于被動地位。

(二)對產(chǎn)業(yè)發(fā)展的阻礙

從產(chǎn)業(yè)發(fā)展的宏觀層面分析,對H20芯片的過度依賴,會使中國人工智能產(chǎn)業(yè)在全球競爭中陷入被動局面。核心技術(shù)無法通過購買或借用輕易獲取,唯有堅定不移地走自主創(chuàng)新之路,才是推動產(chǎn)業(yè)持續(xù)發(fā)展的核心動力與關(guān)鍵所在。倘若中國企業(yè)沉迷于H20芯片帶來的短暫便利,那么很可能會錯失技術(shù)創(chuàng)新的黃金機遇期,在全球人工智能產(chǎn)業(yè)的激烈角逐中被越甩越遠(yuǎn)。

H20芯片在性能、架構(gòu)適應(yīng)性、集群部署和算力等多方面存在著難以克服的缺陷,已無法滿足客戶部署大模型的需求。在科技快速發(fā)展的今天,企業(yè)應(yīng)清醒地認(rèn)識到這一現(xiàn)狀,積極尋求更先進(jìn)、更適配的芯片解決方案,加大自主研發(fā)力度,擺脫對性能受限芯片的依賴,推動人工智能產(chǎn)業(yè)的健康、可持續(xù)發(fā)展。只有這樣,才能在全球人工智能產(chǎn)業(yè)的競爭中占據(jù)一席之地,實現(xiàn)技術(shù)的自主可控和產(chǎn)業(yè)的繁榮昌盛。

文/李祥敬

分享到

nina

相關(guān)推薦