這讓我們開始思考AI訓練中文件系統(tǒng)的必要性以及VAST的發(fā)展方向,因此我們向丹沃斯提出了一些問題。

Blocks & Files:為什么像DDN這樣的文件系統(tǒng)供應(yīng)商被Nvidia用于其自身的存儲,獲得了SuperPOD認證,以及被X用于其Colossus AI集群,還有許多其他客戶用于AI應(yīng)用?同樣的觀點也適用于NetApp、Pure和WEKA。顯然,許多客戶,包括Nvidia,都在使用文件系統(tǒng)(無論是平行的還是非平行的)進行AI訓練。這是為什么?

杰夫·丹沃斯(Jeff Denworth):這不是非黑即白的問題,而是逐步演進的。歷史上,所有AI訓練框架都需要POSIX/文件接口。只有開發(fā)自己框架的公司才會考慮使用對象存儲,而這種情況僅限于頂尖的公司。

格倫·洛克伍德(Glenn Lockwood)在這里闡述了一個例子。

許多客戶仍在使用文件系統(tǒng)……我的觀點并不是它們沒有被使用,而是如今你需要多協(xié)議支持,否則僅靠文件系統(tǒng)的解決方案會導(dǎo)致非常糟糕的投資保護。框架的演變速度比客戶的投資決策更快。客戶現(xiàn)在開始進行轉(zhuǎn)變,我們經(jīng)常聽到他們表示,他們喜歡能夠在同一數(shù)據(jù)上同時以兩種模式工作。

別忘了,Nvidia還收購了一家對象存儲公司(SwiftStack)。這說明了很多問題。

Blocks & Files:是否有大型語言模型(LLM)僅使用直接來自對象存儲系統(tǒng)的數(shù)據(jù)進行訓練?這種能力肯定只是最近才隨著Cloudian、MinIO、Nvidia和Scality等公司在對象數(shù)據(jù)存儲方面的GPUDirect類訪問設(shè)施的進步而出現(xiàn)的?

杰夫·丹沃斯(Jeff Denworth):是的。在我所知的全球排名前十的模型中:

Blocks & Files:VAST構(gòu)建了一個專注于AI的軟件棧,即VAST數(shù)據(jù)平臺,包括基礎(chǔ)數(shù)據(jù)存儲、其數(shù)據(jù)目錄(DataCatalog)、數(shù)據(jù)庫(DataBase)、數(shù)據(jù)空間(DataSpace)和數(shù)據(jù)引擎(DataEngine),以實現(xiàn)其“思考機器”愿景,我們認為這些是必要的軟件層。然而,OpenAI的ChatGPT和其他生成式AI模型開發(fā)者已經(jīng)證明,你可以擁有智能聊天機器人而無需這些軟件。給他們一個向量數(shù)據(jù)庫和文件系統(tǒng),他們就可以完成任務(wù)。看看DDN、IBM、NetApp、Pure和WEKA,它們都獲得了Nvidia SuperPOD認證。

杰夫·丹沃斯(Jeff Denworth):總是有可能集成一個解決方案;這并不意味著它是實用的或高效的。

VAST……打破了規(guī)模、事務(wù)性、安全性等方面的權(quán)衡,以提供(在我看來)AI檢索的最佳可能方法。大多數(shù)組織處理GB級數(shù)據(jù)集,認為他們有一個好的解決方案。我們設(shè)想的是一個世界,AI嵌入模型可以理解所有數(shù)據(jù)的時效性和相關(guān)性,因為數(shù)據(jù)正在被分塊和向量化……所有數(shù)據(jù)都將被向量化,數(shù)萬億個向量需要在恒定時間內(nèi)可搜索,無論向量空間的大小……只有我們的架構(gòu)才能做到這一點。

一個能夠管理每秒數(shù)十萬到數(shù)百萬個文件的攝取、實時處理和索引的系統(tǒng)……以及立即將所有數(shù)據(jù)更新傳播到索引,以便企業(yè)永遠不會看到過時的數(shù)據(jù)。一個不需要昂貴的基于內(nèi)存的索引的系統(tǒng),因為傳統(tǒng)的分區(qū)方法是低效的。你需要DASE(分離式存儲架構(gòu))來實現(xiàn)所有這些。

最后……底層數(shù)據(jù)源需要是可擴展的且企業(yè)級的……我不確定你還能從哪里得到這些,除了VAST。

Blocks & Files:ChatGPT風格的技術(shù)是否否定了VAST軟件棧的需求?

杰夫·丹沃斯(Jeff Denworth):恰恰相反。代理應(yīng)用的興起,組織在GPU時間內(nèi)的計算增加了對我們技術(shù)的需求。在你考慮這個問題時,我建議你停止將AI和RAG(檢索增強生成)僅僅視為聊天機器人……未來商業(yè)的速度將不是由人類處理數(shù)據(jù)的速度決定的。Nvidia計劃在未來幾年內(nèi)部署1億個代理來增強其5萬名員工的工作——所有這些代理將共同處理復(fù)雜的商業(yè)任務(wù)。你不認為這將推動傳統(tǒng)存儲和數(shù)據(jù)庫系統(tǒng)的邊界嗎?

我認為我看到的未來與你看到的非常不同。一切都將關(guān)乎規(guī)模、GPU時間和處理前所未有的數(shù)據(jù)量以思考難題的能力。你看到我的博客了嗎?

星際之門(Stargate)的宣布將是眾多公告中的第一個。Dario Amodei在Anthropic也宣布了計算能力需要擴大100倍。這不僅僅是用于訓練。系統(tǒng)二/長期思考將改變世界與數(shù)據(jù)的關(guān)系,并促使對更大數(shù)據(jù)量的需求。

Blocks & Files:VAST從零開始開發(fā)原始存儲技術(shù),然后是類似思考機器的軟件棧。這個技術(shù)創(chuàng)意時期現(xiàn)在是否已經(jīng)結(jié)束,從現(xiàn)在開始只有漸進的技術(shù)進步和業(yè)務(wù)流程的發(fā)展?未來的愿景是什么?

杰夫·丹沃斯(Jeff Denworth):我可以自信地說,我們擁有業(yè)務(wù)中最富有創(chuàng)造力和最雄心勃勃的團隊。每一次客戶互動都為我們提供了未來十年的更多靈感……我們很幸運能夠與世界上最聰明的客戶合作。假設(shè)我們已經(jīng)變得自滿、安逸和滿足,這將是一個危險的假設(shè)。

我不打算通過電子郵件來闡述我們的愿景,因為我不認為這對我們雙方都有任何好處,但也許下次我們見面時可以更多地談?wù)勎磥怼?/p>

Blocks & Files:你的陣列可以在C節(jié)點上運行應(yīng)用程序軟件,提供計算存儲。這是否類似于將陣列變成該應(yīng)用程序的服務(wù)器直接附加存儲(DAS),從而否定了共享存儲資源的基本目的?

杰夫·丹沃斯(Jeff Denworth):跨機器共享數(shù)據(jù)訪問是我們所做的事情的核心。現(xiàn)代機器需要實時訪問PB到EB級數(shù)據(jù),以獲得全局數(shù)據(jù)理解。你不能將這些數(shù)據(jù)固定在任何一臺主機上。這些功能在哪里以及如何運行只是一個打包練習……我們喜歡效率,所以我們可以盡可能地整合……但DAS與我們的思維方式完全相反。分離式存儲不僅可能,我們已經(jīng)向世界證明,這是一種非常實用的方法,可以達到極端水平的數(shù)據(jù)訪問和數(shù)據(jù)處理并行性。

Blocks & Files:你如何確定計算存儲陣列中的計算資源大???

杰夫·丹沃斯(Jeff Denworth):我們每天都在學習更多關(guān)于如何確定大小的知識。比如I/O負載、查詢負載、功能速度、事件通知活動、QoS管理、RAS(可靠性、可用性和可維護性)等等。

分享到

nina

相關(guān)推薦