IDC預(yù)測(cè),到2028年全球數(shù)據(jù)量Global DataSphere將增長至393.8ZB,相比于2018年增長9.8倍。從2024到2028五年間生成的數(shù)據(jù)量將至少是過去10年生成的數(shù)據(jù)總量的2.2倍,約為過去5年生成的數(shù)據(jù)總量的2.9倍。具體來看,平均每年生成的數(shù)據(jù)中有10%是創(chuàng)建和采集的原始數(shù)據(jù),其余為復(fù)制或消費(fèi)的數(shù)據(jù)。
具體來看,全球數(shù)據(jù)量有以下趨勢(shì):
? 2023年每秒產(chǎn)生4.2PB的數(shù)據(jù),這一數(shù)字在2028年將增長至12.5PB;
? 由于數(shù)據(jù)分析和生成式AI的廣泛應(yīng)用,企業(yè)數(shù)據(jù)占比將從64%增長至81%(2023至2028);
? 數(shù)據(jù)上云/云上服務(wù)更加明顯,到2028年,37%的數(shù)據(jù)將會(huì)在云端直接產(chǎn)生,超過60%的數(shù)據(jù)會(huì)最終存儲(chǔ)在云上;
雖然數(shù)據(jù)量占比從2023年的92.9%降低至2028年的82.3%,但非結(jié)構(gòu)化數(shù)據(jù)仍然是最主要的數(shù)據(jù)形式。值得注意的是,結(jié)構(gòu)化數(shù)據(jù)的增長速度更快,2023-2028年復(fù)合年增長率達(dá)到49.3%,這主要是由元數(shù)據(jù)的增長推動(dòng)的,元數(shù)據(jù)將數(shù)據(jù)情境化并賦予數(shù)據(jù)意義,從而實(shí)現(xiàn)數(shù)據(jù)分析以及聯(lián)合GenAI的數(shù)據(jù)驅(qū)動(dòng)決策。
超實(shí)時(shí)數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)處理需求增多。2023年全球生成的數(shù)據(jù)中有5.2%為超實(shí)時(shí)數(shù)據(jù)(Ultra Real-Time,數(shù)據(jù)傳輸延遲<40ms),16.7%為實(shí)時(shí)數(shù)據(jù)(Real-Time,數(shù)據(jù)傳輸延遲≥40ms,≤200ms),78.1%為名義時(shí)間數(shù)據(jù)(Nominal-Time,數(shù)據(jù)傳輸延遲>200ms)。未來將會(huì)有更多的實(shí)時(shí)數(shù)據(jù)處理和分析需求出現(xiàn),以及GenAI的驅(qū)動(dòng),實(shí)時(shí)數(shù)倉、湖倉一體、數(shù)據(jù)集成工具、BI工具將有更多增長空間。
生成式AI也是影響數(shù)據(jù)圈的重要因素。當(dāng)前GenAI生成數(shù)據(jù)中超過35%都為文本類型,但隨著技術(shù)的演進(jìn)升級(jí),到2028年,超過75%的生成數(shù)據(jù)將會(huì)均勻分布在文本、圖像、視頻類型,同時(shí)也有接近18%的數(shù)據(jù)為軟件代碼。因此技術(shù)供應(yīng)商需要面向長期發(fā)展,預(yù)測(cè)由GenAI帶來的混合內(nèi)容生成、處理和存儲(chǔ)需求,來提供更加低延遲、高性能的服務(wù)。
IDC中國高級(jí)分析師李浩然表示,數(shù)據(jù)量和關(guān)系復(fù)雜度的上升都會(huì)為數(shù)據(jù)管理工作帶來更大的挑戰(zhàn),企業(yè)在實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一存儲(chǔ)、管理的同時(shí),需要關(guān)注數(shù)據(jù)扁平化與數(shù)據(jù)間邏輯關(guān)聯(lián),避免數(shù)據(jù)多次復(fù)制導(dǎo)致的資源浪費(fèi),保證可通過AI、元數(shù)據(jù)分析技術(shù)來全局、一致的發(fā)現(xiàn)和管理數(shù)據(jù)資產(chǎn)。