一致性模型思路,打破固有

核心原理

sCM的核心原理是基于一致性模型思路,通過直接將噪聲轉(zhuǎn)換為無噪聲樣本來生成數(shù)據(jù)。

在傳統(tǒng)擴散模型中,數(shù)據(jù)生成過程被視作一條從噪聲到數(shù)據(jù)的漸進路徑,每一步都通過去噪來逐漸恢復(fù)數(shù)據(jù)的清晰度。

一致性模型則恰恰相反,可找到一條更直接的路徑,在單步或少數(shù)幾步內(nèi)直接從噪聲狀態(tài)跳躍到數(shù)據(jù)狀態(tài)。

sCM采用了連續(xù)時間框架,使得模型在理論上可以在連續(xù)的時間軸上進行操作,從而避免了離散時間模型中的離散化誤差。在連續(xù)時間于一致性模型中,模型的參數(shù)化、擴散過程和訓練目標都被重新定義,以適應(yīng)連續(xù)時間的設(shè)置。

例如,模型的參數(shù)化不再依賴于離散的時間步,而是直接依賴于時間本身。這種連續(xù)時間的參數(shù)化方式使得模型能夠更精確地捕捉數(shù)據(jù)生成過程中的動態(tài)變化。

網(wǎng)絡(luò)架構(gòu)方面

sCM引入了改進的時間條件、自適應(yīng)組歸一化、新的激活函數(shù)和自適應(yīng)權(quán)重,以提高模型的訓練穩(wěn)定性和生成質(zhì)量。改進的時間條件使得模型能夠更準確地感知時間t的變化,從而在生成過程中做出更合理的決策。

自適應(yīng)組歸一化則有助于模型在訓練過程中保持內(nèi)部特征的穩(wěn)定性,減少訓練過程中的噪聲干擾。新的激活函數(shù)被引入以增強模型的非線性表達能力,使得模型能夠更好地學習復(fù)雜的數(shù)據(jù)分布。

而自適應(yīng)權(quán)重的引入允許模型根據(jù)訓練數(shù)據(jù)的分布動態(tài)調(diào)整損失函數(shù)中的權(quán)重,從而減少了不同時間步長之間的損失方差。

總結(jié)起來看sCM模型基于擴散模型的不同在于:

sCM是基于擴散模型的改進: sCM依賴于擴散模型的PF-ODE來定義訓練目標和采樣路徑,它并不是一個完全獨立的模型。

sCM關(guān)注單步去噪: sCM的訓練目標是學習一個能夠在單個時間步內(nèi)進行有效去噪的函數(shù),而不是像擴散模型那樣進行多步迭代去噪。

sCM采樣速度更快: 由于sCM只需要進行少量采樣步驟(例如兩步),因此其采樣速度比擴散模型快得多。

sCM并非一步到位:sCM的單步去噪并非一步到位地去除所有噪聲,而是沿著PF-ODE的軌跡向更清晰的方向移動一步,多次迭代操作最終達到去噪效果。

sCM:兩步到位,速度起飛!

OpenAI基于之前的consistency models研究,并吸取了EDM和流匹配模型的優(yōu)點,提出了TrigFlow,一個統(tǒng)一的框架。這個框架升級的地方在于,它簡化了理論公式,讓訓練過程更穩(wěn)定,還把擴散過程、擴散模型參數(shù)化、PF-ODE、擴散訓練目標以及CM參數(shù)化都整合成更簡單的表達式了!這為后續(xù)的理論分析和改進奠定了堅實的基礎(chǔ)。

基于TrigFlow,OpenAI開發(fā)出了sCM模型,甚至可以在ImageNet 512×512分辨率上訓練15億參數(shù)的模型,簡直是史無前例!這是目前最大的連續(xù)時間一致性模型!

sCM 最厲害的地方在于,它只需兩步采樣,就能生成與擴散模型質(zhì)量相當?shù)膱D像,速度提升50倍!例如,最大的15億參數(shù)模型,在單個A100 GPU上生成一張圖片只需0.11秒,而且還沒做任何優(yōu)化!如果再進行系統(tǒng)優(yōu)化,速度還能更快,簡直是打開了實時生成的大門!

性能評估與優(yōu)勢

1

高效的圖像生成

OpenAI用FID(Fréchet Inception Distance它是一種用于評估生成模型生成圖像質(zhì)量的指標)分數(shù)(越低越好)和有效采樣計算量(生成每個樣本所需的總計算成本)來評估sCM的性能。

結(jié)果顯示,sCM兩步采樣的質(zhì)量與之前最好的方法相當,但計算量卻不到10%!在 ImageNet 512×512 上,sCM的FID分數(shù)甚至比一些需要63步的擴散模型還要好!

在CIFAR-10上達到了2.06的FID,ImageNet 64×64上達到了1.48,ImageNet 512×512上達到了1.88,與最好的擴散模型的FID分數(shù)差距在10%以內(nèi)。

2

跨領(lǐng)域生成能力

sCM不僅能夠生成高質(zhì)量的圖像

sCM同樣具備生成三維模型的能力。這對于3D打印、虛擬現(xiàn)實等領(lǐng)域來說具有重要意義,因為它可以快速生成高質(zhì)量的三維模型數(shù)據(jù)。

通過利用sCM的高效生成能力,可以加速三維模型的設(shè)計和制作過程,提高生產(chǎn)效率。

除了圖像和視頻生成外,sCM還能處理音頻內(nèi)容的生成。這擴展了sCM的應(yīng)用范圍,使其能夠在音頻領(lǐng)域也發(fā)揮作用。

在音樂制作、音頻設(shè)計等領(lǐng)域,sCM可以用于生成或編輯音樂和聲音效果,為創(chuàng)作者提供更多的創(chuàng)作靈感和工具。

3

計算成本降低

與傳統(tǒng)擴散模型相比,sCM在保證樣本質(zhì)量的前提下顯著降低了計算成本。這使得sCM在資源受限的環(huán)境中也能實現(xiàn)高效的生成任務(wù)。

未來展望與應(yīng)用

實時視頻生成:隨著sCM的推出,實時視頻生成將不再是夢。sCM的高效采樣能力有望推動視頻生成技術(shù)的進一步發(fā)展,為媒體、娛樂等領(lǐng)域帶來更多創(chuàng)新應(yīng)用。

系統(tǒng)優(yōu)化與定制:OpenAI的研究暗示了進一步系統(tǒng)優(yōu)化的潛力,可以根據(jù)各個行業(yè)的特定需求定制這些模型。這將使得sCM在不同領(lǐng)域中發(fā)揮更大的作用。

推動AI技術(shù)發(fā)展:sCM的發(fā)布不僅提升了圖像生成的速度和質(zhì)量,也為AI技術(shù)的進一步發(fā)展和應(yīng)用提供了新的思路和方法。它將推動AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。

結(jié)語

OpenAI發(fā)布的sCM新型連續(xù)時間一致性模型在圖像生成速度上實現(xiàn)了50倍的提升,這一技術(shù)突破將為實時視頻生成等應(yīng)用帶來革命性的變化。同時,sCM的跨領(lǐng)域生成能力和計算成本降低的優(yōu)勢也將推動AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關(guān)推薦