亚洲综合欧美制服丝袜,在线av观看,中文亚洲爆乳av无码专区

一致性模型思路，打破固有

核心原理

sCM的核心原理是基于一致性模型思路，通過(guò)直接將噪聲轉(zhuǎn)換為無(wú)噪聲樣本來(lái)生成數(shù)據(jù)。

在傳統(tǒng)擴(kuò)散模型中，數(shù)據(jù)生成過(guò)程被視作一條從噪聲到數(shù)據(jù)的漸進(jìn)路徑，每一步都通過(guò)去噪來(lái)逐漸恢復(fù)數(shù)據(jù)的清晰度。

一致性模型則恰恰相反，可找到一條更直接的路徑，在單步或少數(shù)幾步內(nèi)直接從噪聲狀態(tài)跳躍到數(shù)據(jù)狀態(tài)。

sCM采用了連續(xù)時(shí)間框架，使得模型在理論上可以在連續(xù)的時(shí)間軸上進(jìn)行操作，從而避免了離散時(shí)間模型中的離散化誤差。在連續(xù)時(shí)間于一致性模型中，模型的參數(shù)化、擴(kuò)散過(guò)程和訓(xùn)練目標(biāo)都被重新定義，以適應(yīng)連續(xù)時(shí)間的設(shè)置。

例如，模型的參數(shù)化不再依賴于離散的時(shí)間步，而是直接依賴于時(shí)間本身。這種連續(xù)時(shí)間的參數(shù)化方式使得模型能夠更精確地捕捉數(shù)據(jù)生成過(guò)程中的動(dòng)態(tài)變化。

網(wǎng)絡(luò)架構(gòu)方面

sCM引入了改進(jìn)的時(shí)間條件、自適應(yīng)組歸一化、新的激活函數(shù)和自適應(yīng)權(quán)重，以提高模型的訓(xùn)練穩(wěn)定性和生成質(zhì)量。改進(jìn)的時(shí)間條件使得模型能夠更準(zhǔn)確地感知時(shí)間t的變化，從而在生成過(guò)程中做出更合理的決策。

自適應(yīng)組歸一化則有助于模型在訓(xùn)練過(guò)程中保持內(nèi)部特征的穩(wěn)定性，減少訓(xùn)練過(guò)程中的噪聲干擾。新的激活函數(shù)被引入以增強(qiáng)模型的非線性表達(dá)能力，使得模型能夠更好地學(xué)習(xí)復(fù)雜的數(shù)據(jù)分布。

而自適應(yīng)權(quán)重的引入允許模型根據(jù)訓(xùn)練數(shù)據(jù)的分布動(dòng)態(tài)調(diào)整損失函數(shù)中的權(quán)重，從而減少了不同時(shí)間步長(zhǎng)之間的損失方差。

總結(jié)起來(lái)看sCM模型基于擴(kuò)散模型的不同在于：

sCM是基于擴(kuò)散模型的改進(jìn): sCM依賴于擴(kuò)散模型的PF-ODE來(lái)定義訓(xùn)練目標(biāo)和采樣路徑，它并不是一個(gè)完全獨(dú)立的模型。

sCM關(guān)注單步去噪: sCM的訓(xùn)練目標(biāo)是學(xué)習(xí)一個(gè)能夠在單個(gè)時(shí)間步內(nèi)進(jìn)行有效去噪的函數(shù)，而不是像擴(kuò)散模型那樣進(jìn)行多步迭代去噪。

sCM采樣速度更快: 由于sCM只需要進(jìn)行少量采樣步驟（例如兩步），因此其采樣速度比擴(kuò)散模型快得多。

sCM并非一步到位：sCM的單步去噪并非一步到位地去除所有噪聲，而是沿著PF-ODE的軌跡向更清晰的方向移動(dòng)一步，多次迭代操作最終達(dá)到去噪效果。

sCM：兩步到位，速度起飛！

OpenAI基于之前的consistency models研究，并吸取了EDM和流匹配模型的優(yōu)點(diǎn)，提出了TrigFlow，一個(gè)統(tǒng)一的框架。這個(gè)框架升級(jí)的地方在于，它簡(jiǎn)化了理論公式，讓訓(xùn)練過(guò)程更穩(wěn)定，還把擴(kuò)散過(guò)程、擴(kuò)散模型參數(shù)化、PF-ODE、擴(kuò)散訓(xùn)練目標(biāo)以及CM參數(shù)化都整合成更簡(jiǎn)單的表達(dá)式了！這為后續(xù)的理論分析和改進(jìn)奠定了堅(jiān)實(shí)的基礎(chǔ)。

基于TrigFlow，OpenAI開(kāi)發(fā)出了sCM模型，甚至可以在ImageNet 512×512分辨率上訓(xùn)練15億參數(shù)的模型，簡(jiǎn)直是史無(wú)前例！這是目前最大的連續(xù)時(shí)間一致性模型！

sCM 最厲害的地方在于，它只需兩步采樣，就能生成與擴(kuò)散模型質(zhì)量相當(dāng)?shù)膱D像，速度提升50倍！例如，最大的15億參數(shù)模型，在單個(gè)A100 GPU上生成一張圖片只需0.11秒，而且還沒(méi)做任何優(yōu)化！如果再進(jìn)行系統(tǒng)優(yōu)化，速度還能更快，簡(jiǎn)直是打開(kāi)了實(shí)時(shí)生成的大門！

性能評(píng)估與優(yōu)勢(shì)

高效的圖像生成

OpenAI用FID（Fréchet Inception Distance它是一種用于評(píng)估生成模型生成圖像質(zhì)量的指標(biāo)）分?jǐn)?shù)（越低越好）和有效采樣計(jì)算量（生成每個(gè)樣本所需的總計(jì)算成本）來(lái)評(píng)估sCM的性能。

結(jié)果顯示，sCM兩步采樣的質(zhì)量與之前最好的方法相當(dāng)，但計(jì)算量卻不到10%！在 ImageNet 512×512 上，sCM的FID分?jǐn)?shù)甚至比一些需要63步的擴(kuò)散模型還要好！

在CIFAR-10上達(dá)到了2.06的FID，ImageNet 64×64上達(dá)到了1.48，ImageNet 512×512上達(dá)到了1.88，與最好的擴(kuò)散模型的FID分?jǐn)?shù)差距在10%以內(nèi)。

跨領(lǐng)域生成能力

sCM不僅能夠生成高質(zhì)量的圖像

sCM同樣具備生成三維模型的能力。這對(duì)于3D打印、虛擬現(xiàn)實(shí)等領(lǐng)域來(lái)說(shuō)具有重要意義，因?yàn)樗梢钥焖偕筛哔|(zhì)量的三維模型數(shù)據(jù)。

通過(guò)利用sCM的高效生成能力，可以加速三維模型的設(shè)計(jì)和制作過(guò)程，提高生產(chǎn)效率。

除了圖像和視頻生成外，sCM還能處理音頻內(nèi)容的生成。這擴(kuò)展了sCM的應(yīng)用范圍，使其能夠在音頻領(lǐng)域也發(fā)揮作用。

在音樂(lè)制作、音頻設(shè)計(jì)等領(lǐng)域，sCM可以用于生成或編輯音樂(lè)和聲音效果，為創(chuàng)作者提供更多的創(chuàng)作靈感和工具。

計(jì)算成本降低

與傳統(tǒng)擴(kuò)散模型相比，sCM在保證樣本質(zhì)量的前提下顯著降低了計(jì)算成本。這使得sCM在資源受限的環(huán)境中也能實(shí)現(xiàn)高效的生成任務(wù)。

未來(lái)展望與應(yīng)用

實(shí)時(shí)視頻生成：隨著sCM的推出，實(shí)時(shí)視頻生成將不再是夢(mèng)。sCM的高效采樣能力有望推動(dòng)視頻生成技術(shù)的進(jìn)一步發(fā)展，為媒體、娛樂(lè)等領(lǐng)域帶來(lái)更多創(chuàng)新應(yīng)用。

系統(tǒng)優(yōu)化與定制：OpenAI的研究暗示了進(jìn)一步系統(tǒng)優(yōu)化的潛力，可以根據(jù)各個(gè)行業(yè)的特定需求定制這些模型。這將使得sCM在不同領(lǐng)域中發(fā)揮更大的作用。

推動(dòng)AI技術(shù)發(fā)展：sCM的發(fā)布不僅提升了圖像生成的速度和質(zhì)量，也為AI技術(shù)的進(jìn)一步發(fā)展和應(yīng)用提供了新的思路和方法。它將推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。

結(jié)語(yǔ)

OpenAI發(fā)布的sCM新型連續(xù)時(shí)間一致性模型在圖像生成速度上實(shí)現(xiàn)了50倍的提升，這一技術(shù)突破將為實(shí)時(shí)視頻生成等應(yīng)用帶來(lái)革命性的變化。同時(shí)，sCM的跨領(lǐng)域生成能力和計(jì)算成本降低的優(yōu)勢(shì)也將推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。（文/宋雨涵）

分享到

OpenAI

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽