Stable Diffusion 3來(lái)啦!提示文本理解更好,圖像質(zhì)量更強(qiáng)
激石Pepperstone(http://qintiejiang.com/)報(bào)道:
2月23日,著名大模型開(kāi)源平臺(tái)stability.ai在官網(wǎng)推出了——Stable Diffusion 3。
該版本與Stable Diffusion 2相比,在文本語(yǔ)義理解、色彩飽和度、圖像構(gòu)圖、分辨率、類型、質(zhì)感、對(duì)比度等方面大幅度增強(qiáng),可對(duì)標(biāo)閉源模型Midjourney。
Stable Diffusion 3的參數(shù)在8億——80億之間,也就是說(shuō)Stable Diffusion 3可能是專為移動(dòng)設(shè)備開(kāi)發(fā)的,AI算力消耗將更低,推理速度卻更快。
目前,Stable Diffusion 3支持申請(qǐng)使用,未來(lái)會(huì)擴(kuò)大測(cè)試范圍。
申請(qǐng)地址:https://stability.ai/stablediffusion3
stability.ai沒(méi)有過(guò)多的介紹Stable Diffusion 3的技術(shù)內(nèi)容,但指出其核心架構(gòu)使用了Transformer和Flow FMatching(簡(jiǎn)稱“FM”)。
Transformer大家都很熟悉了,ChatGPT、T5?、BERT等很多著名模型都是基于該架構(gòu)開(kāi)發(fā)的。
而FM是Meta AI和魏茨曼科學(xué)研究所在2022年10月發(fā)布的,一種全新高效建模、訓(xùn)練技術(shù)概念。
Flow Matching論文地址:https://arxiv.org/abs/2210.02747
Flow Matching簡(jiǎn)單介紹
目前,很多文生圖模型使用的是CNF(連續(xù)正規(guī)化流動(dòng))訓(xùn)練方法,主要使用常微分方程對(duì)流動(dòng)進(jìn)行建模,實(shí)現(xiàn)從一種已知分布到目標(biāo)分布的平滑映射。
但由于訓(xùn)練過(guò)程需要進(jìn)行大量的微分方程模擬,會(huì)導(dǎo)致算力成本高、模型設(shè)計(jì)復(fù)雜、可解釋性差等缺點(diǎn)。
FM則是放棄微分方程的直接模擬,而是通過(guò)回歸固定條件概率軌跡來(lái)實(shí)現(xiàn)無(wú)模擬訓(xùn)練。研究人員設(shè)計(jì)了條件概率分布與向量場(chǎng)的概念,利用邊緣分布的結(jié)合可以建立總體目標(biāo)概率軌跡與向量場(chǎng),從而消除了模擬過(guò)程對(duì)梯度計(jì)算的影響。
1)條件概率路徑構(gòu)建:FM需要給出一個(gè)目標(biāo)概率路徑,該路徑從簡(jiǎn)單分布演變到逼近數(shù)據(jù)分布。然后利用條件概率路徑構(gòu)建了目標(biāo)路徑,這樣每個(gè)樣本有一個(gè)對(duì)應(yīng)的條件路徑。
2)變換層:構(gòu)成FM的基本單元,每個(gè)變換層都是可逆的。這意味著從輸入到輸出的每一步映射都可以精確地反轉(zhuǎn),從而允許從目標(biāo)分布反推到原始分布。
3)耦合層:將輸入分成兩部分,對(duì)其中一部分應(yīng)用變換,而變換函數(shù)可以是任意的神經(jīng)網(wǎng)絡(luò),其參數(shù)由另一部分決定,保證了變換的可逆性。
目前,F(xiàn)M技術(shù)已在圖像生成與超分辨率、圖像理解、圖像修復(fù)與填充、條件圖像生成、圖像風(fēng)格遷移與合成、視頻處理等領(lǐng)域得到廣泛應(yīng)用。
Stable Diffusion 3案例展示
本次的發(fā)布頁(yè)面也是由Stable Diffusion 3生成的,提示詞:史詩(shī)般的動(dòng)漫藝術(shù)風(fēng)格,一位巫師站在夜間的山頂上,向黑暗的天空施放咒語(yǔ),上面寫(xiě)著由彩色能量生成的“Stable Diffusion 3”文字
教室桌子上有一個(gè)紅蘋果,電影風(fēng)格,背景的黑板上用粉筆寫(xiě)著“要么做大,要么回家”
一名宇航員騎著一只穿著蓬蓬裙的豬,撐著一把粉色的傘,豬旁邊的地上有一只戴著高帽的知更鳥(niǎo),角落里寫(xiě)著" Stable Diffusion "的字樣。
一只變色龍,黑色背景,攝影風(fēng)格。
一輛跑車的夜間照片,側(cè)面寫(xiě)有“SD3”字樣,汽車在賽道上高速行駛,巨大的路標(biāo)上寫(xiě)著“更快”的文字。
波浪沖擊蘇格蘭燈塔的魚(yú)眼鏡頭照片,黑色波浪。?????????
掃描二維碼推送至手機(jī)訪問(wèn)。
版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。