性能顯著提高。

類Sora架構(gòu)加持文生圖:Stable Diffusion 3.0圖像更逼真,可顯示指定文字

2024-02-23 13:45:44發(fā)布     來源:多知網(wǎng)    作者:Penny  

  多知網(wǎng)2月23日消息,Stability AI今天發(fā)布了其 Stable Diffusion 3.0下一代旗艦文本到圖像生成 AI 模型的早期預(yù)覽版,在圖像質(zhì)量、多個對象、拼寫能力方面都有顯著提高,它采用了與Sora模型類似的架構(gòu)。

  根據(jù)介紹,Stable Diffusion 3.0旨在提供改進(jìn)來自多主題提示的圖像質(zhì)量和生成圖像有更好的性能,它還將提供比之前的Stable Diffusion更好的文字渲染,從而使生成的圖像內(nèi)部的拼寫更加準(zhǔn)確和一致。

WechatIMG24.jpg

  (Stable Diffusion3生成的圖片,文字清晰可見)

  Stability AI的首席執(zhí)行官Emad Mostaque提到,Stable Diffusion 3 采用了Diffusion Transformer架構(gòu),這是一種新型的架構(gòu)設(shè)計,與OpenAI最近推出的Sora模型采用的架構(gòu)相似。  

WechatIMG26.jpg

  (Stable Diffusion3生成的圖片,圖像質(zhì)量高)

  在過去的一年里,Stability AI一直在穩(wěn)步迭代并發(fā)布多個圖像模型,每個模型的復(fù)雜程度和質(zhì)量都在不斷提高。7月份發(fā)布的 SDXL極大地改進(jìn)了Stable Diffusion 的基礎(chǔ)模型,現(xiàn)在該公司正在尋求進(jìn)一步的改進(jìn)。

  對于文生圖模型來說,根據(jù)Prompt讓生成的圖像中帶有指定的文字一直是個難題,Stable Diffusion 3.0則能很好的解決這個問題。

WechatIMG25.jpg

  (Stable Diffusion3生成的圖片,文字清晰可見)

  Stable Diffusion 3.0的模型參數(shù)在以800M 到 8B之間。

  根據(jù)介紹,現(xiàn)在用戶已經(jīng)可以在加入候補名單,申請Stable Diffusion 3.0的訪問權(quán)限了:https://stability.ai/stablediffusion3

  實際上,Stability AI在文生視頻上也在發(fā)力,此前已經(jīng)推出Stable Video,目前已經(jīng)開放公測。

  剛剛第一季度,AIGC賽道已經(jīng)熱鬧非凡,就文生圖來說還有Midjourney及OpenAI旗下的DALL-E 3,個個身懷絕技。(多知網(wǎng) Penny)