類Sora架構(gòu)加持文生圖：Stable Diffusion 3.0圖像更逼真，可顯示指定文字

2024-02-23 13:45:44發(fā)布來源：多知網(wǎng) 作者：Penny

　　多知網(wǎng)2月23日消息，Stability AI今天發(fā)布了其 Stable Diffusion 3.0下一代旗艦文本到圖像生成 AI 模型的早期預(yù)覽版，在圖像質(zhì)量、多個對象、拼寫能力方面都有顯著提高，它采用了與Sora模型類似的架構(gòu)。

　　根據(jù)介紹，Stable Diffusion 3.0旨在提供改進(jìn)來自多主題提示的圖像質(zhì)量和生成圖像有更好的性能，它還將提供比之前的Stable Diffusion更好的文字渲染，從而使生成的圖像內(nèi)部的拼寫更加準(zhǔn)確和一致。

　　(Stable Diffusion3生成的圖片，文字清晰可見)

　　Stability AI的首席執(zhí)行官Emad Mostaque提到，Stable Diffusion 3 采用了Diffusion Transformer架構(gòu)，這是一種新型的架構(gòu)設(shè)計，與OpenAI最近推出的Sora模型采用的架構(gòu)相似。　　

　　(Stable Diffusion3生成的圖片，圖像質(zhì)量高)

　　在過去的一年里，Stability AI一直在穩(wěn)步迭代并發(fā)布多個圖像模型，每個模型的復(fù)雜程度和質(zhì)量都在不斷提高。7月份發(fā)布的 SDXL極大地改進(jìn)了Stable Diffusion 的基礎(chǔ)模型，現(xiàn)在該公司正在尋求進(jìn)一步的改進(jìn)。

　　對于文生圖模型來說，根據(jù)Prompt讓生成的圖像中帶有指定的文字一直是個難題，Stable Diffusion 3.0則能很好的解決這個問題。

　　(Stable Diffusion3生成的圖片，文字清晰可見)

　　Stable Diffusion 3.0的模型參數(shù)在以800M 到 8B之間。

　　根據(jù)介紹，現(xiàn)在用戶已經(jīng)可以在加入候補(bǔ)名單，申請Stable Diffusion 3.0的訪問權(quán)限了：https://stability.ai/stablediffusion3

　　實(shí)際上，Stability AI在文生視頻上也在發(fā)力，此前已經(jīng)推出Stable Video，目前已經(jīng)開放公測。

　　剛剛第一季度，AIGC賽道已經(jīng)熱鬧非凡，就文生圖來說還有Midjourney及OpenAI旗下的DALL-E 3，個個身懷絕技。(多知網(wǎng) Penny)

商學(xué)院

Open Talk

類Sora架構(gòu)加持文生圖：Stable Diffusion 3.0圖像更逼真，可顯示指定文字

相關(guān)閱讀

商學(xué)院

Open Talk

類Sora架構(gòu)加持文生圖：Stable Diffusion 3.0圖像更逼真，可顯示指定文字

相關(guān)閱讀

類Sora架構(gòu)加持文生圖：Stable Diffusion 3.0圖像更逼真，可顯示指定文字