阿里巴巴推出 Qwen-Image 圖像生成模型，強調語義與影像一體化

大棍巴

14 回覆

1 Like 8 Dislike

大棍巴 2025-08-05 00:43:51

阿里巴巴發布 Qwen-Image，主打在理解文字語境後直接生成影像，試圖縮短「說了什麼」與「畫出什麼」之間的差距。以簡單描述「黃昏時一條有霧的街道，路旁有紙燈籠」為例：Stable Diffusion 會依照這句話一步步從模糊構圖去噪，最終生成符合關鍵字但細節可能顯得拼貼、燈籠和霧的關聯性較弱；Qwen-Image 則據稱在語言與畫面同時處理下，能更自然地把「紙燈籠在霧中發光、黃昏光線漫開」融合成一張整體感強的畫面。

與 Stable Diffusion 相比，Qwen-Image 不是把文字當作外掛條件再「照譜」作畫，而是更像邊聽敘述邊即時調整畫面的廚師，讓語境中的關係（如「霧讓燈光柔化」）自動體現在影像之中。

在處理影像中包含文字的情況下，傳統擴散模型如 Stable Diffusion 仍普遍表現不佳，字母扭曲、錯位或出現非語義亂碼，是因為這類模型學習的是整體圖樣的統計特徵而非精確的符號結構，缺乏對字形、間距、字體規則的內建理解，導致「在圖裡畫清楚一段文字」變成難題。反觀 Qwen 系列在多模態理解上強調語言與視覺的共同建模（如 Qwen VLo 的說明），此一架構理論上能讓文字作為語義的一部分被更準確嵌入圖中，而不是外加條件式地後置包裹，對於「圖中要有清晰可讀的文字」這類需求有潛在改善空間（但具體實作細節尚未完全公開）。

天才小釣手 2025-08-05 00:47:27

仲以為佢今晚放Qwen 3剩低個幾隻細size嘅update版
點知原來係新嘢