阿里巴巴推出 Qwen-Image 圖像生成模型,強調語義與影像一體化

大棍巴

14 回覆
1 Like 8 Dislike
大棍巴 2025-08-05 00:43:51
https://huggingface.co/Qwen/Qwen-Image



阿里巴巴發布 Qwen-Image,主打在理解文字語境後直接生成影像,試圖縮短「說了什麼」與「畫出什麼」之間的差距。以簡單描述「黃昏時一條有霧的街道,路旁有紙燈籠」為例:Stable Diffusion 會依照這句話一步步從模糊構圖去噪,最終生成符合關鍵字但細節可能顯得拼貼、燈籠和霧的關聯性較弱;Qwen-Image 則據稱在語言與畫面同時處理下,能更自然地把「紙燈籠在霧中發光、黃昏光線漫開」融合成一張整體感強的畫面。

與 Stable Diffusion 相比,Qwen-Image 不是把文字當作外掛條件再「照譜」作畫,而是更像邊聽敘述邊即時調整畫面的廚師,讓語境中的關係(如「霧讓燈光柔化」)自動體現在影像之中。




在處理影像中包含文字的情況下,傳統擴散模型如 Stable Diffusion 仍普遍表現不佳,字母扭曲、錯位或出現非語義亂碼,是因為這類模型學習的是整體圖樣的統計特徵而非精確的符號結構,缺乏對字形、間距、字體規則的內建理解,導致「在圖裡畫清楚一段文字」變成難題。反觀 Qwen 系列在多模態理解上強調語言與視覺的共同建模(如 Qwen VLo 的說明),此一架構理論上能讓文字作為語義的一部分被更準確嵌入圖中,而不是外加條件式地後置包裹,對於「圖中要有清晰可讀的文字」這類需求有潛在改善空間(但具體實作細節尚未完全公開)。
天才小釣手 2025-08-05 00:47:27
仲以為佢今晚放Qwen 3剩低個幾隻細size嘅update版
點知原來係新嘢
大棍巴 2025-08-05 00:49:36
本身都以為係
不過有新gen 圖工具都好,只係有啲太大
中六合彩頭獎 2025-08-05 01:34:06
巴巴Ai科技進步一日千里,

連皮褸Wong都話好犀利

可惜話事人去做外賣仔玩鬥平
debugger; 2025-08-05 11:13:28
30b a3b好完美,食ram唔食電不知幾開心
水原干鶴 2025-08-05 11:15:02
gen唔gen到禁圖先
大棍巴 2025-08-05 11:18:20
原版應該ban nsfw ,不過佢係open source,被破解係時間問題。
天才小釣手 2025-08-07 07:45:08
今日出咗update版4b
你對力量一無所知 2025-08-07 07:52:09
開始玩ai先知中国啲model 咁堅
我口爆條女 2025-08-07 08:33:49
整唔整到坦克人?
天才小釣手 2025-08-07 09:23:03
整唔到亞男白女

Meta AI 被指無法生成異族情侶圖片 外媒:亞洲男人與白人妻子不能同時出現
- 分享自 LIHKG 討論區
https://lih.kg/3677684
港女洋腸夢 2025-08-07 10:09:59
港女洋腸夢 2025-08-07 10:12:04
Chatgpt, claude 最強,之後嘅排名就係中國Model大混戰
薩爾達 2025-08-07 11:47:31
試過QWEN會出亂碼字
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞