Text encoder 唔同左,大家未慣點用,咪好似SDxL 出果陣鳩叫Sd1.5 is the best , stable diffusion is dead 一樣。
不過,依家放出嚟個2B medium model 係undertrained 同censor 係事實,但係prompt coherence 明顯提升,畫質係16 Channel vae 下都唔錯,一定係最強base model
其實SD3 係要落三組prompt , clip l, clip g , T5 ,T5 係detail
全世界依家只係落一組prompt 就可能易出事(好快應該有大神fine tune) ,當然唔否認censor 係仆街架啦,你可以當SD3 做refiner , lol

