阿里巴巴開源首個圖像生成模型Qwen-Image

阿里巴巴旗下的AI團隊通義千問(Tongyi Qianwen,Qwen)繼開源Qwen語言模型、多模態模型Qwen-VL之後,周一(8/4)開源了首個圖像生成模型Qwen-Image。
Qwen-Image採用MMDiT(Masked Multimodal Diffusion Transformer)架構,具備200億個參數,支援使用者輸入文字或圖像以產生圖像,也能控制圖像的樣式,並針對於圖像中嵌入中文及英文進行了最佳化。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *