首个图像生成基础模型阿里通义千问深夜开源Qwen-Image 支持中英双语-晶发科技

8月5日消息，今天凌晨，阿里通义千问宣布开源Qwen-Image，一个20B的MMDiT模型。

这是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得显著进展。

据了解，该模型专注于提升AI在两大核心场景的能力：复杂的文本渲染与精准的图像编辑。

功能亮点：

强大的文字渲染能力（本次开源）

效果领先：在多个文本测评榜单中，文字渲染均获得SOTA。

原生渲染：文字是图像生成时直出的，而非后期添加，效果更真实。

功能全面：支持中英双语，多变字体，超长段落，超小文字，并可实现复杂的多位置图文布局。

基础扎实：除了文字，模型在人物情绪、细节刻画和多样的风格渲染上也同样表现出色。

精准的图像编辑能力（即将发布）

效果稳定：多个图像编辑测评榜单SOTA。

链式编辑：在多轮连续修改后，仍能保持主体ID的一致性。

文字编辑：可以编辑图像中的文字。

复杂编辑：可编辑人物姿势，提取图像纹理等。

通义千问在多个公开基准上对Qwen-Image进行全面评估，包括用于通用图像生成的GenEval、DPG和OneIG-Bench，以及用于图像编辑的GEdit、ImgEdit和GSO。

Qwen-Image在所有基准测试中均取得了最先进的性能，展现出其在图像生成与图像编辑方面的强大能力。

此外，在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明，Qwen-Image在文本渲染方面表现尤为出色，特别是在中文文本渲染上，大幅领先现有的最先进模型。

除了文本处理，Qwen-Image在通用图像生成方面也表现出色，支持多种艺术风格。

在图像编辑方面，Qwen-Image支持风格迁移、增删改、细节增强、文字编辑，人物姿态调整等多种操作，让普通用户也能轻松实现专业级图像编辑。

本文转载于快科技，文中观点仅代表作者个人看法，本站只做信息存储

阅读前请先查看【免责声明】本文内容由互联网用户自发贡献，该文观点仅代表作者本人，本站仅供展示。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 1217266901@qq.com 举报，一经查实，本站将立刻删除。转载请注明出处：https://www.jingfakeji.com/tech/94054.html