腾讯混元开放代码和算法，可免费商用-开放智能

例如，当笔者在腾讯混元助手中输入如下提示词以后，即“帮我画一个头像：动漫风格，黑色蓬松短卷发，年轻女性，四分之二侧脸，手拿单反相机，望着后面的雪山背景”，几秒钟内就能得到一张符合要求的头像（如下图的左图所示）。

图丨对比图：左图由腾讯混元助手生成、由图由其他大模型生成（来源：真实评测图）

如果将相同的提示词输入进某大模型中，虽然也能获得一张头像（如上图的右图所示），但却可以很明显地发现后者图像质量不高、眼球眼白不均、人物手部也存在手指长度不够、不符合真实形状等畸变问题。

相比之下，前者不仅拥有饱满的画面和高清的质量，人物手部也真实形象、线条流畅。值得注意的是，拥有如此文生图效果的腾讯混元文生图大模型，已经在2024年5月14日实现全面升级并对外开源，供广大企业和开发者免费商用。

（来源：资料图）

采用DiT架构，视觉生成效果提升20%以上

本次腾讯混元文生图大模型的升级主要体现在架构、算法、数据质量和工程等方面。

从架构层面看，该模型采用DiT（全称为Diffusion With Transformer）架构。这是一款基于Transfomer架构的扩散模型，也被OpenAI发布的Sora和Stability AI推出的Stable Diffusion 3这两种大语言模型所采用。

（来源：资料图）

扩散模型，是文生图的核心模型。它的工作原理是，先收集大量原始图像并对其标签化，然后在上面一层层地添加随机噪点，直到该图像无限接近纯粹噪点，以此获得训练的原始数据集；在训练阶段，让模型通过输入指令一层层迭代并去除噪点，直到还原出原始图片，就是符合描述图片的过程。

过去几年，主流的文生图模型以基于U-Net架构的扩散模型为主。随着文生图模型加入的参数越来越多、图像或指令越来越复杂，U-Net架构也开始陷入性能瓶颈，并面临着扩展性问题。基于此，为让文生图模型更加智能，生成令用户满意的高质量图像，更多研究者开始聚焦文生图领域的Transformer建模方案。

腾讯混元团队认为，基于 Transformer 架构的扩散模型具备更高的可扩展性。因此，其自2023年7月起开始长达半年的研发工作，到2024年2月初其将模型基础架构升级为Transformer，并在多个评测维度上全面超越基于U-Net的文生图模型。

实际上，Transformer无法通过语言生成图片，并且DiT对于算力和数据量的要求非常高，但文生图领域缺乏高质量的图片描述与图像样本训练数据。所以，为解决这些问题，腾讯混元团队对算法和数据质量分别进行改进和优化。

从算法层面来看：

首先，目前混元模型的长文本理解能力，最高可支持256个字符的图片生成指令，远超过业界主流的77个字符。

其次，自主训练中文原生文本编码器，增加模型的中文原生理解能力，能够在古诗词、中华美食等中国传统元素的生成上取得出色表现。

再次，增加多轮对话能力，让模型不仅能够连贯地理解上下文，还能保证同一话题下图片主体的一致性。

比如，可以在某个话题下先后输入不同的提示词，包括“生成一朵长在森林中的白色玫瑰”“背景换成室内，花插在瓶中”“花改为百合花”“花瓣改成粉色”“让蝴蝶落在花瓣上”“改成动漫风格”等，让腾讯混元文生图大模型生成符合不同要求的图片（如下图所示）。

（来源：资料图）

从数据质量层面来看，对语言模型的数据质量和图片训练数据的处理流程均进行了优化，提升了文生图图文训练数据的质量，并使模型具备较强的泛化性。

另外，从工程优化层面来看，为该模型构建专属工程加速工具库，有效地提高模型训练与运行效率，以及算力资源的利用率。

那么，上述不同层面的升级，给该模型带来了怎样的效果提升？

数据显示，在通用场景下，模型的整体视觉生成效果提升超过20%，这既体现在画面真实感、质感与细节、空间构图等方面，又体现在细粒度、多轮对话、真实人像生成等场景下。

而基于腾讯混元文生图大模型目前具备的能力，腾讯混元团队也制定了两方面未来规划。腾讯文生图负责人芦清林表示：“一是不断提升模型的技术能力，二是让模型应用更加广泛。”

图丨芦清林（来源：资料图）

从技术上说，腾讯混元团队将通过构建参数量更大的模型、筛选更高质量的中文语料等手段，提升模型的生成速度和质量。

从应用上说，腾讯混元团队将推动模型应用于更广泛的业务场景，包括腾讯内部的广告、社交等场景和外部客户的场景。

面向社会全面开源，联合共建基于DiT架构的视觉生成生态

如上所说，目前腾讯混元文生图大模型已面向社会全面开放，包含模型权重、推理代码、模型算法等在内的完整模型，已发布至Hugging Face平台及GitHub上。

令人好奇的是，腾讯为何要选择在这个时间节点开源文生图大模型？

其实，如果关注文生图大模型领域就会知道，基于文生图的开源开发者生态已经形成，开源社区呈现出强大的生命力，数量庞大的开发者正在基于Stable Diffusion精调垂直场景丰富的大模型。

但是，在目前DiT架构已经显示出巨大潜力的情况下，上述开源社区依然主要基于U-Net架构的模型做开发，并未有先进的DiT架构充分开源，更没有中文原生的DiT文生图架构。

另一方面，经过较长时间的优化，腾讯混元团队已经探索出基于DiT架构的首个中文原生文生图模型，并将该模型的水平提升至国内第一、国际领先。

在这样的条件下，如果开源这一最新的研发成果，将有利于全球范围的企业和个人开发者使用，既节省了人力物力，又降低了AI的使用门槛。

同时，只有更多开发者共建基于DiT架构的视觉生成生态，才能更好地验证、挖掘该技术架构的潜力，这也是腾讯在该领域贡献力量的重要体现。

另外，在腾讯看来，该模型是同类开源模型中“最强”的一个。

对此，芦清林表示：“首先，目前DiT架构中没有一个模型是中文原生开源的；其次，我们利用超20个维度对腾讯混元文生图大模型进行综合评估，发现它不仅没有明确的短板，在语义理解、数量表达、颜色表达等多个方面还存在显著优势，综合评分比较高。”

而开源后的腾讯混元文生图大模型，也会给业界和用户带来如下帮助。

一方面，社交、游戏、娱乐、广告等多个行业都可以在自家业务中应用该模型提供的能力。比如，2024年初，腾讯广告就基于该模型发布了一站式AI广告创意平台妙思，可为广告主提供文生图、商品背景合成等多场景创意工具，有效提升广告生产和投放效率。

另一方面，国内用户在使用这一业界首个中文原生DiT架构文生图模型时，能减少在使用外国模型时需要付出的适配成本。

据了解，在开源方面，腾讯一直秉持开放态度，尤其是AI领域。如芦清林所言，“在曾经的小模型时代，是否开源差别并不大，因为研究人员看了相关论文后，可以在所用数据和资源较少的条件下复现出来；但现在有一个问题是，如果业界不开放一些大体量的基础模型，独立的研究人员甚至一个大型实验室很难做出一个好的基础模型。我们希望能够通过开源，推动整个生态共建”。

THE END

AIGC AIGC类工具产品 AI工具产品开源模型经验

腾讯混元开放代码和算法，可免费商用

近期文章

近期评论