例如,当笔者在腾讯混元助手中输入如下提示词以后,即“帮我画一个头像:动漫风格,黑色蓬松短卷发,年轻女性,四分之二侧脸,手拿单反相机,望着后面的雪山背景”,几秒钟内就能得到一张符合要求的头像(如下图的左图所示)。
图丨对比图:左图由腾讯混元助手生成、由图由其他大模型生成(来源:真实评测图)
如果将相同的提示词输入进某大模型中,虽然也能获得一张头像(如上图的右图所示),但却可以很明显地发现后者图像质量不高、眼球眼白不均、人物手部也存在手指长度不够、不符合真实形状等畸变问题。
相比之下,前者不仅拥有饱满的画面和高清的质量,人物手部也真实形象、线条流畅。值得注意的是,拥有如此文生图效果的腾讯混元文生图大模型,已经在2024年5月14日实现全面升级并对外开源,供广大企业和开发者免费商用。
(来源:资料图)
采用DiT架构,视觉生成效果提升20%以上
本次腾讯混元文生图大模型的升级主要体现在架构、算法、数据质量和工程等方面。
从架构层面看,该模型采用DiT(全称为Diffusion With Transformer)架构。这是一款基于Transfomer架构的扩散模型,也被OpenAI发布的Sora和Stability AI推出的Stable Diffusion 3这两种大语言模型所采用。
(来源:资料图)
扩散模型,是文生图的核心模型。它的工作原理是,先收集大量原始图像并对其标签化,然后在上面一层层地添加随机噪点,直到该图像无限接近纯粹噪点,以此获得训练的原始数据集;在训练阶段,让模型通过输入指令一层层迭代并去除噪点,直到还原出原始图片,就是符合描述图片的过程。
过去几年,主流的文生图模型以基于U-Net架构的扩散模型为主。随着文生图模型加入的参数越来越多、图像或指令越来越复杂,U-Net架构也开始陷入性能瓶颈,并面临着扩展性问题。基于此,为让文生图模型更加智能,生成令用户满意的高质量图像,更多研究者开始聚焦文生图领域的Transformer建模方案。
腾讯混元团队认为,基于 Transformer 架构的扩散模型具备更高的可扩展性。因此,其自2023年7月起开始长达半年的研发工作,到2024年2月初其将模型基础架构升级为Transformer,并在多个评测维度上全面超越基于U-Net的文生图模型。
实际上,Transformer无法通过语言生成图片,并且DiT对于算力和数据量的要求非常高,但文生图领域缺乏高质量的图片描述与图像样本训练数据。所以,为解决这些问题,腾讯混元团队对算法和数据质量分别进行改进和优化。
从算法层面来看:
首先,目前混元模型的长文本理解能力,最高可支持256个字符的图片生成指令,远超过业界主流的77个字符。
其次,自主训练中文原生文本编码器,增加模型的中文原生理解能力,能够在古诗词、中华美食等中国传统元素的生成上取得出色表现。
再次,增加多轮对话能力,让模型不仅能够连贯地理解上下文,还能保证同一话题下图片主体的一致性。
比如,可以在某个话题下先后输入不同的提示词,包括“生成一朵长在森林中的白色玫瑰”“背景换成室内,花插在瓶中”“花改为百合花”“花瓣改成粉色”“让蝴蝶落在花瓣上”“改成动漫风格”等,让腾讯混元文生图大模型生成符合不同要求的图片(如下图所示)。
(来源:资料图)
从数据质量层面来看,对语言模型的数据质量和图片训练数据的处理流程均进行了优化,提升了文生图图文训练数据的质量,并使模型具备较强的泛化性。
另外,从工程优化层面来看,为该模型构建专属工程加速工具库,有效地提高模型训练与运行效率,以及算力资源的利用率。
那么,上述不同层面的升级,给该模型带来了怎样的效果提升?
数据显示,在通用场景下,模型的整体视觉生成效果提升超过20%,这既体现在画面真实感、质感与细节、空间构图等方面,又体现在细粒度、多轮对话、真实人像生成等场景下。
而基于腾讯混元文生图大模型目前具备的能力,腾讯混元团队也制定了两方面未来规划。腾讯文生图负责人芦清林表示:“一是不断提升模型的技术能力,二是让模型应用更加广泛。”
图丨芦清林(来源:资料图)
从技术上说,腾讯混元团队将通过构建参数量更大的模型、筛选更高质量的中文语料等手段,提升模型的生成速度和质量。
从应用上说,腾讯混元团队将推动模型应用于更广泛的业务场景,包括腾讯内部的广告、社交等场景和外部客户的场景。
面向社会全面开源,联合共建基于DiT架构的视觉生成生态
如上所说,目前腾讯混元文生图大模型已面向社会全面开放,包含模型权重、推理代码、模型算法等在内的完整模型,已发布至Hugging Face平台及GitHub上。
令人好奇的是,腾讯为何要选择在这个时间节点开源文生图大模型?
其实,如果关注文生图大模型领域就会知道,基于文生图的开源开发者生态已经形成,开源社区呈现出强大的生命力,数量庞大的开发者正在基于Stable Diffusion精调垂直场景丰富的大模型。
但是,在目前DiT架构已经显示出巨大潜力的情况下,上述开源社区依然主要基于U-Net架构的模型做开发,并未有先进的DiT架构充分开源,更没有中文原生的DiT文生图架构。
另一方面,经过较长时间的优化,腾讯混元团队已经探索出基于DiT架构的首个中文原生文生图模型,并将该模型的水平提升至国内第一、国际领先。
在这样的条件下,如果开源这一最新的研发成果,将有利于全球范围的企业和个人开发者使用,既节省了人力物力,又降低了AI的使用门槛。
同时,只有更多开发者共建基于DiT架构的视觉生成生态,才能更好地验证、挖掘该技术架构的潜力,这也是腾讯在该领域贡献力量的重要体现。
另外,在腾讯看来,该模型是同类开源模型中“最强”的一个。
对此,芦清林表示:“首先,目前DiT架构中没有一个模型是中文原生开源的;其次,我们利用超20个维度对腾讯混元文生图大模型进行综合评估,发现它不仅没有明确的短板,在语义理解、数量表达、颜色表达等多个方面还存在显著优势,综合评分比较高。”
而开源后的腾讯混元文生图大模型,也会给业界和用户带来如下帮助。
一方面,社交、游戏、娱乐、广告等多个行业都可以在自家业务中应用该模型提供的能力。比如,2024年初,腾讯广告就基于该模型发布了一站式AI广告创意平台妙思,可为广告主提供文生图、商品背景合成等多场景创意工具,有效提升广告生产和投放效率。
另一方面,国内用户在使用这一业界首个中文原生DiT架构文生图模型时,能减少在使用外国模型时需要付出的适配成本。
据了解,在开源方面,腾讯一直秉持开放态度,尤其是AI领域。如芦清林所言,“在曾经的小模型时代,是否开源差别并不大,因为研究人员看了相关论文后,可以在所用数据和资源较少的条件下复现出来;但现在有一个问题是,如果业界不开放一些大体量的基础模型,独立的研究人员甚至一个大型实验室很难做出一个好的基础模型。我们希望能够通过开源,推动整个生态共建”。
暂无评论内容