100种语言任意翻译-开放智能

在科幻小说《银河系漫游指南》中，作家道格拉斯·亚当斯描绘了一种神奇的宇宙生物——巴别鱼，它以脑电波能量为生，能够使人们在将其塞进耳朵后，即刻理解任何语言的内容，轻松与外星人交流。同名电影也已于 2005 年上映。

自从小说问世以来，“巴别鱼”便成为了即时语音翻译的象征。然而，当时人类的翻译技术距离这一设想仍有很大的差距，始终未出现统一的语音到语音翻译模型。

如今，科幻电影中的“巴别鱼”，Meta 用 AI 真的实现了——推出大规模多语言和多模态机器翻译模型——SeamlessM4T。

据介绍，SeamlessM4T 可以在语音和文本之间实现即时翻译和转录，支持以下五种功能：

近 100 种语言的自动语音识别；
近 100 种输入和输出语言的语音到文本翻译；
语音到语音翻译，支持近 100 种输入语言和 35 种（加上英语）输出语言；
近 100 种语言的文本到文本翻译；
文本到语音翻译，支持近 100 种输入语言和 35 种（加上英语）输出语言。

为了构建这一模型，Meta 重新设计了 Fairseq 序列建模工具包，从而创建更轻量级的模型，处理更多信息。

在模型方面，Meta 采用了多任务 UnitY 模型架构，这一架构能够直接生成翻译文本和语音。这个新架构还支持自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译，这些功能已经成为基本 UnitY 模型的一部分。多任务 UnitY 模型由三个主要的顺序组件组成，其中文本和语音编码器负责识别近 100 种语言的语音输入。随后，文本解码器将这一意义转化为近 100 种语言的文本，然后是文本到单元模型，用于将其解码为 36 种语音语言的离散声学单元。

为了提高模型质量和训练稳定性，自监督编码器、语音到文本、文本到文本翻译组件以及文本到单元模型都经过预训练。最终，解码得到的离散单元通过多语言 HiFi-GAN 单元声码器转化为语音。

利用自监督语音编码器 w2v-BERT 2.0，研究人员分析了数百万小时的多语种语音来学习在语音中找到结构和含义。该编码器可以接收音频信号，将其分解为较小的部分，并构建所述内容的内部表示。由于口语词汇由许多声音和字符组成，研究人员使用长度适配器将它们大致映射到实际单词中。

同样，Meta 利用一个基于 NLLB 模型的文本编码器，将其训练成能够理解近 100 种语言的文本，并生成对于翻译有用的表示。

Meta AI 于2022年在一篇名为“No Language Left Behind: Scaling Human-Centered Machine Translation”的论文中提出了 NLLB 模型，该模型支持 200 种语言，是一种多语言机器翻译系统。

经过训练的文本解码器能够接收编码的语音表示或文本表示。这可应用于同一语言的任务，如自动语音识别和多语种翻译任务。例如，有人可以说法语中的“bonjour”，然后期望斯瓦希里语中的翻译文本是“habari”。通过多任务训练，Meta 利用 NLLB 模型来通过 token 级别的知识蒸馏，来引导他们的语音到文本翻译模型。

另外，Meta 使用声学单元来表示目标语音。UnitY 模型中的文本到单元（T2U）组件根据文本输出生成这些离散的语音单元，并在 UnitY 微调之前在 ASR 数据上进行了预训练。然后，使用多语言 HiFi-GAN 单元声码器将这些离散单元转换为音频波形。

在上述功能的加持下，SeamlessM4T 可以识别说话者何时进行代码切换，或者何时在一句话中在两种或更多语言之间切换。

此外，Meta 还构建了一个可涵盖 200 种语言的多语言多模态文本嵌入空间——SONAR。然后，利用师生方法将其扩展到语音领域，涵盖 36 种语言。通过在网络数据和语音数据中进行挖掘，他们自动对齐了超过 443000 小时的语音和文本，并创造了 29000 小时的语音对齐数据。这个名为 SeamlessAlign 的语料库是迄今最大的开放式语音、语音和语音以及文本平行语料库。

测评结果显示，SeamlessM4T 在近 100 种语言中实现了最先进的结果，并跨自动语音识别、语音到文本、语音到语音、文本到语音以及文本到文本翻译的多任务支持，全部由单一模型完成。此外，Meta 还显著提升了对低资源和中资源语言的性能，同时在高资源语言上保持了强大的表现。

为了更准确地评估系统，不仅依赖于基于文本的度量标准，Meta 将无文本度量标准扩展到了 BLASER 2.0，这使得在语音和文本单元之间进行评估时，与其前身相比能够获得类似的准确性。在鲁棒性测试中，与当前最先进的模型相比，该系统在语音到文本任务中对抗背景噪音和说话者变化的性能表现更好（分别平均提升了 37% 和 48% ）。