Skip to content
随便写写
Go back

Minimax Speech 2.0

Updated:

原文链接 https://arxiv.org/pdf/2505.07916

导言

我个人对Minimax这个公司还是比较友好感的:之前听过几次他们ceo和cto的podcast,能感受到他们不仅有商业上的布局,在技术上也有坚定的追求(linear attention)。所以,我对他们的新模型还是蛮期待的。事实证明,这一次新的tts模型用起来确实很优秀,尤其是在中文语音中。不过这篇技术报告内容一般,一半以上的篇幅都在讲自己效果怎么怎么好,感觉目的可能是秀肌肉居多而不是分享,猜测可能公司有融资方面的压力。

Minimax Speech 2.0是一个自回归的transformer架构tts(Text to Speech)模型,并且达到了sota的结果。这个模型的创新点在于,运用了一个科学系的speaker encoder使得0-shot learning成为可能,并且有也支持one shot。不仅如此,模型还运用了flow matching和flow vae decoder使得生成的效果更好。

数据

很可惜,这篇技术报告并没有提到训练数据的细节,只是含糊的讲了大家都知道的一些数据组成和预处理的方法:训练用了32种语言的数据;采用了两个独立地向ASR(Auto Speech Recognition)模型进行音频转录,加入结果接近可以认为是准确的,否则进一步将处理;用VAD(Voice Activity Detection)配合asr输出时间戳以及标点符号;保留录音中的背景稳态噪声,提高模型在真实环境下的鲁棒性;用SVR(Speaker Verification Model。目前我印象里比较全的TTS模型数据的描述还是来自几年前的open-ai whisper,感觉国内厂商在这一方面还是比较保守。

模型结构

模型的架构是经典的多模态架构:分别将不同模态压缩到一个unified space,然后decode出output。具体来讲,文字是用了经典的bpe作为encoder,语音则是用了Speaker Encoder + Audio Tokenizer,一个用来提取声音特征一个用来提取内容。与其他tts模型不同的是,minimax没有用一个pre-trained的audio encoder,而是把这个encoder和ar transformer用来一起训练。这么做的优点在于,pre-trained encoder的语料数据不够丰富,个人猜测可能对于中文的效果不好,minimax这一次应该是在数据方面加强了中文语料。

架构上的创新使得minimax可以实现高质量的0-shot learning,也就是用户只需要上传一段reference的语音就可以直接通过文字输出想要的声音克隆片段。相比之下,传统的语音模型需要 语音-文本 对进行 1-shot或者fine-tuning 才能达到不错的效果。

flow matching

Flow Matching模型是一种生成模型,本质是学习一种连续变换将简单的分布变成复杂的连续分布,tts模型一般会把ar transformer生成的离散token转换成连续的分布。


1. 自回归 Transformer:生成离散音频 tokens


2. Latent Flow Matching 模块:从离散 tokens 到连续语音特征

自回归 Transformer 输出的离散音频 tokens 随后进入 Latent Flow Matching 模块,该模块包含两个关键组件:

(1) Flow-VAE:优化潜在特征表示


(2) 流匹配模型(Flow Matching Model)


Share this post on:

Previous Post
Design Google Translate
Next Post
Seedream 3.0 Technical Report