跳动百科

B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿

卢美强   来源:网易

B站推出文本转语音模型IndexTTS

2025年2月27日,B站发布了一款创新的文本转语音模型——IndexTTS。这款模型的最大亮点在于其能够根据拼音纠正汉字的发音,从而大大提高了语音合成的准确性。此外,IndexTTS还能根据文本中的标点符号来精准控制语音的停顿,使得合成的语音更加自然流畅。

据悉,IndexTTS系统经过了数万小时的数据训练,性能卓越,已经超越了当前流行的多款TTS系统。在多个模块上,特别是在扬声器条件特征表示和音频质量优化方面,IndexTTS都进行了深度改进。通过引入混合建模的方式,该模型能够快速纠正误读的汉字,显著提升了用户的使用体验。

在多项评测中,IndexTTS表现出色,字词错误率(WER)和扬声器相似性(SS)等指标均优于许多同行模型。这款模型的推出,标志着B站在文本转语音技术方面取得了重要突破,也为广大用户提供了更加便捷、高效的语音合成解决方案。