Kyutai TTS：一款开源TTS文本转语音模型，超低延迟语音合成工具

Kyutai TTS 是一款针对实时应用优化的文本转语音模型。它提供超低延迟、高准确率的语音合成，并支持文本流式输入和长音频生成，适用于各种需要实时语音交互的场景，例如语音助手、实时字幕生成等。Kyutai TTS 的独特之处在于其延迟流建模技术，使其在实时性能方面显著优于其他模型。

Kyutai TTS功能

高准确性语音合成：Kyutai TTS 的字错误率 (WER) 远低于其他模型，英语和法语分别为 2.82% 和 3.29%，确保语音输出的准确性。
高保真语音克隆：模型在语音相似度方面表现出色，英语和法语分别达到 77.1% 和 78.7%，生成的语音高度还原原始音频的音色和风格。
超低延迟实时处理：从接收第一个文本标记到生成第一段音频，Kyutai TTS 的延迟仅为 220 毫秒，即使在处理 32 个并发请求时，延迟也仅为 350 毫秒，确保实时应用的流畅性。
文本流式处理：Kyutai TTS 支持文本流式输入，可以实时处理由大型语言模型生成的文本，无需等待完整文本输入，显著提高效率。
长音频生成支持：Kyutai TTS 可生成任意长度的音频，突破了传统模型在长音频生成方面的限制。
生产就绪型服务器：Kyutai TTS 提供了健壮的 Rust 服务器，支持通过 WebSockets 进行流式访问，并提供 Dockerfile 以方便部署。
单词级时间戳输出：Kyutai TTS 输出包含精确的单词时间戳，可用于生成实时字幕或处理用户中断等场景。
多语言支持：目前支持英语和法语，未来将支持更多语言。

官网链接：https://kyutai.org/next/tts

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。