#语音模型
LFM2-Audio-1.5B:1.5B参数!支持本地实时语音转录
最近在体验一批新发布的音频AI模型时,我注意到一个有趣的现象:云端语音服务越来越便宜,但对隐私敏感、网络受限或追求极低延迟的应用场景,本地离线方案的需求反而在上升。
Liquid AI最近发布的LFM2-Audio-1.5B引起了我的关注&…
Fun-Audio-Chat:阿里巴巴发布全新开源语音交互大模型
在这个大模型满天飞的时代,我们似乎已经习惯了和 AI 文字聊天时的“秒回”与“博学”。但一旦切换到语音通话模式,那种“丝滑感”往往瞬间消失——要…
Kyutai TTS:一款开源TTS文本转语音模型,超低延迟语音合成工具
Kyutai TTS 是一款针对实时应用优化的文本转语音模型。它提供超低延迟、高准确率的语音合成,并支持文本流式输入和长音频生成,适用于各种需要实时语音交互的场景,例如语音助手、实时字幕生成等。Kyutai TTS 的独特之处在于其延迟流…