10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

Talk to 峰哥开源项目:AI 实时声音克隆 + 人格注入,1秒延迟语音对话

1小时前 AI开源项目 9 0

「Talk to 峰哥」是一个开源项目,核心玩法是用 AI 实时克隆一个人的声音和性格,然后跟他进行真正的语音聊天。不是文字转语音的机械朗读,而是像打电话一样来回对话,延迟压到了 1 秒以内。

峰哥只是第一个完整 demo,项目支持替换为其他角色——只要准备好语音素材和人格描述即可。

核心功能

  • 音色克隆:15-45 秒语音素材就能复刻一个人的声音,基于开源 VoxCPM 模型,效果优于市面上多数方案
  • 人格注入:不只是声音像,口头禅、思维方式、说话节奏都能模仿,基于「女娲 Skill」的蒸馏方法论
  • 实时对话:完整链路为用户说话 → 语音识别 → 大模型思考 → 语音合成 → 播放回复,工程延迟控制在 1 秒内
  • 可替换角色:有文档指导如何替换为其他人物
  • 记忆系统(可选):基于 OpenViking,能记住对话中用户提过的事,下次聊天可 recalled

技术栈

项目采用模块化设计,每个环节都有备选方案:

  • 实时传输:LiveKit
  • 语音识别:Cartesia ink-whisper
  • 大模型推理:MiniMax-M2.7(国产、无需翻墙、响应快)
  • 语音合成:VoxCPM(本地 GPU)/ MOSS-TTS(CPU 可跑)/ Cartesia Sonic(云端,$5/月)

部署方式

最简单的方法是交给 AI 编程助手(Claude Code、Cursor、Codex),让它读取 .env.example 自动配置。手动部署步骤:

  1. 克隆仓库,安装 Python 3.12+ 和 uv 包管理器
  2. 安装 LiveKit Server(macOS 可直接 brew install livekit)
  3. 复制 .env.example 为 .env.local,填入三个 API Key:Cartesia(语音识别,免费注册)、MiniMax(大模型)、TTS 方案
  4. TTS 方案选择:有 NVIDIA 显卡(8G+ 显存)推荐 VoxCPM;无显卡可用 MOSS-TTS 或 Cartesia Sonic
  5. 启动:双击 Talk-to-Me-V3.6.command,或分别运行 LiveKit Server、Agent Worker、Web Server
  6. 浏览器访问 127.0.0.1:8766 即可开始对话

GitHub:YeJe-cpu/talk-to-fengge

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Talk to 峰哥开源项目:AI 实时声音克隆 + 人格注入,1秒延迟语音对话
#Talk to 峰哥 #声音克隆 #AI语音 #开源项目 
收藏 1
models.dev 开源项目:AI 模型规格与定价大全,统一口径的比价平台
AI Agent 平台架构设计:为什么不应该让每个业务都 fork 一套 Agent 系统
推荐阅读
  • 4个开源Skills项目实战指南,从营销自动化到文档处理的效率大提升
  • LazyCraft:本地化Agent平台的企业级选择,内置模型微调与细粒度权限控制
  • Twake Drive:用 Node.js 自建私人网盘,10分钟完成部署
  • Bytebot:开源AI桌面代理(Desktop Agent),给AI配一台自己的电脑
  • Skill Seekers|自动将文档转化为Claude技能的开源工具
评论 (0)
请登录后发表评论
分类精选
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
10187 9月前
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9863 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7812 6月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
7210 6月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6933 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6840 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6720 9月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6702 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5981 10月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5949 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 SenseNova-Skills 开源:为 Hermes Agent 装上 PPT、数据分析、深度调研技能
2 pixel2motion:AI 驱动的 logo 动效开源工作流,1.1K Star
3 DeepSeek 开源 DSpark 推理加速框架:V4 生产环境提速最高 85%
4 Talk to 峰哥开源项目:AI 实时声音克隆 + 人格注入,1秒延迟语音对话
5 models.dev 开源项目:AI 模型规格与定价大全,统一口径的比价平台
6 Taste Skill:51.8K Star 前端设计规则框架,让 AI 生成的网页告别模板味
7 AI 起名 Skill 开源:基于八字五行的中国传统姓名学工作流
8 Orca:7.3K Star 的 AI 编程总控台,让 Claude Code 和 Codex 并行工作
9 开源中国古典诗词 API:37 万首诗,一键接入国风应用
10 Open File Viewer:一个容器统一 110 种文件格式的前端预览 SDK
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联