当前位置：首页 » AI开源项目

BiliSum 开源工具：B 站、YouTube 视频自动转写，生成结构化笔记和思维导图

1月前 AI开源项目 547 0

如果你经常看 B 站或 YouTube 的学习类视频，一定有过这样的困扰：视频太长没时间看完，或者看完之后记不住重点。最近发现了一个开源工具 BiliSum，专门解决这个问题——它能自动把视频转写成文字，生成结构化笔记和思维导图，还能建一个可以问答检索的个人知识库。

所有数据都存在本地，不用担心隐私泄露。

视频来源全覆盖

B 站、YouTube、本地视频文件（mp4、mkv、mov、webm）都能导入。B 站支持扫码登录解决风控问题，YouTube 靠 yt-dlp 下载，本地文件直接拖进来就行。

三种笔记输出形式

文本笔记是最基础的，LLM 会识别视频里的论点、案例、结论，生成结构化的知识卡片，不是简单压缩原文。数学公式和代码块会自动格式化，还带章节时间轴，点击就能跳转到对应位置。

图文笔记是新出的功能，调用视觉模型（VLM）理解视频画面。它不是随便截几张图塞在文末，而是以画面为线索重新组织文章结构，每张图跟在对应知识段落后面，精选 3-6 张配图。支持 OpenAI、Anthropic 和兼容接口，超时 300 秒，会自动过滤低质量帧。这个模式 API 费用比纯文本高，可以在设置里调小截图数量或拉大截图间隔来控制成本。

思维导图把线性视频转成放射状知识网络，支持缩放、拖拽、节点高亮，一眼看清内容结构和逻辑脉络。

语音转写多方案可选

SiliconFlow ASR：长音频自动切片 + 并发识别，突破 60 分钟限制
多模态 ASR：支持 OpenAI 兼容的音频模型（比如 mimo-v2-omni），切片时长和重试次数可调
本地 Whisper：CPU 或 CUDA 运行，断网也能用

知识库与 RAG 问答

所有处理过的视频内容可以跨视频检索问答，语义搜索 + 关键词搜索双管齐下。支持自动或手动打标签，标签关系能可视化成一个网络图。还能接入本地 LLM，完全不需要联网。

苏米注：这个知识库功能很实用。看完的视频自动生成笔记，积累下来就是一个个人知识库。以后想找某个视频里的内容，直接搜索就行，不用重新看一遍。

多 P 视频处理

自动检测分 P 视频，可以单选某个分 P，也可以批量创建任务。全集总结模式会把所有分 P 内容聚合成一篇总笔记。

桌面端体验

Windows 和 macOS 都有，自绘窗口栏，统一 UI 风格，带启动动画，应用内一键检查更新。浏览器版也有，受访问密钥保护，适合远程部署。

导入导出灵活

导出支持 Markdown 和 Obsidian 格式，能一键打包笔记和截图。数据从旧版 BriefVid 迁移过来也很方便，首次启动自动复制，不覆盖已有数据。

GitHub 地址：github.com/lycohana/BiliSum

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：BiliSum 开源工具：B 站、YouTube 视频自动转写，生成结构化笔记和思维导图

请登录后发表评论