如果你经常看 B 站或 YouTube 的学习类视频,一定有过这样的困扰:视频太长没时间看完,或者看完之后记不住重点。最近发现了一个开源工具 BiliSum,专门解决这个问题——它能自动把视频转写成文字,生成结构化笔记和思维导图,还能建一个可以问答检索的个人知识库。
所有数据都存在本地,不用担心隐私泄露。

视频来源全覆盖
B 站、YouTube、本地视频文件(mp4、mkv、mov、webm)都能导入。B 站支持扫码登录解决风控问题,YouTube 靠 yt-dlp 下载,本地文件直接拖进来就行。
三种笔记输出形式
文本笔记是最基础的,LLM 会识别视频里的论点、案例、结论,生成结构化的知识卡片,不是简单压缩原文。数学公式和代码块会自动格式化,还带章节时间轴,点击就能跳转到对应位置。
图文笔记是新出的功能,调用视觉模型(VLM)理解视频画面。它不是随便截几张图塞在文末,而是以画面为线索重新组织文章结构,每张图跟在对应知识段落后面,精选 3-6 张配图。支持 OpenAI、Anthropic 和兼容接口,超时 300 秒,会自动过滤低质量帧。这个模式 API 费用比纯文本高,可以在设置里调小截图数量或拉大截图间隔来控制成本。
思维导图把线性视频转成放射状知识网络,支持缩放、拖拽、节点高亮,一眼看清内容结构和逻辑脉络。
语音转写多方案可选
- SiliconFlow ASR:长音频自动切片 + 并发识别,突破 60 分钟限制
- 多模态 ASR:支持 OpenAI 兼容的音频模型(比如 mimo-v2-omni),切片时长和重试次数可调
- 本地 Whisper:CPU 或 CUDA 运行,断网也能用
知识库与 RAG 问答
所有处理过的视频内容可以跨视频检索问答,语义搜索 + 关键词搜索双管齐下。支持自动或手动打标签,标签关系能可视化成一个网络图。还能接入本地 LLM,完全不需要联网。
苏米注:这个知识库功能很实用。看完的视频自动生成笔记,积累下来就是一个个人知识库。以后想找某个视频里的内容,直接搜索就行,不用重新看一遍。
多 P 视频处理
自动检测分 P 视频,可以单选某个分 P,也可以批量创建任务。全集总结模式会把所有分 P 内容聚合成一篇总笔记。
桌面端体验
Windows 和 macOS 都有,自绘窗口栏,统一 UI 风格,带启动动画,应用内一键检查更新。浏览器版也有,受访问密钥保护,适合远程部署。
导入导出灵活
导出支持 Markdown 和 Obsidian 格式,能一键打包笔记和截图。数据从旧版 BriefVid 迁移过来也很方便,首次启动自动复制,不覆盖已有数据。
GitHub 地址:github.com/lycohana/BiliSum