10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

SentrySearch 开源项目:用多模态 AI 实现视频语义搜索,支持本地/云端双模式

2小时前 AI开源项目 11 0

在处理大量视频素材时,找到一个特定片段往往需要来回拖动进度条,效率极低。

最近 GitHub 上出现了一个开源项目 SentrySearch(目前已获 2.7K Star),它能让视频搜索变得像 Google 搜索文本一样简单。

SentrySearch 架构图

视频搜索新方案:SentrySearch 让视频像文本一样可检索

只需要输入一句自然语言描述,比如"有人从左侧逼近"或"红色卡车闯红灯",SentrySearch 就能精准定位到具体时间点,并自动裁剪出对应片段。

核心特性

1. 不依赖字幕,直接"看懂"画面

传统视频搜索方案通常先将语音转成文字再搜索,但遇到无人说话或画面与语音无关的场景就失效了。

SentrySearch 采用多模态嵌入技术,直接将视频片段转换为向量,与文字查询做语义匹配。它能理解画面内容,而不是仅仅搜索字幕。

2. 双模型支持:云端 Gemini + 本地 Qwen3-VL

云端方案(推荐):使用 Google Gemini Embedding API,搜索质量最好,速度也快。需要申请 Gemini API Key。

本地方案(隐私优先):使用 Qwen3-VL 模型,完全本地运行,无需联网,数据绝对隐私。系统会根据硬件自动选择模型:

  • 24GB+ 内存的 Mac 或 18GB+ 显存的 NVIDIA 显卡 → 使用 8B 模型
  • 配置较低 → 自动使用 2B 模型

3. 特斯拉车主专属功能

对于特斯拉行车记录仪视频,SentrySearch 可以:

  • 读取视频中的车速、定位信息
  • 将这些信息叠加在裁剪好的视频上
  • 显示实时速度、时间、城市和道路名称

苏米注:这个功能对于事故定责场景非常实用,不仅能找到画面,还能看到当时的车速和位置信息。

4. 基于 ChromaDB 的向量存储

使用 ChromaDB 存储视频向量数据,带来以下优势:

  • 搜索速度极快,即使处理几十小时的视频素材
  • 本地存储,数据安全
  • 支持增量更新,可随时添加新视频

技术原理

SentrySearch 的工作流程分为五个步骤:

第一步:视频切片

将视频切成默认 30 秒一段的小片段,段与段之间有 5 秒重叠,避免重要画面被切分。

第二步:预处理优化

在发送给模型前进行优化:

  • 分辨率降至 480p
  • 帧率降至 5fps
  • 检测静止画面,无变化则跳过

这些优化能让处理速度提升几十倍,且几乎不影响搜索质量。

第三步:向量化

使用 Gemini 或 Qwen3-VL 模型,将每个视频片段转换为向量。这个向量包含画面的所有语义信息:物体、动作、场景等。

第四步:存储

向量被存入 ChromaDB 数据库,与原视频的对应关系一起保存。

第五步:搜索

用户输入查询时,系统执行以下操作:

  1. 将文字转换为向量
  2. 在数据库中查找最相似的视频向量
  3. 按相似度排序返回结果
  4. 自动裁剪最匹配的视频片段

快速上手

安装

首先安装 uv(Python 包管理工具):

# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

然后安装 SentrySearch:

git clone https://github.com/ssrajadh/sentrysearch.git
cd sentrysearch
uv tool install .

配置(云端方案)

配置 Gemini API Key:

sentrysearch init

从 Google AI Studio 免费获取 API Key。

配置(本地方案)

根据硬件选择安装方式:

# Mac 或高性能 NVIDIA 显卡
uv tool install ".[local]"

# 显存有限的 NVIDIA 显卡(8-16GB)
uv tool install ".[local-quantized]"

Mac 用户还需安装 FFmpeg:

brew install ffmpeg

索引视频

# 云端方案
sentrysearch index /path/to/your/video/folder

# 本地方案
sentrysearch index /path/to/your/video/folder --backend local

处理进度示例:

Indexing file 1/3: front_2024-01-15_14-30.mp4 [chunk 1/4]
Indexing file 1/3: front_2024-01-15_14-30.mp4 [chunk 2/4]
...
Indexed 12 new chunks from 3 files. Total: 12 chunks from 3 files.

搜索视频

sentrysearch search "红色卡车闯红灯"

搜索结果:

#1 [0.87] front_2024-01-15_14-30.mp4 @ 02:15-02:45
#2 [0.74] left_2024-01-15_14-30.mp4 @ 02:10-02:40
#3 [0.61] front_2024-01-20_09-15.mp4 @ 00:30-01:00

Saved clip: ./match_front_2024-01-15_14-30_02m15s-02m45s.mp4

最匹配的片段已自动裁剪并保存。

实践经验:特斯拉车主可以添加 --overlay 参数,叠加车速和定位信息:
sentrysearch search "有人加塞" --overlay

实用技巧

调整搜索参数

# 只显示结果,不自动裁剪
sentrysearch search "something" --no-trim

# 调整相似度阈值
sentrysearch search "something" --threshold 0.5

# 保存前 N 个结果
sentrysearch search "something" --save-top 3

# 指定输出目录
sentrysearch search "something" --output-dir ./clips

索引参数调整

# 调整片段长度(默认 30 秒)
sentrysearch index /path --chunk-duration 60

# 调整重叠时间(默认 5 秒)
sentrysearch index /path --overlap 10

# 不跳过静止画面
sentrysearch index /path --no-skip-still

管理索引

# 查看索引信息
sentrysearch stats

# 删除某些视频的索引
sentrysearch remove path/to/video

# 清空整个索引
sentrysearch reset

适用场景

场景 应用
行车记录仪 快速查找事故、违章、有趣瞬间
视频后期 从素材库快速定位需要的镜头
监控录像 查找特定事件,如"有人进入后院"
学习资料 从网课录像中找知识点讲解片段
Vlog 素材 快速找出精彩瞬间

未来规划

项目正在快速迭代,计划中的改进包括:

  • 更智能的切片方式(基于场景检测)
  • 支持更多模型
  • 图形界面(目前仅命令行)
  • 实时视频流处理

总结

SentrySearch 用优雅的方式解决了视频检索问题——无需昂贵的云服务,无需复杂的标注工作,只需一个开源工具就能让视频被"看懂"。

无论是车主、视频创作者,还是需要检索监控的安保人员,这个工具都能带来实实在在的效率提升。

项目地址:GitHub - ssrajadh/sentrysearch

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:SentrySearch 开源项目:用多模态 AI 实现视频语义搜索,支持本地/云端双模式
#视频搜索 #开源项目 #SentrySearch #AI 工具 #多模态 
收藏 1
Claude Code 117 个功能详解:从斜杠命令到子代理,完整学习路线
OpenDataLoader PDF 开源项目:PDF 解析精度 0.90 领先同类,支持本地/Hybrid 双模式
推荐阅读
  • MimiClaw:在10来块的ESP32-S3上运行的 OpenClaw,无需 Linux,无需 Node.js,仅使用纯 C 语言
  • Shannon:AI 驱动的自动化渗透测试工具,让代码自动进行安全审查
  • AutoGLM 沉思:Agent智能体工具,具备深度研究和自主执行能力的AI智能体
  • planning-with-files:超越对话限制,用一个插件(Skill)赋予Claude持久记忆的上下文工程方案
  • Moltis:Rust 重写的 AI Agent 框架,单文件部署、零依赖、生产级沙箱隔离
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
8644 5月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
7467 7月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
5714 3月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
5313 2月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5139 7月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
5065 6月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5061 5月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
4840 5月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
4763 6月前
Fogsight (雾象):一句话自动生成任何科普动画
4211 5月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 OpenClaw 社区 6 个创意 Skills:前女友数字分身、老板 PUA 检测、反蒸馏防御
2 OpenDataLoader PDF 开源项目:PDF 解析精度 0.90 领先同类,支持本地/Hybrid 双模式
3 SentrySearch 开源项目:用多模态 AI 实现视频语义搜索,支持本地/云端双模式
4 RTK 开源工具实测:Claude Code 会话 Token 节省 80%,16.8K Star 验证有效性
5 Claude Code 源码泄露催生 Claw Code:129K Star 刷新 GitHub 纪录,洁净室重构典范
6 Claude Code 隐藏彩蛋:18 种稀有度电子宠物
7 科大讯飞开源 SkillHub:团队私有 AI 技能包管理平台,兼容 OpenClaw
8 OpenClaw 多 Agent 交付流程 Skill:从开发环境到客户安装的标准化打包方案
9 Claude Code 宠物系统曝光:18 种物种 + 抽卡机制,网友已做出 macOS 桌宠
10 pretext:三天 20.8K 星的前端文本测量引擎,性能提升 500 倍
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联