10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

SentrySearch 开源项目:用多模态 AI 实现视频语义搜索,支持本地/云端双模式

1月前 AI开源项目 458 0

在处理大量视频素材时,找到一个特定片段往往需要来回拖动进度条,效率极低。

最近 GitHub 上出现了一个开源项目 SentrySearch(目前已获 2.7K Star),它能让视频搜索变得像 Google 搜索文本一样简单。

SentrySearch 架构图

视频搜索新方案:SentrySearch 让视频像文本一样可检索

只需要输入一句自然语言描述,比如"有人从左侧逼近"或"红色卡车闯红灯",SentrySearch 就能精准定位到具体时间点,并自动裁剪出对应片段。

核心特性

1. 不依赖字幕,直接"看懂"画面

传统视频搜索方案通常先将语音转成文字再搜索,但遇到无人说话或画面与语音无关的场景就失效了。

SentrySearch 采用多模态嵌入技术,直接将视频片段转换为向量,与文字查询做语义匹配。它能理解画面内容,而不是仅仅搜索字幕。

2. 双模型支持:云端 Gemini + 本地 Qwen3-VL

云端方案(推荐):使用 Google Gemini Embedding API,搜索质量最好,速度也快。需要申请 Gemini API Key。

本地方案(隐私优先):使用 Qwen3-VL 模型,完全本地运行,无需联网,数据绝对隐私。系统会根据硬件自动选择模型:

  • 24GB+ 内存的 Mac 或 18GB+ 显存的 NVIDIA 显卡 → 使用 8B 模型
  • 配置较低 → 自动使用 2B 模型

3. 特斯拉车主专属功能

对于特斯拉行车记录仪视频,SentrySearch 可以:

  • 读取视频中的车速、定位信息
  • 将这些信息叠加在裁剪好的视频上
  • 显示实时速度、时间、城市和道路名称

苏米注:这个功能对于事故定责场景非常实用,不仅能找到画面,还能看到当时的车速和位置信息。

4. 基于 ChromaDB 的向量存储

使用 ChromaDB 存储视频向量数据,带来以下优势:

  • 搜索速度极快,即使处理几十小时的视频素材
  • 本地存储,数据安全
  • 支持增量更新,可随时添加新视频

技术原理

SentrySearch 的工作流程分为五个步骤:

第一步:视频切片

将视频切成默认 30 秒一段的小片段,段与段之间有 5 秒重叠,避免重要画面被切分。

第二步:预处理优化

在发送给模型前进行优化:

  • 分辨率降至 480p
  • 帧率降至 5fps
  • 检测静止画面,无变化则跳过

这些优化能让处理速度提升几十倍,且几乎不影响搜索质量。

第三步:向量化

使用 Gemini 或 Qwen3-VL 模型,将每个视频片段转换为向量。这个向量包含画面的所有语义信息:物体、动作、场景等。

第四步:存储

向量被存入 ChromaDB 数据库,与原视频的对应关系一起保存。

第五步:搜索

用户输入查询时,系统执行以下操作:

  1. 将文字转换为向量
  2. 在数据库中查找最相似的视频向量
  3. 按相似度排序返回结果
  4. 自动裁剪最匹配的视频片段

快速上手

安装

首先安装 uv(Python 包管理工具):

# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

然后安装 SentrySearch:

git clone https://github.com/ssrajadh/sentrysearch.git
cd sentrysearch
uv tool install .

配置(云端方案)

配置 Gemini API Key:

sentrysearch init

从 Google AI Studio 免费获取 API Key。

配置(本地方案)

根据硬件选择安装方式:

# Mac 或高性能 NVIDIA 显卡
uv tool install ".[local]"

# 显存有限的 NVIDIA 显卡(8-16GB)
uv tool install ".[local-quantized]"

Mac 用户还需安装 FFmpeg:

brew install ffmpeg

索引视频

# 云端方案
sentrysearch index /path/to/your/video/folder

# 本地方案
sentrysearch index /path/to/your/video/folder --backend local

处理进度示例:

Indexing file 1/3: front_2024-01-15_14-30.mp4 [chunk 1/4]
Indexing file 1/3: front_2024-01-15_14-30.mp4 [chunk 2/4]
...
Indexed 12 new chunks from 3 files. Total: 12 chunks from 3 files.

搜索视频

sentrysearch search "红色卡车闯红灯"

搜索结果:

#1 [0.87] front_2024-01-15_14-30.mp4 @ 02:15-02:45
#2 [0.74] left_2024-01-15_14-30.mp4 @ 02:10-02:40
#3 [0.61] front_2024-01-20_09-15.mp4 @ 00:30-01:00

Saved clip: ./match_front_2024-01-15_14-30_02m15s-02m45s.mp4

最匹配的片段已自动裁剪并保存。

实践经验:特斯拉车主可以添加 --overlay 参数,叠加车速和定位信息:
sentrysearch search "有人加塞" --overlay

实用技巧

调整搜索参数

# 只显示结果,不自动裁剪
sentrysearch search "something" --no-trim

# 调整相似度阈值
sentrysearch search "something" --threshold 0.5

# 保存前 N 个结果
sentrysearch search "something" --save-top 3

# 指定输出目录
sentrysearch search "something" --output-dir ./clips

索引参数调整

# 调整片段长度(默认 30 秒)
sentrysearch index /path --chunk-duration 60

# 调整重叠时间(默认 5 秒)
sentrysearch index /path --overlap 10

# 不跳过静止画面
sentrysearch index /path --no-skip-still

管理索引

# 查看索引信息
sentrysearch stats

# 删除某些视频的索引
sentrysearch remove path/to/video

# 清空整个索引
sentrysearch reset

适用场景

场景 应用
行车记录仪 快速查找事故、违章、有趣瞬间
视频后期 从素材库快速定位需要的镜头
监控录像 查找特定事件,如"有人进入后院"
学习资料 从网课录像中找知识点讲解片段
Vlog 素材 快速找出精彩瞬间

未来规划

项目正在快速迭代,计划中的改进包括:

  • 更智能的切片方式(基于场景检测)
  • 支持更多模型
  • 图形界面(目前仅命令行)
  • 实时视频流处理

总结

SentrySearch 用优雅的方式解决了视频检索问题——无需昂贵的云服务,无需复杂的标注工作,只需一个开源工具就能让视频被"看懂"。

无论是车主、视频创作者,还是需要检索监控的安保人员,这个工具都能带来实实在在的效率提升。

项目地址:GitHub - ssrajadh/sentrysearch

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:SentrySearch 开源项目:用多模态 AI 实现视频语义搜索,支持本地/云端双模式
#视频搜索 #开源项目 #SentrySearch #AI 工具 #多模态 
收藏 1
Claude Code 117 个功能详解:从斜杠命令到子代理,完整学习路线
OpenDataLoader PDF 开源项目:PDF 解析精度 0.90 领先同类,支持本地/Hybrid 双模式
推荐阅读
  • Wei-Yu(微语):开源版飞书+钉钉!企业级IM系统,内置在线客服 + 知识库 + 工单系统 + AI问答等
  • Ralph Desktop:让AI编码自动迭代优化,小白Vibe Coding神器,从需求梳理到代码交付的全链路工具
  • Skills Hub:多个AI编码工具并行使用?试试这个统一的Skills技能管理方案
  • MuMuAINovel:开源本地部署的AI智能小说创作工作台
  • LFM2-Audio-1.5B:1.5B参数!支持本地实时语音转录
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9233 7月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
8712 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
6719 4月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6196 3月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6030 8月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
5888 8月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
5716 7月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5512 8月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5425 7月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
5322 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 academic-research-skills:Claude Code 学术研究插件,10 阶段 40+ Agent 全流程辅助论文写作
2 ClawVault开源项目解析:1.2K Star的AI Agent安全防护工具,权限管控+实时告警+自然语言策略
3 OpenHuman:开源AI助手接入118个服务,自带记忆树和Obsidian同步
4 vphone-cli:在 Mac 上运行完整 iOS 26,开源 48 小时 6400+ Star
5 Clawd 开源桌宠:用一只小螃蟹实时监控你的 AI 编程助手
6 Claude How To开源项目深度解析:33K Star的Claude Code系统学习指南,从Slash Commands到MCP的完整工作流设计
7 Google 开源 13 款 AI Agent Skill:兼容 Claude Code、Cursor、Copilot
8 html-anything:Anthropic 放弃 Markdown 后,这个 AI 生成 HTML 项目火了
9 SideX:下一代编辑器开源,仅 16MB
10 OmniVoice Studio:本地运行的开源 AI 声音克隆和视频配音工具
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联