10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Meta宣布彻底解决RAG最大痛点:速度提升30倍,上下文窗口暴增16倍,成本直接腰斩!

1月前 AI最新动态 358 0

大家有没有这种感觉: 明明只想让大模型看10段资料,它偏偏要硬塞100段,消耗的token数像火箭一样增长,速度还慢得像乌龟?

恭喜你,这个行业通病,Meta今天直接给治好了。

他们刚开源了一个叫 REFRAG 的新 RAG 方案,简单粗暴地说:把无关的上下文压缩到几乎不占地方,只给模型看真正有用的那部分。

实测结果直接看傻人:

  • 首token延迟快30.85倍
  • 有效上下文窗口扩大16倍
  • 处理的token量减少2-4倍
  • 在16个主流RAG评测上全面吊打原版LLaMA

这不是小修小补,这是对RAG架构的一次降维打击。

传统RAG为什么这么“废”?

我们现在用的RAG基本都是这个流程:

查询 → 向量检索出Top-K(通常100个)chunks → 全部塞给LLM → 模型一边骂娘一边读垃圾

结果就是:

  • 90%的chunk其实没用
  • 上下文窗口被灌满,速度暴跌
  • 算力账单爆炸

你花的每一分钱,有一大半都在给模型“喂垃圾”。

REFRAG是怎么做到降维打击的?

核心思路只有一个:在把文本塞给LLM之前,就把99%的噪音干掉。

它完全不走传统的“全文本硬塞”路线,而是先在embedding层面动刀:

  1. 每个chunk被压缩成一个极短的向量(就一个token那么点成本)
  2. 一个用强化学习(RL)训练的策略网络,对这堆压缩向量快速打分
  3. 只把分数最高的几块解压还原成完整文本
  4. 其余低分chunk继续保持“压缩态”(几乎不占token)或者直接扔掉
  5. 最后:高质量完整chunk + 海量压缩向量一起喂给LLM

模型看到的是:

  • 真正相关的几段原文(完整无损)
  • 几千个“背景氛围感”压缩向量(提供全局语义,但几乎不花钱)

相当于给模型配了个超级聪明的前置过滤器,它只用读重点,其他的用“压缩包”糊一下就行。

真实效果有多离谱?

官方测了,同样的硬件,同样的模型:

方案 首token延迟 上下文容量 token消耗 16项RAG基准准确率
传统RAG 1x 1x 1x 基准
REFRAG 30.85x快 16x大 2-4x少 全面超越

这意味着你可以用原来1/30的延迟、1/4的成本,把上下文窗口从4k/8k直接拉到64k甚至更高,而且准确率还涨了。

这对我们普通人意味着什么?

  1. 长上下文应用彻底放飞:100万字文档问答?以前卡死,现在随便跑
  2. 企业级RAG成本暴降:原来一天几万刀的推理费用,可能直接降到几千刀
  3. 开源即用:Meta已经把代码和模型全扔GitHub了,想玩的直接冲

写在最后

RAG从诞生那天起,就被“上下文垃圾”这个问题死死卡住脖子。

今天,Meta直接一巴刀把这个脖子砍断了。

REFRAG告诉我们:不是上下文不够长,而是我们以前太蠢,不会挑重点。

未来属于会“精打细算”的RAG,而REFRAG就是第一个真正做到的人。

论文地址:https://arxiv.org/pdf/2509.01092

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Meta宣布彻底解决RAG最大痛点:速度提升30倍,上下文窗口暴增16倍,成本直接腰斩!
#RAG #Meta 
收藏 1
mcp-use:全栈MCP框架,6行代码接入任意MCP服务器
MiroThinker:突破参数规模内卷的开源搜索Agent框架
推荐阅读
  • 谷歌 Gemini 2.5 系列全线升级:Pro转正、Flash-Lite登场,AI模型卷出新高度
  • TRAE 国内版 SOLO 面向全部用户开放
  • MiniMax 推出 Coding Plan,首月价格 9.9 元起
  • 学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
  • Trae 突发!即日起 Trae AI 下架所有 Claude 模型
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
23205 5月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
22008 8月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
15043 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14705 10月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
13216 8月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13076 8月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
12323 9月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
11115 10月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9779 1年前
Trae Pro 来了,终于可以告别排队了!这价格真香
7999 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 腾讯混元超强开源翻译模型 HY-MT1.5:本地部署的多语言翻译、方言,实时翻译
2 人人都是小程序开发者的时代,真的来了(附实战指南)
3 n8n 2.x 重大更新,让工作流走向对话式:Chat Hub、Agent、工作流对话
4 英伟达CES 2026 发布下一代 AI 计算平台 Rubin:六芯片协同设计,AI算力与能效迎来十倍跃迁
5 Claude Code 桌面版发布:本地多会话并行 + 一键云端,AI 编程助理终于融进工作流了
6 2025年度AI报告合集|深度解读行业趋势与技术突破
7 实测 PaddleOCR 3.3:109 种语言与结构化解析,一次部署覆盖大部分文档场景
8 智谱发布 ZCode 编辑器:Claude Code、Codex、Gemini顶级AI编程无缝切换的可视化Agent
9 MiniMax 发布 M2.1:速度明显提升
10 TRAE 国内版 SOLO 面向全部用户开放
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联