10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Google Gemini 3.5 Live Translate:70+语言实时同声翻译模型发布

1小时前 AI最新动态 10 0

Google 发布了实时语音翻译模型 Gemini 3.5 Live Translate,能在 70 多种语言之间做到边听边译,同时保留说话人的语调、节奏和音高。该模型基于 Gemini 3.5 架构,兼顾了 Gemini 3.0 Pro 的专业能力和 Gemini 3.0 Flash 的速度。

已同步登陆 Gemini Live API、Google Translate App 和 Google Meet。

图片 1

核心更新一览

  • 支持 70 多种语言自动检测,无需手动选语言
  • 边听边译,不等说完才翻,全程只比说话人慢几秒
  • 翻译语音保留原始说话人的语调、节奏和音高
  • 自动滤除噪音,嘈杂环境也能用
  • Google Meet 语言组合从 5 种扩展到 70 多种、2000 多种组合
  • Google Translate App 新增「听筒模式」(Android 独占)
  • 所有生成音频带 SynthID 水印,可检测 AI 生成内容
  • 开发者可通过 Gemini Live API 和 Google AI Studio 直接调用

图片 2

它到底做了什么

过去的翻译工具基本都是「轮次制」的:你说完一整句,系统停顿,处理,再输出翻译,中间那段沉默就是在等上下文。

3.5 Live Translate 改了这个逻辑——它在你说话的同时持续生成翻译语音,像同声传译一样跟着你走。模型内部在做一个持续的权衡:多等一会儿能拿到更多上下文、翻得更准,但等太久就跟不上说话人了。它在两者之间动态调节,输出流畅的音频,全程只比说话人慢几秒。

一个具体的画面:你在巴塞罗那跟一个只说西班牙语的导游走街串巷,他在讲这栋楼的历史。你把手机贴到耳朵上,听筒里传出来的英文翻译几乎和他的西班牙语同步,语调起伏也跟着他走。他激动的时候翻译声音也快,他停下来想词的时候翻译也自然地缓一拍。

图片 3

Live Agent vs Live Translate

Google 的 Live API 现在有两种模式:普通的 Live Agent 和 Live Translate。名字像,但用的是完全不同的架构。

维度 Live Agent(普通模式) Live Translate(翻译模式)
模型角色 充当助理,能聆听、推理、采取行动 充当翻译器,实时翻译流水线
交互方式 基于回合,依赖暂停和意图检测 连续流处理,边说边译不等轮次
工具和 Agent 能力 支持函数调用、Google 搜索、指令 不支持,纯翻译
输入模态 文本、音频、视频、图片 仅音频
配置复杂度 需要配置生成参数、语音、工具、系统指令 只需设 target_language_code 和几个开关

为什么只接受音频,不接受文本?

因为这个模型从底层就是一个端到端的语音到语音模型。它解决的核心问题是"在对方还没说完的时候就开始翻译并输出声音"。音频是连续的流,每 100 毫秒一个块不断涌进来,没有明确的句子边界,模型要在这个流里实时判断说话人在说什么语言、句子说到哪里了、现在翻还是再等一下能翻得更准。

文本是离散的、完整的,不存在"说到一半要不要先翻"的问题,也不需要保留语调和节奏。需要文本翻译的话,Google Translate 的文本 API 和 Gemini 文本模型已经能做了。

图片 4

三个关键能力

1. 自动语言检测

不需要提前告诉模型"我说的是中文,帮我翻成英文"。你直接说,它自己判断你在说什么语言,自动翻成目标语言。在多人多语言的场景下,比如一个会议里有人说日语、有人说法语、有人说中文,模型可以分别处理,不用每次手动切换。

2. 语音特征保留

模型会尝试保留原始说话人的语调(intonation)、节奏(pacing)和音高(pitch)。你说得快它翻得也快,你强调某个词它也会在翻译语音中体现重音。

东南亚打车平台 Grab 正在测试这个模型,用于司机和乘客在接驾时的多语言通话。Grab 每月有超过 1000 万通语音电话通过平台拨出。一个泰国司机和一个日本游客之间的电话,双方各说各的语言,模型在中间做实时双向翻译。

图片 5

3. 自动滤除噪音

在安静的办公室里做翻译不难,难的是在嘈杂的街头、拥挤的餐厅、或者机场候机厅。模型会主动滤除噪声和音乐来生成清晰的语音。

三条使用路径

路径一:Google Translate App(普通用户)

在 Android 或 iOS 上打开 Google Translate,进入 Live Translate 功能。连接任意蓝牙或有线耳机,选好目标语言,对方说话时你通过耳机听到接近实时的翻译。

Android 独占的「听筒模式」:不需要耳机。直接把手机像打电话一样贴到耳朵上,翻译后的音频通过手机听筒播放。适合两个场景:手边没耳机,或者不想让周围的人听到翻译内容。

一个具体的用法:你在东京的居酒屋,店员在用日语推荐今天的菜,你把手机贴到耳朵上,听筒里实时传出中文翻译。店员看到的只是你在"打电话",整个过程自然不尴尬。

图片 6

路径二:Google Meet(企业用户)

Google Meet 的语音翻译功能将升级为 3.5 Live Translate:

维度 升级前 升级后
支持语言数 5 种 70 多种
语言组合 仅限和英语互译 2000 多种语言组合
操作方式 需要提前配置 即时访问

目前是私有预览阶段,本月先对部分 Google Workspace 企业客户开放,今年晚些时候更大范围推出。

路径三:Gemini Live API(开发者)

开发者可以通过 Gemini Live API 在自己的应用中集成实时翻译能力。模型名称是 gemini-3.5-live-translate-preview。

最小可用配置:

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    translation_config=types.TranslationConfig(
        target_language_code="zh-Hans",  # 目标语言,BCP-47 代码
        echo_target_language=True         # 输入已是目标语言时是否回放
    )
)

两个核心参数:

  • target_language_code:你要翻成什么语言,用 BCP-47 代码指定。"zh-Hans" 是简体中文,"ja" 是日语,"en" 是英语(默认值)
  • echo_target_language:如果说话人说的本来就是目标语言怎么办?设为 true,模型原样回放这段音频;设为 false(默认),模型保持静默不输出

可选配置,转写文本:

如果你不仅需要翻译后的音频,还需要文字版本(比如做字幕),可以在配置中加上转写:

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    input_audio_transcription=types.AudioTranscriptionConfig(),   # 输入语音转文字
    output_audio_transcription=types.AudioTranscriptionConfig(),  # 翻译语音转文字
    translation_config=types.TranslationConfig(
        target_language_code="zh-Hans",
        echo_target_language=True
    )
)

音频格式要求:

方向 格式 采样率 声道
输入 16 位 PCM,小端序 16kHz 单声道
输出 16 位 PCM,小端序 24kHz 单声道

音频以 100 毫秒的块发送。输出采样率 24kHz 比输入的 16kHz 高,翻译后的语音音质比输入更好。

安全标记:SynthID

所有 3.5 Live Translate 生成的音频都用 SynthID 做了水印标记。这个水印人耳听不出来,但可以被技术手段检测到,目的是标记哪些语音是 AI 生成的,防止有人拿实时翻译后的语音去冒充真人。

Model card:deepmind.google/models/model-cards/gemini-3-5-audio

苏米观察

传统同声传译员培训周期以年计算,全球能做好的人极少,收费极高。3.5 Live Translate 当然还做不到专业同传的水平——语音复制会飘、相似语言会混淆、多人快速对话会卡声音,这些限制 Google 自己也承认了。

但它把"边听边译"从一个稀缺的专业技能变成了手机上随时可用的功能,覆盖 70 多种语言。对于旅行问路、跨国开会、打车点菜这些日常场景,够用的门槛已经跨过去了。

快速上手入口:

  • 在线体验:aistudio.google.com/live
  • API 文档:ai.google.dev/gemini-api
  • 示例代码:github.com/google-gemini/gemini-live-api-examples
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Google Gemini 3.5 Live Translate:70+语言实时同声翻译模型发布
#Google #Gemini 3.5 #实时翻译 #AI翻译模型 #同声传译 
收藏 1
Codex 开源插件生态全解析:Expo、Remotion、Cloudflare 一键复用
HyperFrames 与 html-video:两个 HTML 生成视频的开源项目对比
推荐阅读
  • 腾讯CodeBuddy的 AI 编程 IDE内测,真正适合小白的AI编程工具?
  • 豆包即将收费:价格体系、服务分层与底层商业逻辑分析
  • n8n 2.0 来了,到底改了什么?升级迁移项目该怎么做?
  • 字节Trae Windows版正式推出,更适合中文编程的IDE工具 + Claude 3.5免费用,完美替代Cursor
  • MiMo-V2.5-Pro 开源发布:MIT 协议 + 1M 上下文 + Token 效率超闭源旗舰 60%
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
30780 10月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
27975 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
19462 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
19373 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
16035 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
15829 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
15388 11月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
14773 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
14198 1年前
腾讯ima知识库skills上线:教你如何把腾讯 IMA 知识库接入 OpenClaw 一步打通
12845 2月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Google Gemini 3.5 Live Translate:70+语言实时同声翻译模型发布
2 火山方舟Coding Plan 和 Agent Plan 系列套餐 618特惠9.9元起,旗舰模型19元购
3 微信AI生态正式内测:小程序自动化操作时代来了
4 Qwen3.7-Plus正式上线:阿里最强多模态智能体模型,限时8折
5 Anthropic Mythos 神话级模型正式发布:Claude Fable 5 对所有人开放,Claude Mythos 5 继续限制访问
6 苹果Siri AI大脑换谷歌Gemini:WWDC 2026库克谢幕
7 提示词:把Dynamic Workflows成本从6.2万美元狂砍到129美元的拆解15个提示词
8 Token 定价大揭秘:一边涨价疯抢一边永久降价,海外价格差 100 倍
9 DeepSeek 首次大规模限流:免费时代终结,AI 行业付费时代来临
10 ChatGPT 史上最大改版:从聊天机器人到超级 App,Codex 周活突破 500 万
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联