本周各大厂在 AI 领域动作密集,一口气上新了 9 款产品,涵盖音频生成、大模型、漫剧制作、AI 设计、音乐生成、语音输入、多模态模型和图像生成。
豆包音频生成模型 1.0
字节在火山引擎 FORCE 大会上发布了豆包音频生成模型 1.0。输入一段提示词,它能把人声、音效、配乐、场景声一次性打包生成,有情绪有呼吸感,不会生硬也不会过度甜美。实测中多角色相声表现惊艳——女逗哏节奏快情绪外放,男捧哏稳中带冷幽默,连观众笑声等环境音都能自动配上。
单次最多生成 2 分钟,长文本有声书需要分段。声音不再是视频做完后贴上去的配件,而是从脚本阶段就能参与创作。

体验地址:火山引擎豆包音频体验
LongCat-2.0
美团开源了 LongCat-2.0,总参数 1.6 万亿,每 token 激活约 480 亿。支持 1M 超长上下文,可以把整个代码库丢进去一次性读完并精准定位。引入 LongCat Sparse Attention 稀疏注意力机制,把长上下文注意力计算从平方级降到线性级。
这是业界首个在五万卡国产集群上完成万亿参数模型全流程训练与推理的模型,验证了非 NVIDIA 平台的可行性。

体验地址:longcat.chat
WorkRally
腾讯视频推出的工业级 AI 漫剧制作平台,覆盖剧本解析、分镜生成、内容生产到资产管理与团队协作的完整生产链路。内置 S+ 级影视动漫技能库,包含构图、表演、动作、镜头四大方向的专业级知识库,能直接输出影视级质感画面,实现角色状态动态追踪与批量一致性管理。

体验地址:workrally.qq.com
TRAE Work Design
字节 TRAE Work 推出的设计模式,通过自然语言对话直接生成 UI 设计稿,在画布中实时编辑修改。能解析 Figma 文件,自动提取设计系统,确保 AI 出图严格遵循品牌视觉规范。打通需求→设计→代码全链路,设计产物可一键导入 Code 模式生成前端代码。

体验方式:打开 TRAE Work 桌面端或网页端,切换至 Design 模式
SeedMusic 1.0
字节的 AI 音乐生成模型,输入文本提示(情绪、流派、场景)或一句歌词,2-3 分钟内生成包含 AI 人声演唱与完整编曲的歌曲草稿。支持流行、嘻哈、电子、Lo-Fi、古风等多种风格切换,零门槛无需音乐制作经验。

体验地址:即梦平台
千问输入法
阿里通义千问推出的独立 AI 语音输入法,主打"说得随意,写得漂亮"。不只是语音转文字,而是先理解内容,自动去除语气词、纠正口误,把散装口语整理成结构化书面文本。支持最快 300 字/分钟语音输入,9 种方言识别,中英混说也可。AI 指令模式下双击快捷键即可口头下达任务,大模型在悬浮窗里完成并返回结果。

体验地址:ime.qianwen.com
GPT-5.6
OpenAI 最新一代模型,目前以"有限预览"形式向少数可信合作伙伴开放。首次采用天文学命名体系,推出三档型号:Sol(太阳)旗舰版、Terra(地球)均衡版、Luna(月亮)轻量版。核心能力聚焦编程、生物信息学和网络安全,支持 150 万 tokens 超长上下文。Terminal-Bench 2.1 得分 Sol 88.8%、Sol Ultra 91.9%。新增 Ultra 模式,通过多子 Agent 协作处理复杂任务。

Claude Sonnet 5
Anthropic 发布的 Sonnet 系列最强智能体模型。能自己定计划、调浏览器和终端工具,然后自己跑任务。SWE-bench Pro 通过率 63.2%、Terminal-Bench 2.1 通过率 80.4%、OSWorld-Verified 通过率 81.2%,接近 Opus 4.8 水平但价格便宜不少。支持五个档位"努力度"调节(low/med/high/xhigh/max),按需平衡成本和输出质量。

体验地址:claude.com
Nano Banana 2 Lite
谷歌的极速生图模型,定位明确就是速度快——4 秒生成单张图像,每千张收费仅 0.034 美元。适合电商素材批量生产、广告创意迭代、游戏影视概念设计等快速试错场景。图像风格偏向商业素材和标准摄影风。
