#多模态

Qwen3.7-Plus正式上线:阿里最强多模态智能体模型,限时8折
阿里云百炼平台正式宣布:Qwen3.7-Plus 正式上线。作为千问 3.7 系列的重要成员,Qwen3.7-Plus 被官方定义为"能看、能想、能动手的多模态智能体模型",在编程、办公自动化与长周期任务自主执行方面全面进阶。 Qwen3.…
Step 3.7 Flash 实测:Agent 时代的高效多模态模型,1 分钟完成 Web 项目开发
最近阶跃星辰发布了最新的 Step 3.7 Flash,一款面向 Agent、Coding、Search 与多模态工作流而生的高效率模型。这个定位确实有点反常识——毕竟此前的 Flash 版本默认是旗舰大哥的便宜替代…
谷歌开源 Gemma 4 12B:统一无编码器架构,16GB 内存笔记本即可运行多模态模型
谷歌 DeepMind 发布了 Gemma 4 12B 模型。该模型将多模态智能能力集成到轻量级架构中,可在消费级笔记本电脑上运行。 Gemma 4 12B 填补了 Gemma 系列的关键空缺:比边缘端的 E4B 更强,比 26B 混合专…
Qwen3.7-Plus正式发布:多模态混合智能体,视觉与语言统一的新基座
阿里巴巴正式发布 Qwen3.7-Plus——将视觉与语言统一为一体化智能体基座的多模态模型。 在 Qwen3.7 强大文本能力的基础上,Qwen3.7-Plus 全面升级了视觉-语言能力,同时保持了在编码、工具使用…
Qwen3.7-Plus正式发布:多模态冲进Vision Arena全球前五
2026 年 5 月 20 日,阿里巴巴在杭州云栖大会正式发布 Qwen3.7 系列大模型。其中 Qwen3.7-Plus-Preview 在多模态领域冲到 Vision Arena 全球第五,这是上一代 Qwen3.6 完全不具备的能力层…
MiniMax CLI(mmx):一个命令调用多模态 AI 全能力的终端工具
MiniMax 官方开源了一个 CLI 工具——MiniMax-AI/cli,命令名为 mmx。一行命令即可调用 MiniMax 全家桶 API,覆盖文字、图片、视频、语音、音乐等全部多模态能力。 它能做什么? m…
MiniCPM-V 4.6:1B参数端侧多模态模型发布
面壁智能发布MiniCPM-V 4.6,这是MiniCPM-V系列端侧多模态家族中体量最小的新成员,整体参数规模仅约1.3B,但在性能和推理效率上表现突出。 1B参数意味着什么? 模型参数量大致决定了硬件要求。1B量级意味着手机、普通笔记…
GPT-Image-2 灰度测试作品展示:多风格图像生成能力详解
目前 GPT-Image-2 正在灰度中,可惜作者的 GPT Pro 订阅都没命中灰度... 只好先借用一下 X 上的优秀作品了(作品作者见每个 prompt 前面的@xxx,部分作品没有找到 prompt)。 作品展示 1. 九宫格设计师…
Seedance 2.0 Prompt 圣经:5 层提示词结构 + 镜头关键词库 + 约束系统完整指南
苏米注:Seedance 2.0 API 全面开放后,AI 视频生成再次成为热点。这篇文章整理了 Seedance 2.0 提示词的完整指南,从 5 层结构、镜头关键词库到约束系统,都是实测有效的技巧。 一、Seedance 2.0 到底…
MMX-CLI 详解:MiniMax 多模态命令行工具,7 种感官赋能 AI 内容创作
大多数 AI 能读写思考,但让它们唱歌画画就差点意思。MiniMax 今天发布的 MMX-CLI 要解决的正是这个问题。 苏米注:这个工具的定位很有意思——它不是把 AI 变成瑞士军刀,而是让 AI 自己学会使用工具…