10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆

3月前 AI最新动态 630 0

经常使用文生图大模型的朋友们都知道,大多数开源的文生图模型在处理文字时都很容易翻车,经常生成出乱码或者奇怪的符号。

虽然谷歌的Nano Banana 模型可以很好地处理文字,但它的参数量高达 20B,并且也无法开源使用,只能在网页端使用或者调用API。

有没有一款小而美的文生图模型,既能生成清晰、排列整齐的文字,又不需要花费太多资源呢?

最近发现阿里在开源社区发布了一个新的文生图模型,叫 Ovis-Image。这个模型只有 7B 参数,它主打的就是一个实用。

Ovis-Image

Ovis-Image 是一个只有 7B 参数的文生图模型,它的特点是生成清晰、排列整齐的文字,非常适合用来做海报、Logo 或者 UI 原型。虽然它的参数量只有 7B,但阿里的团队表示它的效果可以和 20B 甚至更大的模型相媲美。

我看了一下官方的演示,生成的字体风格很准确,没有明显的扭曲。并且它对字体、字重和排版都有一定的控制力。对于一个可以在本地部署的轻量级模型来说,这个精度确实少见。

在一些测试榜单上,它的成绩也很出众。

在CVTG-2K 文字渲染榜单上,它的平均正确率达到了 92%,这个数据比 GPT-4o 的 85% 和 Qwen-Image 的 82% 都要高。

在长文本能力的测试中,它的中文表现达到了 96.4%,英文表现是 92.2%。这意味着在生成包含密集文字的海报或信息图时,它能保持较高的稳定性和清晰度,错字率也比较低。这对于设计和电商领域的朋友来说,是个很有价值的工具。

Ovis-Image 的效果

Ovis-Image 在处理中文和英文的文字渲染上表现都不错。

如何使用?

Ovis-Image 的使用非常简单,只需要输入一段文字就可以生成对应的图片。你可以通过以下命令来使用 Ovis-Image:

如果你想试用一下,官方提供了一个在线的 Gradio 演示。

也可以在hugging face上免费试用这个模型

https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

如何在本地部署 Ovis-Image

如果你想在本地部署,可以使用下面的指令。

git clone git@github.com:AIDC-AI/Ovis-Image.git
conda create -n ovis-image python=3.10 -y
conda activate ovis-image
cd Ovis-Image
pip install -r requirements.txt
pip install -e .

生成图像的运行代码如下。

python ovis_image/test.py \
    --model_path AIDC-AI/Ovis-Image-7B/ovis_image.safetensors \
    --vae_path AIDC-AI/Ovis-Image-7B/ae.safetensors \
    --ovis_path AIDC-AI/Ovis-Image-7B/Ovis2.5-2B \
    --image_size 1024 \
    --denoising_steps 50 \
    --cfg_scale 5.0 \
    --prompt "A creative 3D artistic render where the text \"OVIS-IMAGE\" is written in a bold, expressive handwritten brush style using thick, wet oil paint. The paint is a mix of vibrant rainbow colors (red, blue, yellow) swirling together like toothpaste or impasto art. You can see the ridges of the brush bristles and the glossy, wet texture of the paint. The background is a clean artist's canvas. Dynamic lighting creates soft shadows behind the floating paint strokes. Colorful, expressive, tactile texture, 4k detail."

总结

我觉得 Ovis-Image 的主要亮点在于它解决了开源模型在文字渲染上的短板。无论是中文还是英文,它都能处理得比较自然,甚至在海报级别的排版中也非常稳定。加上它基于 DiT 架构,训练策略也比较扎实,让这个 7B 的小模型有了不错的实用性。

总的来说,Ovis-Image 是一个非常适合落地的模型,特别是在需要生成带文字图片的场景,比如电商海报、UI 设计或者品牌物料。

轻量、快速、可控。如果你也在做相关的开发或者设计工作,建议关注一下这个项目。

GitHub:https://github.com/AIDC-AI/Ovis-Image

模型地址:https://huggingface.co/AIDC-AI/Ovis-Image-7B

在线体验:https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆
#Ovis-Image #小模型 #文生图模型 
收藏 1
GLM-4.6V重磅开源!9B与106B两档视觉模型的本地与云端实测
Anthropic最新2026 AI Agent趋势报告:企业如何在2026年构建智能化AI Agent
推荐阅读
  • Google Vids:AI数字人制作体验,vids .new免费制作数字人
  • AI搜索3.0时代来了?360纳米AI超级搜索智能体深度体验报告
  • 字节连放两个大招:Trae SOLO模式限时免费!Doubao-Seed-Code 接入Trae CN
  • 突发!Kiro 8月全员免费 + 全额退款,原因竟是因为一个BUG~
  • 我用 Google 最新版 Stitch 和 AI Studio Build 打通原型、设计系统与应用生成
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
27109 8月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
25201 11月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
17141 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
16736 11月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15116 1年前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13612 11月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13599 11月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
13045 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
11676 8月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
11347 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 TRAE SOLO 不再只面向写代码:桌面端 + 网页端,开发与协作双模式(内测免费体验)
2 Google Gemma 4 发布:31B 参数开源第一梯队,代码能力提升 19 倍,改用 Apache 2.0 许可证
3 小米 MiMo Token Plan 上线:39 元起订阅,1M 上下文全模态共享额度
4 KAT-Coder-Pro V2发布:Claude Code + KAT-Coder-Pro V2实测新一代代码助手在前端生成与审美上显著进化
5 Claude Code的Harness Engineering公开后,全世界的 Agent 能力提高了一个档次
6 OpenClaw 官方在 X 平台正式宣布:旗下技能市场 ClawHub 推出中国官方镜像站,附中文界面,国内访问不再受限
7 Claude Code 源码大泄露,我看到了 AI Agent 即将爆发的 7 大能力
8 智谱 GLM-5V-Turbo 发布:原生多模态 Coding 基座模型
9 智谱推出 Super Z:微信、飞书直接对话 GLM-5,零配置使用大模型
10 阿里 Wan2.7-Image 实测:AI 捏脸、调色盘、3K 文本渲染、交互式编辑全评测
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联