10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆

1月前 AI最新动态 312 0

经常使用文生图大模型的朋友们都知道,大多数开源的文生图模型在处理文字时都很容易翻车,经常生成出乱码或者奇怪的符号。

虽然谷歌的Nano Banana 模型可以很好地处理文字,但它的参数量高达 20B,并且也无法开源使用,只能在网页端使用或者调用API。

有没有一款小而美的文生图模型,既能生成清晰、排列整齐的文字,又不需要花费太多资源呢?

最近发现阿里在开源社区发布了一个新的文生图模型,叫 Ovis-Image。这个模型只有 7B 参数,它主打的就是一个实用。

Ovis-Image

Ovis-Image 是一个只有 7B 参数的文生图模型,它的特点是生成清晰、排列整齐的文字,非常适合用来做海报、Logo 或者 UI 原型。虽然它的参数量只有 7B,但阿里的团队表示它的效果可以和 20B 甚至更大的模型相媲美。

我看了一下官方的演示,生成的字体风格很准确,没有明显的扭曲。并且它对字体、字重和排版都有一定的控制力。对于一个可以在本地部署的轻量级模型来说,这个精度确实少见。

在一些测试榜单上,它的成绩也很出众。

在CVTG-2K 文字渲染榜单上,它的平均正确率达到了 92%,这个数据比 GPT-4o 的 85% 和 Qwen-Image 的 82% 都要高。

在长文本能力的测试中,它的中文表现达到了 96.4%,英文表现是 92.2%。这意味着在生成包含密集文字的海报或信息图时,它能保持较高的稳定性和清晰度,错字率也比较低。这对于设计和电商领域的朋友来说,是个很有价值的工具。

Ovis-Image 的效果

Ovis-Image 在处理中文和英文的文字渲染上表现都不错。

如何使用?

Ovis-Image 的使用非常简单,只需要输入一段文字就可以生成对应的图片。你可以通过以下命令来使用 Ovis-Image:

如果你想试用一下,官方提供了一个在线的 Gradio 演示。

也可以在hugging face上免费试用这个模型

https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

如何在本地部署 Ovis-Image

如果你想在本地部署,可以使用下面的指令。

git clone git@github.com:AIDC-AI/Ovis-Image.git
conda create -n ovis-image python=3.10 -y
conda activate ovis-image
cd Ovis-Image
pip install -r requirements.txt
pip install -e .

生成图像的运行代码如下。

python ovis_image/test.py \
    --model_path AIDC-AI/Ovis-Image-7B/ovis_image.safetensors \
    --vae_path AIDC-AI/Ovis-Image-7B/ae.safetensors \
    --ovis_path AIDC-AI/Ovis-Image-7B/Ovis2.5-2B \
    --image_size 1024 \
    --denoising_steps 50 \
    --cfg_scale 5.0 \
    --prompt "A creative 3D artistic render where the text \"OVIS-IMAGE\" is written in a bold, expressive handwritten brush style using thick, wet oil paint. The paint is a mix of vibrant rainbow colors (red, blue, yellow) swirling together like toothpaste or impasto art. You can see the ridges of the brush bristles and the glossy, wet texture of the paint. The background is a clean artist's canvas. Dynamic lighting creates soft shadows behind the floating paint strokes. Colorful, expressive, tactile texture, 4k detail."

总结

我觉得 Ovis-Image 的主要亮点在于它解决了开源模型在文字渲染上的短板。无论是中文还是英文,它都能处理得比较自然,甚至在海报级别的排版中也非常稳定。加上它基于 DiT 架构,训练策略也比较扎实,让这个 7B 的小模型有了不错的实用性。

总的来说,Ovis-Image 是一个非常适合落地的模型,特别是在需要生成带文字图片的场景,比如电商海报、UI 设计或者品牌物料。

轻量、快速、可控。如果你也在做相关的开发或者设计工作,建议关注一下这个项目。

GitHub:https://github.com/AIDC-AI/Ovis-Image

模型地址:https://huggingface.co/AIDC-AI/Ovis-Image-7B

在线体验:https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆
#Ovis-Image #小模型 #文生图模型 
收藏 1
GLM-4.6V重磅开源!9B与106B两档视觉模型的本地与云端实测
一篇带你搞定AI编程工具Claude、Codex、OpenCode、Antigravity的Skills设计与实践指南
推荐阅读
  • 快手发布 AI 编程矩阵:AI编程工具 CodeFlicker、自研的大模型 KAT-Coder
  • Windsurf:Codeium推出免费的智能代码补全神器 Windsurf Editor, 以对话方式编写完整项目代码
  • 字节连放两个大招:Trae SOLO模式限时免费!Doubao-Seed-Code 接入Trae CN
  • Open AI推出图像生成API,单张图像生成模型输出定价低至0.14元
  • Kimi K2 发布体验:万亿参数能否成为Claude 4 平替?代码、Agent、写作全能选手来了!
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
23594 6月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
22360 8月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
15242 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14736 10月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
13513 9月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13137 9月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
12437 9月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
11288 10月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9900 1年前
Trae Pro 来了,终于可以告别排队了!这价格真香
8214 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Claude Cowork 现已向所有 Pro 用户(及以上)开放,刚发布就被拆解!
2 Coze重磅更新!扣子编程正式支持 Skill:从工具调用到专业工作流,你的智能体技能商店
3 ChatGPT Go版上线+广告引入:免费、低价付费用户,优先体验
4 GoogleAntigravity 宣布原生支持 Agent Skills,正在变成通用标准:后的实践观察与迁移建议
5 速领!TRAE周年回馈全部用户限免一个月!
6 Anthropic 到处封杀!OpenCode打通 ChatGPT 订阅,这波赢麻了!
7 CES 2026 观察:AI 不再是单独的产品,而是硬件的默认引擎
8 智谱上市赠礼活动送旺旺贴!我申请了,你领了吗?
9 腾讯混元超强开源翻译模型 HY-MT1.5:本地部署的多语言翻译、方言,实时翻译
10 人人都是小程序开发者的时代,真的来了(附实战指南)
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联