10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆

9小时前 AI最新动态 23 0

经常使用文生图大模型的朋友们都知道,大多数开源的文生图模型在处理文字时都很容易翻车,经常生成出乱码或者奇怪的符号。

虽然谷歌的Nano Banana 模型可以很好地处理文字,但它的参数量高达 20B,并且也无法开源使用,只能在网页端使用或者调用API。

有没有一款小而美的文生图模型,既能生成清晰、排列整齐的文字,又不需要花费太多资源呢?

最近发现阿里在开源社区发布了一个新的文生图模型,叫 Ovis-Image。这个模型只有 7B 参数,它主打的就是一个实用。

Ovis-Image

Ovis-Image 是一个只有 7B 参数的文生图模型,它的特点是生成清晰、排列整齐的文字,非常适合用来做海报、Logo 或者 UI 原型。虽然它的参数量只有 7B,但阿里的团队表示它的效果可以和 20B 甚至更大的模型相媲美。

我看了一下官方的演示,生成的字体风格很准确,没有明显的扭曲。并且它对字体、字重和排版都有一定的控制力。对于一个可以在本地部署的轻量级模型来说,这个精度确实少见。

在一些测试榜单上,它的成绩也很出众。

在CVTG-2K 文字渲染榜单上,它的平均正确率达到了 92%,这个数据比 GPT-4o 的 85% 和 Qwen-Image 的 82% 都要高。

在长文本能力的测试中,它的中文表现达到了 96.4%,英文表现是 92.2%。这意味着在生成包含密集文字的海报或信息图时,它能保持较高的稳定性和清晰度,错字率也比较低。这对于设计和电商领域的朋友来说,是个很有价值的工具。

Ovis-Image 的效果

Ovis-Image 在处理中文和英文的文字渲染上表现都不错。

如何使用?

Ovis-Image 的使用非常简单,只需要输入一段文字就可以生成对应的图片。你可以通过以下命令来使用 Ovis-Image:

如果你想试用一下,官方提供了一个在线的 Gradio 演示。

也可以在hugging face上免费试用这个模型

https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

如何在本地部署 Ovis-Image

如果你想在本地部署,可以使用下面的指令。

git clone git@github.com:AIDC-AI/Ovis-Image.git
conda create -n ovis-image python=3.10 -y
conda activate ovis-image
cd Ovis-Image
pip install -r requirements.txt
pip install -e .

生成图像的运行代码如下。

python ovis_image/test.py \
    --model_path AIDC-AI/Ovis-Image-7B/ovis_image.safetensors \
    --vae_path AIDC-AI/Ovis-Image-7B/ae.safetensors \
    --ovis_path AIDC-AI/Ovis-Image-7B/Ovis2.5-2B \
    --image_size 1024 \
    --denoising_steps 50 \
    --cfg_scale 5.0 \
    --prompt "A creative 3D artistic render where the text \"OVIS-IMAGE\" is written in a bold, expressive handwritten brush style using thick, wet oil paint. The paint is a mix of vibrant rainbow colors (red, blue, yellow) swirling together like toothpaste or impasto art. You can see the ridges of the brush bristles and the glossy, wet texture of the paint. The background is a clean artist's canvas. Dynamic lighting creates soft shadows behind the floating paint strokes. Colorful, expressive, tactile texture, 4k detail."

总结

我觉得 Ovis-Image 的主要亮点在于它解决了开源模型在文字渲染上的短板。无论是中文还是英文,它都能处理得比较自然,甚至在海报级别的排版中也非常稳定。加上它基于 DiT 架构,训练策略也比较扎实,让这个 7B 的小模型有了不错的实用性。

总的来说,Ovis-Image 是一个非常适合落地的模型,特别是在需要生成带文字图片的场景,比如电商海报、UI 设计或者品牌物料。

轻量、快速、可控。如果你也在做相关的开发或者设计工作,建议关注一下这个项目。

GitHub:https://github.com/AIDC-AI/Ovis-Image

模型地址:https://huggingface.co/AIDC-AI/Ovis-Image-7B

在线体验:https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆
#Ovis-Image #小模型 #文生图模型 
收藏 1
GLM-4.6V重磅开源!9B与106B两档视觉模型的本地与云端实测
这是最后一篇
推荐阅读
  • Google AI Mode上线免费体验:从聊天到代理,让生活更高效!
  • Monica内测发布内置满血版DeepSeek,集聊天、翻译、写作、思维导图、流程图、数据分析等一站式AI助手
  • Wildcard野卡停止服务了!钱没了?以后还怎么充值Claude?升级ChatGPT Plus?
  • Claude 4 重磅发布!Claude Opus 4 和Claude Sonnet 4
  • 震惊!这个开源项目挖了Cursor、v0、Manus等完整的各大AI模型官方系统提示词
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
21735 4月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
20261 7月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14592 9月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
13587 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12847 7月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
12066 7月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
11806 8月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10520 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9367 11月前
Trae Pro 来了,终于可以告别排队了!这价格真香
7284 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆
2 GLM-4.6V重磅开源!9B与106B两档视觉模型的本地与云端实测
3 智谱 AI 输入法实测:语音转写稳定,人设让AI编辑更智能,适合谁用、怎么用?
4 海螺AI接入Sora/Veo/Nano Banana,堪称 AI视频生成界的 “Cursor”
5 AutoGLM开源:每台手机都可以成为AI手机,AI手机时代还有多远?
6 Codex CLI 上线 Skills:与 Claude 生态兼容的可复用工作流,减少上下文开销的正确打开方式
7 刚刚!阿里 Qwen3-TTS 发布,语音合成能力大幅提升!
8 Seedream 4.5 悄悄上线公测,画面细节改善,小字更清晰,人物更自然
9 Mistral 3 来了:这次只对标中国模型
10 突发!Anthropic收购 Bun!Claude Code 半年营收破10 亿美金
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联