10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆

1月前 AI最新动态 347 0

经常使用文生图大模型的朋友们都知道,大多数开源的文生图模型在处理文字时都很容易翻车,经常生成出乱码或者奇怪的符号。

虽然谷歌的Nano Banana 模型可以很好地处理文字,但它的参数量高达 20B,并且也无法开源使用,只能在网页端使用或者调用API。

有没有一款小而美的文生图模型,既能生成清晰、排列整齐的文字,又不需要花费太多资源呢?

最近发现阿里在开源社区发布了一个新的文生图模型,叫 Ovis-Image。这个模型只有 7B 参数,它主打的就是一个实用。

Ovis-Image

Ovis-Image 是一个只有 7B 参数的文生图模型,它的特点是生成清晰、排列整齐的文字,非常适合用来做海报、Logo 或者 UI 原型。虽然它的参数量只有 7B,但阿里的团队表示它的效果可以和 20B 甚至更大的模型相媲美。

我看了一下官方的演示,生成的字体风格很准确,没有明显的扭曲。并且它对字体、字重和排版都有一定的控制力。对于一个可以在本地部署的轻量级模型来说,这个精度确实少见。

在一些测试榜单上,它的成绩也很出众。

在CVTG-2K 文字渲染榜单上,它的平均正确率达到了 92%,这个数据比 GPT-4o 的 85% 和 Qwen-Image 的 82% 都要高。

在长文本能力的测试中,它的中文表现达到了 96.4%,英文表现是 92.2%。这意味着在生成包含密集文字的海报或信息图时,它能保持较高的稳定性和清晰度,错字率也比较低。这对于设计和电商领域的朋友来说,是个很有价值的工具。

Ovis-Image 的效果

Ovis-Image 在处理中文和英文的文字渲染上表现都不错。

如何使用?

Ovis-Image 的使用非常简单,只需要输入一段文字就可以生成对应的图片。你可以通过以下命令来使用 Ovis-Image:

如果你想试用一下,官方提供了一个在线的 Gradio 演示。

也可以在hugging face上免费试用这个模型

https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

如何在本地部署 Ovis-Image

如果你想在本地部署,可以使用下面的指令。

git clone git@github.com:AIDC-AI/Ovis-Image.git
conda create -n ovis-image python=3.10 -y
conda activate ovis-image
cd Ovis-Image
pip install -r requirements.txt
pip install -e .

生成图像的运行代码如下。

python ovis_image/test.py \
    --model_path AIDC-AI/Ovis-Image-7B/ovis_image.safetensors \
    --vae_path AIDC-AI/Ovis-Image-7B/ae.safetensors \
    --ovis_path AIDC-AI/Ovis-Image-7B/Ovis2.5-2B \
    --image_size 1024 \
    --denoising_steps 50 \
    --cfg_scale 5.0 \
    --prompt "A creative 3D artistic render where the text \"OVIS-IMAGE\" is written in a bold, expressive handwritten brush style using thick, wet oil paint. The paint is a mix of vibrant rainbow colors (red, blue, yellow) swirling together like toothpaste or impasto art. You can see the ridges of the brush bristles and the glossy, wet texture of the paint. The background is a clean artist's canvas. Dynamic lighting creates soft shadows behind the floating paint strokes. Colorful, expressive, tactile texture, 4k detail."

总结

我觉得 Ovis-Image 的主要亮点在于它解决了开源模型在文字渲染上的短板。无论是中文还是英文,它都能处理得比较自然,甚至在海报级别的排版中也非常稳定。加上它基于 DiT 架构,训练策略也比较扎实,让这个 7B 的小模型有了不错的实用性。

总的来说,Ovis-Image 是一个非常适合落地的模型,特别是在需要生成带文字图片的场景,比如电商海报、UI 设计或者品牌物料。

轻量、快速、可控。如果你也在做相关的开发或者设计工作,建议关注一下这个项目。

GitHub:https://github.com/AIDC-AI/Ovis-Image

模型地址:https://huggingface.co/AIDC-AI/Ovis-Image-7B

在线体验:https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆
#Ovis-Image #小模型 #文生图模型 
收藏 1
GLM-4.6V重磅开源!9B与106B两档视觉模型的本地与云端实测
智谱上线AI学习搭子,从收藏夹里挖出来的知识,怎样才能真正变成自己的能力?
推荐阅读
  • Cursor:年度最佳AI辅助编程代码生成器工具,生成代码、修改代码,提升编程效率
  • 百度发布首款搭载中文 大模型的小度AI眼镜,支持边走边问、第一视角拍摄
  • Claude Code Plugins 插件系统上线:从代码生成器到可编程AI平台,支持添加自定义功能模块
  • 快手发布 AI 编程矩阵:AI编程工具 CodeFlicker、自研的大模型 KAT-Coder
  • 各大平台免费 AI 大模型 + API汇总
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
24013 6月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
22793 8月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
15392 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14788 11月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
13903 9月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13225 9月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
12604 9月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
11455 10月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
10046 1年前
Trae Pro 来了,终于可以告别排队了!这价格真香
8466 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 1B参数击败9B模型?LightOnOCR-2-1B如何用"小身板"做出大文章
2 Skill(技能)正在成为标配,用Coze在3分钟内创建可商业化的AI Skill
3 GLM-4.7-flash 限时免费开放,GLM Coding Plan 即将限售,老用户抓紧了~
4 亲测 PixVerse R1:通用级实时视频生成的技术突破,让想象力进入 AI 构建的虚拟空间。
5 Ollama 官宣支持 Anthropic API :本地模型也可以接入ClaudeCode写代码了
6 火山方舟上新 Coding Plan,一键接入国产最强开发天团:Doubao-Seed-Code、DeepSeek-V3.2、GLM-4.7、Kimi-K2
7 扣子2.0上线,四大Agent能力直接炸场,还有限时用户福利!
8 Claude Cowork 现已向所有 Pro 用户(及以上)开放,刚发布就被拆解!
9 Coze重磅更新!扣子编程正式支持 Skill:从工具调用到专业工作流,你的智能体技能商店
10 ChatGPT Go版上线+广告引入:免费、低价付费用户,优先体验
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联