当前位置：首页 » AI最新动态

Ovis-Image：7B参数文生图模型终结乱码，吊打 GPT-4o AI 生图“文字渲染”新标杆

6月前 AI最新动态 947 0

经常使用文生图大模型的朋友们都知道，大多数开源的文生图模型在处理文字时都很容易翻车，经常生成出乱码或者奇怪的符号。

虽然谷歌的Nano Banana 模型可以很好地处理文字，但它的参数量高达 20B，并且也无法开源使用，只能在网页端使用或者调用API。

有没有一款小而美的文生图模型，既能生成清晰、排列整齐的文字，又不需要花费太多资源呢？

最近发现阿里在开源社区发布了一个新的文生图模型，叫 Ovis-Image。这个模型只有 7B 参数，它主打的就是一个实用。

Ovis-Image

Ovis-Image 是一个只有 7B 参数的文生图模型，它的特点是生成清晰、排列整齐的文字，非常适合用来做海报、Logo 或者 UI 原型。虽然它的参数量只有 7B，但阿里的团队表示它的效果可以和 20B 甚至更大的模型相媲美。

我看了一下官方的演示，生成的字体风格很准确，没有明显的扭曲。并且它对字体、字重和排版都有一定的控制力。对于一个可以在本地部署的轻量级模型来说，这个精度确实少见。

在一些测试榜单上，它的成绩也很出众。

在CVTG-2K 文字渲染榜单上，它的平均正确率达到了 92%，这个数据比 GPT-4o 的 85% 和 Qwen-Image 的 82% 都要高。

在长文本能力的测试中，它的中文表现达到了 96.4%，英文表现是 92.2%。这意味着在生成包含密集文字的海报或信息图时，它能保持较高的稳定性和清晰度，错字率也比较低。这对于设计和电商领域的朋友来说，是个很有价值的工具。

Ovis-Image 的效果

Ovis-Image 在处理中文和英文的文字渲染上表现都不错。

如何使用？

Ovis-Image 的使用非常简单，只需要输入一段文字就可以生成对应的图片。你可以通过以下命令来使用 Ovis-Image：

如果你想试用一下，官方提供了一个在线的 Gradio 演示。

也可以在hugging face上免费试用这个模型

https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

如何在本地部署 Ovis-Image

如果你想在本地部署，可以使用下面的指令。

git clone git@github.com:AIDC-AI/Ovis-Image.git
conda create -n ovis-image python=3.10 -y
conda activate ovis-image
cd Ovis-Image
pip install -r requirements.txt
pip install -e .

生成图像的运行代码如下。

python ovis_image/test.py \
    --model_path AIDC-AI/Ovis-Image-7B/ovis_image.safetensors \
    --vae_path AIDC-AI/Ovis-Image-7B/ae.safetensors \
    --ovis_path AIDC-AI/Ovis-Image-7B/Ovis2.5-2B \
    --image_size 1024 \
    --denoising_steps 50 \
    --cfg_scale 5.0 \
    --prompt "A creative 3D artistic render where the text \"OVIS-IMAGE\" is written in a bold, expressive handwritten brush style using thick, wet oil paint. The paint is a mix of vibrant rainbow colors (red, blue, yellow) swirling together like toothpaste or impasto art. You can see the ridges of the brush bristles and the glossy, wet texture of the paint. The background is a clean artist's canvas. Dynamic lighting creates soft shadows behind the floating paint strokes. Colorful, expressive, tactile texture, 4k detail."

总结

我觉得 Ovis-Image 的主要亮点在于它解决了开源模型在文字渲染上的短板。无论是中文还是英文，它都能处理得比较自然，甚至在海报级别的排版中也非常稳定。加上它基于 DiT 架构，训练策略也比较扎实，让这个 7B 的小模型有了不错的实用性。

总的来说，Ovis-Image 是一个非常适合落地的模型，特别是在需要生成带文字图片的场景，比如电商海报、UI 设计或者品牌物料。

轻量、快速、可控。如果你也在做相关的开发或者设计工作，建议关注一下这个项目。

GitHub：https://github.com/AIDC-AI/Ovis-Image

模型地址：https://huggingface.co/AIDC-AI/Ovis-Image-7B

在线体验：https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Ovis-Image：7B参数文生图模型终结乱码，吊打 GPT-4o AI 生图“文字渲染”新标杆

请登录后发表评论

Ovis-Image：7B参数文生图模型终结乱码，吊打 GPT-4o AI 生图“文字渲染”新标杆

Ovis-Image

Ovis-Image 的效果

如何使用？

如何在本地部署 Ovis-Image

总结

文章目录

关注「苏米客」公众号