首页 > AI资讯 Ai产品

Ovis:阿里国际发布的最新开源多模态模型

于1970-01-01发布在Ai产品 33798

阿里国际于2024年9月19日发布了最新的多模态大模型Ovis，Ovis模型在多个领域展现出色的能力，特别是在数学推理问答、物体识别、文本提取和复杂任务决策等方面。

阿里国际发布的最新开源多模态模型

根据多模态评测平台OpenCompass的数据，Ovis1.6-Gemma2-9B版本在OpenCompass这一权威综合评测基准上，超越了多个知名开源模型，包括Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6，在300亿参数以下的开源模型中位居第一。值得注意的是，Ovis在某些任务上的表现甚至超过了闭源的大型模型GPT-4o-mini。

Ovis的核心能力:

多模态任务处理：Ovis能够出色地完成视觉感知推理、数学和科学理解、生活场景分析等多模态任务。它不仅能够辅助理解复杂的数学概念，还能帮助分析财务报表，甚至根据图片指导烹饪过程，如制作炸鱼薯条。
技术细节：Ovis的设计亮点在于其结构上对齐视觉和文本嵌入的方式，通过引入可学习的视觉嵌入表，将连续视觉特征转换为概率化的token，再生成结构化的视觉嵌入，这克服了传统多模态模型中视觉与文本信息融合的限制。
性能与优势：Ovis在数学推理和视觉理解等任务中的得分表现出色，甚至媲美一些参数量级更高的模型。它在幻觉现象和错误率方面的控制也优于同级别模型，确保了高文本质量和准确度。
开源与商用友好：遵循Apache 2.0开源协议，Ovis的开源使得其在商业应用上非常友好，鼓励更广泛的应用和二次开发。
架构创新：Ovis通过创新的架构设计，包括动态子图方案，支持处理极端长宽比和高分辨率图像，以及全面数据优化策略，覆盖Caption、VQA、OCR、Table、Chart等多种多模态数据方向，从而提升了多模态任务的综合表现。

Ovis应用案例：

图像识别与处理：Ovis能准确识别手写内容并翻译，处理复杂的数学公式，比如通过图片识别给出详细的菜谱制作步骤。
自动驾驶：整合摄像头、雷达和激光雷达的数据。
医疗诊断：用于图像分析和诊断支持。
视频内容理解：分析和生成视频内容。
图像描述生成：自动生成图像描述。
视觉问答：支持多种语言的文本提取和问答。

Ovis开源信息:

Ovis系列模型License采用Apache 2.0。
Ovis 1.0、1.5的数据、模型、训练和推理代码已开源。
Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。
开发者可以在GitHub上获取模型和代码。
开源代码可用于商用和改进。

Ovis技术优势：

创新架构设计：克服MLLM中MLP连接器架构的局限性。
高分图像处理：兼容高分辨率图像。
全面数据优化：显著提升多模态问答、指令跟随等任务表现。
卓越模型性能：在OpenCompass上综合排名第一。
幻觉现象和错误率显著低于同级别的模型。

Ovis Ghub地址：

https://github.com/aiDC-AI/Ovis

阿里国际团队表示，近半年的数据显示，商家对AI的需求不断增长，平均每两个月调用量翻一番。Ovis无疑将助力更多商家提升运营效率。

收藏

LVCD动画上色效果.gif

上一篇

LVCD：腾讯动画视频线稿上色工具

YesPlayMusic：开源免费且高颜值的第三方网易云播放器

下一篇

YesPlayMusic：开源免费且高颜值的第三方网易云播放器

相关文章

海艺SeaArt - V1.3.7 更新公告

海艺SeaArt - V1.3.7 更新公告

1970-01-01

LearnLM-Tutor：Google DeepMind 开发的一对一教学辅导的AI模型

LearnLM-Tutor：Google DeepMind 开发的一对一教学辅导的AI模型

1970-01-01

Stability AI的Stable Video官网正式上线内测

Stability AI的Stable Video官网正式上线内测

1970-01-01

独家教程：如何用小鱼Ai写读后感

独家教程：如何用小鱼Ai写读后感

1970-01-01

司马阅再升级，明显领先国产AI文档同行！

司马阅再升级，明显领先国产AI文档同行！

1970-01-01

Gen-3 Alpha：Runway推出的新一代视频生成模型

Gen-3 Alpha：Runway推出的新一代视频生成模型

1970-01-01

最新文章

1 2 3 4 5 6 7 8 9 10 Voice-Pro:一款集字幕、翻译和TTS于一体的多语言音频处理工具
1 2 3 4 5 6 7 8 9 10 Kimi探索版:AI搜索的革新
1 2 3 4 5 6 7 8 9 10 Seed-ASR：字节跳动自动语音识别模型
1 2 3 4 5 6 7 8 9 10 Notty：一款AI驱动的简洁快速笔记应用和Markdown编辑器
1 2 3 4 5 6 7 8 9 10 Quivr：一个由生成式AI驱动的超级个人助理项目
1 2 3 4 5 6 7 8 9 10 Cursor AI与GitHub Copilot相比哪个好？
1 2 3 4 5 6 7 8 9 10 Cursor Directory：各种编程语言的配置文件和Cursor提示词库
1 2 3 4 5 6 7 8 9 10 SuperCraft：将手绘草图转换成真实产品图像
1 2 3 4 5 6 7 8 9 10 Auto-Video-Generateor：一款AI自动解说视频生成器
1 2 3 4 5 6 7 8 9 10 OpenBB：一个免费开源的金融数据分析平台

最新工具

宣小二

宣小二媒体发稿平台，自媒体发稿平台，短视频发布平台，基于AI驱动的企业自助式投放平台。宣小二媒体发稿平台隶属于杭州龙投文化传媒有限公司，致力于为企业提供高效的新闻发稿、自媒体发稿和短视频发布服务。平...

笔灵AI简历

一款操作简单、生成迅速、效果卓越的AI简历生成工具，笔灵AI简历旨在为每一位求职者提供最优质的简历制作和优化服务。

简单简历

简单简历，简单好用的AI简历工具，辅助求职者制作独一无二的简历

速创猫Ai简历

可以10秒钟生成一份高质量简历、根据岗位需求定制简历、优化精修简历。还可以模拟面试、行业分析、职业规划等一站式专业的解决您的求职难题。

蓝字典AI

一款AI求职工具，通过AI帮助求职者智能生成简历、完成AI面试、辅助职业规划以及解答求职过程遇到的问题。

Wonderin AI

一款强大的简历生成工具，利用先进的算法，帮助您轻松创建与您的职业目标相适应的专业简历。

简历Bot

一种利用人工智能技术帮助用户制作和优化简历的AI简历生成器。它通过分析用户的个人信息、工作经验、技能等，结合岗位要求，自动生成或优化简历内容。

Huntr AI

一个AI简历和求职信生成器，帮助您使用 AI 快速创建量身定制的Ai简历和求职信，一键填写申请表，并自动跟踪你的求职进程。

未来简历

全新一代AI大模型简历生成工具，媲美简历专家，让你的简历通过率提高300%！

满分简历

一款专业的在线AI简历制作和简历优化工具，满分简历帮助您快速创建出结构清晰、内容丰富的个人简历。

人生若只如初见

用户登录