通义千问Qwen2-VL最新亮相综合大学题目理解成绩优异

转载：https://ai.zol.com.cn/896/8961786.html

2024-08-30 16:41:40·[??中关村在线原创??]·作者：散落的星星沙

通义千问最新推出了第二代视觉语言模型Qwen2-VL。这款旗舰型号的Qwen2-VL-72B API已经登陆了阿里云百炼平台。

根据调查，Qwen2-VL在多个权威测评中刷新了多模态模型的最佳成绩，部分指标甚至超过了GPT-4o和Claude3.5-Sonnet等闭源模型。

仅一年时间，该模型下载量就突破了1000万次。目前，多模态模型在手机、车端等各种视觉识别场景中的应用正在加速推进，开发者和应用企业也非常关注Qwen-VL的更新迭代。

与上一代模型相比，Qwen2-VL的基础性能得到了全面提升。它能够理解不同分辨率和不同长宽比的图片，在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中表现出全球领先的成绩。此外，它还能够理解长达20分钟以上的视频，并支持基于视频的问答、对话和内容创作等应用。

除了具备强大的视觉智能体能力外，Qwen2-VL还具有自主操作手机和机器人等设备的能力。借助复杂推理和决策的能力，它可以集成到手机、机器人等设备中，并根据视觉环境和文字指令进行自动操作。

此外，Qwen2-VL还能够理解图像视频中的多语言文本，包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语以及越南语等。

通义千问团队从六个方面评估了这款模型的能力：综合大学题目理解能力、数学能力、文档表格多语言文字图像理解能力、通用场景问答能力、视频理解能力和Agent 能力。

总结起来，Qwen2-VL-72B在大部分指标上都达到了最优水平，甚至超过了GPT-4o和Claude3.5-Sonnet等闭源模型，在文档理解方面尤其突出。唯一与GPT-4o存在差距的是综合大学题目理解方面的成绩。用户可以通过阿里云百炼平台调用该API来使用该模型。

本文属于原创文章，如若转载，请注明来源：通义千问Qwen2-VL最新亮相综合大学题目理解成绩优异https://ai.zol.com.cn/896/8961786.html

通义千问Qwen2-VL最新亮相 综合大学题目理解成绩优异