转载:https://ai.zol.com.cn/896/8961786.html
2024-08-30 16:41:40·[??中关村在线 原创??]·作者:散落的星星沙
通义千问最新推出了第二代视觉语言模型Qwen2-VL。这款旗舰型号的Qwen2-VL-72B API已经登陆了阿里云百炼平台。
根据调查,Qwen2-VL在多个权威测评中刷新了多模态模型的最佳成绩,部分指标甚至超过了GPT-4o和Claude3.5-Sonnet等闭源模型。
仅一年时间,该模型下载量就突破了1000万次。目前,多模态模型在手机、车端等各种视觉识别场景中的应用正在加速推进,开发者和应用企业也非常关注Qwen-VL的更新迭代。
与上一代模型相比,Qwen2-VL的基础性能得到了全面提升。它能够理解不同分辨率和不同长宽比的图片,在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中表现出全球领先的成绩。此外,它还能够理解长达20分钟以上的视频,并支持基于视频的问答、对话和内容创作等应用。
除了具备强大的视觉智能体能力外,Qwen2-VL还具有自主操作手机和机器人等设备的能力。借助复杂推理和决策的能力,它可以集成到手机、机器人等设备中,并根据视觉环境和文字指令进行自动操作。
此外,Qwen2-VL还能够理解图像视频中的多语言文本,包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语以及越南语等。
通义千问团队从六个方面评估了这款模型的能力:综合大学题目理解能力、数学能力、文档表格多语言文字图像理解能力、通用场景问答能力、视频理解能力和Agent 能力。
总结起来,Qwen2-VL-72B在大部分指标上都达到了最优水平,甚至超过了GPT-4o和Claude3.5-Sonnet等闭源模型,在文档理解方面尤其突出。唯一与GPT-4o存在差距的是综合大学题目理解方面的成绩。用户可以通过阿里云百炼平台调用该API来使用该模型。
本文属于原创文章,如若转载,请注明来源:通义千问Qwen2-VL最新亮相 综合大学题目理解成绩优异https://ai.zol.com.cn/896/8961786.html