转载:https://ai.zol.com.cn/883/8835961.html
2024-07-12 14:40:52·[??中关村在线 原创??]·作者:牛奶秋刀鱼
智谱AI近日宣布,其开发了一种新型的视频理解模型CogVLM2-Video,并已将其开源。这个新的视频理解模型使用了一种不同于传统帧平均和视频标记压缩方法的训练方式,从而能够更准确地回答与时间相关的问题。与专注于特定格式和适用领域的时间问答数据集相比,这种基于视觉模型的自动时间定位数据构建方法能更好地提升模型在问答方面的能力。
智谱AI引入了多帧视频图像和时间戳作为编码器输入,在新数据集和现有开放领域问答数据的支持下训练出了CogVLM2-Video模型。该模型不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。
据官方表示,CogVLM2-Video模型效果演示令人满意。为了进一步验证其性能,您可以访问相关链接进行代码查看和试用。
对于这个新开发出来的C
本文属于原创文章,如若转载,请注明来源:新型视频理解模型CogVLM2-Video 开源https://ai.zol.com.cn/883/8835961.html