新闻资讯你的位置:九游会J9·(china)官方网站-真人游戏第一品牌 > 新闻资讯 > 阿里通义千问发布最强视觉剖析模子!可剖析20分钟以上长视频
阿里通义千问发布最强视觉剖析模子!可剖析20分钟以上长视频

发布日期:2024-09-03 11:37    点击次数:98

  

快科技8月30日音书,阿里通义千问发布第二代视觉讲话模子Qwen2-VL。其中,旗舰模子Qwen2-VL-72B的API已上线阿里云百真金不怕火平台。

据了解,Qwen2-VL在多个巨擘测评中刷新了多模态模子的最好收货,在部分方针上以致卓越了GPT-4o和Claude3.5-Sonnet等闭源模子。

2023年8月,通义千问开源第一代视觉讲话剖析模子Qwen-VL,成为开源社区最受宽饶的多模态模子之一。

短短一年内,模子下载量打破1000万次。现在,多模态模子在手机、车端等千般视觉识别场景的落地正在加快,开拓者和诳骗企业也很是关心Qwen-VL的升级迭代。

比较上代模子,Qwen2-VL的基础性能全面进步。不错读懂不同分散率和不同长宽比的图片,在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试创下民众起始的阐述。

此外,Qwen2-VL不错剖析20分钟以上长视频,撑捏基于视频的问答、对话和本色创作等诳骗。同期,具备宏大的视觉智能体能力,可自主操作手机和机器东谈主,借助复杂推理和决议的能力,Qwen2-VL不错集成笔直机、机器东谈主等建立,证据视觉环境和翰墨领导进行自动操作。

该模子还能剖析图像视频中的多讲话文本,包括中语、英文,大广博欧洲讲话,日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模子能力,包括抽象的大学题目、数学能力、文档表格多讲话翰墨图像的剖析、通用场景问答、视频剖析、Agent 能力。

Qwen2-VL-72B 在大部分的方针上王人达到了最优,以致起始了 GPT-4o 和 Claude3.5-Sonnet 等闭源模子,在文档剖析方面上风尤其赫然,仅在抽象的大学题目方面与GPT-4o 存在差距。

用户可通过阿里云百真金不怕火平台调用Qwen2-VL-72B的API:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api