阿里通义千问发布最强视觉剖析模子！可剖析20分钟以上长视频 - 九游会J9·(china)官方网站-真人游戏第一品牌

栏目分类

热点资讯

新闻资讯你的位置：九游会J9·(china)官方网站-真人游戏第一品牌 > 新闻资讯 > 阿里通义千问发布最强视觉剖析模子！可剖析20分钟以上长视频

阿里通义千问发布最强视觉剖析模子！可剖析20分钟以上长视频

发布日期：2024-09-03 11:37 点击次数：101

快科技8月30日音书，阿里通义千问发布第二代视觉讲话模子Qwen2-VL。其中，旗舰模子Qwen2-VL-72B的API已上线阿里云百真金不怕火平台。

据了解，Qwen2-VL在多个巨擘测评中刷新了多模态模子的最好收货，在部分方针上以致卓越了GPT-4o和Claude3.5-Sonnet等闭源模子。

2023年8月，通义千问开源第一代视觉讲话剖析模子Qwen-VL，成为开源社区最受宽饶的多模态模子之一。

短短一年内，模子下载量打破1000万次。现在，多模态模子在手机、车端等千般视觉识别场景的落地正在加快，开拓者和诳骗企业也很是关心Qwen-VL的升级迭代。

比较上代模子，Qwen2-VL的基础性能全面进步。不错读懂不同分散率和不同长宽比的图片，在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试创下民众起始的阐述。

此外，Qwen2-VL不错剖析20分钟以上长视频，撑捏基于视频的问答、对话和本色创作等诳骗。同期，具备宏大的视觉智能体能力，可自主操作手机和机器东谈主，借助复杂推理和决议的能力，Qwen2-VL不错集成笔直机、机器东谈主等建立，证据视觉环境和翰墨领导进行自动操作。

该模子还能剖析图像视频中的多讲话文本，包括中语、英文，大广博欧洲讲话，日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模子能力，包括抽象的大学题目、数学能力、文档表格多讲话翰墨图像的剖析、通用场景问答、视频剖析、Agent 能力。

Qwen2-VL-72B 在大部分的方针上王人达到了最优，以致起始了 GPT-4o 和 Claude3.5-Sonnet 等闭源模子，在文档剖析方面上风尤其赫然，仅在抽象的大学题目方面与GPT-4o 存在差距。

用户可通过阿里云百真金不怕火平台调用Qwen2-VL-72B的API：https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

友情链接：