阿里云今日推出了大规模视觉语言模型Qwen-VL,目前已经在ModeScope开源,IT之家早前曾报道,阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。
据悉,Qwen-VL是一款支持中英文等多种语言的视觉语言模型,相较于此前的VL模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的LVLM模型通常仅支持224分辨率。
官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。
此外,在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。
通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集 “试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

-
盘扣式脚手架有哪些优点?四川远方模架告诉你答案!新浪网消息:四川远方模架科技有限公司位于四川省成都市,创建于2017年。公司拥有M60型盘扣脚手架总量达30000余吨,具有...
-
区块链如何跨越未来10年“十四五”时期,随着全球数字化进程的深入推进,区块链产业竞争将更加激烈。作为新兴数字产业之一,区块链在产业变革中发挥着重要作...
-
三人篮球将首登奥运舞台 国家三人男女篮签署反兴奋剂为实现东京奥运会兴奋剂问题“零出现”的目标,近日,中国篮协反兴奋剂委员会分别前往山东济南和上海崇明训练基地,为国家三人男、女...
-
农业农村部部署华西黄淮等地持续强降雨防范应对工作
2023-08-27 09:57
-
东风猛士917车型上市:纯电/增程双版本,售63.7
2023-08-27 09:29
-
合肥五里片区A组团二期G地块项目地库封顶
2023-08-27 09:20
-
联想YOGA272023一体机9月中旬上市:R778
2023-08-27 09:18
-
重磅政策落地,每年减负4800多亿元!哪些人将受益?
2023-08-27 09:15
-
湖南搭建全国首个飞行汽车跨江运行场景,小鹏汇天旅航者
2023-08-27 09:13
-
《电动汽车与分布式储能系统发展报告》白皮书今日在沪发
2023-08-27 08:57
-
周鸿祎:将推出新一代智能搜索引擎和基于生成式大模型的
2023-08-27 08:40
-
魔方生活冲刺港股,势稳健增长站稳长租公寓市场
2023-08-27 08:31
-
全球最大!国内首艘万吨级远洋通信海缆铺设船今日下水:
2023-08-26 14:48
最新