商汤发布多模态多任务通用大模型“书生 2.5 ”

2023-03-15 13:55:13|

来源：多知网作者：

【资料图】

多知网 3 月 15 日消息，商汤科技日前发布多模态多任务通用大模型 " 书生 ( INTERN ) 2.5"。

据介绍，" 书生 " 由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于 2021 年 11 月首次共同发布，并持续联合研发。

商汤科技表示，" 书生 2.5" 拥有 30 亿参数，" 是目前全球开源模型中 ImageNet 准确度最高、规模最大，同时也是物体检测标杆数据集 COCO 中唯一超过 65.0 mAP 的模型 "。

" 书生 2.5" 在图文跨模态领域卓越的性能表现来自于视觉、语音及多任务建模三大模型能力的有效融合，即 InternImage-G 通用视觉大模型、用于文本理解的超大语言预训练模型 ( LLM ) 和用于多任务的兼容解码建模大模型 ( Uni-Perceiver ) 。

" 书生 2.5" 实现了通过文本来定义任务，从而可以灵活地定义不同场景的任务需求，并根据给定视觉图像和任务的提示性语句，给出相应的指令或作答，进而具备通用场景下的高级感知和复杂问题处理能力，比如图像描述、视觉问答、视觉推理和文字识别等。

" 书生 2.5" 的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供精准的感知和理解能力支持。例如，在自动驾驶场景中，可以大幅提升场景感知理解能力，准确辅助车辆判断交通信号灯状态、道路标志牌等信息，为车辆决策规划提供有效信息输入。此外，其也可解决纷繁复杂的日常生活中的常见任务，满足各种需求。

" 书生 2.5" 同时具备 AIGC" 以文生图 " 的能力，还可根据文本快速检索出视觉内容。

自 3 月 14 日起，" 书生 2.5" 多模态通用大模型已在商汤参与的通用视觉开源平台 OpenGVLab 开源。 ( 多知网哆啦 )

标签：