多模态大模型的通专融合评测

发布者：曹玲玲发布时间：2024-12-24浏览次数：246

报告人：邵文琪青年科学家上海人工智能实验室

主持人：胡宇韬

报告时间：2024年12月27日（周五）上午10：00

报告地点：东南大学九龙湖校区计算机楼513报告厅

报告摘要：多模态大模型在各项任务上的性能突飞猛进，在以视觉语言对话为代表的多模态应用上取得了显著进展。然而，多模态大模型是否具有足够的泛化性，是否能超越一些专用模型，研究这些问题对指引模型发展具有重要意义。本报告将从通专融合的角度构建多模态大模型评测体系，从多任务的角度衡量模型的通用能力，从特色能力和应用能力衡量模型的专用性能，包括多图理解、多轮对话、大海捞针等特色能力，以及医疗问答、GUI导航等特色应用。由此我们针对多模态大模型构建了在线对战、多任务、多图理解、多轮对话、长上下文、物理规律、医疗问答、GUI导航等系列评测框架与基准。通专融合的多模态评测结果表明：当前多模态大模型具备一定的通用能力，但在特色能力和下游应用存在大幅提升空间。系列评测基准被QwenVL和InternVL等主流模型广泛使用，推动了多模态大模型的发展。

报告人简介：邵文琪，上海人工智能实验室青年科学家，上海市海外高层次青年人才，他主要研究多模态大模型的训练、评测、推理增强，取得了一系列有代表性和学术影响力的工作。他以主要作者身份在顶级期刊和会议上发表论文15篇，包括TPAMI，CVPR，ICML，NeurIPS，ICLR等，谷歌学术获得了超过2000次引用。他开发的大语言模型量化算法OmniQuant被PrivateLLM应用商用至今，指导项目相关学生获得腾讯犀牛鸟奖学金。