多模态大模型的通专融合评测

发布者:曹玲玲发布时间:2024-12-24浏览次数:10

报告人:邵文琪 青年科学家 上海人工智能实验室

主持人:胡宇韬

报告时间:2024年12月27日(周五)上午10:00

报告地点:东南大学九龙湖校区计算机楼513报告厅

报告摘要:多模态大模型在各项任务上的性能突飞猛进,在以视觉语言对话为代表的多模态应用上取得了显著进展。然而,多模态大模型是否具有足够的泛化性,是否能超越一些专用模型,研究这些问题对指引模型发展具有重要意义。本报告将从通专融合的角度构建多模态大模型评测体系,从多任务的角度衡量模型的通用能力,从特色能力和应用能力衡量模型的专用性能,包括多图理解、多轮对话、大海捞针等特色能力,以及医疗问答、GUI导航等特色应用。由此我们针对多模态大模型构建了在线对战、多任务、多图理解、多轮对话、长上下文、物理规律、医疗问答、GUI导航等系列评测框架与基准。通专融合的多模态评测结果表明:当前多模态大模型具备一定的通用能力,但在特色能力和下游应用存在大幅提升空间。系列评测基准被QwenVL和InternVL等主流模型广泛使用,推动了多模态大模型的发展。

报告人简介:邵文琪,上海人工智能实验室青年科学家,上海市海外高层次青年人才,他主要研究多模态大模型的训练、评测、推理增强,取得了一系列有代表性和学术影响力的工作。他以主要作者身份在顶级期刊和会议上发表论文15篇,包括TPAMI,CVPR,ICML,NeurIPS,ICLR等,谷歌学术获得了超过2000次引用。他开发的大语言模型量化算法OmniQuant被PrivateLLM应用商用至今,指导项目相关学生获得腾讯犀牛鸟奖学金。


  • 联系方式
  • 通信地址:南京市江宁区东南大学路2号东南大学九龙湖校区计算机学院
  • 邮政编码:211189
  • ​办公地点:东南大学九龙湖校区计算机楼
  • 学院微信公众号