人工智能在视觉与医疗领域的未来：多模态大语言模型在图像感知、修复和医疗中的应用

发布者：曹玲玲发布时间：2024-12-19浏览次数：142

报告人：胡枭伟博士上海人工智能实验室

主持人：薛澄

报告时间：2024年12月23日（周一）下午14:00

报告地点：东南大学九龙湖校区计算机楼513报告厅

报告摘要：随着多模态大语言模型（MLLMs）的崛起，人工智能在计算机视觉和医疗领域的飞速发展正重新定义这些领域的格局。这些模型通过整合多种模态，推动了图像感知、修复以及医疗应用的突破性进展。本讲座将探讨MLLMs如何利用基础模型范式，结合数十亿个参数和海量异质数据，将视觉中心任务统一纳入自然语言框架中。关键创新包括开放世界的图像理解、统一的视觉-语言模型、基于MLLM的图像修复以及通用医学诊断。通过将视觉任务与语言指令对齐，这些模型突破了传统的限制，实现了用户定义的操作、先进的视觉推理能力以及复杂的诊断功能。本讲座还将探讨MLLMs如何变革视觉与医疗领域，为下一代人工智能系统的发展奠定坚实基础。

报告人简介：胡枭玮博士是上海人工智能实验室的青年科学家，主要从事计算机视觉、低层次视觉、视觉感知、医疗人工智能和深度学习等领域的研究。他于香港中文大学取得计算机科学与工程博士学位，并在计算机视觉领域的顶级期刊和会议上发表了超过50篇学术论文，涵盖IEEE TPAMI、CVPR和ICCV等重要刊物和会议。胡博士于2022-2024年被斯坦福大学评为全球前2%顶尖科学家，并入选国家高层次人才计划青年项目。

导航

人工智能在视觉与医疗领域的未来：多模态大语言模型在图像感知、修复和医疗中的应用