近期,电子科技大学计算机科学与工程学院(网络空间安全学院)“计算机视听觉”实验室有4名学生的论文成果同时被CCF-A级会议The 39th Annual AAAI Conference on Artificial Intelligence(AAAI 2025)录用,电子科技大学为唯一署名单位和通讯单位。
以2022级博士生陈圣嘉为第一作者的学术论文《Motion Prior Knowledge Learning with Homogeneous Language Descriptions for Moving Infrared Small Target Detection》(作者:陈圣嘉、纪禄平【通信作者】、段威威、彭爽和叶茂),为克服传统目标粗略运动表征局限性,首次提出了一种具有运动先验知识学习能力的视觉-语言框架。它突破了传统单视觉模态,通过构建目标运动同质语言描述,定向引导视觉通道学习精细运动先验知识(其采用的技术思路如图1所示)。实验证明,这项工作提出的模型框架和设计的技术方案具有很好的优越性,将推动视觉-语言模型在红外小目标检测领域的理论研究和应用发展。
图1 面向红外小目标检测的视觉-语言模型框架
以2024级博士生李念欣为第一作者的学术论文《Self-Prompting Analogical Reasoning for UAV Object Detection》(作者:李念欣和叶茂【通信作者】),首次针对无人机目标检测(UAVOD)中的语义关联与目标检测问题,提出了一种“自提示类比推理”(SPAR)方法(采用的技术方案如图2所示)。它利用视觉-语言模型(CLIP)生成上下文感知提示信息,结合类比推理机制,能有效提升小目标检测精度。实验表明,这项工作提出的技术方法在UAVOD复杂场景下表现优异,填补了语义推理在该领域的空白,为UAV技术在开放场景中的应用指明了新方向。
图2 面向无人机目标检测的自提示类比推理方案
以2022级硕士生雷雨田为第一作者的学术论文《Mining In-distribution Attributes in Outliers for Out-of-distribution Detection》(作者:雷雨田、纪禄平【通信作者】、刘沛),观察到分布外数据通常具有显著的分布内数据属性,提出了一种基于多视图的分布外检测深度学习框架(MVOL)。该框架能够有效处理分布外数据中潜在的分布内属性。大量实验证明了这项工作提出的MVOL框架和学习算法优于已有方案,丰富了OOD检测的理论研究方向。
图3 从分布外数据挖掘分布内属性的分布外检测方案
以2023级硕士生苟加祥为第一作者的学术论文《Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification》(作者:苟加祥、纪禄平【通信作者】、刘沛、叶茂),面向增量式病理图像分类,提出了首个可查询原型多示例学习的视觉-语言模型框架(QPMIL-VL)(如图4所示)。它通过构建一个可查询学习的“图像语义关键字-文本提示描述子”原型池,有效实现了记忆并重用持续学习获得的病理图像分类知识,显著提升了任务级、类别级增量式学习性能,为病理图像的分类技术指明了一种新的研究途径。
图4 面向病理图分类的可查询原型多示例学习视觉-语言模型框架
AAAI Conference on Artificial Intelligence是人工智能领域的顶级会议之一,由先进人工智能协会(Association for the Advancement of Artificial Intelligence, AAAI)举办,每年举办一次。第39届Annual AAAI Conference on Artificial Intelligence (即AAAI 2025),论文录用率约为23.4%。本次会议将于2025年2月25日至3月4日在美国宾夕法尼亚州费城的宾夕法尼亚会议中心举行,计算机视听觉实验室将组队参会并宣读论文。
计算机视听觉实验室依托计算机科学与工程学院,由叶茂教授发起成立于2008年。实验室现有正高级专职研究人员3名,硕士博士学生50余名。近几年来,实验室主要专注于迁移学习、智能视频压缩、目标检测、病理图像分析和多媒体技术等领域的技术研究和应用开发。近3年来,实验室主持了国家重点研发计划、国家自然科学基金项目多项,每年发表中国科学院一区、CCF A类论文近20篇,申请专利10余件。近2年来实验室培养的硕士和博士生,有多人获得四川省优秀毕业生和校级优秀论文等荣誉称号。