矢量图形具有易于编辑、可任意缩放的优点,不存在模糊和细节混叠等伪影,基于矢量图形的应用和研究引起了人们的广泛关注。近日,中国科学院大学肖俊研究团队针对平面矢量户型图的语义分割任务进行研究,提出了可直接应用于矢量户型图分割的双流图神经网络,相关工作近期在计算机视觉领域的顶级会议CVPR 2023上在线发表,该论文在初始评审中获得了审稿人一致接受的意见,并最终获选为highlight工作。CVPR 2023共收到投稿9155篇,录用2360篇,其中235篇论文被选为highlight论文,highlight论文约占所有录用论文的10%、投稿论文的2.5% 。
图1 基于矢量户型图语义分割的双流图神经网络
研究认为,现有工作将矢量户型图渲染为图像,使用基于图像的语义分割网络,忽略了矢量图形中的结构信息,分割结果中往往具有碎片化语义区域。本研究旨在设计可以直接处理矢量户型图的语义分割网络,能够避免图像分割方法中带来的区域不一致性。该任务具有下列挑战:由于矢量图形包含不规则的数据结构,因此难以直接应用现有的语义分割神经网络进行处理;户型图中不同房间相互连接,难以划分一致且封闭的语义区域;房间语义不仅取决于形状特征,还取决于在整个户型图中的相对位置。针对上述挑战,本研究设计了如图1所示的双流图神经网络。其中,网络的主分支 (primal stream) 用于预测语义区域边界,对偶分支 (dual stream) 用于预测语义区域类别,主分支与对偶分支通过图注意力机制 (graph attention) 形成交互,提升各自分支的预测能力。考虑到矢量图形在工业设计中的重要性,研究希望启发对矢量图形的深度学习进行进一步探索。
中国科学院大学人工智能学院肖俊教授和姜海勇副教授指导的博士生杨炳琛为该论文的第一作者。本工作得到了国家自然科学基金(U2003109, U21A20515, 62102393, 62206263, 62271467)、中国博士后科学基金(2022T150639, 2021M703162)等项目的支持。