近日,我院张冰峰副教授联合香港理工大学、英国萨里大学、西交利物浦大学等在开放词汇语义分割方面取得进展,相关研究成果《The Power of Prior: Training-Free Open-Vocabulary Semantic Segmentation with LLaVA》被计算机视觉领域国际顶级会议IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)主会议录用。论文第一作者为张冰峰,太阳集团tyc234cc为第一署名单位。该研究得到了国家自然科学基金、山东省自然科学基金、青岛市自然科学基金重点项目以及萨里大学IAS项目的资助支持。

开放词汇语义分割旨在基于文本查询分割图像中的任意对象,可以避免传统方法对预定义类别的依赖。目前的大多数免训练方法依赖于CLIP模型,需要显式定义背景子类,且容易产生全局偏差或错误激活。本研究首次探索了直接利用多模态大语言模型固有的先验知识来完成密集预测任务,并提出了一种全新的FSeg-LLaVA框架。该框架包含三个核心模块:首先是问答流水线模块,用于识别图像中的目标类别并生成文本描述;其次是图文响应模块,用于提取目标类别初始且可靠的像素级激活图;最后是视觉生成模块,通过进一步去除噪声区域以产生可靠的提示,生成最终的预测掩码。实验结果表明,所提方法在不需要提供显式背景类名的前提下就能实现精准分割,显示其处理开放世界复杂场景的巨大潜力。
CVPR是人工智能与计算机视觉领域的国际最高级别学术会议,也是中国计算机学会(CCF)推荐的A类国际学术会议。2026年接收超过16000篇投稿,最终4090篇被录用,录用率25.42%。
张冰峰副教授所在的模式识别与智能信息处理团队长期从事机器学习、人工智能、智能信息处理算法等研究,团队负责人刘伟锋教授,现有教授1人,副教授3人,讲师4人。团队的青年人才培养工作近两年取得很大进展,2022年至今团队青年教师已经获得国家自然基金青年基金4项,山东省海外优青1项,山东省泰山学者青年专家1项等多个国家和省级项目。此外,团队青年教师已经多次在IEEE TPAMI、IEEE TIP、IEEE TKDE、ICML、ICLR、CVPR、AAAI、IJCAI等人工智能顶级期刊和会议发表相关研究工作,受到领域的广泛关注。


实验教学平台
学校OA系统
学校邮件系统
相关文件查询