硕士生汪佳玮获评ICNLP 2026最佳论文

作者：发布者：苏迪网站群审核人：发布时间：2026-03-30浏览次数：381

近日，我院刘伟锋教授团队在人工智能领域取得重要进展，相关研究成果《Intermediate-Layer Filtering for Text Backdoor Defense》被ICNLP（International Conference on Natural Language Processing）录用，并获评“最佳论文奖”（best paper）。会议以推动自然语言处理学术创新与技术应用为宗旨，关注理论研究、技术研发及其在教育、医疗、工业、通信等领域的应用。论文第一作者为2024级研究生汪佳玮，通讯作者为杨兴浩副教授，太阳集团tyc234cc为第一署名单位和通讯单位。

图1 “最佳论文奖”证书

随着自然语言处理模型的不断发展，信息安全问题逐渐显露，例如后门攻击。研究自然语言处理模型进行后门防御，有助于保护人民财产安全、信息安全，可以帮助信息分析、稳定网络舆论等。现如今，文本后门防御存在着计算成本高、防御通用性受限的问题，本工作通过在模型中插入中间层并仅训练中间层，实现了低计算成本的通用文本后门防御算法研究。

由于后门攻击能够成功导致输出出错的原因是触发器和标签强联系，网络学到一条计算最少的表面特征，直接给出高置信度的答案，因此本工作引入中间层嵌入优化，设计损失函数进行训练，由于这不针对一种特定的攻击设定方法，而是根据触发器的原理设置防御，因此该方法在面对未知的攻击时会具备防御通用性。在设计损失函数时，本工作通过鼓励模型对正确类别的预测概率的方式，保持模型对干净样本的任务能正常进行，同时惩罚输出的异常高置信度，使触发器和标签断联，促使网络不经过这种方式输出，达到防御的目的。

图2 中间层嵌入实现消除后门特征示意图

刘伟锋教授团队研究方向主要为机器学习、人工智能、智能信息处理算法等。现有教授1人，副教授3人，讲师4人。团队的青年人才培养工作近两年取得很大进展，2022年至今团队青年教师已经获得国家自然基金青年基金4项，山东省国家海外青年人才项目1项，山东省泰山学者青年专家1项等多个国家和省级项目。此外，团队青年教师已经多次在IEEE TPAMI、IEEE TIP、IEEE TKDE、ICML、ICLR、CVPR、AAAI、IJCAI等人工智能顶级期刊和会议发表相关研究工作，受到领域的广泛关注。

实验教学平台

学校OA系统

学校邮件系统