近日,我院刘伟锋教授团队在人工智能领域取得重要进展,相关研究成果《Intermediate-Layer Filtering for Text Backdoor Defense》被ICNLP(International Conference on Natural Language Processing)录用,并获评“最佳论文奖”(best paper)。会议以推动自然语言处理学术创新与技术应用为宗旨,关注理论研究、技术研发及其在教育、医疗、工业、通信等领域的应用。论文第一作者为2024级研究生汪佳玮,通讯作者为杨兴浩副教授,太阳集团tyc234cc为第一署名单位和通讯单位。

图1 “最佳论文奖”证书
随着自然语言处理模型的不断发展,信息安全问题逐渐显露,例如后门攻击。研究自然语言处理模型进行后门防御,有助于保护人民财产安全、信息安全,可以帮助信息分析、稳定网络舆论等。现如今,文本后门防御存在着计算成本高、防御通用性受限的问题,本工作通过在模型中插入中间层并仅训练中间层,实现了低计算成本的通用文本后门防御算法研究。
由于后门攻击能够成功导致输出出错的原因是触发器和标签强联系,网络学到一条计算最少的表面特征,直接给出高置信度的答案,因此本工作引入中间层嵌入优化,设计损失函数进行训练,由于这不针对一种特定的攻击设定方法,而是根据触发器的原理设置防御,因此该方法在面对未知的攻击时会具备防御通用性。在设计损失函数时,本工作通过鼓励模型对正确类别的预测概率的方式,保持模型对干净样本的任务能正常进行,同时惩罚输出的异常高置信度,使触发器和标签断联,促使网络不经过这种方式输出,达到防御的目的。

图2 中间层嵌入实现消除后门特征示意图
刘伟锋教授团队研究方向主要为机器学习、人工智能、智能信息处理算法等。现有教授1人,副教授3人,讲师4人。团队的青年人才培养工作近两年取得很大进展,2022年至今团队青年教师已经获得国家自然基金青年基金4项,山东省海外优青1项,山东省泰山学者青年专家1项等多个国家和省级项目。此外,团队青年教师已经多次在IEEE TPAMI、IEEE TIP、IEEE TKDE、ICML、ICLR、CVPR、AAAI、IJCAI等人工智能顶级期刊和会议发表相关研究工作,受到领域的广泛关注。


实验教学平台
学校OA系统
学校邮件系统
相关文件查询