2021级博士研究生程博论文被AAAI'2023接收

发布时间:2022-11-20 点击:

澳门官网正规电子游戏网站常毅教授指导的2021级博士研究生程博同学的论文“TC-DWA: Text Clustering with Dual Word-level Augmentation”被国际会议AAAI 2023(CCF A类)接收。本篇论文与澳门官网正规电子游戏计算机科学与技术学院李熙铭副教授合作完成。

会议简介:AAAI(The National Conference on Artificial Intelligence)是由国际先进人工智能协会(Association for the Advance of Artificial Intelligence)主办的年会,也是人工智能顶级国际会议。

会议类别:CCF A类会议

第一作者:程博

论文题目:TC-DWA: Text Clustering with Dual Word-level Augmentation

论文概述:预训练语言模型,例如:ELMo和BERT,由于其可以输出单词的强语境化嵌入特征,进一步提高了大量NLP任务的性能。受其启发,本文旨在对预训练模型进行微调,以有效地处理文本聚类任务,即机器学习中的一个经典和基本的挑战。因此,我们提出了一种新颖的基于BERT的方法,即双词级增强文本聚类(TC-DWA)。具体地说,我们制定了一个自训练目标,并用双词级增强技术增强它。避免了现有文本增强技术,即单词插入、单词替换和反向翻译可能存在的问题:产生有噪声的增强样本,并且代价昂贵,可能会阻碍文本聚类任务的进一步性能提高。为了评估TC-DWA的有效性,我们在几个文本数据集上进行了大量的实验。结果表明,TC-DWA的性能始终优于最先进的基线方法。