经管视界

左源:Topic Modeling of Short Texts: A Pseudo-Document View with Word Embedding Enhancement

来源: | 发布时间:2021-04-21| 点击:

近日,国际数据挖掘顶刊《IEEE Transactions on Knowledge and Data Engineering》(IEEE TKDE)在线发表了我院左源副教授、吴俊杰教授等在短文本语义分析方面的最新研究成果《Topic Modeling of Short Texts: A Pseudo-Document View with Word Embedding Enhancement》。左源副教授为第一作者,吴俊杰教授为唯一通讯作者,北京航空航天大学经济管理学院为第一完成单位。

随着各式各样网络应用的兴起,特别是诸如微博、Twitter和Facebook等在线社交网络的蓬勃发展,短文本(平均字数不超过20)已经成为互联网上信息的主要表现形式。例如,Twitter上每天大约有3.19亿活跃用户,他们能够产生5亿左右的推文(tweets)。海量的短文本中蕴含着传统媒体上难以获取的丰富信息。如何从中准确地分析和挖掘信息一直是一个具有挑战性的研究问题,受到工业界和学术界的广泛关注。

为此,文章中提出一种新的根据主题自动聚合短文本的主题模型,即伪文档主题模型(PTM)。PTM不依赖于额外信息就可以通过短文本自聚合增加词共现信息,有利于短文本语义分析任务。并且,PTM的参数量不随着数据增加,模型不易过拟合。基于PTM,文章进一步提出了基于预训练词向量的伪文档主题模型(WE-PTM),以应对短文本自聚合也无法弥补短文本词共现信息稀疏问题的情况。具体而言,通过利用预训练词向量生成主题分布的先验参数,进一步提升了模型建模短文本的效果。

论文的原文链接地址为:https://ieeexplore.ieee.org/document/9404875