左源：Topic Modeling of Short Texts: A Pseudo-Document View with Word Embedding Enhancement

来源： | 发布时间：2021-04-21| 点击：次

近日，国际数据挖掘顶刊《IEEE Transactions on Knowledge and Data Engineering》（IEEE TKDE）在线发表了我院左源副教授、吴俊杰教授等在短文本语义分析方面的最新研究成果《Topic Modeling of Short Texts: A Pseudo-Document View with Word Embedding Enhancement》。左源副教授为第一作者，吴俊杰教授为唯一通讯作者，北京航空航天大学经济管理学院为第一完成单位。

随着各式各样网络应用的兴起，特别是诸如微博、Twitter和Facebook等在线社交网络的蓬勃发展，短文本（平均字数不超过20）已经成为互联网上信息的主要表现形式。例如，Twitter上每天大约有3.19亿活跃用户，他们能够产生5亿左右的推文（tweets）。海量的短文本中蕴含着传统媒体上难以获取的丰富信息。如何从中准确地分析和挖掘信息一直是一个具有挑战性的研究问题，受到工业界和学术界的广泛关注。

为此，文章中提出一种新的根据主题自动聚合短文本的主题模型，即伪文档主题模型(PTM)。PTM不依赖于额外信息就可以通过短文本自聚合增加词共现信息，有利于短文本语义分析任务。并且，PTM的参数量不随着数据增加，模型不易过拟合。基于PTM，文章进一步提出了基于预训练词向量的伪文档主题模型（WE-PTM），以应对短文本自聚合也无法弥补短文本词共现信息稀疏问题的情况。具体而言，通过利用预训练词向量生成主题分布的先验参数，进一步提升了模型建模短文本的效果。

论文的原文链接地址为：https://ieeexplore.ieee.org/document/9404875