摘要:
本文针对微博文本的简短、动态性等特征,提出一种新的文本特征提取方法,提升微博话题识别任务中文本聚类算法效果。利用词项共现的思想,针对微博时序文本构建动态共词网络。在动态共词网络中,边权重随着时间推移而线性衰减,并在此基础上利用网络的度中心性计算微博文本特征权重。从新浪微博中采样构建实验数据集进行实验,结果表明动态共词网络特征提取方法相较于文档频率方法,更适宜于提取微博文本特征,能取得更好的微博话题识别效果。
商宪丽,王学东. 微博话题识别中基于动态共词网络的文本特征提取方法[J]. 图书情报知识, 2016, 0(3): 80-88.