上传者: weixin_40139651
|
上传时间:2023/12/20 19:27:30
|
文件大小:624KB
|
文件类型:caj
基于LDA高频词扩展的中文短文本分类_胡勇军
针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。
实验证明,这种方法的分类性能高于常规分类方法
本软件ID:10796038