针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。
短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。
实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。
2024/7/6 6:33:32 1.14MB LDA 短文本分类
1
基于nltk实现对英文短文本的名词抽取,规则可以自己制定。
2023/12/26 16:17:37 1KB nltk 名词抽取
1
针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。
实验证明,这种方法的分类性能高于常规分类方法
2023/12/20 19:27:30 624KB LDA 短文本分类
1
任务1有14000条标注训练数据非常合适做微博短文本的情感分析。
2016/2/22 11:30:53 13.6MB 情感分析
1
文档中包含网盘的地址,数据共319MNLP方向文本摘要,文本分类,等方向可采取!TheLCSTSdatasetincludestwoparts:/DATA:1.PARTI:isthemaincontentsofLCSTSthatcontains2,400,591(shorttext,summary)pairs.Itcanbeusedtotrainsupervisedlearningmodelsforsummarygeneration.2.PARTII:contains10,666humanlabled(shorttext,summary)pairswhichcanbeusedtotrainclassifiertofilterthenoisesofthePARTI.3.PARTIII:contains1,106(shorttext,summary)pairs,thispartislabledby3personswiththesamelabels.Thesepairswithscore3,4and5canbeusedastestsetforevaluatingsummarygenerationsystems./Result:1.sumary.generated.char.context.txt:containsthesummarygeneratedbyusingRNN+contextonthecharacterbasedinput.2.sumary.generated.char.nocontext.txt:containsthesummarygeneratedbyusingRNN+nocontextonthecharacterbasedinput.3.sumary.generated.word.context.txt:containsthesummarygeneratedbyusingRNN+contextonthewordbasedinput.4.sumary.generated.word.nocontext.txt:containsthesummarygeneratedbyusingRNN+nocontextonthewordbasedinput.5.weibo.txt:containstheweiboofthetestset.6.sumary.human:containsthesumariescorrespondingto'weibo.txt'writtenbyhuman.Thispartisthetestsetofthepaper.7.rouge.char_context.txt:therougemetriconsumary.generated.char.context8.rouge.char_nocontext.txt:therougemetriconsumary.generated.char.nocontext9.rouge.word_context.txt:therougemetriconsumary.generated.word.context10.rouge.word_nocontext.txt:therougemetriconsumary.generated.word.nocontext
2018/10/23 6:40:09 66B nlp
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡