该资源主要参考我的博客:[python]Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像http://blog.csdn.net/eastmount/article/details/50545937包括输入文档txt,共1000行数据,每行都是分词完的文本。
本文主要讲述以下几点:1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档M个特征词);
2.调用scikit-learn中的K-means进行文本聚类;
3.使用PAC进行降维处理,每行文本表示成两维数据;
4.最后调用Matplotlib显示聚类效果图。
免费资源,希望对你有所帮助~ByEastmount
2024/10/5 19:41:34 247KB python 文本聚类 Kmeans 降维
1
代码对10个txt文件进行分词、去除停止词,并提取每个词的tfidf特征值输出
2024/3/2 14:18:22 1.32MB IK分词 tfidf特征
1
本报告包括详尽完整的文本分类处理过程,包括语料库的处理、jieba分词、停用词无关词处理、词袋模型的构建(CHI值检验用于特征筛选、tfidf作为特征向量值)。
并用自编朴素贝叶斯以及sklearn包中的SVM进行了文本效果的检测,通过混淆矩阵和roc曲线展现了实现效果。
实验报告写的很详细,不懂的地方可以看报告以及看博客中的部分细节讲解。
2023/7/15 21:32:55 4.05MB 数据挖掘 文本分类
1
基于tfidf的文档集关键词提取已经含有测试文档集可以替换成任意需要的文档集可以自己提供字典
2023/6/8 2:15:16 4.04MB Tf idf 词频算法 关键词提取
1
在Hadoop集群中,用MapReduce漫衍式盘算TFIDF
2023/4/27 12:15:26 13KB Hadoop MapReduce TF-IDF
1
gensim包的tfidf方法计算中文文本类似度,代码可直接运行,包含中文停用词,方便。
2019/5/25 8:19:51 52KB gensim tfidf 中文相似度
1
TFIDF算法java完成,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
2020/1/11 16:05:49 1.83MB tf-idf java jar
1
k-means算法的matlab代码KmeansPCAmatrix.h:本人手写的Matrix类的定义matrix.cpp:本人手写的Matrix类datapoint.h:本人手写的DataPoint类定义,用途是标示数据点元素datapoint.cpp:本人手写的DataPoint类kmeans.h:K-means算法类的定义kmeans.cpp:K-means算法类的实现trie.h:本人手写的Trie树类定义,用于快速高效统计字符串trie.cpp:本人手写的Trie树类tfidf.h:对读文件操作以及生成关键词tfidf.cpp:生成我需要的关键词constant.h:存放程序所需要的各种变量files.h:读取一个文件夹中的所有文件名main.cpp:我的主文件MatlabCodeMatlab显示图片过程以及代码导入数据->重命名->代码imagesc(1-x)colormap(gray)
2017/3/17 13:57:39 17KB 系统开源
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡