基于python3编写的VSM模型构建样例,包含分词处理后的输入文件以及停用词文件
2023/8/1 6:08:30 320KB python VSM
1
这个主要是应用在搜索引擎,搜索的时候一般略过停用词,这个程序实现的就是根据停用词表滤除文档中的停用词
2023/7/27 20:43:54 1KB c 去除停用词
1
本报告包括详尽完整的文本分类处理过程,包括语料库的处理、jieba分词、停用词无关词处理、词袋模型的构建(CHI值检验用于特征筛选、tfidf作为特征向量值)。
并用自编朴素贝叶斯以及sklearn包中的SVM进行了文本效果的检测,通过混淆矩阵和roc曲线展现了实现效果。
实验报告写的很详细,不懂的地方可以看报告以及看博客中的部分细节讲解。
2023/7/15 21:32:55 4.05MB 数据挖掘 文本分类
1
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。
这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。
但是,并没有一个明确的停用词表能够适用于所有的工具。
甚至有一些工具是明确地避免使用停用词来支持短语搜索的。
2023/5/29 19:38:38 20KB 停用词 中文
1
LDA的功夫主题模子,Python实现代码,带输入数据以及停用词,运行无误
2023/5/12 12:55:21 6.51MB LDA
1
综合多种停用词表,举行并吞去重处置,http://blog.csdn.net/kevinelstri/article/details/70227981
2023/5/11 3:27:38 21KB 停用词 文本分析
1
由于竞赛需要用到结巴分词,所以写了一个对于结巴分词、词性标注以及停用词过滤的python法度圭表标准。
2023/4/7 20:01:23 7.15MB python jieba
1
哈工大停用词,停用词全,将本人统计的停用此与哈工大停用词相结合
2023/3/12 1:14:26 16KB 停用词 停顿词 哈工大停顿词
1
内含7kb的停用词词典、源码、测试数据;
词典共收录了1208个常见停用词,源码基于python3,下载解压后即可运转测试数据,且效率非常高。
欢迎下载使用,如在使用过程中有任何问题,欢迎留言交流。
2023/3/3 23:17:58 5KB 去停用词 python3 源代码 高效
1
基于Hadoop的文本分类算法系统,本系统实现了分词处理,停用词处理(IK);
使用朴素贝叶斯分类算法来对文本进行训练和分类,在测试过程中使用词频特征选择作为特征词选择算法,分类精确率达到了78%,包含卡方特征选择算法(训练集特征选择)。
2023/2/18 1:28:21 3.9MB Hadoop 文本分类 朴素贝叶斯 TF
1
共 39 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡