使用R语言中的jiebaR包,对中文文本进行分词,求词频,做词云图并进行LDA主题建模。
2024/1/23 12:15:36 14KB jiebaR,LDA
1
15000词频单词.doc
2024/1/13 6:24:15 880KB 英语
1
该软件可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本的情感分析
2023/12/20 17:36:38 84KB 情感分析
1
美国当代英语语料库COCA词频20000高频2W(完整)格式:pdf,word文档,txt,excel文档
2023/11/29 1:47:13 15.76MB 英语 单词 coca 词频表
1
用来分析文章中出现的词汇频率,多种图标和百分比可以选择
2023/11/25 15:12:54 16.65MB 外语学习 词频 数据分析 语言学
1
美国当代英语语料库(CorpusofContemporaryAmericanEnglish,简称COCA),用计算机统计英语单词词频并排序,已包含5.6亿字的文本,是目前最大的免费英语语料库。
1990年至2017年,COCA以每年2000万字的速度更新扩充,以保证语料库内容的时效性。
其语料均衡分布在口语、小说、杂志、报纸以及学术文章五类文体中,被认为是用来观察美国英语当前发展变化的最合适的英语语料库,也是广大英语爱好者的学习宝库。
2023/8/11 6:18:12 1.48MB COCA 英语 20000
1
词频统计
2023/7/22 0:53:18 3KB 词频统计
1
问题发现:本次案例为工作中遇到的实际问题,在语音识别中的语料准备部分,需要从网络中爬取相当数量的相关文本,其中发现爬取到了一些不相关的内容,如何把这些不相关的内容剔除掉成为笔者需要思考的问题。
初步思考:遇到此问题笔者第一时间考虑是将文本分词后向量化,使用聚类看一下分布情况,然而发现在不同训练集中,训练样本变化时,向量随之变化,在测试集中表现一般,在实测中几乎无用。
于是想到向量化的方法问题,使用sklearnCountVectorizer方法进行向量化,仅仅是将所有词频无序的向量化,看到另外博文时,发现应该先将目标主题的文本进行词频统计,将统计结果当做向量化模板,实测发现效果不错,现将此方法分享给大家
1
近期因为工作需要,想利用python实现中分词频统计,然后生成图云的小程序。
此前完全没有接触过这一块,各种百度后实现最初的需求,这里上传源码,希望能给其他小伙伴一点参考。
2023/6/13 2:34:55 836B 词云 中文词频 python
1
基于tfidf的文档集关键词提取已经含有测试文档集可以替换成任意需要的文档集可以自己提供字典
2023/6/8 2:15:16 4.04MB Tf idf 词频算法 关键词提取
1
共 58 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡