使用R语言中的jiebaR包,对于中文文本举行分词,求词频,做词云图并举行LDA主题建模
2023/4/25 12:29:53 4KB LDA jieba
1
中文文本中罕有的特殊标志,搜罗中英文标志,可用于做作语言阐发等
2023/4/11 20:30:47 20KB 自然语言处理
1
中文自动文摘,基于jieba分词,全Java代码。
给定文本输入自定义长度的文摘。
1
该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算http://blog.csdn.net/eastmount/article/details/50637476其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。
同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。
国家包括了Python的Jieba分词代码,详见博客。
免费资源希望对你有所协助~
2023/1/16 9:44:47 142.09MB word2vec 源码 中文预料 词向量
1
特整理中文停止词如下,方便开发。
中文文本分词中先参考了官方给出的示例,官方给出的示例次要是对一条文本进行全分词和精确分词。
2015/1/17 15:15:22 15KB python
1
特整理中文停止词如下,方便开发。
中文文本分词中先参考了官方给出的示例,官方给出的示例次要是对一条文本进行全分词和精确分词。
2019/2/1 14:37:15 15KB python
1
最威望的中文文本分词语料可用于文本分词分词语句达20万句
2017/5/23 9:27:43 12.22MB 1998 人民日报 分词 语料
1
由复旦大学李荣陆提供。
answer.rar为测试语料,共9833篇文档;
train.rar为训练语料,共9804篇文档,分为20个类别。
训练语料和测试语料基本按照1:1的比例来划分。
收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然言语处理小组)。
2022/10/26 16:15:12 103.28MB 数据集 中文语料库
1
gensim包的tfidf方法计算中文文本类似度,代码可直接运行,包含中文停用词,方便。
2019/5/25 8:19:51 52KB gensim tfidf 中文相似度
1
中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的指导下经过全体教研室成员的努力整理和标注的一个中文本体资源。
该资源从不同角度描述一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度及极性等信息。
中文情感词汇本体的情感分类体系是在国外比较有影响的Ekman的6大类情感分类体系的基础上构建的。
在Ekman的基础上,词汇本体加入情感类别“好”对褒义情感进行了更细致的划分。
最终词汇本体中的情感共分为7大类21小类。
构造该资源的宗旨是在情感计算领域,为中文文本情感分析和倾向性分析提供一个便捷可靠的辅助手段。
中文情感词汇本体可以用于处理多类别情感分类的问题,同时也可以用于处理一般的倾
2020/5/13 20:25:30 1.17MB 情感词库 情感词汇
1
共 46 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡