搜索【分词】的结果-好快吧下载

百度分词词库

据说是百度分词词库～

2023/7/31 21:42:28 776KB 分词百度词库

1

分词工具ANSJ1.3版本

具体描述请看这里http://ansjsun.github.io/ansj_seg/这是最新的ANSJ版本，需要配合另一个tree-splitjar包使用，请从这里下载：http://maven.ansj.org/org/ansj/

2023/7/28 21:47:26 42MB ANSJ 分词工具

1

维基百科中文语料word2vec训练后结果

中文维基百科语料库，将其转换为文本文件后，进行繁体字转换为简体字，字符集转换，分词，然后训练得到模型以及向量。
由于文件上传的大小限制是60MB，而训练后的所有文件大小有1G以上，所以这里只提供了下载链接，地址在网盘中。
使用python中的gensim包进行训练得到的，运行时间较长，纯粹的维基百科中文语料训练后的结果，拿去可以直接使用。

2023/7/28 17:38:49 234B wiki中文

1

freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zip

freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zipICTCLAS源码结构Codes│ICTCLAS_WIN.cppWindows界面的程序│ICTCLAS_Win.dsp│ICTCLAS_WIN.dsw│ICTCLAS_WIN.h│ICTCLAS_Win.exe可执行程序│ICTCLAS_WinDlg.cpp│ICTCLAS_WinDlg.h│resource.h│StdAfx.cpp│StdAfx.h│log.txt日志│ICTCLAS_Win.rcWindows界面的资源│├─Utility共用函数模块│ContextStat.cpp│ContextStat.h│Dictionary.cpp│Dictionary.h│Utility.h│Utility.cpp│├─Unknown未登录词识别模块│UnknowWord.cpp│UnknowWord.h│├─TagHMM标注模块│Span.cpp│Span.h│├─Segment词语切分模块│DynamicArray.h│NShortPath.cpp│NShortPath.h│Queue.cpp│Queue.h│SegGraph.cpp│Segment.cpp│Segment.h│DynamicArray.cpp│SegGraph.h│├─Result结果生成模块│Result.cpp│Result.h│├─Data概率数据文件│lexical.ctx│BigramDict.dct│coreDict.dct│nr.dct│nr.ctx│ns.ctx│ns.dct│tr.dct│tr.ctx│└─resWindows界面的资源

2023/7/28 2:23:39 2.75MB freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zip

1

IKAnalyzer2012_u6中文分词器jar包

IKAnalyzer2012_u6中文分词器jar包IKAnalyzer2012_u6中文分词器jar包IKAnalyzer2012_u6中文分词器jar包IKAnalyzer2012_u6中文分词器jar包IKAnalyzer2012_u6中文分词器jar包

2023/7/27 18:26:24 1.11MB IKAnalyzer

1

搜狗最新词库（已经去重）

词库包括200W左右的最新词，把这个词库作为搜索引擎分词的标准。
词库包括200W左右的最新词，把这个词库作为搜索引擎分词的标准。

2023/7/23 11:58:40 15.84MB 热词词库

1

elasticsearch-6.4.3-全套（ela+源码+ik分词器+kibana）-linux.rar

linux版本的elasticsearch-6.4.3-全套（elasticsearch安装包+源码+ik分词器+kibana）

2023/7/19 4:55:46 372.23MB elasticsearch

1

自然语言处理之文本主题判别

问题发现：本次案例为工作中遇到的实际问题，在语音识别中的语料准备部分，需要从网络中爬取相当数量的相关文本，其中发现爬取到了一些不相关的内容，如何把这些不相关的内容剔除掉成为笔者需要思考的问题。
初步思考：遇到此问题笔者第一时间考虑是将文本分词后向量化，使用聚类看一下分布情况，然而发现在不同训练集中，训练样本变化时，向量随之变化，在测试集中表现一般，在实测中几乎无用。
于是想到向量化的方法问题，使用sklearnCountVectorizer方法进行向量化，仅仅是将所有词频无序的向量化，看到另外博文时，发现应该先将目标主题的文本进行词频统计，将统计结果当做向量化模板，实测发现效果不错，现将此方法分享给大家

2023/7/17 6:40:05 2.71MB 自然语言处理 svm 文本分类 高斯贝叶斯

1

文本分类实验报告(详尽版本)

本报告包括详尽完整的文本分类处理过程，包括语料库的处理、jieba分词、停用词无关词处理、词袋模型的构建（CHI值检验用于特征筛选、tfidf作为特征向量值）。
并用自编朴素贝叶斯以及sklearn包中的SVM进行了文本效果的检测，通过混淆矩阵和roc曲线展现了实现效果。
实验报告写的很详细，不懂的地方可以看报告以及看博客中的部分细节讲解。

2023/7/15 21:32:55 4.05MB 数据挖掘 文本分类

1

IK分词jar包

IK分词用到的jar包

2023/7/13 9:20:37 1.11MB IK 分词

1

钉钉无人值守自动打卡脚本永不迟到的神器安卓和苹果教程 New!

在日常工作中，钉钉打卡成了我生活中不可或缺的一部分。然而，有时候这个看似简单的任务却给我带来了不少烦恼。每天早晚，我总是得牢记打开钉钉应用，点击"工作台"，再找到"考勤打卡"进行签到。有时候因为工作忙碌，会忘记打卡，导致考勤异常，影响当月的工作评价。而且，由于我使用的是苹果手机，有时候系统更新后，钉钉的某些功能会出现异常，使得打卡变得更加麻烦。另外，我的家人使用的是安卓手机，他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说，每次打卡都是一次挑战。他们总是担心自己会操作失误，导致打卡失败。为了解决这些烦恼，我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习，我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。

2024-04-09 15:03 15KB 钉钉 钉钉打卡

个人信息

一言

热门下载

最新下载

其他资源