本数据集是用于文本聚类的中文文本数据,数据集不大属于小型数据集,主要是为了验证本人在博客上写的代码,拿到立马就可使用实现可参考本人的博客
2025/9/4 14:13:36 1022KB 文本聚类 数据集
1
中文文本分类,停用词表
2025/8/8 18:35:14 3KB 停用词表
1
由于是个人使用的,所有收集了很多,希望对中文文本处理的同学有所帮助
2025/7/23 5:55:19 31KB 中文停用词
1
基于文本内容的自动文本聚类技术作为文本信息挖掘技术中的核心技术之一,其目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。
本文以中文文本作为文本聚类的挖掘对象,对文本集进行了中文文本预处理、文本聚类。
按照文中的方法步骤,设计了一个系统,实现了文本聚类的功能。
1
在文本聚类中需要衡量中文文本之间的相似性。
本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。
最后借助盘古分词组件和搜狗实验室的互联网词库,在VisualStudio2008环境下使用C#语言对算法进行了实现。
使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
1
中文文本相似度匹配算法simHash海明距离IK分词完整的可运行的示例代码包含simHash算法,使用IK对中文文本进行分词处理
1
本文件提取自完整版AcrobatXpro中的文件,把下载好的文件(两个)放到软件安装路径的/Resource/CIDFont中,可解决以下问题:AcrobatXPro精简版,在打开中文文本PDF时,总是提示需要需要"简体中文语言支持包"方可正确显示本页面。
按提示点击“确定”后还是无法自动下载安装。
2025/1/27 18:49:23 18.64MB acrobat x pro 支持包
1
本语料库由复旦大学李荣陆提供。
训练和测试两个语料各分为20个相同类别。
训练语料和测试语料基本按照1:1的比例来划分。
使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2024/11/18 15:51:57 109.68MB 文本分类
1
我的专业工作案例可以从以下链接下载:http://pan.baidu.com/s/1dDIlXXB需要预先安装同一目录下的VB6运行环境,然后才可以安装应用程序。
安装和测试过程中有问题可以直接联系我。
中英文文本自动摘要、自动校对、自动分类、相关性与相似性聚类、主题词与标签自动生成、微博(短文本)聚类和情感分析。
我的研究成果,欢迎下载传播。
2024/11/16 0:43:18 438KB 中文文摘 中文摘要 自动摘要
1
课程作业,是对中文文本的获取、删除特殊符号、删除停用词、分词、最后计算文本之间的相似度、降维、Kmeans聚类以及可是化等
2024/9/25 1:35:57 12KB 文本预处理
1
共 46 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡