在文本聚类中需要衡量中文文本之间的相似性。
本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。
最后借助盘古分词组件和搜狗实验室的互联网词库,在VisualStudio2008环境下使用C#语言对算法进行了实现。
使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
1
中文文本相似度匹配算法simHash海明距离IK分词完整的可运行的示例代码包含simHash算法,使用IK对中文文本进行分词处理
1
本文件提取自完整版AcrobatXpro中的文件,把下载好的文件(两个)放到软件安装路径的/Resource/CIDFont中,可解决以下问题:AcrobatXPro精简版,在打开中文文本PDF时,总是提示需要需要"简体中文语言支持包"方可正确显示本页面。
按提示点击“确定”后还是无法自动下载安装。
2025/1/27 18:49:23 18.64MB acrobat x pro 支持包
1
本语料库由复旦大学李荣陆提供。
训练和测试两个语料各分为20个相同类别。
训练语料和测试语料基本按照1:1的比例来划分。
使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2024/11/18 15:51:57 109.68MB 文本分类
1
我的专业工作案例可以从以下链接下载:http://pan.baidu.com/s/1dDIlXXB需要预先安装同一目录下的VB6运行环境,然后才可以安装应用程序。
安装和测试过程中有问题可以直接联系我。
中英文文本自动摘要、自动校对、自动分类、相关性与相似性聚类、主题词与标签自动生成、微博(短文本)聚类和情感分析。
我的研究成果,欢迎下载传播。
2024/11/16 0:43:18 438KB 中文文摘 中文摘要 自动摘要
1
课程作业,是对中文文本的获取、删除特殊符号、删除停用词、分词、最后计算文本之间的相似度、降维、Kmeans聚类以及可是化等
2024/9/25 1:35:57 12KB 文本预处理
1
keras实现中文文本分类;
实现中文分析,词向量引入;
基于语义的特征卷积计算,实现文本分类。
2024/9/2 20:35:08 6KB textCNN
1
使用Logistic回归模型进行中文文本分类,通过实验,比较和分析了不同的中文文本特征、不同的特征数目、不同文档集合的情况下,基于Logistic回归模型的分类器的性能。
并将其与线性SVM文本分类器进行了比较,结果显示它的分类性能与线性SVM方法相当,表明这种方法应用于文本分类的有效性。
2024/8/14 8:17:40 576KB 论文研究
1
…首款篇章级中文手写字库…系统的样本采样机制…真实环境下的手写…广泛的应用支持未来的脱机手写汉字识别的研究对象必会从孤立工笔手写汉字逐渐过渡到真实手写中文语句。
脱机手写汉字识别领域亟需建立一个脱机手写中文文本库,用于支持面向真实手写环境的汉字识别研究。
为此,我们提出了面向真实手写环境的基于无切分策略的脱机手写汉字识别。
我们经过三年的系统工作,建立了一个包含约20万字的HIT-MW中文手写文本库(英文全称为HarbinInstituteofTechnology-MultipleWritersDatabase,中文名称为哈尔滨工业大学多人手写库,缩写为HIT-MW库),用于研究上述问题(具体情况见下文)。
由于采取了系统的采样方案,库中包含了很多真实手写现象,不仅有歪斜的(skewed)文本行,还有交叠(overlapping)和粘连(touching)文本行;
除了抄写错误(miswriting),还有涂改文字(erasure)的存在。
这样,脱机手写汉字识别从理想化的“单字”识别进入到面向真实手写环境的“文本”识别(或语句识别)的更高层次。
2024/7/7 15:17:50 1.26MB HIT-MW 汉字识别
1
python,中文文本,摘要,自动生成,提取,抽取
2024/3/13 5:41:04 6KB python
1
共 42 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡