主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2024/2/7 14:50:15 70KB 词频计算
1
统计自然语言处理第二版宗成庆pdf是一本经过第二次更新的统计自然语言方面的教材。
自然语言作为人类思想情感最基本,最直接,最方便的表达工具,无时无刻不充斥在人类社会的各个角落。
小编推荐的这本统计自然语言处理全面介绍了统计自然语言处理的基本概念、理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
2024/2/2 9:26:17 16.87MB 自然语言处理 nlp
1
训练集
2024/1/20 21:02:01 144.1MB 文本分类
1
搜狗最新文本分类语料库C000007汽车C000008财经C000010ITC000013健康C000014体育C000016旅游C000020教育C000022招聘C000023文化C000024军事
1
朴素贝叶斯实战代码,含注释,分为两个模块,第一模型实现,第二进行文本分类。
事实上利用的是词袋模型的朴素贝叶斯,也就是多项式事件模型。
利用python3进行编程实现。
2023/12/26 17:21:03 26KB 朴素贝叶斯 实战 python 文本分类
1
针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。
实验证明,这种方法的分类性能高于常规分类方法
2023/12/20 19:27:30 624KB LDA 短文本分类
1
文本分类算法研究与实现,支持向量机源代码
2023/12/16 9:48:01 53KB 支持向量机
1
中文文本分类语料(复旦)-训练集和测试集这个链接是训练集,本语料库由复旦大学李荣陆提供。
test_corpus为测试语料,共9833篇文档;
train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。
训练语料和测试语料基本按照1:1的比例来划分。
使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
文件较大,下载时请耐心等待。
2023/11/10 13:33:38 101.81MB 文本分类 数据集 复旦 中文
1
实现文本分类的主要包括几个步骤文本分词处理,特征选择,特征权重计算,文本特征向量表示,基于训练文本的特征向量数据训练SVM模型,对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类,达到93%的准确率
2023/11/8 2:28:34 26.06MB 文本分类
1
本语料库由复旦大学李荣陆提供。
train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。
下载后可以自己重新切分数据,也可以直接用。
免费下载地址:链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ密码:dq9m使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2023/11/3 21:56:21 106.17MB 中文文本分类 数据集
1
共 57 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡