朴素贝叶斯实战代码,含注释,分为两个模块,第一模型实现,第二进行文本分类。
事实上利用的是词袋模型的朴素贝叶斯,也就是多项式事件模型。
利用python3进行编程实现。
2023/12/26 17:21:03 26KB 朴素贝叶斯 实战 python 文本分类
1
针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。
实验证明,这种方法的分类性能高于常规分类方法
2023/12/20 19:27:30 624KB LDA 短文本分类
1
文本分类算法研究与实现,支持向量机源代码
2023/12/16 9:48:01 53KB 支持向量机
1
中文文本分类语料(复旦)-训练集和测试集这个链接是训练集,本语料库由复旦大学李荣陆提供。
test_corpus为测试语料,共9833篇文档;
train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。
训练语料和测试语料基本按照1:1的比例来划分。
使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
文件较大,下载时请耐心等待。
2023/11/10 13:33:38 101.81MB 文本分类 数据集 复旦 中文
1
实现文本分类的主要包括几个步骤文本分词处理,特征选择,特征权重计算,文本特征向量表示,基于训练文本的特征向量数据训练SVM模型,对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类,达到93%的准确率
2023/11/8 2:28:34 26.06MB 文本分类
1
本语料库由复旦大学李荣陆提供。
train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。
下载后可以自己重新切分数据,也可以直接用。
免费下载地址:链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ密码:dq9m使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2023/11/3 21:56:21 106.17MB 中文文本分类 数据集
1
基于内容的文本分类系统,使用libsvm进行分类。
2023/10/1 5:28:53 40.58MB svm 文本分类 中文分词 libsvm
1
https://blog.csdn.net/zzZ_CMing/article/details/89478436朴素贝叶斯算法做文本分类,用的是谭松波酒店语料。
2023/9/30 17:09:20 1.14MB bayes 文本分类 谭松波
1
基于卷积神经网络处理中文文本分类
2023/9/27 16:12:53 20KB cnn 中文文本分类
1
简体中文|简介PaddleNLP2.0具有丰富的模型库,简洁易用的API与高性能的分布式训练的能力,可以为飞轮开发者提升文本建模效率,并提供基于Padddle2.0的NLP领域最佳实践。
特性丰富的模型库涵盖了NLP主流应用相关的前沿模型,包括中文词向量,预训练模型,词法分析,文本分类,文本匹配,文本生成,机器翻译,通用对话,问答系统等,更多详细介绍请查看。
简洁易用的API深度兼容飞轮2.0的高层API体系,提供可替换的文本建模模块,可大幅度减少数据处理,组网,训练互换的代码开发量,提高文本建模开发效率。
高效分散训练通过深度优化的混合精度训练策略与舰队分布式训练API,可充
2023/9/23 16:01:53 2.33MB nlp text-classification transformer seq2seq
1
共 73 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡