基于贝叶斯分类的中文垃圾信息分类识别核心核心代码,可直接运行的源程序。
publicvoidloadTrainingDataChinies(FiletrainingDataFile,StringinfoType){//加载中文分词其NLPIR.init("lib");//System.out.println(trainingDataFile.isFile()+"==============");//尝试加载学习数据文件try{//针对学习数据文件构建缓存的字符流,利用其可以采用行的方式读取学习数据BufferedReaderfileReader=newBufferedReader(newFileReader(trainingDataFile));//定义按照行的方式读取学习数据的临时变量Stringdata="";//循环读取学习文件中的数据while((data=fileReader.readLine())!=null){//System.out.println("*****************************");//System.out.println(data+"000000000000000000000");//按照格式分割字符串,将会分割成两部分,第一部分为ham或spam,用于说明本行数据是有效消息还是垃圾消息,第二部分为消息体本身//String[]datas=data.split(":");//对消息体本身进行简单分词(本学习数据均为英文数据,因此可以利用空格进行自然分词,但是直接用空格分割还是有些简单粗暴,因为没有处理标点符号,大家可以对其进行扩展,先用正则表达式处理标点符号后再进行分词,也可以扩展加入中文的分词功能)//首先进行中文分词//System.out.println(datas[1]+"------------------------");//if(datas.length>1){//System.out.println(datas.length);Stringtemp=NLPIR.paragraphProcess(data,0);//System.out.println(temp);String[]words=temp.split("");
2025/8/1 3:41:15 14KB 垃圾信息 文本分类 贝叶斯
1
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。
整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
2025/7/17 17:47:24 108.12MB NLP 语料 中文分词语料 中文语料
1
简介:
利用keras实现文本分类,分词,并对微博文本进行情绪分析
2025/6/15 19:49:20 3KB
1
搜狗语料库,自己用结巴分词分好的。
(为什么摘要必须大于50个字)
2025/6/12 21:04:15 16.3MB 语料库;分词
1
自然语言处理课程的小作业,以新闻语料为基础,用HMM算法实现中文分词。
按照每个字为B,E,S,M进行划分。
以新闻语料为基础,用HMM算法实现中文分词。
按照每个字为B,E,S,M进行划分。
2025/6/3 8:36:25 2.25MB HMM
1
本Demo实现了lucene分词和查询,Dao中实现了lucene的几个基本方法.
2025/5/31 5:58:25 1.13MB 爬虫、lucene
1
IK分词solr5.0.0
2025/5/22 6:16:07 1.1MB IK分词
1
本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
2025/5/21 7:49:40 16.87MB 语言处理
1
结巴分词用到的资源文件,使用方式见博客
2025/5/19 18:18:20 1.88MB jieba分词
1
用C语言编写的源代码.实现了准确的中文分词.
2025/5/18 21:53:30 5KB 中文分词 分词
1
共 217 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡