大数据时代,中文的语义分析变得非常重要,这是一个可以中文分词的小插件,由武大沈阳教授团队开发的。
2024/7/7 6:14:54 8.61MB rost cm
1
Lucene.Net只是一个全文检索开发包,不是一个成型的搜索引擎它提供了类似SQLServer数据库正式版中的全文检索功能的索引库你把数据扔给Lucene.Net,【Lucene.Net只针对文本信息建立索引,所以他只接收文本信息,如果不是文本信息,则要转换为文本信息】它会将文本内容分词后保存在索引库中,当用户输入关键字提交查询时,Lucene.Net从索引库中检索关键字数据,所以搜索速度非常快,适合于用户开发自己站内的搜索引擎Q:分词A:即将"不是所有痞子都叫一毛"文本内容通过分词算法分割成为“不是”“所有”“痞子”“都”“叫”"一毛"。
但是Lucene.Net内置分词算法对中文支持不是很好,以下会使用国内较为流行的分词算法--盘古分词
2024/7/1 18:18:58 2.66MB lucene.net 盘古 分词
1
学习了部分分词原理和方法,做了相应的改进:1、创建了两种词典树,做了性能上的比较2、改进数字词组的分词方法,加入语法的判断3、提供地名词典创建工具。
将地名全名词典分词获得分词后的地名词典,减少词条数目,增加查找速度。
程序用一个中等省会城市测试,模糊查询和精确查询效果都不错。
4、加入地名输入提示的工具。
代码采用C#,为学习成果,尚有很多不完善地方,欢迎交流。
词典数据来源于网络!
2024/6/29 11:03:37 977KB 分词 创建 地名词典 c#
1
非常好用solr中文分词器(含使用手册),Solr4.x此版本适用于高版本Solr4.x,IK分词器,智能分析,与细粒度分析配置
2024/6/7 5:25:49 2.05MB 中文分词器 solr
1
小黄鸡语料库,包含分词以及未分词,可以用于自然语言处理。
2024/5/24 16:51:45 12.25MB 语料库 小黄鸡
1
中文分词词库整理,Ik分词器词库,中文分词词库整理,Ik分词器词库
2024/5/20 8:31:37 7.12MB IKAnalizer ElasticSearc
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。
共包含3273626个段落的文本(一个段落包含了多个语句)。
处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2024/5/19 17:09:13 650B 维基 中文语料 word2vec
1
中文自动分词1.使用任意分词方法实现汉语自动分词;
2.给出至少1000个句子的分词结果(以附件形式);
3.计算出分词结果的正确率,并给出计算依据;
4.用实例说明所用分词方法分别对“交叉歧义”和“组合歧义”的处理能力;
5.提交实验报告,给出详细实验过程和结果;
提交源代码和可执行程序。
1
汉语语料库,包含9000多个文本,涵盖新闻、论文、散文、小说等多种类型的文本,经过了分词和词性标注的精加工。
2024/4/27 17:48:12 31.68MB 语料库
1
经过对搜索引擎的研究同时与Lucene自身的特性相结合,将本次设计所需要实现的功能阐述如下:Ø支持桌面文件搜索,格式包括txt、doc、xls和ppt;Ø支持分词查询Ø支持全文搜索Ø能够高亮显示搜索关键字Ø显示查询所用的时间Ø显示搜索历史、过滤关键字分词查询与全文搜索这两项功能,我们都可以利用Lucene本身自带的库加上相关算法就可以完成设计了,为了使得关键字的高亮度这一问题得到解决,显然,我们需要利用Highlighter的辅助,通过数据库持久化保存数据。
搜索引擎是基于Lucene的,所以需要利用Lucene的一些jar包,这样才能借助Lucene完成我们自己想要的搜索功能,并且实现分词
1
共 185 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡