该版本是免费版和商业版本通透。
商业版本用户请输入本人的商业版用户名密码即可登录使用。
2014.6.18版本主要更新的内容1.修复高dpi下采集器登录界面错位的问题2.修复中文分词存在的问题3.修复任务完成后不能关机的问题4.生成Word和Excel可选2007和2003格式5.增加任务规则异常报警功能。
6.添加了批量关闭已完成任务窗口功能7.修复文件下载中存在的一些问题8.修复边采集发布为excel无内容的bug9.修复二级代理Session中url的组合错误10.升级插件内核心,增加伪原创等插件
2018/8/7 12:28:46 33.16MB 采集器
1
中文分词用统计词频辞书,一词一行,txt文本保存
2019/8/21 11:35:43 2.46MB 中文 分词 词频 词典
1
java版结巴分词工具,一个很好的中文分词工具。
直接用eclipse打开,输入是一篇文章,然后输出是每个词的词频,并且词频是按照大小从次数最高到次数最低排的,只需求在test包里改部分代码就可以使用了。
不下你会后悔的。
2016/3/17 4:14:30 3.91MB 结巴分词
1
最新的ansj分词工具jar包,用于在ecplise中使用ansj分词。
ansj是由孙健开发的一个基于n-Gram+CRF+HMM的中文分词的java实现。
分词速度达到每秒钟大约200万字左右(macair下测试),精确率能达到96%以上。
目前实现了:中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。
作者在最新的分词方式里增加了基于深度学习的分词方式。
2016/6/8 1:32:57 19.72MB ansj jar包
1
中文分词不断都是中文自然语言处理领域的基础研究。
目前,分词系统绝大多数都是基于中文词典的匹配算法。
其中最为常见的是最大匹配算法(MaximumMatching,以下简称MM算法)。
MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。
本程序实现了正向最大匹配算法。
本程序还可以从我的github上面下载:https://github.com/Zehua-Zeng/Maximum-Matching-Algorithm
1
java中文分词,协同过滤算法词频分析,javaGUI界面开端,生成java数据词云
2016/8/26 19:30:10 207KB java
1
hmm实现的中文分词系统;
一个简单的宋词生成系统;
包括一个简单网页界面;
1
本书作者是国内较早接触Solr的技术专家之一,多年一直在Solr的研究、实践和布道的路上不遗余力、乐此不彼。
本书立足全球视野,综合Solr技术的发展和应用、从业人员的学习曲线,以及中英文资料的供给情况,给自己设定了一个极高的目标:力争在内容的全面性、系统性、深浅度和实战性上概括所有的同类书。
从完成的结果上来看,我们的目标接近完成,Solr的基础知识、核心技术、进阶知识和扩展知识悉数包括在内。
全书一共16章,分为上下两卷:上卷(第1~10章)全面、系统地讲解了Solr的基础知识和核心技术。
包括部署、配置、SolrCore、SolrDIH、全量导入、增量导入、索引、中文分词、查询组件、SolrFacet、高亮、查询建议,以及企业如何在真实的项目中使用Solr。
不仅讲解了基本概念和使用方法,而且还分析了各组件的内部工作机制。
下卷(第11~16章)细致、深入地讲解了Solr的高级知识和拓展知识。
高级知识部分包括:Solr的高级查询及其各种查询技巧,如函数查询、地理空间查询、Facet嵌套等;
SolrJ、SolrCloud、SpringDataSolr的使用详解和工作原理;
Solr的多种功能优化技巧,如索引的功能优化、缓存的功能优化、查询的功能优化、JVM和Web容器的优化,以及操作系统级别的优化。
拓展知识中首先讲解了Solr的一些比较生僻的知识点,如伪域、多语种索引支持、安全认证,以及Solr6.x中的SQL接口和Streaming表达式等;
然后讲解了Solr与MapReduce、HDFS、Hbase、Kafka、Flume、Storm、Spark等大数据技术的结合使用的集成方法。
2018/10/10 5:08:21 182.81MB solr
1
诗歌网一个唐宋诗词简单展示的web项目技术构成基于java,框架spring-boot+springMVC+Mybatis数据库为Mysqlweb模板采用freeMarker,以及ajax加载页面由vue重构::,原页面依旧保留查询实现1.mysql全文索引模糊查询通过mysql建立全文索引,未使用分词器,将最小分词数转换2:[mysqld]innodb_ft_min_token_size=2ft_min_word_len=22.分词问题不但mysql没有有效的中文分词器,而且针对古文/古诗的分词器根本就没有。
只进行了简单的分词,保留2个字的结果,放入关键字属性列。
3.查询速度查询采用了布尔布尔模糊婚配,效率虽然比直接模糊查询快,但有时也会很慢。
将查询结果前100条id插入表中,每次查询先查结果表。
数据源唐宋诗词收缩::本项目对应数据库下载(base64,更新时间2020/05/28):aHR0cCUzQS8vbXkuc25vd3RyYWNlcy5jb20vc2l0ZW1hcC9wb2V0cnktc3FsLnppcA==
2017/6/11 22:15:36 147KB mysql spring-boot ajax freemarker-template
1
基于elasticsearch8.2.3设置参数,对付中文全拼,中文分词等可用。
2017/4/27 6:43:43 1KB elasticsearch分词
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡