作者:刘邵博此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。
词典结构为:词语\t词性\t词频。
词频是用ansj分词对270G新闻语料进行分词统计词频获得。
部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb1、词性nw表示本身不知道是什么词性。
2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。
2025/3/27 20:28:52 20.77MB NLP
1
程序用java编写后向算法中文分词分词,并建立倒排索引表。
然后在myeclipse下编写一个web形式的搜索测试页。
2025/3/24 1:38:02 2.7MB 倒排索引 搜索引擎 java 中文分词
1
从c#基础开始,逐渐深入,是学习搜索引擎开发的*。
应众多公司的实际需求,《使用c#开发搜索引擎》介绍如何以c#作为工具开发搜索引擎。
全书以完成一个网站搜索\垂直搜索作为目标,从网络爬虫抓取数据开始,然后到中文分词、文本排重等文本挖掘技术和搜索结果展现。
本书是市面上介绍业界热门的lucene.net、使用webbrowser做爬虫以及结合solr开发asp.net搜索的第一书。
  《使用c#开发搜索引擎》适合专业软件开发人员,也适合于希望学习搜索引擎工作原理的读者学习使用。
本书对于在校学生学习复杂数据结构和应用动态规划等常用算法也有参考价值。
2025/3/20 1:47:48 95.02MB C# PDF Lucene.Net
1
在文本聚类中需要衡量中文文本之间的相似性。
本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。
最后借助盘古分词组件和搜狗实验室的互联网词库,在VisualStudio2008环境下使用C#语言对算法进行了实现。
使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
1
2016年国科大NLP(自然语言处理)期末考试题,重点包括汉语分词的歧义问题,文法与自动机转换,机器翻译评价指标,Chart算法进行句法分析,朴素贝叶斯文本分类等等。
2025/3/11 21:25:25 5.02MB 国科大 自然语言处理 宗成庆
1
中文文本相似度匹配算法simHash海明距离IK分词完整的可运行的示例代码包含simHash算法,使用IK对中文文本进行分词处理
1
中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,在此就不多作介绍了。
这是该软件的2015版本,欢迎各位学者下载使用。
2025/2/27 10:55:02 49.06MB ICTCLAS2015
1
python实现,包含贝叶斯估计、情感分析、分词等几个文件
2025/2/25 2:37:02 9KB python bayes sentiment analysis
1
最近在用ECSHOP做一个商城,发现ECSHOP的模糊搜索要求太高,需要加入and、空格、加号等,客户搜索的时候不可能这样操作。
所以想对搜索功能进行改进,可是在网上没有找到这样的插件,有收费的,结果要2000大元。
考虑了一下申请经费的麻烦,自己费点儿力气做一个吧。
考虑到工期的问题,采用了织梦的分词算法,搜索效果虽然不是特别理想,但是这么短的时间也只能这样了。
在此分享给没钱又着急的朋友。
1
中文分词;文本分类;信息抽取;语义理解;问答系统;自然语言对话系统
2025/2/21 17:48:20 3.81MB NLP
1
共 222 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡