在文本聚类中需要衡量中文文本之间的相似性。
本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。
最后借助盘古分词组件和搜狗实验室的互联网词库,在VisualStudio2008环境下使用C#语言对算法进行了实现。
使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
1
用来测试word2vec的数据样本,从搜狗实验室全网新闻数据库http://www.sogou.com/labs/resource/list_news.php下载并提取出新闻内容的数据。
2025/2/3 1:27:38 258KB 搜狗实验室 word2vec
1
基于搜狗微信搜索的微信公众号爬虫接口demo
2025/1/21 4:17:40 5KB Python开发-Web爬虫
1
竞价百度竞价搜狗竞价关键词长尾词采集器已破解绝对好用不要升级直接登录
2025/1/7 8:26:36 8.99MB 竞价 关键词采集
1
自己从网上下载的搜狗旅游词汇大全,如有冒犯,请联系删减。
2024/10/11 20:04:12 108KB 旅游
1
scel转txt,搜狗词库转txt,各输入法词库互转
2024/9/29 10:19:37 242KB scel转txt 搜狗词库
1
《编程小白的第一本书Python入门书》,书中缺少的名字库,由于搜狗字库文件无法使用,故提供,已人工整理。
(想免费提供,但不知道在哪里改)
2024/9/15 2:41:01 165KB name python
1
1.无限设置多个关键词和长尾词,软件会自动使用搜索智能引擎搜索,获取结果的域名进行网站空间文件扫描。
2.智能引擎搜索支持多种主流搜索引擎,目前支持百度,GOOGLE,有道,搜狗,雅虎,搜搜。
3.可导入自己本地域名文件域名扫描,用以扫描自己采集的域名。
4.查找文件自定义,支持多个查找文件,并支持变量类型。
5.自定多线程高速扫描,普通ADSL开150线程平均每分钟可发送HTTP请求10000次以上。
6.扫描结果自动查询文件类型(Content-Type)文件大小(Content-Length)。
7.结果过滤功能,可过滤大小小于指定字节的文件,可过滤文件类型为未知以及文件大小为未知的结果,最大限度清除垃圾结果(可过滤比如自定义404错误页面或者防盗链组件生成的页面)。
目前支持23个变量分别为:功能灰常强大,具体请看下放截图.1.flashfxp.zip代表扫描域名空间是否有FTP打包备份=flashfxp.zip2.flashfxp.rar代表扫描域名空间是否有FTP打包备份=flashfxp.rar3.新建文件夹.rar代表扫描域名空间是否有新建
1
词库包括200W左右的最新词,把这个词库作为搜索引擎分词的标准。
词库包括200W左右的最新词,把这个词库作为搜索引擎分词的标准。
2024/8/20 17:37:01 15.84MB 热词 词库
1
搜狗的词库带词语词性词频自然语言处理之必备良药
2024/7/24 9:01:05 1.11MB 词库 自然语言处理
1
共 66 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡