倒排索引(InvertedIndex)被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,是目前几乎所有支持全文索引的搜索引擎都需要依赖的一个数据结构。
资源中包含了MapReduce实现的文档倒排索引的源码、jar包、测试数据(包含停词表)和结果。
2024/9/15 10:22:16 3.55MB MapRed Java Hadoop SDU
1
倒排索引的java实现,对于已经转化为txt的网页文档使用IK分词,然后建索引
2024/8/29 5:05:36 13KB 倒排 IK
1
本项目是基于hadoop搜索引擎的离线处理程序,主要包含三部分1.网页信息过滤2.生成倒排索引文件3.生成二级索引文件;
2024/8/8 4:26:20 30.11MB hadoop 搜索引擎 倒排表
1
横瓜文件FTP下载资源搜索服务器主要用来架构图片搜索下载、视频搜索下载、图书搜索下载、软件搜索下载、电影搜索下载、MP3搜索下载、音乐搜索下载、游戏搜索下载等任何资源文件的搜索下载服务器。
最大并发连接数可达1000,仅依靠一台PC服务器,就可同时为1000个客户提供负载均衡的并发下载服务和检索服务,同时支持断点续传下载、迅雷下载、快车下载、IE浏览器HTTP下载等,在负载均衡方面,将迅雷快车等软件的风暴下载技术斩断成普通HTTP下载,实现了全体资源文件公平公正均衡下载的目标,节省了资源服务商带宽,提高了并发数量。
单个被下载文件最大可达2G字节,文件检索数量最多可达2000万个文件,扫描文件速度约2000个文件/秒,分词速度2500万字/分钟,平均检索时间小于0.001秒。
对于10万个文件,可在50秒内完成所有架构工作。
横瓜采用横瓜分布式Map数据库技术、分词索引技术、最大左匹配切词技术、倒排技术、MD5摘要信息抽取技术、新词智能识别技术、硬盘整理加速技术、疑似垂直搜索技术、中文海量词典技术、横瓜HTTP检索服务器web-search缓存技术、HTM转换TXT技术等,横瓜是根据文件名进行检索的,是基于Windows平台的WEB服务器软件系统,用来提供超大文件下载服务和检索服务。
横瓜PC硬件最低配置,需要700M内存、空闲硬盘空间1G、文件系统NTFS。
搜索引擎开发及合作,请联系QQ(601069289)安装说明:1、第一次使用软件前,先执行Setup.exe。
程序add.exe、title.exe为系统内核,勿动!2、架构搜索步骤:先将资源文件放在当前目录下的'file'文件夹('file'文件夹内可以随意组织子文件夹),然后单击websearch.exe程序的按钮“”创建索引“”,若标签提示分词完成,就可单击按钮“”WWW查询“”使用检索查询服务了。
若硬盘文件有变动,可重新单击“”创建索引“”来更新检索系统。
3、websearch.exe可实现扫描、索引、分词等,若要执行HTTP检索下载服务,websearch.exe须挂机。
4、websearch.exe挂机后,从IE中输入“”http://IP地址或域名:7777/“”可检索查询。
在www目录下,存有搜索引擎的主页和LOGO,客户可以根据个性需要自行修改。
5、使用本软件,必须开放端口:7000、7001、70002、70003、70004、7777、77786、本软件使用的基础词典已经用MD5加密封装,用户可以在dic.txt中自由添加新词,新词被添加到dic.txt后,被检索的几率变大。
若不添加新词,也可以被检索到,只是几率稍小些。
7、不得将本软件用于赢利目的、销售他人、非法用途等,否则将会被追究法律责任。
2024/8/7 12:17:16 3.32MB 服务器软件-FTP服务器
1
Elasticsearch是通过Lucene的倒排索引技术实现比关系型数据库更快的过滤。
特别是它对多条件的过滤支持非常好,比如年龄在18和30之间,性别为女性这样的组合查询。
倒排索引很多地方都有介绍,但是其比关系型数据库的b-tree索引快在哪里?到底为什么快呢?笼统的来说,b-tree索引是为写入优化的索引结构。
当我们不需要支持快速的更新的时候,可以用预先排序等方式换取更小的存储空间,更快的检索速度等好处,其代价就是更新慢。
要进一步深入的化,还是要看一下Lucene的倒排索引是怎么构成的。
这里有好几个概念。
我们来看一个实际的例子,假设有如下的数据:这里每一行是一个document。
每个doc
1
关于搜索引擎的倒排索引的lucene到Elasticsearch的思维导图。
2024/6/6 11:12:53 2.21MB Elasticsearch xmind lucene
1
网络搜索引擎的核心介绍,较为详尽的讲解了爬虫技术、倒排索引等核心技术
2024/5/29 10:56:14 34.71MB 搜索引擎
1
author:Julythanks:ys,fuxiang。
本系统源码是个人原创文章系列,程序员编程艺术第二十六章:基于给定的文档生成倒排索引的编码与实践的整个工程源码look:http://blog.csdn.net/v_july_v/article/details/7109500windows下VS2010,linux环境下皆已测试通。
且只限于学习研究之用,请勿作其它用途。
如果你能将本系统改进优化,并能反馈与我,我将感激不尽。
谢谢。
email:zhoulei0907@yahoo.cnpage:http://blog.csdn.net/v_JULY_v/。
2024/3/13 10:27:32 2.01MB 程序员编程艺术 倒排索引
1
实现了简单的搜索引擎,爬虫,网页处理建立正派索引,倒排索引,实现检索
2023/6/6 4:06:54 2.26MB java mysql
1
java完成读取多个文件构成hashmap创建倒排索引表,然后完成布尔查询.代码比较丑陋,初学者写的。
多多包涵!
2021/3/8 8:11:39 6KB 倒排索引
1
共 16 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡