最近几年,例如YAGO和DBpedia等大规模知识库发展有了很大的进步。
知识库提供了大量的不同种类的实体信息,如人、国家、河流、城市大学等等,同时知识库包含了大量的在实体(entity)间的关系既事实(fact)。
当今的知识库包含的数据量是巨大的通常有百万个实体和上亿个描述实体间关系的事实数据。
虽然目前的知识库存在大量的实体和事实数据,但是这样大规模的数据仍然不完整。
目前构建知识库的方法主要有两种,一种是从大量的文本中抽取事实但这种方法必然会带来大量的噪声数据,第二是人工扩展,但这样的方法对于时间的开销是极大的。
如果确保一个知识库是完整的则必须花费很大的努力来抽取大量的事实,并检查事实的正确性,因为只有正确的事实加入到知识库中才是有意义的。
同时知识库的本身由于有足够的信息可以推理出更多的新的事实。
例如有这样一个例子,一个知识库包含一组事实是孩子c有一个妈妈m,这样可以推理得出孩子妈妈的丈夫f很可能是孩子的父亲。
该逻辑规则形式化的描述如下:motherof(m,c)∧marriedTo(m,f)⟹fatherof(f,c)挖掘这种规则可帮助做一下四种事情:1、利用这种规则来推理出新的事实,而这些被挖掘出的新的事实可以使知识库更完整。
2、这些规则可以检测出知识库潜在的错误例如一个陈述是一个与一个男孩无关的人是这个男孩的父亲,这样的陈述很可能是错误的。
3、有很多推理工具依赖其他工具提供规则,所以这些被挖掘出来的规则可以用于推理。
4、这些规则描述一个普遍的规律,这些规律可以帮我我们理解分析知识库中的数据,如找到一些国家通常与说同一种语言的国家交易。
或结婚是一个对称关系,或使用同一个乐器的音乐家通常互相影响等等。
AMIE的目标是从RDF格式的知识库中挖掘如上所述的逻辑规则,在语义网(SemanticWeb)中存在大量的RDF知识库如YAGO、Freebase和DBpedia等。
这些知识库使用RDF三元组(S,P,O)提供二元关系(binaryrelation)的描述。
由于知识库一般只包含正例而(S,P,O)没有反例(S,¬P,O),所以RDF这样的知识库中仅能通过正例来推理。
进一步来说在RDF知识库上的操作是基于开放世界假设(OWA)的。
在开放世界假设下,一个事实没有在知识库中存在那么我们不能说这个事实是错误的,只能说这个陈述是未知的。
这与标准的数据库在封闭世界假设的设定有本质上的区别。
例如在知识库中没有包含marry(a,b),在封闭世界假设中我们可以得出这个a没有和b结婚而在开放世界假设下我们只能说a可能结婚了也可能单身。
压缩包内包含AMIE可运行源代码与相应文档资料,欢迎下载参考
2025/4/10 17:38:48 2.43MB 不完整 知识库 关联规则 数据挖掘
1
数据挖掘作为现在比较有用的支持决策系统的一种手段有着广泛的应用。
其有很多种方法,本文主要基于关联规则类等相关问题进行论述。
按照挖掘过程进行组织。
首先,有数据仓库的建立和数据挖掘的概述。
其次是关联规则的挖掘,后来就是挖掘结果的可视化等方面的内容。
在其中不仅有基本概念、原理、方法等。
还有对最新的方法的分析研究和提高等。
目录第一章数据仓库...51.1概论...51.2数据仓库体系结构...61.3数据仓库规划、设计与开发...61.3.1确定范围...71.3.2环境评估...71.3.3分析...71.3.4设计...71.3.5开发...81.3.5测试...81.3.6运行...81.4小结
1
主要介绍数据仓库和数据挖掘技术的基本原理和应用方法,全书共分为12章,主要内容包括数据仓库的概念和体系结构、数据仓库的数据存储和处理、数据仓库系统的设计与开发、关联规则、数据分类、数据聚类、贝叶斯网络、粗糙集、神经网络、遗传算法、统计分析、文本和Web挖掘
2025/3/1 9:11:45 53.31MB 数据仓库
1
教材(韩家炜)数据预处理、关联规则、分类与聚类技术
2025/2/4 0:02:51 3.04MB data warehouse & data
1
使用R语言完成关联规则分析的脚本,其中可生成的图形有关系矩阵图、(sup、conf、lift)关系图
2024/12/30 7:56:32 2KB R apriori
1
R语言数据挖掘——美国黑色星期五(BlackFriday)实验报告(附代码)使用R语言实现基本数据统计聚类关联规则挖掘注意:此为个人实验报告,仅作学习参考,勿照搬照抄,尤其ZS学校的同学。
2024/11/7 11:46:56 5.86MB 聚类 关联规则挖掘 R语言 数据挖掘
1
这是两个关于关联规则挖掘的合成数据集,数据量在10万左右,适用于关联规则分析。
2024/11/7 2:29:30 12.2MB 关联规则
1
实验描述:对指定数据集进行关联规则挖掘,选择适当的挖掘算法,编写程序实现,提交程序和结果报告。
数据集:retail.txt,根据数据集中的数据利用合适的挖掘算法得到频繁项集,并计算置信度,求出满足置信度的所有的关联规则retail.txt中每个数字表示一种商品的ID,一个{}内的表示一次交易实验环境和编程语言:本实验使用的编程语言为:Java编程环境为:Intellijidea实现频繁项集的挖掘算法为Apriori算法用于挖掘的样本个数为:1000个(retail.txt的前1000条数据)样本示例:{38,39,47,48}表示一个顾客购买了ID为38、39、47、48的四种商品。
2024/10/19 4:46:48 1.6MB apriori
1
weka是一款由Waikato大学研究的基于Java的用于数据挖掘和知识发现的开源项目,其中集成了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、关联规则挖掘、分类、聚类等,并提供了丰富的可视化功能。
同时,由于其是一款开源软件,所以也可以用于数据挖掘的二次开发和算法研究。
文章介绍了利用开源软件WEKA作为数据挖掘工具,通过Apriori算法,对高校图书馆流通历史数据进行挖掘分析。
2024/10/6 14:17:03 166KB 数据挖掘实例 weka 关联规则算法
1
一个非常好的数据挖掘工具WEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),它的源代码就是它的安装目录下weka-src.jar解压后得到。
有一本书《数据挖掘:实用机器学习技术》第2版是和weka配套的。
同时weka也是新西兰的一种鸟名,而weka的主要开发者来自新西兰。
weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。
在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情本文来自:人大经济论坛详细出处参考:http://www.pinggu.org/bbs/viewthread.php?tid=619834&page=1
2024/7/12 18:47:46 9.84MB 数据挖掘
1
共 45 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡