最近几年,例如YAGO和DBpedia等大规模知识库发展有了很大的进步。
知识库提供了大量的不同种类的实体信息,如人、国家、河流、城市大学等等,同时知识库包含了大量的在实体(entity)间的关系既事实(fact)。
当今的知识库包含的数据量是巨大的通常有百万个实体和上亿个描述实体间关系的事实数据。
虽然目前的知识库存在大量的实体和事实数据,但是这样大规模的数据仍然不完整。
目前构建知识库的方法主要有两种,一种是从大量的文本中抽取事实但这种方法必然会带来大量的噪声数据,第二是人工扩展,但这样的方法对于时间的开销是极大的。
如果确保一个知识库是完整的则必须花费很大的努力来抽取大量的事实,并检查事实的正确性,因为只有正确的事实加入到知识库中才是有意义的。
同时知识库的本身由于有足够的信息可以推理出更多的新的事实。
例如有这样一个例子,一个知识库包含一组事实是孩子c有一个妈妈m,这样可以推理得出孩子妈妈的丈夫f很可能是孩子的父亲。
该逻辑规则形式化的描述如下:motherof(m,c)∧marriedTo(m,f)⟹fatherof(f,c)挖掘这种规则可帮助做一下四种事情:1、利用这种规则来推理出新的事实,而这些被挖掘出的新的事实可以使知识库更完整。
2、这些规则可以检测出知识库潜在的错误例如一个陈述是一个与一个男孩无关的人是这个男孩的父亲,这样的陈述很可能是错误的。
3、有很多推理工具依赖其他工具提供规则,所以这些被挖掘出来的规则可以用于推理。
4、这些规则描述一个普遍的规律,这些规律可以帮我我们理解分析知识库中的数据,如找到一些国家通常与说同一种语言的国家交易。
或结婚是一个对称关系,或使用同一个乐器的音乐家通常互相影响等等。
AMIE的目标是从RDF格式的知识库中挖掘如上所述的逻辑规则,在语义网(SemanticWeb)中存在大量的RDF知识库如YAGO、Freebase和DBpedia等。
这些知识库使用RDF三元组(S,P,O)提供二元关系(binaryrelation)的描述。
由于知识库一般只包含正例而(S,P,O)没有反例(S,¬P,O),所以RDF这样的知识库中仅能通过正例来推理。
进一步来说在RDF知识库上的操作是基于开放世界假设(OWA)的。
在开放世界假设下,一个事实没有在知识库中存在那么我们不能说这个事实是错误的,只能说这个陈述是未知的。
这与标准的数据库在封闭世界假设的设定有本质上的区别。
例如在知识库中没有包含marry(a,b),在封闭世界假设中我们可以得出这个a没有和b结婚而在开放世界假设下我们只能说a可能结婚了也可能单身。
压缩包内包含AMIE可运行源代码与相应文档资料,欢迎下载参考
2025/4/10 17:38:48 2.43MB 不完整 知识库 关联规则 数据挖掘
1
freebase-FB5M数据freebase-FB5M数据freebase-FB5M数据
2025/3/7 22:25:24 138.31MB freebase
1
freebase的实体id到真实实体的映射数据集
2025/2/14 12:31:42 67.52MB freebase
1
星际空间StarSpace是一种通用的神经模型,用于有效学习实体嵌入以解决各种问题:学习单词,句子或文档级别的嵌入。
信息检索:对实体/文档或对象集的排名,例如对Web文档的排名。
文本分类或任何其他标记任务。
度量/相似度学习,例如学习句子或文档相似度。
基于内容或基于协作过滤的推荐,例如推荐音乐或视频。
嵌入图,例如多关系图,例如Freebase。
图像分类,排名或检索(例如,通过使用现有的ResNet功能)。
在一般情况下,它学会将不同类型的对象表示为一个通用的矢量嵌入空间,因此,名称中的星形('*',通配符)和空间会相互比较。
在给定查询实体/文档或对象的情况下,它学习对一组实体/文档或对象进行排名,该查询不一定与该集中的项目具有相同的类型。
有关其工作原理的更多详细信息,请参见。
消息StarSpace在Python中可用:请查看“部分以获取详细信息。
2024/9/1 13:34:34 420KB C++
1
freebase-FB2M数据freebase-FB2M数据freebase-FB2M数据
2024/8/4 0:40:05 108.78MB freebase
1
freebase的entityid到真实数据的映射/m/0gw0Anarchism/m/0gwjAutism/m/0gx0Albedo/m/0gxjAbuDhabi/m/0gy0A/m/0gyhAlabama/m/0gy_Achilles/m/0gzhAbrahamLincoln/m/0gz_Aristotle/m/0g_hAnAmericaninParis/m/0g__WAcademyAward/m/0h0cAnimalia(book)/m/0h0qInternationalAtomicTime/m/0h16Altruism./m/0h1pAngLee/m/0h25AynRand./m/0h2pAlainConnes/m/0h34AllanDwan/m/0h3yAlgeria/m/0h53AtlasShrugged/m/0h5kAnthropology/m/0h61Archaeology/m/0h6kAgriculturalscience/m/0h70Alchemy/m/0h7jAutomaticdependentsurveillancel/m/0h7xAustria/m/0h8dAmericanSamoa/m/0h9cAstronomer/m/0h9vAmoeboid/m/0hb8ASCII/m/0hcrAnimation/m/0hd7Apollo/m/0hdr.AndreAgassi
2023/12/23 21:05:53 80.7MB freeba
1
https://github.com/Samsung/KnowledgeSharingPlatform
2023/11/27 12:43:07 78.52MB wikidata freebase
1
数据集FB13是Freebase的子集,包含13种关系和75k种实体。
2023/10/15 0:41:35 5.18MB 知识图谱 数据
1
Freebase是大型的存放结构化数据的仓库,它通过群体共建。
FB15k是Freebase的子集。
2023/7/7 0:31:02 7.22MB Freebase FB15k
1
清华大学NYT10关系抽取数据集,包含了53个关系,522043个句子实例,数据近程监督数据集,来源于NewYorkTimes和FreeBase。
2023/2/15 23:27:38 69.74MB 关系抽取 远程监督
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡