从非结构化文档中提取有关对象或实体的语义信息的问题自 20 世纪 90 年代末以来一直困扰着 Google。例如,您可以找到 1999 年的一项 Google 专利,名为“ 从万维网等分散数据库中提取模式和关系”(pdf)。这是谷歌有史以来首批有关语义问题的专利之一。
阅读更多内容,请阅读文章 《谷歌有多聪明?》。真正的语义理解还是仅仅是统计数据? 。
知识图谱早期的第一步是结构化和半结构化数据的提取。例如,谷歌已经非常擅长从维基百科或维基数据提取和处理信息。阅读更多内容, 请参阅文章:谷歌如何处理来自维基百科的知识图谱信息? 以及 您需要了解的有关实体类型、类别和属性的所有信息 。
但这仅仅只是一个开始,因为这种方法的局限性是显而易见的。
维基百科和维基数据等知识数据库的问题
由于 Wikidata 和 Wikipedia 仅捕获 电报数据 了所有现实世界实体的一小部分,因此对于 Google 来说,最困难的任务是从上述网站以外的其他网站提取有关实体和实体类型的信息。大多数网站和文档的结构都不同,通常没有统一的结构。因此,谷歌在进一步扩展知识图谱方面还有很大的任务要做。
通常会检查和准备来自手动维护的数据源(例如 Wikipedia 或 Wikidata)的结构化和半结构化信息,以便 Google 可以轻松提取它并将其添加到知识图谱中。但这些网站和数据库也并非完美无缺。
手动维护的数据库和半结构化网站(如维基百科)的问题在于缺乏数据的完整性、有效性和及时性。
- 完整性既指数据库中记 让我们来看看吧 的实体,也指其属性和相关实体类型。
- 有效性是指记录的属性、陈述或事实的正确性
- 时效性是指记录实体的属性
有效性和完整性尤其是互相冲突的。如果谷歌仅仅依赖维基百科,那么由于勤奋的维基百科人的严格审查,信息的有效性会非常高。当谈到及时性时,事情就变得更加困难,而当谈到完整性时,信息根本就不够,因为维基百科只代表了世界知识的一小部分。
为了实现近乎完整的目标,Google必 澳大利亚数据 须能够从网站中提取非结构化数据,同时确保有效性和及时性。例如,Google 新闻中的文章是一个非常有趣的信息来源,可以确保知识图谱中已记录实体的及时性。
谷歌通过数万亿的索引内容和文档获取了大量的知识财富。这些可以是新闻网站、博客、杂志、评论、商店、词汇表、词典……
然而,并不是每个信息来源都足够有效,可以作为信息来源使用。因此,第一步是确定正确的域作为源。
通过识别知识图谱中已存储的实体的提及,可以在第一步中识别出与实体相关的文档。
可以将在命名实体附近同时出现的术语与它们联系起来。由此,可以从内容中提取与主要实体相关的属性以及其他实体,并将其存储在相应的实体配置文件中。文本中术语和实体的接近度以及主实体-属性对或主实体-次要实体对出现的频率既可以用作验证,也可以用作权重。