这使得 Google 能够不式信息断用新信息丰富知识图谱中的实体。
下面,我研究了 Google Patents 和其他来源,以找到确保完整性(召回率)、有效性和及时性的方法。
在介绍具体方法之前,我想简单讨论
一下两种基本类型的提取。开放式和封闭式提取。封闭式提取要求实体已经用 URI 记录,并且这些实体已经针对新属性和与其他实体的关系进行了完善或更新。开放式提取还涉及识别和记录以前未知或未记录的实体及其属性。这涉及整个知识数据库的完整性,而不仅仅是每个实体的属性和关系的完整性。
事实/信息的封闭提取示例流程即 电报筛查 可收集有关先前记录的实体/对象的新信息的过程。用于从文档中学习对象和事实的系统、方法和计算机程序产品。选择源对象和源文档,并根据源对象和源文档识别标题模式和上下文模式。选择一组与标题模式和上下式信息文模式相匹配的文档。对于选定集合中的每个文档,通过将标题模式和上下文模式应用于文档来识别名称和一个或多个事实。根据已识别的名称来识别或创建对象,并与已识别的事实相关联。
在此过程中,从标题式信息
中提到实体名称或对象名称并且出现 欧洲能成为美国国际开发署的创可贴吗? 已记录的属性和属性值对的索引中识别文档。例如,这可能是一篇关于安格拉·默克尔的文章,其中提到了她作为联邦总理的职业。在下一步中,为文档分配一个上下文模式。例如,这可能是一次“政客会议”。现在添加了具有相同上下文模式和标题特征的附加文档。现在可以从这些文档中提取具有相应属性-属性-值对的新对象/实体(参见左侧流程图)。
这里的先决条件是实体已经从特定上下文记录在事实存储库或知识图谱中。换句话说,这不是一种完全开放的提取形式。
最令人兴奋的方法是那些处理开放式提取的方法来。维基百科等网站上已经涵盖的实体概念已由 Google 通过SERP中的知识面板很好地呈现。更有趣的问题是,谷歌将来会如何处理不太相关的实体,即所谓的尾部实体。
尾部实体检测
谷歌检测和捕获尾部实体的方法基 澳大利亚数据 本上有三种。以前的路线是通过结构化数据,例如来自 Wikidata 或从各种博客、网站、社交网络的在线内容中提取……或者手动通过 Json-ld 或微数据标记的结构化数据。
我认为谷歌当时的计划是通过式信息 Google+ 和作者标记来扩展知识图谱中的尾部实体。我们最迟知道这一切是如何结束的,因为 2019 年 4 月 Google+ 已经关闭。
目前,许多 SEO 人员都在尝试创建自己的实体档案,包括我自己。在某些情况下,已经可以将第一个知识面板信息放入 SERP 中。
不过,我认为这些方法只是临时解决方案,因为安装和测试仍然必须手动完成。这意味着它不是 Google 喜欢的可扩展解决方案。近年来,谷歌一直在努力推动网站管理员和 SEO 进行结构化数据标记。对我来说,这样做只有一个原因:他们希望为他们的机器学习算法提供尽可能多的经过人工验证的结构化数据作为训练数据。目标是某个时候不再需要结构化数据。在我的文章《为什么结构化数据将来可能会被 Google 淘汰》中阅读更多相关内容 。