首頁 » 半结构化数据处理

半结构化数据处理

半结构化数据是没有按照通用标记标准(例如 RDF、schema.org 等)明确标记,但具有隐含结构的信息。通常可以使用变通方法从这种隐式结构中获取结构化数据。

可以使用基于模板的提取器从具有半结构化数据的数据源中提取信息。由于帖子的结构重复相同,它可以识别内容部分并从中提取信息。

以维基百科为例化数据处处理半结构化数据

维基百科或其他来源是非常有吸引力的信息来源,因为每篇文章的结构相似,并且经过维基百科编辑者的不断检查。此外,维基百科基于 MediaWiki CMS。这意味着内容配有基本的标记,可以通过 XML、SQL 转储或 HTML 轻松下载。人们也可以在这里谈论半结构化数据

典型的维基百科文章的结构是 whatsapp 筛查 将实体分类、识别属性以及提取精选片段和知识面板信息的模板。例如,维基百科中各个文章的结构非常相似或相同。

  • 标题(1)
  • 主干部分 (2)
    • 引言(2a)
    • 信息框 (2b)
    • 介绍性化数据处文字(2c)
  • 目录 (3)
  • 正文 (4)
  • 新增内容 (5)
    • 脚注和来源(5a)
    • 更多链接(5b)
    • 类别(5c)

每个维基百科文章的标题冯德莱恩与万斯冷开 映了实体名称。对于标题不明确的情况,会在标题中包含类型,以便更清楚地将其与具有相同名称的其他实体区分开来,例如艺术家迈克尔乔丹 (Michael Jordan)的情况。这里的标题是“迈克尔乔丹(插画家)”,以区别于更受欢迎的篮球运动员迈克尔乔丹。

维基百科文章右上角的信息框( 2b)提供了有关相应实体的结构化数据。介绍性文字(2c)通常可以在相应实体的知识面板中找到。本文后面将对此进行更详细的介绍。

维基百科内的内部链接为谷歌化数据处提供 澳大利亚数据 了有关哪些相关主题或其他实体在语义上与相应实体相关的信息。这就是为什么我们机构已经使用我们自己的维基百化数据处科脚本超过 4 年,该脚本分析相关维基百科文章的内部链接。

谷歌如何使用维基百科特殊页面

维基百科提供了许多特殊化数据处页面,可以帮助谷歌更好地理解、分组和分类实体。

用于按实体类型和类别进行分化数据处类的列表和类别页面

维基百科中实体所属的类别总是可以在文章末尾找到(见 5c)类别页面上,您将找到分配给此类别的所有主要类别、子类别和实体的概览。

列表页面(例如此处)与类别页面类似,提供与列表主题相关的所有元素的概述。

使用这两种页面类型,Google 可以将相应的实体分配给实体类型和类别。

与其他大型知识数据库相比,维基百科的类型类别最多。

科学论文《利用百科知识进行命名实体消歧》展示了维基百科在识别实体及其主题背景方面可以发挥的核心作用 。

谷歌可以通化数据处过维基百科内的注释或链接建立实体之间的关系。

注释 是将提及内容链接到 实体。  “ 标签 是对文本的注释,它使用一个实体来捕获输入文本中的主题(明确提及)。” 

重定向特殊页面以识别同义词

诸如此类有关互联网营销主题的特殊页面将维基百科用户引导至主要术语。在此示例中,互联网营销 (Internet Marketing)是主要术语在线营销 ( Online Marketing)的同义词。使用这些转发术语,Google 可以识别实体的同义词并将其分配给主要术语。这与搜索引擎优化中的规范标签类似。

用于识别多重含义的定义页面

诸如此类有关迈克尔·乔丹 (Michael Jordan) 的定义页面概述了所有包含迈克尔·乔丹 (Michael Jordan) 这个名字的实体。这适用于 5 个不同的实体。请注意,所有 5 个实体的标题措辞不同,以清楚地区分它们。

这让 Google 可以概览哪些名称含有歧义实体。

基于维基百科的数据库:DBpedia 和 YAGO

DBpedia是一个基于维基百科或维基媒体内容的多语言数据库,定期更新。任何人都可以通过浏览器、RDF 浏览器或直接通过 SPARQL 客化数据处户端访问该数据作为链接数据。通过DBpedia Live模块,数据库自2016年起实现实时更新。您可以在这里找到实体 Audi A4 的 DBpedia 记录示例。

在DBpedia Ontology中,实体彼此相关或以知识图谱的形式表示。在以下 DBpedia Ontology 的摘录中,实体类型(圆角矩形)通过上升箭头与父实体类相关。例如,实体类型运动员和赛车手被分配给实体类“人”。连接类型和类的属性用虚线箭头表示。

返回頂端