Analýza propojenosti DBpedie s využitím sémantiky entit

Název práce: DBpedia linkage analysis leveraging on entity semantics
Autor(ka) práce: Fuchs, David
Typ práce: Diploma thesis
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Dojčinovski, Milan
Jazyk práce: English
Abstrakt:
This thesis focuses on the analysis of interlinking of Linked Open Data resources in various data silos and DBpedia, the hub of the Semantic Web. It also attempts to analyse the consistency of bibliographic records related to artwork in the two major encyclopaedic datasets, DBpedia and Wikidata, in terms of internal consistency of artwork in Wikidata, which models its entries in compliance with the Functional Requirements for Bibliographic Records (FRBR), as well as the consistency of interlinking from DBpedia to Wikidata.The first part of the thesis describes the background of the topic, focusing on the concepts important for this thesis: Semantic Web, Linked Data, Data quality, knowledge representations in use on the Semantic Web, interlinking and two important ontologies (OWL and SKOS).The second part is dedicated to the analysis of various data quality features of interlinking with DBpedia. The results of this analysis of interlinking between various sources of LOD and DBpedia has led to some concerns over duplicate and inconsistent entities, but the real problem appears to be the currency of data with only half of the datasets linking DBpedia being updated at most five years before the data collection for this thesis took place (October through November 2019). It is also concerning that almost 14 % of the interlinked datasets are not available through standard Semantic Web technologies (SPARQL, dereferenceable URIs, RDF dump). The third part starts with the description of the approach to modelling artwork entities in Wikidata in compliance with FRBR and then continues with the analysis of internal consistency of this part of Wikidata and the consistency of interlinking of annotated entities from DBpedia and their counterparts from Wikidata. The percentage of FRBR entities in Wikidata found to be affected by inconsistencies is 1.5 %, but this figure may be higher due to technological constraints that prevented several queries from finishing. To compensate for the failed queries, the number of inconsistent entities was estimated by a calculation to be 22 %. The inconsistency rate of interlinking between DBpedia and Wikidata was found to be about 16 % according to the annotators.The last part aims to provide a holistic view of the problem domain, describing how the inconsistencies in different parts of the interlinking chain could lead to severe consequences unless pre-emptive measures are taken. A by-product of the research is a web application designed to facilitate the annotation of DBpedia resources with FRBR typing information, which was used to enable the analysis of interlinking between DBpedia and Wikidata. The key choices made during its development process are documented in the annex.
Klíčová slova: DBpedia linking Wikidata; Wikidata artwork; linguistic datasets linking DBpedia; Wikidata FRBR; Wikidata consistency; linked open datasets linking DBpedia; linked data quality; interlinking consistency
Název práce: Analýza propojenosti DBpedie s využitím sémantiky entit
Autor(ka) práce: Fuchs, David
Typ práce: Diplomová práce
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Dojčinovski, Milan
Jazyk práce: English
Abstrakt:
Tato diplomová práce se zaměřuje na analýzu propojení propojených otevřených dat (LOD) z různých datových sad s DBpedií, jádrem sémantického webu. Pokouší se také analyzovat konzistenci bibliografických záznamů souvisejících s uměleckými díly ve dvou hlavních encyklopedických souborech dat, kterými jsou DBpedia a Wikidata, z hlediska vnitřní konzistence záznamů o uměleckých dílech z Wikidat, modelujících své záznamy v souladu s funkčními požadavky na bibliografické záznamy (FRBR), i z hlediska konzistence propojení entit z DBpedie do Wikidat.První část práce popisuje základy tématu se zaměřením na pojmy důležité pro tuto práci: sémantický web, propojená data, kvalita dat, reprezentace znalostí používané na sémantickém webu, propojení dat a dvě důležité ontologie (OWL a SKOS).Druhá část je věnována analýze různých vlastností determinujících kvalitu dat propojených s DBpedií. Výsledky této analýzy propojení mezi různými zdroji LOD a DBpedia vedly k mírně znepokojujícímu nálezu ohledně počtu duplicitních a nekonzistentních entit, skutečným problémem se však zdá být aktuálnost dat, protože pouhá polovina datových sad propojených s DBpedií byla aktualizována nejvýše pět let před sběrem dat pro tuto práci (říjen až listopad 2019). Rovněž je znepokojující, že téměř 14 % propojených datových sad není dostupných prostřednictvím standardních technologií pro sémantický web (SPARQL, dereferencovatelná URI, RDF dump).Třetí část začíná popisem přístupu k modelování entit uměleckých děl ve Wikidatech z pohledu FRBR a pokračuje analýzou vnitřní konzistence této části Wikidat a také konzistence propojení anotovaných entit z DBpedie a jejich protějšků z Wikidat. Procento entit FRBR z Wikidat ovlivněných nekonzistencemi je 1,5 %, ale toto číslo může být vyšší kvůli technologickým omezením, která zabránila dokončení několika SPARQL dotazů. Pro kompenzaci těchto neúspěšných pokusů byl počet nekonzistentních entit odhadnut výpočtem na hodnotu 22 %. Míra nekonzistentnosti propojení mezi DBpedií a Wikidaty byla podle anotátorů okolo 16 %.Poslední část má za cíl ukázat problémovou oblast z nadhledu a popsat, jakým způsobem by nesrovnalosti v různých částech řetězce propojení mezi datasety mohly vyústit v závažné důsledky, pokud nebudou přijata nápravná opatření.Vedlejším produktem výzkumu je webová aplikace určená k usnadnění anotace entit z DBpedie informacemi z oblasti FRBR, která byla použita k umožnění analýzy propojení mezi DBpedií a Wikidaty. Proces vývoje této aplikace je zdokumentován v příloze.
Klíčová slova: propojení lexiko-lingvistických datasetů a DBpedie; konzistence propojených dat; propojené otevřené datasety propojené s DBpedií; kvalita propojených otevřených dat; Wikidata FRBR; konzistence datasetu Wikidata; umělecká díla v datasetu Wikidata; propojení datasetů DBpedia a Wikidata

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 27. 6. 2019
Datum podání práce: 4. 5. 2020
Datum obhajoby: 4. 6. 2020
Identifikátor v systému InSIS: https://insis.vse.cz/zp/70145/podrobnosti

Soubory ke stažení

    Poslední aktualizace: