Modularizace extrakce dat o veřejných zakázkách do RDF

Název práce: Modularizace extrakce dat o veřejných zakázkách do RDF
Autor(ka) práce: Káňa, Jakub
Typ práce: Bakalářská práce
Vedoucí práce: Mynarz, Jindřich
Oponenti práce: Dudáš, Marek
Jazyk práce: Česky
Abstrakt:
Bakalářská práce se zabývá rozšířením extraktoru dat o veřejných zakázkách získaných ze serveru Tenders Electronic Daily. Tato práce pokrývá v modularizovaném extraktoru dalších 10 typů oznámení o veřejných zakázkách. Data jsou z XML souborů pomocí transformace převáděny do formátu RDF/XML. Rozšíření je realizováno pro formáty publikovaných dat TED-XML a META-XML. Práce dále rozšiřuje a osamostatňuje knihovny funkcí. Nově vytvořená knihovna funkcí je v práci zdokumentována. Pro zajištění správnosti extrahovaných dat z hlediska syntaxe a také použité ontologie jsou použity validační nástroje. Pro validaci syntaxe RDF/XML je použit nástroj Apache Jena Riot a pro testování správnosti výstupů z hlediska použití Public Contracts Ontology nástroj RDFUnit. Přínosem této práce je praktická část, která umožňuje převádět data z věstníku veřejných zakázek členských států EU do formátu RDF/XML. Vytvořené rozšíření umožňuje extrahovat data z oznámení typu F04 - F09 a F15 - F18.
Klíčová slova: veřejné zakázky; ontologie; XSLT; RDF/XML; data; extrakce; Linked Data
Název práce: Modularization of extraction of public procurement data to RDF
Autor(ka) práce: Káňa, Jakub
Typ práce: Bachelor thesis
Vedoucí práce: Mynarz, Jindřich
Oponenti práce: Dudáš, Marek
Jazyk práce: Česky
Abstrakt:
The bachelor thesis deals with extension of data extractor of public contracts gained from server Tenders Electronic Daily. The thesis covers a modularized extractor 10 new types of public contract notices. The data is retrieved from XML by using transformation scenario and they are extracted to RDF/XML data format. The extension is realized on TED-XML and META-XML formats of published data. The work also expands and creates independent library of functions. The library is documented. To ensure the accuracy of the extracted data in terms of syntax and also used ontologies there are used validation tools. For command line syntax validation Jena Apache Riot and for testing the correctness of output in terms of use Public Contracts Ontology RDFUnit testing tool. The contribution of this work is the practical part, allowing you to convert semi-structured data from the Journal of procurement of EU Member States into a fully structured data. Enhanced extractor allows you to extract data from the notices type F04 - F09 and F15 - F18.
Klíčová slova: ontology; extraction; Linked Data; public procurement; RDF/XML; data; XSLT

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 15. 12. 2014
Datum podání práce: 1. 5. 2015
Datum obhajoby: 23. 6. 2015
Identifikátor v systému InSIS: https://insis.vse.cz/zp/43655/podrobnosti

Soubory ke stažení

    Poslední aktualizace: