Extrakce nespecifikovaných relací z webu

Název práce: Extrakcia nešpecifikovaných znalostí z webu
Autor(ka) práce: Ovečka, Marek
Typ práce: Diplomová práce
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Labský, Martin
Jazyk práce: Slovensky
Abstrakt:
Predmetom diplomovej práce je extrakcia nešpecifikovaných znalostí z webu. V posledných rokoch vznikli nástroje, ktoré zlepšujú výsledky odvetvia extrakcie znalostí. Cieľom práce je zoznámiť sa s týmito nástrojmi, jeden otestovať a navrhnúť využitie výsledkov. V práci sú popísané a porovnané tieto nástroje a vykonané extrakcie pomocou nástroja OLLIE. Na základe výsledkov extrakcií sú navrhnuté dve metódy obohatenia extrakcií pomocou rozoznania pomenovaných entít. Prvá metóda navrhuje úpravuju číselných váh kvality extrakcií a druhá obohatenie textu extrakcií pomocou pomenovaných entít. V práci je navrhnutá ontológia, ktorá umožnuje zachytiť štruktúru obohatených extrakcií. V poslednej časti je vykonaný praktický experiment, kde sú navrhnuté metódy predvedené. Návrhom ďalšieho smerovania výskumu v tejto oblasti by bolo extrahovať a kategorizovať relačné vzťahy.
Klíčová slova: spracovanie prirodzeného jazyka; web; extrakcia znalostí
Název práce: Extrakce nespecifikovaných relací z webu
Autor(ka) práce: Ovečka, Marek
Typ práce: Diplomová práce
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Labský, Martin
Jazyk práce: Slovensky
Abstrakt:
Předmětem diplomové práce je extrakce nespecifikovaných znalostí z webu. V posledních letech vznikly nástroje, které zlepšují výsledky odvětví extrakce znalostí. Cílem práce je seznámit se s těmito nástroji, jeden otestovat a navrhnout využití výsledků. V práci jsou popsány a porovnány tyto nástroje a provedeny extrakce pomocí funkce OLLIE. Na základě výsledků extrakcí jsou navrženy dvě metody obohacení extrakcí pomocí rozeznání pojmenovaných entit. První metoda navrhuje úprava číselných vah kvality extrakcí a druhá obohacení textu extrakcí pomocí pojmenovaných entit. V práci je navržena ontologie, která umožnuje zachytit strukturu obohacených extrakcí. V poslední části je proveden praktický experiment, kde jsou navrženy metody předvedeny. Návrhem dalšího směřování výzkumu v této oblasti by bylo extrahovat a kategorizovat relační vztahy.
Klíčová slova: web; spracování přirozeného jazyka; extrakce znalostí
Název práce: Extraction of unspecified relations from the web
Autor(ka) práce: Ovečka, Marek
Typ práce: Diploma thesis
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Labský, Martin
Jazyk práce: Slovensky
Abstrakt:
The subject of this thesis is non-specific knowledge extraction from the web. In recent years, tools that improve the results of this type of knowledge extraction were created. The aim of this thesis is to become familiar with these tools, test and propose the use of results. In this thesis these tools are described and compared and extraction is carried out using OLLIE. Based on the results of the extractions, two methods of enriching extractions using name entity recognition, are proposed. The first method proposes to modify the weights of extractions and second proposes the enrichment of extractions by named entities. The paper proposed ontology, which allows to capture the structure of enriched extractions. In the last part practical experiment is carried out, in which the proposed methods are demonstrated. Future research in this field would be useful in areas of extraction and categorization of relational phrases.
Klíčová slova: natural language processing; web; knowledge extraction

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 29. 1. 2013
Datum podání práce: 26. 6. 2013
Datum obhajoby: 29. 8. 2013
Identifikátor v systému InSIS: https://insis.vse.cz/zp/41134/podrobnosti

Soubory ke stažení

    Poslední aktualizace: