Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům

Název práce: Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům
Autor(ka) práce: Baláček, Daniel
Typ práce: Bakalářská práce
Vedoucí práce: Pejčoch, David
Oponenti práce: Rauch, Jan
Jazyk práce: Česky
Abstrakt:
Cílem této bakalářské práce je zhodnotit dopad nekvalitních dat na vybrané metody dobývání znalostí z databází. Práce je členěna na teoretickou a praktickou část. V teoretické části je nejprve vymezen samotný pojem dobývání znalostí z databází, načež je představena oblast datová kvality. Dále jsou představeny nejpopulárnější metody dobývání znalostí z databází, včetně jejich schopnosti vypořádat se s nekvalitními daty. V navazující praktické části je formou experimentů zhodnocena robustnost nejpopulárnějších metod vůči nekvalitním datům. Pro každou metodu je vytvořen referenční model na několika různých data setech. Pro každý data set jsou uměle vygenerovány různé míry nekvalitních dat. Výsledky modelů, ve kterých byla vygenerována chyba, jsou srovnány s výsledky referenčního modelu. Na základě výsledků experimentů je v závěru práce zhodnocena robustnost populárních metod dobývání znalostí z databází vůči nekvalitním datům.
Klíčová slova: datová kvalita; dobývání znalostí z databází; Python; chybná pozorování
Název práce: Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases
Autor(ka) práce: Baláček, Daniel
Typ práce: Bachelor thesis
Vedoucí práce: Pejčoch, David
Oponenti práce: Rauch, Jan
Jazyk práce: Česky
Abstrakt:
The purpose of this thesis is to evaluate the impacts of poor data quality on selected methods of knowledge discovery in databases. It is divided into theoretical and practical part. The theoretical part defines the term of knowledge discovery in databases and introduces the reader into the area of data quality. Then the most popular methods of knowledge discovery in databases are presented, including the capability of these methods to deal with poor data quality. The following practical part evaluates the robusteness of the most popular methods against poor data quality in the form of practical experiments. A reference model is created for each method on several datasets. Different amounts of errorneous values are artificially generated for each dataset. The results of models with errorneous data are then compared to the reference models. On the basis of this comparison, the robustness of the most popular database knowledge acquisition against poor data quality is assesed.
Klíčová slova: data quality; errorneous values; Knowledge discovery in databases; Python

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 28. 1. 2018
Datum podání práce: 2. 5. 2018
Datum obhajoby: 15. 6. 2018
Identifikátor v systému InSIS: https://insis.vse.cz/zp/64566/podrobnosti

Soubory ke stažení

    Poslední aktualizace: