Porovnání přístupů ke generování umělých dat

Název práce: Porovnání přístupů ke generování umělých dat
Autor(ka) práce: Šejvlová, Ludmila
Typ práce: Diplomová práce
Vedoucí práce: Šimůnek, Milan
Oponenti práce: Pavlíčková, Jarmila
Jazyk práce: Česky
Abstrakt:
Diplomová práce se zabývá umělými daty, konkrétně vybranými přístupy k jejich generování a praktickou úlohou generování dat. Cílem teoretické části práce je popsat vybrané přístupy ke generování umělých dat, shrnout jejich hlavní klady a zápory a jednotlivé přístupy vůči sobě porovnat. Cílem praktické části práce je vygenerovat umělá data pro účely výuky dobývání znalostí z databází. Práce uvádí základní popis umělých dat a podrobně vysvětluje proces jejich generování. Z možných přístupů ke generování umělých dat se práce zaměřuje na náhodný přístup, statistický přístup, generovací jazyky a nástroj ReverseMiner. Práce pojednává také o využití umělých dat v praxi a o vhodnosti jednotlivých přístupů pro určité záměry. V rámci práce byla pomocí nástroje ReverseMiner vytvořena výuková data Hotel SD, která obsahují vztahy odhalitelné pomocí GUHA-procedur typu SD (set-difference).
Klíčová slova: Proces generování umělých dat; Přístupy ke generování umělých dat; Výuková data; Testování softwaru; Anonymizace dat; GUHA-procedury; LISp-Miner; ReverseMiner; Synthetic Data Definition Language; Generovací jazyky; Synthpop; Statistický přístup; Mockaroo; Náhodný přístup; Umělá data
Název práce: Comparison of Approaches to Synthetic Data Generation
Autor(ka) práce: Šejvlová, Ludmila
Typ práce: Diploma thesis
Vedoucí práce: Šimůnek, Milan
Oponenti práce: Pavlíčková, Jarmila
Jazyk práce: Česky
Abstrakt:
The diploma thesis deals with synthetic data, selected approaches to their generation together with a practical task of data generation. The goal of the thesis is to describe the selected approaches to data generation, capture their key advantages and disadvantages and compare the individual approaches to each other. The practical part of the thesis describes generation of synthetic data for teaching knowledge discovery using databases. The thesis includes a basic description of synthetic data and thoroughly explains the process of their generation. The approaches selected for further examination are random data generation, the statistical approach, data generation languages and the ReverseMiner tool. The thesis also describes the practical usage of synthetic data and the suitability of each approach for certain purposes. Within this thesis, educational data Hotel SD were created using the ReverseMiner tool. The data contain relations discoverable with SD (set-difference) GUHA-procedures.
Klíčová slova: Synthetic data generation process; Data anonymization; Software testing; GUHA-procedures; LISp-Miner; ReverseMiner; Synthetic Data Definition Language; Generation languages; Synthpop; Statistic approach; Synthetic data; Mockaroo; Random approach; Approaches to synthetic data generation; Education data

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 24. 10. 2016
Datum podání práce: 1. 5. 2017
Datum obhajoby: 5. 6. 2017
Identifikátor v systému InSIS: https://insis.vse.cz/zp/59378/podrobnosti

Soubory ke stažení

    Poslední aktualizace: