Data mining na reálných datech

Název práce: Data mining na reálných datech
Autor(ka) práce: Hrubý, Jan
Typ práce: Bakalářská práce
Vedoucí práce: Chudán, David
Oponenti práce: Rauch, Jan
Jazyk práce: Česky
Abstrakt:
Cílem této bakalářské práce je nalezení zajímavých a potenciálně využitelných vztahů na reálných datech nebo naopak potvrzení známých vztahů, pomocí data miningu a systému LISp-Miner. Analýza proběhla na datasetu o záznamech digitálního distributora videoher a herního příslušenství Steam, od společnosti Valve. Dataset byl stažen ze serveru kaggle.com, který se zabývá zpracováním dat. Celá práce se dělí na dvě části, na teoretickou a praktickou.Teoretická část popisuje, co je to dobývání znalostí z databází, vývoj tohoto oboru a jeho metodiky. Dále jsou podrobně popsány jednotlivé fáze celého procesu DZD, podle metodiky CRISP-DM. Následně představuje tři pilíře DZD: databáze, statistika a strojové učení. Na konci teoretické části je představen systém LISp-Miner, který bude využíván při praktické části. Dále pak pokračuje metodou GUHA, a jednotlivými použitými procedurami CF-Miner, MCluster-Miner a KL-Miner.Praktická část práce jde krok po kroku procesu DZD, přesně podle popisu v teoretické části. Začíná popisem získání dat, přes předzpracování dat, formulaci analytických otázek a provedení samotné analýzy. Práce končí zhodnocením a interpretací výsledků analýz.
Klíčová slova: dobývání znalostí z databází; LISp-Miner; CF-Miner; MCluster-Miner; KL-Miner; data mining; CRISP-DM; GUHA
Název práce: Data mining on real data
Autor(ka) práce: Hrubý, Jan
Typ práce: Bachelor thesis
Vedoucí práce: Chudán, David
Oponenti práce: Rauch, Jan
Jazyk práce: Česky
Abstrakt:
The aim of this bachelor's thesis is to find interesting and potentially useful relations on real data or on the other way confirming known relations using data mining and the LISp-Miner system. The analysis was based on the dataset with files of video game digital distributor service called Steam developed by Valve company. Dataset was downloaded from the server kaggle.com which focuses on data processing. The whole work is divided into theoretical and practical part.The theoretical part describes what is knowledge discovery in databases, evolve of this field and its methodologies. Then, there are described particular phases of the whole KDD process, according to CRISP-DM methodology. After that, thesis introduces three pillars of KDD: databases, statistics and machine learning. In the end of theoretical part is presented LISp-Miner system which will be used during the practical part. It continues with GUHA method and particular used procedures CF-Miner, MCluster-Miner and KL-Miner.The practical part follows the process of the KDD step by step, exactly by the description in the theoretical part. It begins with description about data acquisition, continues with data pre-processing, formulating of the analytical questions and performing the analysis. The thesis ends with evaluating and interpreting results of the analysis.
Klíčová slova: MCluster-Miner; KL-Miner; CF-Miner; data mining; CRISP-DM; GUHA; knowledge discovery in databases; LISp-Miner

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 23. 10. 2019
Datum podání práce: 11. 5. 2020
Datum obhajoby: 16. 6. 2020
Identifikátor v systému InSIS: https://insis.vse.cz/zp/71409/podrobnosti

Soubory ke stažení

    Poslední aktualizace: