Analýza a vizualizace dat z webových portálů nabídek práce

Název práce: Analýza a vizualizace dat z webových portálů nabídek práce
Autor(ka) práce: Zanikov, Melikset
Typ práce: Diplomová práce
Vedoucí práce: Šedivá, Zuzana
Oponenti práce: Pour, Jan
Jazyk práce: Česky
Abstrakt:
Hlavním cílem práce je získat, analyticky zpracovat a vizualizovat data z portálu nabídek práce. Následná vizualizace je formou dashboardů v aplikaci Power BI. Pro splnění hlavního cíle práce je nutné získat znalosti v oblasti web scraping, jakožto způsobu získávání dat. Za účelem zpracování dat je nutné vytvořit vhodné Business Intelligence řešení, pro které je nutné načerpat znalosti v této oblasti. Pro závěrečné vytvoření dashboardů jsou potřebné znalosti z oblasti vizualizace dat.V teoretické části je nejdříve popsána problematika web scraping. Dále je popsán právní aspekt problematiky a jakým způsobem lze web scraping použít v oblasti data science společně s praktickými příklady. Další část se zabývá definicí Business Intelligence, jeho historie a rozdíly mezi klasickými datovými sklady a použitím SSBI. Poslední kapitola teoretické části se zabývá způsoby návrhu vizualizací dat a popisem rozložení dashboardu.V praktické části je nejdříve provedena úvodní studie, ve které byli definováni uživatelé vizualizací společně s jejich požadavky pomocí nestrukturovaného interview. Poté následuje analýza existujících webových portálu a vybrání jednoho z nich pro následné zpracování. V dalších kapitolách je navržena a implementována architektura Business Intelligence řešení. Nejdříve je vytvořen skript pro stahování dat, následně datový sklad a poté tabulární model. V závěru práce jsou navrženy a implementovány dashboardy v aplikaci Power BI.
Klíčová slova: Web scraping; ETL; Datový sklad; Tabulární model; Vizualizace dat; Power BI
Název práce: Analysis and visualization of data from job offer portals
Autor(ka) práce: Zanikov, Melikset
Typ práce: Diploma thesis
Vedoucí práce: Šedivá, Zuzana
Oponenti práce: Pour, Jan
Jazyk práce: Česky
Abstrakt:
The main goal of the thesis is to obtain, analytically process and visualize data from a job offer portal. The data visualization take form of dashboards created in Power BI application. To meet the main goal of the thesis, it is necessary to gain knowledge in the field of web scraping, such is the way of obtaining data. For the ability to create fitting Business Intelligence solution, it is necessary to gain knowledge in this area. And for the final creation of dashboards it is needed to have knowledge of data visualization.The theoretical part describes the topic of web scraping. It also describes how web scraping can be used in the field of data science together with practical examples followed by the legal aspect of such. The next part describes definition of Business Intelligence, its history and the differences between classical data warehouses and the use of SSBI. The last chapter of theoretical part presents ways how to design data visualizations and describes dashboard layouts.In the practical part, an introductory study is first performed, in which the users of the visualizations are defined together with their requirements by means of an unstructured interview. This is followed by an analysis of existing web portals and selecting one of them for further processing. In the following chapters, the architecture of the business intelligence solution is designed and implemented. Firstly, a script for scraping data is created, then a data warehouse followed by a tabular model. At the end of the thesis, dashboards in Power BI application are designed and implemented.
Klíčová slova: Web scraping; Data warehouse; ETL; Tabular model; Data visualization; Power BI

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 10. 2019
Datum podání práce: 3. 5. 2020
Datum obhajoby: 8. 6. 2020
Identifikátor v systému InSIS: https://insis.vse.cz/zp/71117/podrobnosti

Soubory ke stažení

    Poslední aktualizace: