Benchmark nástrojů pro řízení datové kvality

Název práce: Benchmark nástrojů pro řízení datové kvality
Autor(ka) práce: Černý, Jan
Typ práce: Diplomová práce
Vedoucí práce: Pejčoch, David
Oponenti práce: Máša, Petr
Jazyk práce: Česky
Abstrakt:
Společnosti po celém světě stále více a více promrhávají své rozpočty v důsledku nekvalitních dat. Logicky, se zvyšujících se množstvím zpracovávaných informací roste i množství chyb v nich. Tato práce vysvětluje co je datová kvalita, příčiny vzniku chyb v datech, jejich důsledky i to jakým způsobem lze datovou kvalitu měřit. A pokud něco lze měřit, lze to i zlepšit. K tomu slouží nástroje pro řízení datové kvality. Trh s nástroji pro řízení datové kvality nabízí jak komerční, tak open-source řešení. Porovnáním nástroje DataCleaner (open-source) a DataFlux (komerční) na modelovém příkladu dle definovaných kritérií bylo v této práci dokázáno, že nástroje si mohou být rovné v oblasti profilace dat, obohacování a monitorování. Standardizaci a validaci zvládá lépe DataFlux. Deduplikace v DataCleaneru chybí, přestože byla výrobcem uváděna. Jednou z velkých překážek bránících firmám nákupu nástroje pro řízení datové kvality může být právě jeho vysoká cena. V tuto chvíli je již možné považovat DataCleaner za plnohodnotné levné řešení v oblasti profilace dat. Za podmínky, že společnost Human Inference doplní do DataCleaneru i deduplikaci dat, bude ho možné považovat za konkurenci v oblasti celého procesu řízení dat.
Klíčová slova: porovnání; DataFlux; DataCleaner; benchmark; datová kvalita; nástroje pro řízení datové kvality
Název práce: Data Quality Tools Benchmark
Autor(ka) práce: Černý, Jan
Typ práce: Diploma thesis
Vedoucí práce: Pejčoch, David
Oponenti práce: Máša, Petr
Jazyk práce: Česky
Abstrakt:
Companies all around the world are wasting their funds due to the poor data quality. Rationally speaking as the volume of processed data increase, the volume of error data increase too. This diploma thesis explains what is it data quality about, what are the causes of data quality errors, the impact of poor data and the way it can be measured. If you can measure it, you can improve it. This is where data quality tools are used. There are vendors that offer commercial solutions and there are also vendors that offer open-source solutions of data quality tools. Comparing DataCleaner (open-source tool) with DataFlux (commercial tool) using defined criteria this diploma thesis proves that those two tools could be equal in terms of data profiling, data enhancement and data monitoring. DataFlux is slightly better in standardization and data validation. Data deduplication is not included in tested version of DataCleaner, although DataCleaner's vendor claimed it should be. One of the biggest obstacles why companies don't buy data quality tools could be its price. At this moment, it is possible to consider DataCleaner as an inexpensive solution for companies looking for data profiling tool. If Human Inference added data deduplication to DataCleaner, it could be also possible to consider it as an inexpensive solution covers whole data quality process.
Klíčová slova: Data Quality; DataFlux; DataCleaner; Data Quality Tools; Comparison; Benchmark

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 26. 12. 2013
Datum podání práce: 31. 5. 2014
Datum obhajoby: 9. 6. 2014
Identifikátor v systému InSIS: https://insis.vse.cz/zp/46010/podrobnosti

Soubory ke stažení

    Poslední aktualizace: