Datová kvalita nestrukturovaných dat

Název práce: Data Quality of Unstructured Data
Autor(ka) práce: Liashchuk, Hanna
Typ práce: Bachelor thesis
Vedoucí práce: Matějka, Martin
Oponenti práce: Novotný, Ota
Jazyk práce: English
Abstrakt:
This bachelor thesis is focused on considering data quality concerning unstructured data. The data structure or its storage do not determine data quality. In general, the purpose of data quality management is to provide a user with data in a format appropriate for their further processing and evaluation. Many literary sources describe how to measure and maintain data quality. There is a variety of software to support this activity. Most data quality problems are analyzed concerning structured data, although most of the information in organizations occurs in the unstructured format, such as documents, emails, and messages. The thesis applies findings to unstructured data, suggests an approach to data quality evaluation for unstructured data. The goals of the thesis are to describe the concept of data quality briefly and to define the term unstructured data. To specify data quality dimensions and ways to measure them. To apply the most relevant dimensions to unstructured data and suggest approach how to measure them. The final goal is to create a program that will be analyzing unstructured textual data.The primary method used to fulfill the goals is literary research. The thesis evaluates and compares opinions of experts, results of professional researchers and view of research companies.The main contribution of this work is the proposal of a method to measure unstructured data quality, application and evaluation efficiency of already defined dimensions from the perspective of unstructured data. As a result of the research and applying gained knowledge on a practical case, a data quality analyzing tool is created to work with unstructured textual data. The tool was tested on a set of emails, to improve its functionality and bring value.
Klíčová slova: data quality; dimension; unstructured data
Název práce: Datová kvalita nestrukturovaných dat
Autor(ka) práce: Liashchuk, Hanna
Typ práce: Bakalářská práce
Vedoucí práce: Matějka, Martin
Oponenti práce: Novotný, Ota
Jazyk práce: English
Abstrakt:
Bakalářská práce je zaměřena na zohlednění problematiky datové kvality z hlediska nestrukturovaných dat. Datová kvalita není dána strukturou dat nebo jejich uložením. Obecně účelem řízení datové kvality je poskytování uživateli data ve formátu vhodném pro jejich další zpracování a vyhodnocení. Ve mnoha literárních zdrojích je popsáno jak měřit a udržovat kvalitu dat, existují různé softwary na podporu této činnosti. Většinou datová kvalita je rozebíraná z hlediska strukturovaných dat, i když většina informaci v organizacích je obsazena ve formátu nestrukturovaném, např. dokumenty, emaily, zprávy. Práce aplikuje nalezené poznatky na nestrukturovaná data, navrhuje přístup k hodnocení datové kvality u nestrukturovaných dat.Cílem práce je stručně popsat pojem datová kvalita a vymezit pojem nestrukturovaná data. Popsat dimenze datové kvality a způsoby její měření, zhodnotit je z hlediska nestrukturovaných dat. Navrhnout přístup k ohodnocení datové kvality pro textové dokumenty.Hlavni metodikou použitou při psáni práce je literární rešerše. Zhodnocuje se a porovnává názor odborníků, uvádí se výsledky profesionálních výzkumů a názor výzkumných společností.Hlavním přínosem práce je návrh způsobů měření kvality nestrukturovaných dat, aplikování a zhodnocení účelnosti již definovaných dimenzí z pohledu nestrukturovaných dat. Jako jiný přínos této práce se da považovat vytvořeny nastroj na analýzu nestrukturovaných dat. Konkrétně nastroj se zabývá analýzou emailu pro účely zefektivnění práce studijního oddělení.
Klíčová slova: datová kvalita; dimenze; nestrukturovaná data

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 2. 2018
Datum podání práce: 30. 4. 2018
Datum obhajoby: 15. 6. 2018
Identifikátor v systému InSIS: https://insis.vse.cz/zp/65116/podrobnosti

Soubory ke stažení

    Poslední aktualizace: