Datová kvalita nestrukturovaných dat
Název práce: | Data Quality of Unstructured Data |
---|---|
Autor(ka) práce: | Liashchuk, Hanna |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Matějka, Martin |
Oponenti práce: | Novotný, Ota |
Jazyk práce: | English |
Abstrakt: | This bachelor thesis is focused on considering data quality concerning unstructured data. The data structure or its storage do not determine data quality. In general, the purpose of data quality management is to provide a user with data in a format appropriate for their further processing and evaluation. Many literary sources describe how to measure and maintain data quality. There is a variety of software to support this activity. Most data quality problems are analyzed concerning structured data, although most of the information in organizations occurs in the unstructured format, such as documents, emails, and messages. The thesis applies findings to unstructured data, suggests an approach to data quality evaluation for unstructured data. The goals of the thesis are to describe the concept of data quality briefly and to define the term unstructured data. To specify data quality dimensions and ways to measure them. To apply the most relevant dimensions to unstructured data and suggest approach how to measure them. The final goal is to create a program that will be analyzing unstructured textual data.The primary method used to fulfill the goals is literary research. The thesis evaluates and compares opinions of experts, results of professional researchers and view of research companies.The main contribution of this work is the proposal of a method to measure unstructured data quality, application and evaluation efficiency of already defined dimensions from the perspective of unstructured data. As a result of the research and applying gained knowledge on a practical case, a data quality analyzing tool is created to work with unstructured textual data. The tool was tested on a set of emails, to improve its functionality and bring value. |
Klíčová slova: | data quality; dimension; unstructured data |
Název práce: | Datová kvalita nestrukturovaných dat |
---|---|
Autor(ka) práce: | Liashchuk, Hanna |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Matějka, Martin |
Oponenti práce: | Novotný, Ota |
Jazyk práce: | English |
Abstrakt: | Bakalářská práce je zaměřena na zohlednění problematiky datové kvality z hlediska nestrukturovaných dat. Datová kvalita není dána strukturou dat nebo jejich uložením. Obecně účelem řízení datové kvality je poskytování uživateli data ve formátu vhodném pro jejich další zpracování a vyhodnocení. Ve mnoha literárních zdrojích je popsáno jak měřit a udržovat kvalitu dat, existují různé softwary na podporu této činnosti. Většinou datová kvalita je rozebíraná z hlediska strukturovaných dat, i když většina informaci v organizacích je obsazena ve formátu nestrukturovaném, např. dokumenty, emaily, zprávy. Práce aplikuje nalezené poznatky na nestrukturovaná data, navrhuje přístup k hodnocení datové kvality u nestrukturovaných dat.Cílem práce je stručně popsat pojem datová kvalita a vymezit pojem nestrukturovaná data. Popsat dimenze datové kvality a způsoby její měření, zhodnotit je z hlediska nestrukturovaných dat. Navrhnout přístup k ohodnocení datové kvality pro textové dokumenty.Hlavni metodikou použitou při psáni práce je literární rešerše. Zhodnocuje se a porovnává názor odborníků, uvádí se výsledky profesionálních výzkumů a názor výzkumných společností.Hlavním přínosem práce je návrh způsobů měření kvality nestrukturovaných dat, aplikování a zhodnocení účelnosti již definovaných dimenzí z pohledu nestrukturovaných dat. Jako jiný přínos této práce se da považovat vytvořeny nastroj na analýzu nestrukturovaných dat. Konkrétně nastroj se zabývá analýzou emailu pro účely zefektivnění práce studijního oddělení. |
Klíčová slova: | datová kvalita; dimenze; nestrukturovaná data |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 1. 2. 2018 |
---|---|
Datum podání práce: | 30. 4. 2018 |
Datum obhajoby: | 15. 6. 2018 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/65116/podrobnosti |