Optimalizace ETL procesů

Název práce: Optimalizace ETL procesů
Autor(ka) práce: Žák, Vítězslav
Typ práce: Diplomová práce
Vedoucí práce: Novotný, Ota
Oponenti práce: Maryška, Miloš
Jazyk práce: Česky
Abstrakt:
Každý datový sklad se v určitém bodě svého životního cyklu dostane do stavu, ve kterém se délka ať už pravidelného nebo mimořádného zpracování pomalu přibližuje přípustné hranici. Sebemenší prodleva v běhu ETL procesů znamená obtížně smazatelnou ztrátu a čím dál častěji dochází ke zpoždění dodávek dat uživatelům. Dříve, než situace přeroste v mnohem větší problém, je třeba na ní začít reagovat. Tato diplomová práce se zabývá možnými způsoby řešení tohoto problému- optimalizací výkonu ETL. Jejím hlavním cílem je návrh sady doporučení pro optimalizaci ETL procesů, její prezentace na příkladech a doplnění rad a postřehů získaných aplikací v praxi. Díky tomu čtenář získá ucelenou představu o průběhu skutečného projektu optimalizace ETL. Dozví se, jak postupovat v jeho jednotlivých fázích, čeho se vyvarovat a jak snížit na minimum míru rizika vzniku chyby. Vedle toho se zde lze dočíst o prevenci snižování výkonu ETL, o kritických faktorech návrhu ETL procesu. Jistým omezením obsahu této práce je její zaměření výhradně na databázový systém firmy Oracle, ačkoli navržené postupy jsou z větší části popisovány z obecného hlediska. Stejně tak tématem tohoto textu není optimalizace hardware. První kapitoly práce se věnují popisu problematiky a teoretických poznatků nezbytných pro čtení hlavní části práce. Rozebírají také podobně zaměřenou existující literaturu. Následující části práce se již věnují stěžejnímu tématu. Popisují sadu navržených postupů a doporučení k optimalizaci ETL procesů včetně testování a vyhodnocení výsledků projektu. Zaměřují se především na oblasti synchronizace ETL procesů a optimalizace SQL kódu. Veškeré metody jsou prezentovány na příkladech z autorem implementovaného reálného projektu, v rámci kterého byly použity.
Klíčová slova: optimalizace; transformace; ETL; Oracle; datový sklad
Název práce: ETL process optimization
Autor(ka) práce: Žák, Vítězslav
Typ práce: Diploma thesis
Vedoucí práce: Novotný, Ota
Oponenti práce: Maryška, Miloš
Jazyk práce: Česky
Abstrakt:
At a certain point of its life cycle, each data warehouse gets into a state in which the length of the ETL processing starts slowly approaching the acceptable limit. Even the slightest lapse means a hardly erasable time lag and the data supplies to users are increasingly delayed. Before the situation becomes more problematic, we need to react. This diploma thesis deals with the possible solutions of this problem- the ETL performance optimization. The main aim of the thesis is to propose the set of recommendations for the ETL process optimization and its presentation based on practical real world examples. While going through this thesis, the readers get inside the running of the real ETL optimization project. They learn how to proceed during its particular periods, what to avoid and how to reduce the risk level as much as possible. Moreover, the thesis mentions the prevention of the ETL performance loss and discusses the critical factors of the effective ETL process design. Although the proposed methods are described in a general perspective, the thesis is mainly focused on Oracle's database, which is its certain limitation. Also hardware optimization is not a part of the text. First chapters of the thesis describe the problem from the theoretical point of view, which is important for the correct understanding of the main content and the existing literature concerning this problematic is included here as well. Next sections describe the proposed methods and recommendations for the optimization of the ETL processes including tests and project results evaluation. They are mainly focused on the ETL process synchronization and the SQL code optimization areas. All the methods are presented of examples of the real project implemented by the author.
Klíčová slova: transformation; optimization; Oracle; Data warehouse; ETL

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 9. 2010
Datum podání práce: 1. 5. 2011
Datum obhajoby: 8. 6. 2011
Identifikátor v systému InSIS: https://insis.vse.cz/zp/27665/podrobnosti

Soubory ke stažení

    Poslední aktualizace: