Využití nástroje Informatica v datovém skladu a optimalizace ETL procesů

Název práce: Využití nástroje Informatica v datovém skladu a optimalizace ETL procesů
Autor(ka) práce: Adámek, Karel
Typ práce: Diplomová práce
Vedoucí práce: Pour, Jan
Oponenti práce: Derfler, Václav
Jazyk práce: Česky
Abstrakt:
Diplomová práce se zabývá problematikou ETL vývoje v rámci Business Intelligence řešení. Analyzuje širší portfolio aplikací podporujících ETL vývoj, poskytuje přehled jejich základních charakteristik. Detailní analýze podléhá dvojice vybraných nástrojů, jejichž funkčnost je demonstrována na vývoji reálných transformací. Dále jsou analyzovány výhody a možná rizika přechodu na vyšší verzi produktu PowerCenter společnosti Informatica. Podstatná část práce se zabývá optimalizačními postupy, které jsou aplikovány do reálného provozu datového skladu a jsou analyzovány jejich přínosy z hlediska úspory strojového času. Cílem práce je poskytnout detailní pohled do nástrojů ETL, tvorby samotných ETL transformací a v neposlední řadě také způsoby optimalizace ETL transformací. Diplomová práce si klade za cíl vyřešit problematiku výběru vhodného ETL nástroje a to nejen z pohledu ETL vývojáře v podobě detailního porovnání použitelnosti dvojice nástrojů, ale i z pohledu managementu v podobě obecného přehledu, základních charakteristik a porovnání širšího portfolia ETL nástrojů. V rámci detailnější analýzy sady nástrojů Informatica PowerCenter by měla poskytnout odpovědi na otázky: "Jaké výhody přináší upgrade Informatica PowerCenter řady 7 na řadu 8?" nebo "Jaké problémy může tento upgrade způsobit a jak je řešit? Část věnovaná optimalizaci si klade za cíl poskytnout náhled do základních optimalizačních procedur uvnitř datového skladu a porovnání jejich přínosů. Paralelně s analytickou částí bude probíhat i tvorba praktické části diplomové práce, která spočívá ve vývoji reálně používaných ETL transformací a v optimalizaci vybraných ETL transformací datového skladu. V úvodu se diplomová práce soustřeďuje především na analytickou činnost spočívající v průzkumu produktů, které udávají trend v oblasti současného ETL vývoje. Dále shromažďuje detailní poznatky o dvojici konkrétních produktů, které poté aplikuje při tvorbě ETL transformací. Druhá analytická fáze se zaměřuje na optimalizační procedury. Poznatky získané v této části jsou následně využity v praxi, včetně příslušné závěrečné analýzy přínosů těchto procedur. Diplomová práce se také pokouší nastínit alespoň okrajově budoucí vývoj v oblasti ETL. Její hlavní přínosy tkví v poskytnutí nejen uceleného přehledu ETL nástrojů, ale i v detailní analýze kladů/záporů dvojice vybraných produktů. Práce poskytuje odpovědi na otázky formulované v úvodu a spojené s přechodem na vyšší verzi produktu PowerCenter. Analýza optimalizačních postupů umožnila provést optimalizaci 29 ETL transformací a byla prokázána jejich vysoká účinnost.
Klíčová slova: SQL Server 2005; PowerCenter; Business Intelligence
Název práce: Usage of Informatica tools in a datawarehouse and optimalization of ETL processes
Autor(ka) práce: Adámek, Karel
Typ práce: Diploma thesis
Vedoucí práce: Pour, Jan
Oponenti práce: Derfler, Václav
Jazyk práce: Česky
Abstrakt:
The graduation thesis is engaged in the problems of ETL development in terms of Business Intelligence solution. It analyses the wider portfolio of aplications supporting ETL development and offers the survey of its basic characteristics. There is a detail analysis of the pair of chosen instruments which utility is shown on the development of the real transformations. Then the advantages and possible risks of the transition on the higher edition of the product PowerCenter from Informatica company are being analysed too. The constituent of the thesis is engaged in optimalization procedure which is put into real operation of data warehouse and shows its benefit in term of computer time reduction The aim of the thesis is to show the detail look into the ETL instruments, formation of ETL transformations and not least the ways of optimalization of ETL transformations. The graduation thesis proposes to solve the problems in selection of convenient ETL instrument not only from the view of ETL developer in the shape of detailed comparison of the pair instrument usage but also from the view of management in the shape of general survey, basic characteristics and the comparison of wider porfolio of ETL instruments. In terms of detailed analysis the set Informatica PowerCenter should give us answers for the questions like: "What advantages does the upgrade of Informatica PowerCenter range 7 to range 8 bring?" or "What problems may that upgrade cause and how can we solve those problems? The part devoted to optimalization proposes to offer the outlook to the basic optimalization procedures inside the data warehouse and comparison of its contribution. In parallel with analytic part there is also proceeding the formation of practical part of the graduation thesis which consists in development of really used ETL transformations and in optimalization of selected ETL transformations of data warehouse. First the graduation thesis is concentrated on the analytic activity consisting in the products research which are on the top of ETL development. Then it is gathering the detailed knowledge of two instruments which is aplicated for the formation of ETL transformations The second analytic phase is concentrated on the optimalization procedures. The knowledge acquired in that phase is subsequently used in practice and the final analysis of those procedures and benefits is proceeding. The graduation thesis does not also miss out to partly outline the future development in the field of ETL.The main contribution consists in giving not only the comprehensive survey of ETL instruments but also in the detailed analysis of pros and cons of the pair of selected products. The thesis offered the answers to the questions asked in the outset connected with the transition to upper version of Power Center. The analysis of optimalization procedure enabled the optimalization of 29 ETL transformations and their high effectivity was proved too.
Klíčová slova: SQL Server 2005; PowerCenter; Business Intelligence

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 15. 1. 2009
Datum podání práce: 30. 4. 2009
Datum obhajoby: 10. 6. 2009
Identifikátor v systému InSIS: https://insis.vse.cz/zp/18223/podrobnosti

Soubory ke stažení

    Poslední aktualizace: