Datový sklad na technologiích IBM a jeho možnosti

Název práce: Datový sklad na technologiích IBM a jeho možnosti
Autor(ka) práce: Snítil, Jiří
Typ práce: Diplomová práce
Vedoucí práce: Pour, Jan
Oponenti práce: Novotný, Ota
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se zabývá analýzou rozšiřujících konceptů použitelných v datových skladech. V práci jsou vybrány tři rozšiřující koncepty k analýze a je zdůvodněn jejich výběr. Prvním z nich je způsob zachycení změn ve zdrojových systémech Change Data Capture (CDC). Druhým z nich je historizace takto zachycených změn do historické kolekce dat. Třetím z nich je použití analytických funkcí přímo v technologii datového skladu. Pro analýzu těchto vybraných rozšiřujících konceptů je vytvořeno nové testovací prostředí, v kterém je jako hlavní databázový systém použita technologie Netezza dostupná v produktu IBM PureData System for Analytics, powered by Netezza technology (PDA). Všechny vybrané rozšiřující koncepty jsou v tomto testovacím prostředí vyzkoušeny. Na základě výsledků z testovacího prostředí a poznatků z praxe jsou analyzovány dopady použití těchto rozšiřujících konceptů na datový sklad a to zejména vzhledem k možným přínosům. V testovacím prostředí bylo také ověřeno, že všechny analyzované rozšiřující koncepty je možné použít v rámci datového skladu. V prvním rozšiřujícím konceptu bylo mapování LiveAudit vybráno jako vhodné pro použití při dalším zpracování dat, kdy s jeho pomocí je možné jednoznačně určit stav dat zdrojového systému v libovolném minulém časovém bodě. V druhém rozšiřujícím konceptu bylo vyzkoušeno, že data získaná pomocí mapování LiveAudit lze efektivně zpracovávat do historické kolekce dat. Na tomto základě bylo navrženo generické řešení zpracování dat ze zdrojových systémů. Ve třetím rozšiřujícím konceptu bylo vyzkoušeno, že lze pracovat v nativním analytickém prostředí RGui a přenést samotný výpočet k datům, umístěným v datovém skladu, bez nutnosti jejich migrace a že je možné vyvinout a používat nové analytické funkce napsané v jazyce C++ přímo v technologii datového skladu.
Klíčová slova: IBM InfoSphere Change Data Capture; IBM Netezza Analytics; Netezza; Uživatelsky definované funkce; UDF; UDX; IBM PureData for Analytics; analytické funkce; historická kolekce dat; historizace; Change Data Capture; rozšiřující koncepty datového skladu; datový sklad; temporální data
Název práce: Data warehouse based on IBM technologies and its possibilities
Autor(ka) práce: Snítil, Jiří
Typ práce: Diploma thesis
Vedoucí práce: Pour, Jan
Oponenti práce: Novotný, Ota
Jazyk práce: Česky
Abstrakt:
This diploma thesis deals with the analysis of advanced data warehouse concepts where three advanced data warehouse concepts are analysed and their selection is justified. The first selected advanced data warehouse concept is a method of capturing data changes from sources system Change Data Capture (CDC). The second concept is the historization of captured data into historical data collection. The third concept is the application of analytical functions directly within data warehouse technology. A new testing environment has been created to analyse these concepts where the main database system Netezza available in IBM PureData System for Analytics, powered by Netezza technology (PDA), is utilised. This testing environment allowed all selected advanced data warehouse concepts to be reviewed. An impact of the application of these advanced data warehouse concepts has been analysed based on results from the testing environment and practical insights, particularly regarding potential advances. In the testing environment it was verified that all analysed advanced data warehouse concepts are applicable in a data warehouse. In the first advanced data warehouse concept was chosen LiveAudit mapping as appropriate for further data processing, when with this mapping it is possible to unambiguously determine the state of data in a source system at any point in the past. The second advanced data warehouse concept established that data acquired from LiveAudit mapping is possible to effectively process into historical data collection. Based on these findings, there was proposed generic solution of processing data from source systems. In the third advanced data warehouse concept was also proved, that it is possible to work in native analytic environment RGui and move the computation itself into data, which is located in the data warehouse, without the necessity of migration of these data. Further, it is possible to develop and use a new analytic function written in C++ language directly into the technology of the data warehouse.
Klíčová slova: IBM Netezza Analytics; IBM InfoSphere Change Data Capture; IBM PureData for Analytics; Netezza; User-defined function; UDF; UDX; analytics functions; temporal data; historical data collection; historization; Change Data Capture; data warehouse; advanced data warehouse concepts

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 10. 5. 2016
Datum podání práce: 30. 4. 2017
Datum obhajoby: 2. 6. 2017
Identifikátor v systému InSIS: https://insis.vse.cz/zp/57626/podrobnosti

Soubory ke stažení

    Poslední aktualizace: