Zpracování Big Dat na Sparku a Databricks

Název práce: Processing Big Data on Spark and Databricks
Autor(ka) práce: Nguyen, Viet ha
Typ práce: Diploma thesis
Vedoucí práce: Pavlíček, Antonín
Oponenti práce: Emelianov, Vladimir
Jazyk práce: English
Abstrakt:
The technology is evolving at an unprecendented speed and so is the data. Many companies built their business around the data as it has become one of the key factors for being successful or not. With the overwhelming amount of data, Big Data has come to arise. Processing Big Data proved to be a challenge for many companies and it has given a reason for many developers to create new technologies, that would allow a seamless processing, storing and management of not only Big Data, but data as a whole. Among the many competititors, the Apache Spark has come out as one of the leading technology. Thanks to the contribution of the Apache Spark community and the founders, it has become a must-have when it came to Big Data processing. To simplify the processing even further, it went as far as developing a Spark-based platform called Databricks. This work focuses on the comparison between the Spark and the Databricks processings side by side in a form of benchmarks, because choosing the right platform for Big Data is a key factor to business.
Klíčová slova: Big Data; Apache Spark; Databricks
Název práce: Zpracování Big Dat na Sparku a Databricks
Autor(ka) práce: Nguyen, Viet ha
Typ práce: Diplomová práce
Vedoucí práce: Pavlíček, Antonín
Oponenti práce: Emelianov, Vladimir
Jazyk práce: English
Abstrakt:
Technologie se neustále vyvíjí společně s daty. Mnohé společnosti se základají na datech, jelikož se jedná o jeden z klíčových faktorů úspěšnosti. S příchodem obrovského množství dat se objevil i pojem Big Data. Práce s Big Daty byla obtížná pro spousty společností a stala se důvodem vývoje nových technologií, které by umožňovaly bezproblémové zpracovávání, ukládání a řízení nejenom Big Dat. Mezi různými technologiemi se stal Apache Spark jako jeden z hlavních. Díky své komunitě a zakladatelům, je považován za nedílnou součást zpracovávání Big Dat. Pro zjednodušení práce, byla vytvořena platforma nazývaná Databricks. Tato práce se soustřeďuje na porovnání rozdílů mezi Sparkem a Databricks. To je provedeno formou benchmarků, neboť volba správné platformy je základ úspěchu v Big Datech.
Klíčová slova: Apache Spark; Databricks; Big Data

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační management
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra systémové analýzy

Informace o odevzdání a obhajobě

Datum zadání práce: 27. 3. 2018
Datum podání práce: 24. 4. 2019
Datum obhajoby: 4. 6. 2019
Identifikátor v systému InSIS: https://insis.vse.cz/zp/65619/podrobnosti

Soubory ke stažení

    Poslední aktualizace: