Zpracování Big Dat na Sparku a Databricks
Název práce: | Processing Big Data on Spark and Databricks |
---|---|
Autor(ka) práce: | Nguyen, Viet ha |
Typ práce: | Diploma thesis |
Vedoucí práce: | Pavlíček, Antonín |
Oponenti práce: | Emelianov, Vladimir |
Jazyk práce: | English |
Abstrakt: | The technology is evolving at an unprecendented speed and so is the data. Many companies built their business around the data as it has become one of the key factors for being successful or not. With the overwhelming amount of data, Big Data has come to arise. Processing Big Data proved to be a challenge for many companies and it has given a reason for many developers to create new technologies, that would allow a seamless processing, storing and management of not only Big Data, but data as a whole. Among the many competititors, the Apache Spark has come out as one of the leading technology. Thanks to the contribution of the Apache Spark community and the founders, it has become a must-have when it came to Big Data processing. To simplify the processing even further, it went as far as developing a Spark-based platform called Databricks. This work focuses on the comparison between the Spark and the Databricks processings side by side in a form of benchmarks, because choosing the right platform for Big Data is a key factor to business. |
Klíčová slova: | Big Data; Apache Spark; Databricks |
Název práce: | Zpracování Big Dat na Sparku a Databricks |
---|---|
Autor(ka) práce: | Nguyen, Viet ha |
Typ práce: | Diplomová práce |
Vedoucí práce: | Pavlíček, Antonín |
Oponenti práce: | Emelianov, Vladimir |
Jazyk práce: | English |
Abstrakt: | Technologie se neustále vyvíjí společně s daty. Mnohé společnosti se základají na datech, jelikož se jedná o jeden z klíčových faktorů úspěšnosti. S příchodem obrovského množství dat se objevil i pojem Big Data. Práce s Big Daty byla obtížná pro spousty společností a stala se důvodem vývoje nových technologií, které by umožňovaly bezproblémové zpracovávání, ukládání a řízení nejenom Big Dat. Mezi různými technologiemi se stal Apache Spark jako jeden z hlavních. Díky své komunitě a zakladatelům, je považován za nedílnou součást zpracovávání Big Dat. Pro zjednodušení práce, byla vytvořena platforma nazývaná Databricks. Tato práce se soustřeďuje na porovnání rozdílů mezi Sparkem a Databricks. To je provedeno formou benchmarků, neboť volba správné platformy je základ úspěchu v Big Datech. |
Klíčová slova: | Apache Spark; Databricks; Big Data |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informační management |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra systémové analýzy |
Informace o odevzdání a obhajobě
Datum zadání práce: | 27. 3. 2018 |
---|---|
Datum podání práce: | 24. 4. 2019 |
Datum obhajoby: | 4. 6. 2019 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/65619/podrobnosti |