Gradient Boosting Machine and Artificial Neural Networks in R and H2O

Název práce: Gradient Boosting Machine and Artificial Neural Networks in R and H2O
Autor(ka) práce: Sabo, Juraj
Typ práce: Diploma thesis
Vedoucí práce: Bašta, Milan
Oponenti práce: Plašil, Miroslav
Jazyk práce: English
Abstrakt:
Artificial neural networks are fascinating machine learning algorithms. They used to be considered unreliable and computationally very expensive. Now it is known that modern neural networks can be quite useful, but their computational expensiveness unfortunately remains. Statistical boosting is considered to be one of the most important machine learning ideas. It is based on an ensemble of weak models that together create a powerful learning system. The goal of this thesis is the comparison of these machine learning models on three use cases. The first use case deals with modeling the probability of burglary in the city of Chicago. The second use case is the typical example of customer churn prediction in telecommunication industry and the last use case is related to the problematic of the computer vision. The second goal of this thesis is to introduce an open-source machine learning platform called H2O. It includes, among other things, an interface for R and it is designed to run in standalone mode or on Hadoop. The thesis also includes the introduction into an open-source software library Apache Hadoop that allows for distributed processing of big data. Concretely into its open-source distribution Hortonworks Data Platform.
Klíčová slova: Apache Hadoop; R; H2O; gradient boosting machine; neural networks; computer vision; customer churn reduction; public safety; Hortonworks Data Platform; machine learning
Název práce: Gradient Boosting Machine and Artificial Neural Networks in R and H2O
Autor(ka) práce: Sabo, Juraj
Typ práce: Diplomová práce
Vedoucí práce: Bašta, Milan
Oponenti práce: Plašil, Miroslav
Jazyk práce: English
Abstrakt:
Neuronové sítě jsou jedním z nejvíce fascinujících algoritmů strojového učení. Mají za sebou však velmi bouřlivý vývoj. Neuronové sítě byly dlouho považovány za algoritmus, který je velmi nespolehlivý a výpočetně náročný. Dnes již víme, že moderní neuronové sítě mohou být úspěšně aplikovány v mnoha úlohách, i když jejich hlavní nevýhoda, tedy značná výpočetní náročnost, stále přetrvává. Statistické modely založené na technice boosting, jsou považovány za jednu z nejpřevratnějších myšlenek na poli algoritmů strojového učení. Tyto modely jsou založeny kombinaci několika slabých modelů, které pak dohromady tvoří jeden silný model. Tato práce se zabývá srovnáním těchto dvou modelů na třech reálných případových studiích. První případová studie se zabývá modelováním pravděpodobnosti loupeže v ulicích města Chicago, druhá případová studie je klasickým příkladem modelování pravděpodobnosti, že zákazník telekomunikační společnosti vypoví smlouvu a poslední případová studie je aplikací počítačového vidění. Cílem této práce je také představení open-source platformy pro strojové učení H2O. H2O obsahuje mimo jiné rozhraní pro R a dokáže běžet samostatně, nebo na Hadoop clusteru. Práce také obsahuje úvod do open-source softwarové knihovny pro zpracování velkých dat Apache Hadoop. Konkrétně do open-source distribuce Hortonworks Data Platform.
Klíčová slova: prevence odchodu zákazníka; veřejná bezpečnost; strojové učení; Hortonworks Data Platform; počítačové vidění; R; H2O; GBM; neuronové sítě; Apache Hadoop

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 3. 10. 2016
Datum podání práce: 4. 1. 2017
Datum obhajoby: 1. 2. 2017
Identifikátor v systému InSIS: https://insis.vse.cz/zp/59058/podrobnosti

Soubory ke stažení

    Poslední aktualizace: