Využití krosvalidace ve vybraných klasifikačních metodách

Název práce: Využití krosvalidace ve vybraných klasifikačních metodách
Autor(ka) práce: Velacková, Barbora
Typ práce: Diplomová práce
Vedoucí práce: Šulc, Zdeněk
Oponenti práce: Kaspříková, Nikola
Jazyk práce: Česky
Abstrakt:
Jedním z cílů této diplomové práce je porovnání metod krosvalidace, vybraných metod klasifikace a jejich vzájemných kombinací na osmi reálných datových souborech. Jednotlivé metody jsou porovnávány prostřednictvím průměrných pořadí podle celkové správnosti klasifikace a plochy pod ROC křivkou, porovnávána je i doba trvání. V průměru se jako nejlepší klasifikační metoda osvědčila logistická regrese v kombinaci s desetkrát opakovanou desetinásobnou krosvalidací. Druhým cílem práce je zkoumání chování metod krosvalidace při různém nastavení, konkrétně volba parametru k u k-násobné krosvalidace a rozdělení datového souboru na trénovací a testovací část. V neposlední řadě je v této práci zkoumána optimalizace klasifikačních metod, konkrétně optimální hranice pravděpodobnosti při klasifikaci pomocí logistické regrese a vyvarování tzv. přeučení rozhodovacích stromů.
Klíčová slova: logistická regrese; diskriminační analýza; rozhodovací stromy; ROC křivka; leave-one-out; krosvalidace
Název práce: Use of cross-validation in selected classification methods
Autor(ka) práce: Velacková, Barbora
Typ práce: Diploma thesis
Vedoucí práce: Šulc, Zdeněk
Oponenti práce: Kaspříková, Nikola
Jazyk práce: Česky
Abstrakt:
One of the aims of this thesis is to compare the methods of cross-validation, selected methods of classification and their mutual combinations on eight real datasets. Methods are compared by average rankings according to accuracy and area under the ROC curve, the duration of the whole process is compared as well. On average, logistic regression combined with ten times repeated ten-fold cross-validation proved to be the best classification method. The second aim of the thesis is to investigate the behaviour of cross-validation methods at different settings, specifically selection of the k parameter for k-fold cross validation and to split the dataset into the part for training and testing. Last but not least, the optimization of classification methods is investigated, specifically, an optimal boundary for the classification by logistic regression and avoidance overfitting in decision trees.
Klíčová slova: leave-one-out; logistic regression; cross-validation; discriminant analysis; decision tree; ROC curve

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 19. 12. 2018
Datum podání práce: 28. 4. 2019
Datum obhajoby: 6. 6. 2019
Identifikátor v systému InSIS: https://insis.vse.cz/zp/68117/podrobnosti

Soubory ke stažení

    Poslední aktualizace: