Míry kvality klasifikačních modelů a jejich převod

Název práce: Míry kvality klasifikačních modelů a jejich převod
Autor(ka) práce: Hanusek, Lubomír
Typ práce: Disertační práce
Vedoucí práce: Hebák, Petr
Oponenti práce: Řezanková, Hana; Skalská, Hana
Jazyk práce: Česky
Abstrakt:
Prediktivní sílu klasifikačních modelů lze vyhodnotit různými ukazateli. V oblasti data miningu (dále DM) se nejvíce využívají míry Giniho koeficient, Kolmogorovova-Smirnovova statistika a lift. Tyto míry jsou založeny na zcela rozdílném způsobu výpočtu a je-li analytik zvyklý používat jednu z těchto měr, může být pro něj těžké udělat si představu o kvalitě modelu vyhodnoceném jinou mírou. Tato práce si klade za cíl nalézt mezi jednotlivými mírami převodní mechanismus. Přestože hlavní důraz je kladen na tři výše uvedené míry, práce se zabývá i dalšími ukazateli, a to sensitivitou, specificitou, celkovou správností a plochou pod ROC křivkou. Při vývoji DM modelů často vzniká potřeba pracovat nikoli s původním základním souborem o rozsahu miliónů či desítek miliónů pozorování, ale s výběrem, který je stratifikovaný dle hodnot vysvětlované proměnné Y. Vyhodnotí-li se pak model na stratifikovaných datech, vzniká potřeba vědět, jak se jednotlivé míry změní při přepočtu na základní soubor. Tato práce popisuje způsob, jak tento převod uskutečnit. Součástí této práce je i softwarová aplikace, která výše uvedené převody umožňuje. S její pomocí lze nejen převádět jednu míru kvality na druhou, ale také převádět míry získané na stratifikovaném souboru na soubor základní. Výstupem této aplikace je vedle požadovaných měr (sensitivita, specificita, celková správnost, Giniho koeficient, Kolmogorovova-Smirnovova statistika) také konfuzní matice a grafy kvality (lift křivka, gains křivka, ROC křivka a KS křivka). Internetová adresa, kde lze aplikaci stáhnout, a také uživatelský manuál k této aplikaci jsou součástí této práce. Veškerá teorie popsaná v této práci byla ověřena na reálných datových souborech.
Klíčová slova: konfuzní matice; lift; Kolmogorovova-Smirnovova statistika; Giniho koeficient; klasifikační model; ROC křivka; logistická regrese; specificita; sensitivita; převod; data mining
Název práce: Quality measures of classification models and their conversion
Autor(ka) práce: Hanusek, Lubomír
Typ práce: Dissertation thesis
Vedoucí práce: Hebák, Petr
Oponenti práce: Řezanková, Hana; Skalská, Hana
Jazyk práce: Česky
Abstrakt:
Predictive power of classification models can be evaluated by various measures. The most popular measures in data mining (DM) are Gini coefficient, Kolmogorov-Smirnov statistic and lift. These measures are each based on a completely different way of calculation. If an analyst is used to one of these measures it can be difficult for him to asses the predictive power of a model evaluated by another measure. The aim of this thesis is to develop a method how to convert one performance measure into another. Even though this thesis focuses mainly on the above-mentioned measures, it deals also with other measures like sensitivity, specificity, total accuracy and area under ROC curve. During development of DM models you may need to work with a sample that is stratified by values of the target variable Y instead of working with the whole population containing millions of observations. If you evaluate a model developed on a stratified data you may need to convert these measures to the whole population. This thesis describes a way, how to carry out this conversion. A software application (CPM) enabling all these conversions makes part of this thesis. With this application you can not only convert one performance measure to another, but you can also convert measures calculated on a stratified sample to the whole population. Besides the above mentioned performance measures (sensitivity, specificity, total accuracy, Gini coefficient, Kolmogorov-Smirnov statistic), CPM will also generate confusion matrix and performance charts (lift chart, gains chart, ROC chart and KS chart). This thesis comprises the user manual to this application as well as the web address where the application can be downloaded. The theory described in this thesis was verified on the real data.
Klíčová slova: data mining; sensitivity; lift; ROC curve; logistic regression; Gini coefficient; confusion matrix; conversion; classification model; specificity; Kolmogorov-Smirnov statistic

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 9. 2003
Datum podání práce: 31. 3. 2010
Datum obhajoby: 1. 6. 2009
Identifikátor v systému InSIS: https://insis.vse.cz/zp/14612/podrobnosti

Soubory ke stažení

    Poslední aktualizace: