Hodnocení úspěšnosti koeficientů pro stanovení optimálního počtu shluků ve shlukové analýze

Název práce: Hodnocení úspěšnosti koeficientů pro stanovení optimálního počtu shluků ve shlukové analýze
Autor(ka) práce: Novák, Miroslav
Typ práce: Diplomová práce
Vedoucí práce: Löster, Tomáš
Oponenti práce: Makhalova, Elena
Jazyk práce: Česky
Abstrakt:
Cílem této diplomové práce je vyhodnotit úspěšnost vybraných koeficientů pro stanovení optimálního počtu shluků ve shlukové analýze. Analytické vyhodnocení je provedeno na 20 nezávislých reálných datových souborech. Analýza je uskutečněna ve statistickém systému SYSTAT 13.1. Převážná část této práce je věnována praktické aplikaci koeficientů RMSSTD, CHF, PTS, DB a Dunnova indexu na reálná data, jelikož problematice hodnocení výsledků shlukování není v odborných publikacích věnována dostatečná pozornost. Hlavním cílem je tedy zjištění, zda vybrané koeficienty shlukování lze aplikovat v reálných situacích. Druhým cílem je porovnání vybraných metod shlukování a jejich příslušných metrik při určování optimálního počtu shluků. Závěrem je odhalení, že optimální počet shluků určený výše zmíněnými koeficienty nelze považovat za správný, jelikož po aplikaci na reálná data žádný z vybraných koeficientů nepřekonal úspěšnost 40 %, z toho důvodu je použití těchto koeficientů v praxi velmi omezené. Na základě praktické analýzy předem známý počet shluků nejlépe rozpoznává metoda průměrné vazby ve spojitosti s Euklidovou vzdáleností, naopak nejhůře se v praxi ukázala Wardova metoda ve spojitosti s Euklidovou vzdáleností.
Klíčová slova: optimální počet shluků; shluková analýza; koeficienty shlukové analýzy
Název práce: The evaluation of coefficients when determining the optimal number of clusters in cluster analysis
Autor(ka) práce: Novák, Miroslav
Typ práce: Diploma thesis
Vedoucí práce: Löster, Tomáš
Oponenti práce: Makhalova, Elena
Jazyk práce: Česky
Abstrakt:
The objective of this thesis is the evaluation of selected coefficients of the cluster analysis when determining the optimal number of clusters. The analytical evaluation is performed on 20 independent real datasets. The analysis is made in statistical SYSTAT 13.1 Software. The application of coefficients RMSSTD, CHF, PTS, DB and Dunn's index on real datasets is the main part of this thesis, because the issue of evaluating the results of clustering is not devoted sufficient attention in scientific publications. The main goal is whether the selected coefficients of clustering can be applied in the real situations. The second goal is to compare selected clustering methods and their corresponding metrics when determining the optimal number of clusters. In conclusion, it is found that the optimal number of clusters determined by the coefficients mentioned above cannot be considered to be correct since, after application to the real data, none of the selected coefficients overcome the success rate of 40%, hence, the use of these coefficients in practice is very limited. Based on the practical analysis, the best method in identifying the known number of clusters is the average linkage in connection with the Euclidean distance, while the worst is the Ward's method in connection with the Euclidean distance.
Klíčová slova: coefficients of cluster analysis; cluster analysis; optimal number of clusters

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 7. 10. 2014
Datum podání práce: 15. 5. 2015
Datum obhajoby: 9. 6. 2015
Identifikátor v systému InSIS: https://insis.vse.cz/zp/49669/podrobnosti

Soubory ke stažení

    Poslední aktualizace: