Hodnocení výsledků metod shlukové analýzy

Název práce: Hodnocení výsledků metod shlukové analýzy
Autor(ka) práce: Löster, Tomáš
Typ práce: Disertační práce
Vedoucí práce: Řezanková, Hana
Oponenti práce: Berka, Petr; Dohnal, Gejza
Jazyk práce: Česky
Abstrakt:
Shluková analýza zahrnuje řadu metod a postupů, které slouží především ke klasifikaci objektů. Zastává významnou roli v mnoha odvětvích. Vzhledem k tomu, že se výsledná rozdělení objektů do shluků mohou lišit v závislosti na zvolených metodách a dílčích specifikacích, je vhodné získané výsledky hodnotit. Jedním z cílů této disertační práce bylo vytvořit strukturovaný přehled existujících koeficientů a postupů určených pro hodnocení výsledků shlukování, a to jednak v závislosti na použitých metodách, jednak v závislosti na počtu shluků. Hlavním cílem pak bylo navržení nových, resp. modifikace existujících koeficientů pro hodnocení těchto výsledků v situaci, kdy jsou objekty charakterizované kvalitativními proměnnými, resp. proměnnými různých typů. Nově navržené koeficienty jsou založeny na zjišťování variability, která je současně využívána i pro stanovení odlišnosti objektů i shluků. Variabilita v případě nominálních proměnných je zjišťována buď na základě variačního poměru, nebo pomocí entropie, či Giniho koeficientu, v případě ordinálních proměnných pak na základě koeficientu dorvar; v případě kombinace s kvantitativními proměnnými jde o kombinaci s využitím rozptylu. Vhodnost použití vybraných koeficientů je zkoumána na reálných datech, u kterých je buď známé, nebo neznámé zařazení objektů do shluků. Analyzované datové soubory jsou různého rozsahu, obsahují různé typy a počty proměnných. V daných situacích je zjišťována možnost aplikace vybraných koeficientů pro stanovení optimálního počtu shluků. Cíle práce je tedy možné považovat za splněné. Přínosem této disertační práce je navržení nových způsobů měření podobnosti objektů a shluků v případech, jsou-li objekty charakterizovány jinými než pouze kvantitativními proměnnými. Dalším přínosem je klasifikace existujících hodnotících koeficientů. Stěžejním přínosem je navržení nových koeficientů pro případ kvalitativních proměnných, resp. proměnných různých typů. Na základě provedených analýz byl identifikován koeficient, pomocí něhož bylo možné správně určit optimální počet shluků (na rozdíl od dosud používaného koeficientu).
Klíčová slova: shluková analýza; metody shlukování; hodnocení výsledků shlukování; míry vzdálenosti; optimální počet shluků; míry podobnosti
Název práce: Evaluation of Cluster Analysis Methods
Autor(ka) práce: Löster, Tomáš
Typ práce: Dissertation thesis
Vedoucí práce: Řezanková, Hana
Oponenti práce: Berka, Petr; Dohnal, Gejza
Jazyk práce: Česky
Abstrakt:
Cluster analysis includes a range of methods and practices that are used primarily for classification of objects. It takes an important role in many areas. Since the resulting distribution of objects into clusters may vary depending on the selected methods and specifications, it is appropriate to assess the results obtained. This paper proposes new ways of evaluating these results in a situation where objects are characterized by qualitative variables or by variables of different types. These coefficients can be used either to compare different methods (in terms of better outcomes) or for finding of the optimal number of clusters. All of them are based on the detection of variability which is also used for measuring of dissimilarity of objects and clusters. The newly proposed evaluation methods are applied to real data sets (of different sizes, with different number of variables, including variables of different types) and the behavior of these coefficients in different conditions is being examined. These data sets have known as well as unknown classification of objects into clusters. The best coefficient for evaluating clustering results with different types of variables can be considered, based on the analysis carried out, the modified coefficient of CHF. Local maximum value according to which the results of the clustering are evaluated, almost always exists. The analysis has proven that in most cases this value meets the expected results of the well-known classification of objects into clusters. The existence of local extremes of the other coefficients depends on specific data sets and is not always feasible.
Klíčová slova: validity measures; methods for cluster analysis; optimal number of clusters; cluster analysis; validity assessment

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 9. 2004
Datum podání práce: 9. 5. 2011
Datum obhajoby: 29. 6. 2011
Identifikátor v systému InSIS: https://insis.vse.cz/zp/14594/podrobnosti

Soubory ke stažení

    Poslední aktualizace: