Zpracování asociačních pravidel metodou vícekriteriálního shlukování

Název práce: Zpracování asociačních pravidel metodou vícekriteriálního shlukování
Autor(ka) práce: Kejkula, Martin
Typ práce: Disertační práce
Vedoucí práce: Rauch, Jan
Oponenti práce: Berka, Petr; Máša, Petr
Jazyk práce: Česky
Abstrakt:
Cílem této práce je navrhnout metodu, která by umožňovala zpracovat množinu asociačních pravidel: měla by poskytovat strukturovaný, přehledný popis celé množiny asociačních pravidel, získané libovolnou implementací nějakého algoritmu pro hledání asociačních pravidel v analyzovaných datech. Měla by uživateli poskytnout přehled o množině vygenerovaných asociačních pravidel a usnadnit její zpracování. Způsob dosažení cíle, zvolený v této práci je: rozdělit množinu asociačních pravidel do podmnožin. Asociační pravidla v jedné podmnožině by si měla být vzájemně více podobná než pravidla ze dvou různých podmnožin. Hlavním přínosem této práce je nová originální metoda zpracování asociačních pravidel. Vedlejším přínosem práce je rozsáhlá rešerše publikovaných metod zpracování asociačních pravidel. Metoda vícekriteriálního shlukování poskytuje rozdělení asociačních pravidel do skupin vzájemně si podobných pravidel (tzv. "přirozených shluků"), kterého není možné dosáhnout žádnou z doposud známých metod. Metoda používá nový způsob reprezentace asociačních pravidel, inspirovaný vektorovým modelem, používaným v oblasti zpracování informačních fondů (information retrieval). V práci je popsán převod asociačních pravidel do vektorového modelu, analogickému k vektorové reprezentaci dokumentů. Jádrem metody je dvojí, na sobě nezávislé shlukování asociačních pravidel: shlukování kvantitativních charakteristik (jako jsou např. spolehlivost, podpora, faktor zajímavosti) a cedentální shlukování asociačních pravidel (inspirované shlukováním dokumentů). Struktura práce: na úvodní kapitolu navazuje kapitola, popisující proces dobývání znalostí z databází. Proces je popsán na základě vybraných metodik (CRISP-DM, SEMMA, GUHA, RAMSYS).Třetí kapitola je věnována pojmu asociační pravidlo a charakteristikám asociačních pravidel. Další kapitola obsahuje rešerši současných metod post-processingu asociačních pravidel. Pátá kapitola seznamuje s problematikou shlukování. Šestá kapitola obsahuje popis metody vícekriteriálního shlukování asociačních pravidel. Další kapitola se věnuje experimentům. Osmá kapitola se zabývá možnostmi využití metody.
Klíčová slova: shlukování; míry zajímavosti; data mining; asociacní pravidla; shluková analýza; průzkum dat; post-processing; interpretace; explorační analýza dat; dobývání znalostí z databází
Název práce: Post-processing of association rules by multicriterial clustering method
Autor(ka) práce: Kejkula, Martin
Typ práce: Dissertation thesis
Vedoucí práce: Rauch, Jan
Oponenti práce: Berka, Petr; Máša, Petr
Jazyk práce: Česky
Abstrakt:
Association rules mining is one of several ways of knowledge discovery in databases. Paradoxically, data mining itself can produce such great amounts of association rules that there is a new knowledge management problem: there can easily be thousands or even more association rules holding in a data set. The goal of this work is to design a new method for association rules post-processing. The method should be software and domain independent. The output of the new method should be structured description of the whole set of discovered association rules. The output should help user to work with discovered rules. The path to reach the goal I used is: to split association rules into clusters. Each cluster should contain rules, which are more similar each other than to rules from another cluster. The output of the method is such cluster definition and description. The main contribution of this Ph.D. thesis is the described new Multicriterial clustering association rules method. Secondary contribution is the discussion of already published association rules post-processing methods. The output of the introduced new method are clusters of rules, which cannot be reached by any of former post-processing methods. According user expectations clusters are more relevant and more effective than any former association rules clustering results. The method is based on two orthogonal clustering of the same set of association rules. One clustering is based on interestingness measures (confidence, support, interest, etc.). Second clustering is inspired by document clustering in information retrieval. The representation of rules in vectors like documents is fontal in this thesis. The thesis is organized as follows. Chapter 2 identify the role of association rules in the KDD (knowledge discovery in databases) process, using KDD methodologies (CRISP-DM, SEMMA, GUHA, RAMSYS). Chapter 3 define association rule and introduce characteristics of association rules (including interestingness measuress). Chapter 4 introduce current association rules post-processing methods. Chapter 5 is the introduction to cluster analysis. Chapter 6 is the description of the new Multicriterial clustering association rules method. Chapter 7 consists of several experiments. Chapter 8 discuss possibilities of usage and development of the new method.
Klíčová slova: cluster analysis; data exploration; post-processing; knowledge discovery in databases; interpretation; interestingness measures; exploratory data analysis; data mining; association rules

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informatika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 9. 2002
Datum podání práce: 21. 4. 2009
Datum obhajoby: 11. 6. 2009
Identifikátor v systému InSIS: https://insis.vse.cz/zp/14528/podrobnosti

Soubory ke stažení

    Poslední aktualizace: