Klasifikace elektronických dokumentů s využitím shlukové analýzy

Název práce: Klasifikace elektronických dokumentů s využitím shlukové analýzy
Autor(ka) práce: Ševčík, Radim
Typ práce: Diplomová práce
Vedoucí práce: Řezanková, Hana
Oponenti práce: Svátek, Vojtěch
Jazyk práce: Česky
Abstrakt:
Současná doba je charakteristická nebývalým kumulováním informací, ať už co do množství, tak i komplexity. Většina z nich je dostupná v digitální formě a lze je analyzovat pomocí metod shlukové analýzy. Na kolekci 20 Newsgroups jsme se pokusili klasifikovat elektronické dokumenty na základě obsahu. Cílem bylo hodnotit dostupné shlukovací metody v širokém spektru aplikací. Po transformaci do binární vektorové reprezentace jsme provedli řadu experimentů a sledovali hodnoty ukazatelů entropie, čistoty a doby provádění v aplikaci CLUTO. Pro menší počet shluků si nejlépe vedla metoda přímá (obecně nehierarchická), pro větší metoda opakované bisekce (divizivní). Aglomerativní přístup nebyl úspěšný. Modelováním jsme určili optimální počet shluků na 10. Pro toto řešení jsme do detailu rozebrali vlastnosti jednotlivých shluků při použití metody opakované bisekce a kriteriální funkce i2. V budoucnu by bylo vhodné se zaměřit na možnost realizace binárního shlukování pomocí některého dostupného programovacího jazyka, jako je např. Perl nebo C++. Závěry práce by mohly najít uplatnění mezi webovými vývojáři vyhledávačů nebo správci elektronických katalogů.
Klíčová slova: získávání informací; shluková analýza; klasifikace; binární data typu dokument-vlastnost; shlukování dokumentů
Název práce: Classification of electronic documents using cluster analysis
Autor(ka) práce: Ševčík, Radim
Typ práce: Diploma thesis
Vedoucí práce: Řezanková, Hana
Oponenti práce: Svátek, Vojtěch
Jazyk práce: Česky
Abstrakt:
The current age is characterised by unprecedented information growth, whether it is by amount or complexity. Most of it is available in digital form so we can analyze it using cluster analysis. We have tried to classify the documents from 20 Newsgroups collection in terms of their content only. The aim was to asses available clustering methods in a variety of applications. After the transformation into binary vector representation we performed several experiments and measured the values of entropy, purity and time of execution in application CLUTO. For a small number of clusters the best results offered the direct method (generally hierarchical method), but for more it was the repeated bisection (divisive). Agglomerative method proved not to be suitable. Using simulation we estimated the optimal number of clusters to be 10. For this solution we described in detail features of each cluster using repeated bisection method and i2 criterion function. In the future focus should be set on realisation of binary clustering with advantage of programming languages like Perl or C++. Results of this work might be of interest to web search engine developers and electronic catalogue administrators.
Klíčová slova: document-term binary data; document clustering; information retrieval; clustering methods; classification

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 7. 11. 2009
Datum podání práce: 20. 5. 2010
Datum obhajoby: 10. 6. 2010
Identifikátor v systému InSIS: https://insis.vse.cz/zp/22758/podrobnosti

Soubory ke stažení

    Poslední aktualizace: