Využití sémantické expanze ve vektorové reprezentaci dokumentů pro hierarchickou klasifikaci

Název práce: Využití sémantické expanze ve vektorové reprezentaci dokumentů pro hierarchickou klasifikaci
Autor(ka) práce: Pham, Son Tung
Typ práce: Diplomová práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Zamazal, Ondřej
Jazyk práce: Česky
Abstrakt:
Diplomová práce se zabývá tématem klasifikace textových dokumentů, přesněji o klasifikaci hierarchickou. Práce čtenáře seznámí s vybranými metodami reprezentace textových dokumentů a klasifikačními algoritmy. Popíše základní aspekty hierarchické klasifikace a způsoby řešení problému klasifikace do hierarchie tříd. Tato práce představuje Python implementaci hierarchického klasifikátoru využívající sémantickou expanzi pro rozšíření vektorové reprezentace dokumentu. Cílem práce je otestovat, zda sémantická expanze vede ke zlepšení výsledků hierarchické klasifikace. Použitá metoda sémantické expanze spočívá v agregaci vektorové reprezentace klasifikovaného dokumentu s vektorovou reprezentací jemu podobných dokumentů. V rámci práce je otestováno několik agregačních funkcí a konfigurací klasifikátoru. Experimentální výsledky ukazují, že použití sémantické expanze a jistých agregačních funkcí vede ke statisticky významnému zlepšení výsledků klasifikace.
Klíčová slova: Klasifikace textu; SVM; LHD; BOA
Název práce: Use of semantic expansion in vector representation of documents for hierarchical classification
Autor(ka) práce: Pham, Son Tung
Typ práce: Diploma thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Zamazal, Ondřej
Jazyk práce: Česky
Abstrakt:
This master’s thesis deals with the topic of text classification more precisely with hierarchical text classification. Readers of this thesis will be introduced to a few selected methods of text document representation and classification algorithms. It describes fundamental aspects of hierarchical classification and ways how to solve the problem of classification into a hierarchy of classes. This work presents a Python implementation of a hierarchical classifier that uses semantic expansion to extend the vector representation of a document. The goal of this thesis is to prove whether the use of semantic expansion leads to improved results of hierarchical expansion. The semantic expansion method in question lies in the aggregation of the vector representation of a classified document with the vector representations of similar documents. In this thesis, several aggregation functions and classifier configurations are tested. Experimental results show that the use of semantic expansion and certain aggregation functions leads to a statistically significant improvement in the classification results.
Klíčová slova: SVM; LHD; BOA; Text classification

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 15. 11. 2018
Datum podání práce: 4. 5. 2020
Datum obhajoby: 4. 6. 2020
Identifikátor v systému InSIS: https://insis.vse.cz/zp/67745/podrobnosti

Soubory ke stažení

    Poslední aktualizace: