Klasifikace spamu pomocí metody LSNB

Česky
English

Název práce:	Klasifikace spamu pomocí metody LSNB
Autor(ka) práce:	Mareš, Jiří
Typ práce:	Bakalářská práce
Vedoucí práce:	Kliegr, Tomáš
Oponenti práce:	Berka, Petr
Jazyk práce:	Česky
Abstrakt:	Problematika spamu je s nezpomalujícím se růstem internetu stále více aktuální. Cílem bakalářské práce je implementace nově navrženého algoritmu Loosely symmetric naive Bayes založeném na využití kognitivních zkreslení pro přesnější a spolehlivější klasifikaci spamu z malých a nevyvážených datasetů. Jelikož autoři algoritmu nalezli neshodu mezi daty, která jsou použita k učení a daty, s kterými klasifikátor v praktické aplikaci pracuje, je LSNB jejich snahou o vytvoření modelu, který tuto neshodu dokáže spolehlivě vyřešit. K implementaci je použit programovací jazyk Python, z jehož knihovny scikit-learn řešení vychází.V teoretické části je obsažen úvod do problematiky spamu, jsou popsány obecné metody strojového učení a také konkrétní algoritmy použité v praktické části, zejména naivní Bayesův klasifikátor. Dále je uveden samotný teoretický model LSNB založený na využití kognitivního zkreslení k napodobení lidské schopnosti učit se. Jsou také zmíněny metody předzpracování dat, nejdůležitější použité knihovny jazyka Python a konečně i metriky, podle kterých se jednotlivé klasifikátory v praktické části porovnávají.V praktické části je podrobně popsán způsob implementace od předzpracování dat, přes učení klasifikátoru na trénovacích datech, po samotnou klasifikaci testovacích dat. Na konci je ukázáno fungování 6 zvolených klasifikátorů na 6 různě zkreslených a různě velkých datasetech podle metrik popsaných v teoretické části. Klasifikátor eLSNB, který byl v této práci implementován, dosáhl v porovnání s ostatními nejlepších výsledků a je vhodný k dalšímu testování.
Klíčová slova:	strojové učení; kognitivní zkreslení; LSNB; klasifikátor; spam; Bayes

Název práce:	Classification of spam with the LSNB method
Autor(ka) práce:	Mareš, Jiří
Typ práce:	Bachelor thesis
Vedoucí práce:	Kliegr, Tomáš
Oponenti práce:	Berka, Petr
Jazyk práce:	Česky
Abstrakt:	The issue of spam is more and more concerning with the seemingly infinite growth of the internet. The aim of this bachelor thesis is the implementation of an algorithm based on the method Loosely symmetric naïve Bayes, for use in the classification of spam from small and biased datasets. Authors of the algorithm have found a discrepancy between the data that is used to train the classifier, and data that is found in practical applications. The LSNB model is created to deal with this discrepancy in a satisfying manner. The implementation is achieved with the Python programming language, whose extension scikit-learn is the basis for the implementation.The theoretical part presents an introduction to the issue of spam, then the general machine learning methods are introduced. But also, some of the specific methods are described in detail, in particular the naïve Bayes classifier. Afterwards, the theoretical LSNB model which attempts to use cognitive bias for reproducing human-level concept learning is described. Some data pre-processing techniques are introduced together with the basics of Python language and some of its most important extensions. Finally, the metrics for classifier evaluation are presented.In the practical part the implementation is described in detail from the data pre-processing, through model fitting from training data, to classification of testing data. Evaluation of 6 different classifiers on 6 datasets of various sizes and various biases is shown near the end. For this, the metrics described in the theoretical part are used. The eLSNB classifier, which has been implemented as a part of this thesis, has performed the best in comparison with the other classifiers. It is deemed suitable for further testing.
Klíčová slova:	Bayes; classifier; cognitive bias; LSNB; machine learning; spam

Informace o studiu

Studijní program / obor:	Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu:	Bakalářský studijní program
Přidělovaná hodnost:	Bc.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce:	10. 10. 2019
Datum podání práce:	11. 5. 2020
Datum obhajoby:	15. 6. 2020
Identifikátor v systému InSIS:	https://insis.vse.cz/zp/71213/podrobnosti

Soubory ke stažení

Hlavní práce
71213_marj39.pdf, 1.9 MB Stáhnout

Oponentura
66588_berka.pdf, 66 kB Stáhnout

Hodnocení vedoucího
71213_klit01.pdf, 63.1 kB Stáhnout