Predikce insolvence podniku s využitím metod datové vědy

Název práce: Predikce insolvence podniku s využitím metod datové vědy
Autor(ka) práce: Beranová, Lucie
Typ práce: Diplomová práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Černý, Michal
Jazyk práce: Česky
Abstrakt:
Hlavním cílem celé práce byla tvorba modelů určených pro predikci insolvence firem zakládajících si na maximální využitelnosti dostupných dat. Tím se rozumí využití široké nabídky proměnných a v závislosti od toho se odvíjí i různé velikosti dostupných vzorků dat, z čehož vyplynulo 10 experimentů. Experimenty byly využity k porovnání z více zajímavých hledisek, příkladem je porovnání prediktivní síly modelu pro různá časová období, využití různých sad proměnných a zkoumání jejich důležitostí, vliv vzorku dat na přesnost modelu a na změnu významnosti proměnných apod. Část práce také porovnává interpretovatelnost modelu náhodného lesa a logistické regrese. Práce je založena na využití metod datové vědy, z tohoto důvodu byl čtenář v úvodní kapitole s tímto pojmem a s ním souvisejícími pojmy stručně seznámen. Dále byla představena metodika CRISP-DM, ze které vycházel vlastní výzkum práce. Detailněji byly teoreticky rozebrány některé podsekce této metodiky – metody redukce počtu proměnných nebo výběr modelu a evaluace. Kapitoly obsahují zejména teoretický základ metod, jež byly v této práci využité. Práce byla také inspirována článkem Breimana (2001), na základě kterého byly modely vybírány dle dvou kritérií – interpretovatelnost a prediktivní síla. Jako zástupce interpretovatelného modelu byl použit model penalizované logistické regrese, pro svou prediktivní sílu byl zvolen model náhodného lesa. Pro zlepšení přesnosti modelu se využívala řada specifických technik, jako např. stratifikovaná křížová validace, metoda vyrovnání dat Oversampling nebo ladění parametrů pomocí Grid Search. V rámci práce byly také využity text miningové metody. Zpracování dat probíhalo v Pythonu, modelování v R.
Klíčová slova: strojové učení; logistická regrese; náhodný les; insolvence; klasifikace; predikce
Název práce: Prediction of company insolvency using data science methods
Autor(ka) práce: Beranová, Lucie
Typ práce: Diploma thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Černý, Michal
Jazyk práce: Česky
Abstrakt:
The main goal of the thesis was to create models designed to predict the insolvency of companies based on the maximum usability of available data. It means to use wide range of variables, depending on this, the different sizes of available data samples are derived, resulting in 10 experiments. The experiments were used for comparison from more interesting points of view, an example is comparing the predictive power of the model for different time periods, using different sets of variables and examining their importance, the influence of a data sample on model accuracy and changing the significance of variables, etc. Part of the thesis also compares the interpretability of the Random forest model and logistic regression. The work is based on data science methods, for this reason, the reader was briefly acquainted with this term and related terms in the introductory chapter. Furthermore, the CRISP-DM methodology was introduced, on which the research of the thesis was based. Some subsections of this methodology were theoretically analyzed in more detail – methods of reducing the number of variables or model selection and evaluation. The chapters contain mainly the theoretical basis of the methods used in this thesis. The thesis was also inspired by an article by Breiman (2001), based on which the models were selected according to two criteria - interpretability and predictive power. The model of penalized logistic regression was used as a representative of the interpretable model, and the random forest model was chosen for its predictive power. A number of specific techniques have been used to improve the accuracy of the model, such as stratified cross-validation, the Oversampling method, or Grid Search parameter tuning. Text mining methods were also used in the work. Data processing took place in Python, modeling in R.
Klíčová slova: machine learning; logistic regression; random forest; insolvency; classification; prediction

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 12. 9. 2019
Datum podání práce: 2. 5. 2020
Datum obhajoby: 4. 6. 2020
Identifikátor v systému InSIS: https://insis.vse.cz/zp/70442/podrobnosti

Soubory ke stažení

    Poslední aktualizace: