Možnosti statistické analýzy v případě chybějících dat

Název práce: Možnosti štatistickej analýzy v prípade chýbajúcich dát
Autor(ka) práce: Perichtová, Margaréta
Typ práce: Diplomová práce
Vedoucí práce: Pecáková, Iva
Oponenti práce: Řezanková, Hana
Jazyk práce: Slovensky
Abstrakt:
Cieľom tejto práce je poukázať na problémy, ktoré môžu nastať pri štatistickej analýze dát s chýbajúcimi hodnotami a zároveň predstaviť rôzne spôsoby, ako tieto problémy riešiť tak, aby sme nepoškodili štruktúru dát a podstatne neovplyvnili výsledky štatistickej analýzy. Diplomová práca je rozdelená do troch kapitol. Prvá kapitola sa zaoberá základnými termínmi používanými pri práci s chýbajúcimi hodnotami. Ukazuje možné vzory chýbajúcich dát a vysvetľuje mechanizmy vzniku chýbajúcich hodnôt ( MCAR, MAR, NMAR), ktoré sú dôležitou súčasťou analyzovania dátových súborov s chýbajúcimi hodnotami. Druhá kapitola zhrňuje rôzne metódy práce s chýbajúcimi hodnotami. Od najjednoduchších, to sú metódy založené na vynechávaní jednotiek s chýbajúcimi hodnotami, cez metódy založené na nahraďovaní chýbajúcich hodnôt, až po zložitejšie metódy vychádzajúcie z rozdelenia dát. Tretia kapitola, zároveň praktická časť tejto práce, je rozdelená do dvoch hlavných častí. V prvej časti sú na reálnom dátovom súbore s chýbajúcimi hodnotami predstavené možnosti použitia rôznych metód zhrnutých v teoretickej časti práce a porovnáva výsledky získané rôznymi metódami. V druhej časti sú na reálnom dátovom súbore, tentokrát s úplne napozorovanými hodnotami simulované chýbajúce hodnoty podľa rôznych mechanizmov (MCAR, MAR, NMAR) a zároveň pre rôzne podiely chýbajúcich dát v súbore (15%, 30%, 50%). Na tieto dátové súbory, so simulovanými chýbajúcimi hodnotami, sú opäť aplikované vybrané metódy predstavené v teoretickej časti tejto práce. Základné popisné štatistiky, odhad strednej hodnoty a rozptylu, vypočítané jednotlivými metódami sú porovnané so štatistikami vypočítanými z úplného dátového súboru. Výsledky použitia rôznych metód na súboroch so simulovavnými hodnotami potvrdzujú, že práve mechanizmus vzniku chýbajúcich hodnôt NMAR má veľký vplyv na vychýlenie výsledkov oproti skutočným hodnotám. Taktiež podiel chýbajúcich hodnôt 15% a 30% nemá až taký výrazný vplyv na vychýlenie, ako je to v prípadoch, keď chýba až 50% hodnôt pri sledovanej premennej, čo je v súlade s odbornou literatúrou venovanou problematike chýbajúcich dát.
Klíčová slova: problém chýbajúcich dát; mechanizmus vzniku chýbajúcich dát; metódy používané pri analýze dátového súboru s chýbajúcimi dátami
Název práce: Possibilities of statistical analysis in the case of missing data
Autor(ka) práce: Perichtová, Margaréta
Typ práce: Diploma thesis
Vedoucí práce: Pecáková, Iva
Oponenti práce: Řezanková, Hana
Jazyk práce: Slovensky
Abstrakt:
The aim of this thesis is to point out the problems that can arise in the statistical analysis of data with missing values and to present various ways to solve these problems in order not to damage the structure of data and to substantially not affect the results of the statistical analysis.The thesis is divided into three chapters. The first chapter deals with the basic terms that are used to analyze data with missing values. It shows possible patterns of missing data and explains mechanisms of missing values (MCAR, MAR, NMAR), which are an important part of analyzing data files with missing values. The second chapter summarizes various methods of working with missing values. From the simplest ones, these are methods based on the omission of units with missing data, through missing value substitution methods, to more complex methods based on data distribution. The third chapter, the practical part of this thesis, is divided into two main parts. In the first part, the various methods summarized in the theoretical part of the thesis are presented on the real data set with missing values and the results obtained by different methods are compared. In the second part, missing values according to different mechanisms (MCAR, MAR, NMAR) are simulated and the different proportion of missing data in the file (15%, 30%, 50%) are simulated on the real data file, this time with fully observed values. On these data files with simulated missing values, the selected methods introduced in the theoretical part of this thesis are applied. Basic descriptive statistics, such as expected value and variance estimates computed by individual methods are compared to statistics computed from the complete data file. The results of using different methods on simulated missing values confirm that the mechanism of missing NMARs has a great effect on the bias of the results against actual values. Also, the proportion of missing 15% and 30% do not have a significant biasing effect as in the case of missing up to 50% of the values in the observed variable, which is in accordance to the existing literature about missing data.
Klíčová slova: problem of missing data; missing data mechanism; methods used to analyze a data file with missing data
Název práce: Možnosti statistické analýzy v případě chybějících dat
Autor(ka) práce: Perichtová, Margaréta
Typ práce: Diplomová práce
Vedoucí práce: Pecáková, Iva
Oponenti práce: Řezanková, Hana
Jazyk práce: Slovensky
Abstrakt:
Cílem této práce je poukázat na problémy, které mohou nastat při statistické analýze dat s chybějícími hodnotami a zároveň představit různé způsoby jak tyto problémy řešit tak, abychom nepoškodili strukturu dat a podstatně neovlivnily výsledky statistické analýzy.Diplomová práce je rozdělena do tří kapitol. První kapitola se zabývá základními termíny používanými při práci s chybějícími hodnotami. Ukazuje možné vzory chybějících dat a vysvětluje mechanismy vzniku chybějících hodnot (MCAR, MAR, NMAR), které jsou důležitou součástí analýzy datových souborů s chybějícími hodnotami. Druhá kapitola shrnuje různé metody práce s chybějícími hodnotami. Od nejjednodušších, to jsou metody založené na vynechávání jednotek s chybějícími hodnotami, přes metody založené na nahraďovaní chybějících hodnot, až po složitější metody vycházející z rozdělení dat. Třetí kapitola, zároveň praktická část této práce, je rozdělena do dvou hlavních částí. V první části jsou na reálném datovém souboru s chybějícími hodnotami představeny možnosti použití různých metod shrnutých v teoretické části práce a porovnává výsledky získané různými metodami. Ve druhé části jsou na reálném datovém souboru, tentokrát s úplně napozorovaných hodnotami simulované chybějící hodnoty podle různých mechanismů (MCAR, MAR, NMAR) a zároveň pro různé podíly chybějících dat v souboru (15%, 30%, 50%). Na tyto datové soubory, se simulovanými chybějícími hodnotami, jsou opět aplikovány vybrané metody představené v teoretické části této práce. Základní popisné statistiky, odhad střední hodnoty a rozptylu, vypočítané jednotlivými metodami jsou porovnány se statistikami vypočítanými z úplného datového souboru. Výsledky použití různých metod na souborech se simulovavnými hodnotami potvrzují, že právě mechanismus vzniku chybějících hodnot NMAR má velký vliv na vychýlení výsledků oproti skutečným hodnotám. Také podíl chybějících hodnot 15% a 30% nemá až tak výrazný vliv na vychýlení, jak je to v případech, kdy chybí až 50% hodnot při sledované proměnné, což je v souladu s odbornou literaturou věnovanou problematice chybějících dat.
Klíčová slova: problém chýbějícich dat; mechanismus vzniku chybějících dat; metody používané při analýze datového souboru s chybějícími daty

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 14. 2. 2017
Datum podání práce: 7. 6. 2018
Datum obhajoby: 7. 6. 2018
Identifikátor v systému InSIS: https://insis.vse.cz/zp/60699/podrobnosti

Soubory ke stažení

    Poslední aktualizace: