Mapování PMML a BKEF dokumentů v projektu SEWEBAR-CMS

Název práce: Mapování PMML a BKEF dokumentů v projektu SEWEBAR-CMS
Autor(ka) práce: Vojíř, Stanislav
Typ práce: Diplomová práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Zamazal, Ondřej
Jazyk práce: Česky
Abstrakt:
V průběhu dataminingového procesu jsou nezbytné fáze porozumnění datům a následná předpříprava datové matice pro samotné dolování. Je nutné zvolit způsob práce (seskupování, řezy) s kontinuálními atributy atp. Tato přípravná fáze by měla být postavena na znalostech získaných od expertů na danou problémovou oblast. V projektu SEWEBAR jsou prostřednictvím speciálního editoru získávány doménové znalosti expertů, které jsou poté ukládány do vlastního formátu BKEF (založeného na XML) do databáze CMS Joomla!. Většina dataminingových nástrojů zároveň umožňuje ukládat výsledky své činnosti (vytvořené modely) do standardizovaného formátu PMML. Pro další zpracování je potřeba konkrétní atributy z PMML souboru na metaatributy v souboru BKEF. Toto mapování je řešeno algoritmy, které předkládají uživateli automaticky vytvářené návrhy namapování jak na úrovni konkrétních (meta)atributů, tak i jejich hodnot. Tento specifický mapovací problém je řešen aplikací vytvořenou v jazyce PHP, která je integrována v podobě komponenty do CMS Joomla!. Pro otestování úspěšnosti automatizace návrhu správných mapování byla zvolena testovací data o kur-zech vyučovaných na pěti amerických univerzitách z Illinois Semantic Integration Archive. Na těchto datech dosahuje automatizovaný proces návrhu vhodného mapování na úrovni (meta)atributů při prvním mapování přesnosti 70% a úplnosti 77%. Pokud však již byla daná data namapována dříve, pak je díky implmenentovanému modulu pro strojové učení na základě předchozích správných namapování dosahována úplnost cca 90-100%.
Klíčová slova: PMML; mapování; XML; BKEF; datamining
Název práce: Mapping of PMML and BKEF documents using PHP in the SEWEBAR CMS
Autor(ka) práce: Vojíř, Stanislav
Typ práce: Diploma thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Zamazal, Ondřej
Jazyk práce: Česky
Abstrakt:
In the data mining process, it is necessary to prepare the source dataset - for example, to select the cutting or grouping of continuous data attributes etc. and use the knowledge from the problem area. Such a preparation process can be guided by background (domain) knowledge obtained from experts. In the SEWEBAR project, we collect the knowledge from experts in a rich XML-based representation language, called BKEF, using a dedicated editor, and save into the database of our custom-tailored (Joomla!-based) CMS system. Data mining tools are then able to generate, from this dataset, mining models represented in the standardized PMML format. It is then necessary to map a particular column (attribute) from the dataset (in PMML) to a relevant 'metaattribute' of the BKEF representation. This specific type of schema mapping problem is addressed in my thesis in terms of algorithms for automatic suggestion of mapping of columns to metaattributes and from values of these columns to BKEF 'metafields'. Manual corrections of this mapping by the user are also supported. The implementation is based on the PHP language and then it was tested on datasets with information about courses taught in 5 universities in the U.S.A. from Illinois Semantic Integration Archive. On this datasets, the auto-mapping suggestion process archieved the precision about 70% and recall about 77% on unknown columns, but when mapping the previously user-mapped data (using implemented learning module), the recall is between 90% and 100%.
Klíčová slova: PMML; BKEF; mapping; schema matching

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 22. 3. 2010
Datum podání práce: 5. 5. 2011
Datum obhajoby: 9. 6. 2011
Identifikátor v systému InSIS: https://insis.vse.cz/zp/25853/podrobnosti

Soubory ke stažení

    Poslední aktualizace: