Indexování a vyhledávání XML dokumetů pomocí Lucene

Název práce: Indexování a vyhledávání XML dokumetů pomocí Lucene
Autor(ka) práce: Beránek, Lukáš
Typ práce: Bakalářská práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Pinkas, Otakar
Jazyk práce: Česky
Abstrakt:
Vytváření analytických zpráv je proces, kterým se snažíme získat a uchovat výsledky data minigových úloh pro další použití. Dalším krokem je jejich transformace a zobrazení v uživatelsky srozumitelné a dostupné podobě například jako online HTML dokument v projektu SEWEBAR. Rostoucí počet výsledných reportů je pak důvodem vzniku potřeby efektivně vyhledávat ve strukturovaných XML dokumentech odpovídajících standardu PMML, ve kterém jsou zprávy uloženy. Cílem této práce bude stanovení dostupných metod pro indexování a plnotextové vyhledávání XML dokumentů se zaměřením na hledání asociačních pravidel z výstupů programů LISp-Miner nebo Ferda. Po stanovení a zhodnocení dostupných metod a zhodnocení současného stavu bude ve formě rozšíření pro CMS Joomla! vytvořen systém pro vyhledávání a indexování těchto souborů. Zdrojem dat pro vzniklou aplikaci Jucene jsou analytické zprávy uložené v databázi redakčního systému Joomla! v podobě PMML dokumentů. Vstupní dokument bude zjednodušen, optimalizován a transformován pomocí XSL transformace za účelem lepšího indexování v požadované struktuře při zachování logické struktury obsahu a výsledků data miningové úlohy. Vzniklý dokument bude vložen do indexu využitím PHP knihovny DOMDocument, která díky práci se stromovou reprezentací obsahu dokumentu umožňuje jeho procházení, upravování a získávání potřebných částí obsahu při dodržení jejich obsahových návazností. Kooperaci jednotlivých částí bude zajišťovat právě komponenta Jucene!, která bude za tímto účelem vytvořena a umožní tak komunikaci mezi systémy Zend Lucene a Joomla!. Zároveň vzniklé rozšíření poskytne uživatelské rozhraní pro práci s indexovanými pravidly, které umožní uživatelům vyhledávat relevantní asociační pravidla na základě uživatelsky vykonstruovaného dotazu zpracovatelného frameworkem Zend Search Lucene. Následně dojde k vyhodnocení výsledků dotazu a zobrazení odpovídajících asociačních pravidel. Práce by také měla poskytnout nejen podklady pro obsluhování komponenty z hlediska administrátorského -- porozumění její architektuře a metodám zpracování dat či jejich využití v praxi, ale také uživatelského -- základy konstrukce dotazů pro maximální využití poskytnutého vyhledávacího indexu odbornou veřejností.
Klíčová slova: XML; PMML; XML; Indexování; Lucene; Vyhledávání
Název práce: Indexing and searching XML documents with Lucene
Autor(ka) práce: Beránek, Lukáš
Typ práce: Bachelor thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Pinkas, Otakar
Jazyk práce: Česky
Abstrakt:
The creation of analytical report is a process in which we try to obtain and preserve the results of data mining tasks for further usage. Next step after the creation is to transform them into user friendly and accessible way that can be easily access for example as an online HTML document in the SEWEBAR project. The increasing number of resulting documents is the main reason of the need to possess means to search on structured date like XML documents that correspond with the PMML standard in which the reports are currently being saved. The main goal will be in stating available means for indexing and full text searching of XML documents targeted upon searching association rules that can be found in output documents produced by programs LISp-Miner or Ferda. After the initial analysis and assessment of the current state an extension for CMS Joomla! will be created in order to satisfy the need for indexing and searching indexed data. As source files for created Jucene extension we use analytic reports saved in the database of the Joomla content management system stored in PMML format. Stored PMML document will be simplified, optimized and transformed by means of an XSL transformation for better indexing possibilities in requested structure and with maintaining logical order of the document data mining task. Transformed document will then be inserted into the Zend Lucene document index. To achieve this in PHP environment the DOMDocument library will be used. Created workflow will supply user interface for work with indexed rules. Also it will provide the users with means for searching association rules based on user specified queries which can be processed by Zend Search Lucene framework. When rules that correspond to the user query are found the system will score the results and display them to the user. One of the goals is not only to create the Jucene component but also to give its users step-by-step guidance either they are the site administrators or ordinary visitors.
Klíčová slova: Lucene; XML; PMML; Searching; Lucene; Indexing

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 4. 11. 2009
Datum podání práce: 1. 5. 2010
Datum obhajoby: 16. 6. 2010
Identifikátor v systému InSIS: https://insis.vse.cz/zp/22690/podrobnosti

Soubory ke stažení

    Poslední aktualizace: