Software pro konsolidaci informací o právních osobách z otevřených zdrojů

Název práce: Software pro konsolidaci informací o právních osobách z otevřených zdrojů
Autor(ka) práce: Havelka, Jan
Typ práce: Diplomová práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Ralbovský, Martin
Jazyk práce: Česky
Abstrakt:
Získávání, zpracovávání a uchovávání dat je nedílnou součástí každého projektu, který má být dlouhodobě úspěšný. Tyto tři procesy jsou aplikovány jak na počátku, tak v průběhu projektu. Na počátku je třeba získat znalosti z aktuálně dostupných informací, které se následně zpracují a použijí jako základní stavební kámen. V průběhu je nutné aplikovat tyto procesy na data získaná po čas běhu projektu s cílem optimalizovat nebo přidávat nové podpůrné procesy. Zdrojem informací mohou být tištěné či elektronické zdroje. V dnešní době nahrazují elektronické zdroje tištěné, protože jsou dostupnější, rychleji se v nich vyhledává a fyzicky zabírají o mnoho méně prostoru.Cílem této diplomové práce je získat, transformovat a sdílet data, která budou následně využita pro společný projekt, jenž řeší predikci úpadku firem. Zdrojem dat jsou veřejně dostupné neplacené zdroje, kde je pro získání dat použita metodika web scrapingu. Transformace dat probíhá plně automaticky a mimo jiné využívá metodu optického rozpoznávání znaků. Výsledná data jsou uložena v databázi a prezentována v jednoduchém uživatelském rozhraní, které nabízí filtry, třídění či chytrý export dat do formátu xlsx. Práce dokumentuje vývoj od počátku. Obsahuje rešerši obdobných systémů, analýzu dat, návrh databázové struktury i realizaci programové části.Práce je vhodná pro toho, kdo se zabývá problematikou získávání dat z elektronických zdrojů nebo se zajímá o optické rozpoznávání znaků. Inspirací může být tato práce také pro právnické či fyzické osoby, které poptávají či přemýšlí o obdobné službě, která by mohla dopomoci k úspěšnějšímu vedení činnosti podnikání.
Klíčová slova: Insolvence; Web scraping; Web crawling; Optické rozpoznávání znaků; Tesseract; Regulární výrazy
Název práce: Software for consolidation of information about legal persons from publicly available resources
Autor(ka) práce: Havelka, Jan
Typ práce: Diploma thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Ralbovský, Martin
Jazyk práce: Česky
Abstrakt:
Receiving, processing and storing data is an important part of every project, which is meant to be successful from a long-term point of view. These three processes are being applied both in the beginning and during the project. In the beginning, there is a need of getting knowledge from currently available resources. The collected data are then being processed and used as a foundation. In the course of processing the project, there is a need to apply these processes on the data received during the project, while aiming on optimization or expansion of new support processes. Origin of information could be either in printed sources or electronic sources. Nowadays are the electronic sources replacing the printed ones as they are more accessible, faster to search in and they take up much less space.The aim of this diploma thesis is to gain, transform and share data, that will be later used for a shared project, which deals with prediction of company failure, with the data source being public unpaid sources, where the web scraping is used for gaining information. The data transformation runs automatically and among others, it uses optical character recognition method. Final data are stored in a database and presented in a simple user interface, which allows filtering, sorting of data and as well smart export to xlsx format. This thesis documents the development from the beginning. It consists of analysis of similar systems, data analysis, design of the database structure and the programming itself.This thesis can be useful for those, who are interested in obtaining data from electronic sources or optical character recognition. It can be as well an inspiration to legal and natural persons, that are considering similar service, which could help to lead the business more successfully.
Klíčová slova: Optical character recognition; Tesseract; Regular expressions; Insolvency; Web scraping; Web crawling

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 10. 2019
Datum podání práce: 3. 5. 2020
Datum obhajoby: 4. 6. 2020
Identifikátor v systému InSIS: https://insis.vse.cz/zp/70949/podrobnosti

Soubory ke stažení

    Poslední aktualizace: