Automatická identifikace kódování a jazyka textu

Název práce: Automatická identifikace kódování a jazyka textu
Autor(ka) práce: Hron, Michal
Typ práce: Bakalářská práce
Vedoucí práce: Pinkas, Otakar
Oponenti práce: Pavlíčková, Jarmila
Jazyk práce: Česky
Abstrakt:
Zpracování prostých nebo složitých textů (MIME typ - application) často vyžaduje automatické rozpoznání použitého kódování a jazyka. Některé typy souborů nebo stránek obsahují vnitřní informaci o způsobu kódování. Ovšem může dojít ke konfliktům, např. mezi hlavičkami protokolu HTTP a značkou meta. Někdy je vhodné ověřovat správnost kódování souborů, i když je kódování známé. Není-li identifikace způsobu kódování dostupná, je třeba použít metodu automatického rozpoznávání kódování a jazyka. Jednou z nich je metoda n-gramů. Byla již mnohokrát použita na kategorizaci textů v mnoha programech a v různých programovacích jazycích. Na základě testů se zdá, že automatické rozpoznání češtiny a dalších slovanských jazyků bývá méně úspěšné než rozpoznání jazyků západních. Zjištění příčin a hledání lepších řešení je proto i dnes přínosné. Důležitými parametry úlohy jsou délka vstupního textu a použití více jazyků v jednom dokumentu. Předpokládáme, že text neobsahuje věty v několika různých jazycích. Bakalářská práce má obsahovat kromě základní analýzy i softwarové řešení dílčích problémů, ať už ve formě samostatných programů nebo zásuvných modulů.
Klíčová slova: znak; n-gram; Unicode; HTML; kódování znaků; znaková sada; bajt; textový soubor; glyf
Název práce: automatic recognition of encoding and language
Autor(ka) práce: Hron, Michal
Typ práce: Bachelor thesis
Vedoucí práce: Pinkas, Otakar
Oponenti práce: Pavlíčková, Jarmila
Jazyk práce: Česky
Abstrakt:
Processing simple or complex texts (MIME type - application) often requires automatic recognition of encoding and language. Some types of files or pages contain an internal information about the encoding method. There might be some conflicts, however, eg. between the HTTP header and the meta tag. Sometimes it may be useful to verify the accuracy of the file encoding even when the encoding is known. In case that the identification of encoding is not available it is necessary to use a method of automatic recognition of encoding and language. One such method is an n-grams method. It has been used many times to categorize texts in many programs and in various programming languages. Based on tests results, it seems that the automatic recognition of the Czech language and other Slavic languages is less successful than the recognition of Western languages. Determining the reasons and searching for better solutions is therefore beneficial even nowadays. The length of the input text and the use of various languages in one document are important parameters. This thesis does not take text consisting of sentences in several different languages into consideration. In addition to a basic analysis of the topic, the thesis also includes a software solution to particular problems in a form of independent programs or plug-ins.
Klíčová slova: glyph; character set; Unicode; HTML; character; text file; character-encoding; n-gram; byte

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 2. 2015
Datum podání práce: 6. 5. 2015
Datum obhajoby: 23. 6. 2015
Identifikátor v systému InSIS: https://insis.vse.cz/zp/51954/podrobnosti

Soubory ke stažení

    Poslední aktualizace: