Plagiátorství v textových dokumentech: Metody odhalování plagiátů

Název práce: Plagiátorství v textových dokumentech: Metody odhalování plagiátů
Autor(ka) práce: Opička, Jan
Typ práce: Bakalářská práce
Vedoucí práce: Přibil, Jiří
Oponenti práce: Novák, Michal
Jazyk práce: Česky
Abstrakt:
Tato bakalářská práce se zabývá oblastí detekce plagiátů mezi dokumenty v rozsáhlých dokumentových skladech. Dnes dříve než kdy v minulosti je problematika plagiátorství obzvláště palčivá. Přispívá k tomu snadná dostupnost informací v digitální formě. K prosazení autorských práv a potírání plagiátorství je třeba navrhnout takový systém, který dokáže plagiáty mezi dokumenty spolehlivě rozpoznat. Aplikace takovéhoto systému se obzvláště nabízí k použití v akademické sféře jak pro kontrolu studentských závěrečných prací, tak i seminárních prací. Hlavní pozornost je věnována hledání plagiátů v českém a slovenském jazyce. Na začátku jsou vymezeny základní pojmy a představeny základní problémy, které musí systém pro odhalování plagiátů vyřešit. Systémy pro detekci plagiátů jsou v této práci klasifikovány a jejich jednotlivé komponenty jsou podrobně analyzovány. Teoretický rozbor komponent je doplněn o experimentálně získané informace a doporučení. Hlavní pozornost je věnována extrakci textové informace z dokumentů, standardizaci dokumentu a hledání vhodné vnitřní formy pro reprezentaci dokumentu. V poslední kapitole jsou diskutovány a porovnávány jednotlivé metody a algoritmy, které lze využít při výpočtu indexu shody mezi dvěma dokumenty. Značná pozornost je také věnována výkonnostnímu hledisku celého systému. Hlavním přínosem práce je analýza využití slovních bigramů oproti delším n-gramům. Dále je diskutován možný přínos informace o větném členění v dokumentu pro detekci plagiátu.
Klíčová slova: zpracování přirozeného textu; větné členění; slovní zásoba; n-gramy; tokenizace; plagiátorství
Název práce: Plagiarism in Text Documents: Methods of Plagiarism
Autor(ka) práce: Opička, Jan
Typ práce: Bachelor thesis
Vedoucí práce: Přibil, Jiří
Oponenti práce: Novák, Michal
Jazyk práce: Česky
Abstrakt:
This thesis is devoted to detection of plagiarism among documents in large document databases. The problem of detection of plagiarism is more appealing today than ever. Easy accessibility of documents in digital form contributes to this problem. To enforce author rights and wipe out plagiarism it is necessary to project such system that will be able to distinguish plagiarism among documents with certainty. Such system is valuable help in academic field, where it can be used for controlling of student's final thesis and seminary works. Main attention is devoted to searching of plagiarism in Czech and Slovak language. Basic definitions of plagiarism are defined in the first part of this thesis as well as basic problems, which this system must address. Systems for detection of plagiarism are classified in this thesis and their individual components are carefully analyzed. Theoretical analysis of these components is followed by experimentally gained information and recommendations. Main attention is devoted to extraction of text information from the documents, document standardisation and search for best fitting inner form of documents. In the last chapter methods and algorithms, which can be used for calculating of match index between two documents, are discussed and compared with each other. Considerable effort is devoted to system performance. The main contribution of this thesis is the comparison of usage of word bigrams with longer n-grams. Also the possible contribution of information about sentence division of the document is analysed and presented.
Klíčová slova: sentence division; word supply; n-grams; tokenisation; natural text processing; plagiarism

Informace o studiu

Studijní program / obor: Ekonomika a management/Management
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta managementu
Katedra: Katedra exaktních metod

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 12. 2012
Datum podání práce: 21. 8. 2013
Datum obhajoby: 29. 8. 2013
Identifikátor v systému InSIS: https://insis.vse.cz/zp/40590/podrobnosti

Soubory ke stažení

    Poslední aktualizace: