Efektivní metody detekce plagiátů v rozsáhlých dokumentových skladech

Název práce: Efektivní metody detekce plagiátů v rozsáhlých dokumentových skladech
Autor(ka) práce: Přibil, Jiří
Typ práce: Disertační práce
Vedoucí práce: Jiroušek, Radim
Oponenti práce: Strossa, Petr; Snášel, Václav
Jazyk práce: Česky
Abstrakt:
Práce se zaměřuje na problematiku detekce plagiátů v rozsáhlých dokumentových skladech. Bere přitom v úvahu reálnou situaci, kterou je třeba v současné době řešit i v prostředí univerzit v České republice a navrhuje takový systém, který bude schopen tuto analýzu provádět v reálném čase a bude přitom schopen zachytit co nejširší spektrum plagiátorských postupů. Hlavním přínosem práce je přitom definice tzv. neuspořádaných n-gramů -- {n}-gramů -- které jsou využitelné právě pro detekci některých pokročilejších forem plagiátorských postupů. Veškerá uváděná doporučení, která se týkají jednotlivých komponent systému pro odhalování plagiátů -- předzpracování dokumentu před vložením do dokumentového skladu; způsob reprezentace dokumentů v dokumentovém skladu; identifikace potenciálních zdrojů plagiá-torství; výpočet měr shodnosti; vizualizace výsledků analýzy plagiátorství -- jsou podrobeny diskuzi a příslušně kvantifikovány. Výsledkem práce je návrh parametrů systému tak, aby byl schopen v podmínkách českého jazyka odhalovat plagiáty rychle, přesně a přitom v co nejvíce formách.
Klíčová slova: korpus ; dokumentový sklad; detekce plagiátů; {n}-gramy; n-gramy; plagiátorství
Název práce: Effective methods of plagiarism detectios in large document repositories
Autor(ka) práce: Přibil, Jiří
Typ práce: Dissertation thesis
Vedoucí práce: Jiroušek, Radim
Oponenti práce: Strossa, Petr; Snášel, Václav
Jazyk práce: Česky
Abstrakt:
The work focuses on issues of plagiarism detection in large document repositories. Taking into account real situation that needs to be addressed now in the university environment in the Czech Republic and proposes a system that will be able to carry out this analysis in real time and yet be able to capture the widest possible range of plagiarism methods. The main contribution of this work is taking the definition of so-called unordered n-grams - {n}-grams - which can be used just to detect some forms of advanced plagiarism methods. All cited recommendations that relate to the various components of the system to detect plagiarism - preprocessing the document before document insertion into the corpus, the representation of documents in document storage, identification of potential sources of plagiarism to calculate rates of similarity; visualization analysis of plagiarism - are subject to discussion and appropriately quantified. The result is a set of design parameters of the system so that it can in detect plagiarism in the Czech language language quickly, accurately and yet in most forms.
Klíčová slova: corpus; document repository; plagiarism detection; {n}-grams; n-grams; plagiarism

Informace o studiu

Studijní program / obor: Ekonomika a management/Management
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta managementu
Katedra: Katedra managementu informací

Informace o odevzdání a obhajobě

Datum zadání práce: 9. 12. 2009
Datum podání práce: 30. 6. 2010
Datum obhajoby: 15. 7. 2010
Identifikátor v systému InSIS: https://insis.vse.cz/zp/27111/podrobnosti

Soubory ke stažení

    Poslední aktualizace: