Návrh a implementace řešení pro ukládání a zpracování genomických dat

Název práce: Návrh a implementace řešení pro ukládání a zpracování genomických dat
Autor(ka) práce: Holub, Ondřej
Typ práce: Bakalářská práce
Vedoucí práce: Karkošková, Soňa
Oponenti práce: Potančok, Martin
Jazyk práce: Česky
Abstrakt:
Pokroky ve výzkumu sekvenování DNA stimulují prudké snižování ceny sekvenování lidského genomu a související nárůst objemu a komplexity výstupních genomických dat. Tento dlouhodobý trend je hybatelem rapidní transformace odvětví biomedicíny s cílem generovaná data efektivně využívat ve výzkumu a klinické péči. Hlavním cílem této práce je navrhnout řešení pro transformaci, anotování a distribuované uložení dat popisujících DNA sekvence a genetické varianty a implementovat parametrizovatelné pohledy pro srovnávání uložených vzorků v kontextu odborných anotací. Hlavního cíle práce je dosaženo naplněním tří dílčích cílů. Prvním dílčím cílem je popsat technologická omezení související s anotováním a analýzou genomických dat a z nich vyplývající požadavky v kontextu aktuálního stavu genomiky a souvisejících bigdatových metod a technologií. Druhým dílčím cílem je navrhnout integraci frameworku Apache Spark s vybranými doménově specifickými softwarovými nástroji odpovídající definované množině požadavků na zpracování genomických dat. Posledním dílčím cílem je demonstrovat předzpracování vstupních datových souborů a implementovat doménovou logiku pokročilých parametrizovatelných pohledů na data.
Klíčová slova: big data; Apache Spark; bioinformatika; genomika; zdravotnictví
Název práce: Design and Implementation of a Genomic Data Storing and Processing Solution
Autor(ka) práce: Holub, Ondřej
Typ práce: Bachelor thesis
Vedoucí práce: Karkošková, Soňa
Oponenti práce: Potančok, Martin
Jazyk práce: Česky
Abstrakt:
Advances in DNA sequencing research stimulate a steep cost reduction of human genome sequencing and an associated increase in the quantity and complexity of the output genomic data. This long-term trend drives rapid transformation in the field of biomedicine, aiming for the effective utilization of generated data in research and clinical care. The main objective of this thesis is to propose a solution for transforming and annotating data describing DNA sequences and genetic variants, as well as storing it in a distributed manner, and to implement parametrized data views enabling the comparison of stored samples in the context of expert annotations. The main objective is achieved by fulfilling three partial objectives. The first partial objective aims to describe technological limitations associated with annotating and analyzing genomic data as well as the arising requirements in the context of the present state of genomics and the associated big data methods and technologies. The second partial objective is to propose a draft integration of the Apache Spark framework and selected domain-specific software utilities, satisfying the defined set of requirements for genomic data processing. The final partial objective aims to demonstrate the pre-processing of input data files and to implement the domain logic of the advanced parameterized data views.
Klíčová slova: big data; Apache Spark; bioinformatics; genomics; healthcare

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 9. 2018
Datum podání práce: 10. 12. 2018
Datum obhajoby: 22. 1. 2019
Identifikátor v systému InSIS: https://insis.vse.cz/zp/66567/podrobnosti

Soubory ke stažení

    Poslední aktualizace: