Nouvelles approches pour l'exploitation des données de séquences génomique haut débit - Université de Rennes Accéder directement au contenu
Thèse Année : 2017

New approaches for exploitation of high throughput sequencing data

Nouvelles approches pour l'exploitation des données de séquences génomique haut débit

Résumé

Novel approaches for the exploitation of high throughput sequencing data In this thesis we discuss computational methods to deal with DNA sequences provided by high throughput sequencers. We will mostly focus on the reconstruction of genomes from DNA fragments (genome assembly) and closely related problems. These tasks combine huge amounts of data with combinatorial problems. Various graph structures are used to handle this problem, presenting trade-off between scalability and assembly quality. This thesis introduces several contributions in order to cope with these tasks. First, novel representations of assembly graphs are proposed to allow a better scaling. We also present novel uses of those graphs apart from assembly and we propose tools to use such graphs as references when a fully assembled genome is not available. Finally we show how to use those methods to produce less fragmented assembly while remaining tractable.
Cette thèse a pour sujet les méthodes informatiques traitant les séquences ADN provenant des séquenceurs haut débit. Nous nous concentrons essentiellement sur la reconstruction de génomes à partir de fragments ADN (assemblage génomique) et sur des problèmes connexes. Ces tâches combinent de très grandes quantités de données et des problèmes combinatoires. Différentes structures de graphe sont utilisées pour répondre à ces problèmes, présentant des compromis entre passage à l'échelle et qualité d'assemblage. Ce document introduit plusieurs contributions pour répondre à ces problèmes. De nouvelles représentations de graphes d'assemblage sont proposées pour autoriser un meilleur passage à l'échelle. Nous présentons également de nouveaux usages de ces graphes, différent de l'assemblage, ainsi que des outils pour utiliser ceux-ci comme références dans les cas où un génome de référence n'est pas disponible. Pour finir nous montrons comment utiliser ces méthodes pour produire un meilleur assemblage en utilisant des ressources raisonnables.
Fichier principal
Vignette du fichier
LIMASSET_Antoine.pdf (3.77 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01686367 , version 1 (17-01-2018)

Identifiants

  • HAL Id : tel-01686367 , version 1

Citer

Antoine Limasset. Nouvelles approches pour l'exploitation des données de séquences génomique haut débit. Bio-informatique [q-bio.QM]. Université de Rennes, 2017. Français. ⟨NNT : 2017REN1S049⟩. ⟨tel-01686367⟩
390 Consultations
212 Téléchargements

Partager

Gmail Facebook X LinkedIn More