Le squenage grande chelle au Genoscope - PowerPoint PPT Presentation

1 / 45
About This Presentation
Title:

Le squenage grande chelle au Genoscope

Description:

Le s quen age grande chelle au Genoscope. Strat gies actuelles et perspectives ... Mission : provide high-throughput sequencing data to the French Academic ... – PowerPoint PPT presentation

Number of Views:93
Avg rating:3.0/5.0
Slides: 46
Provided by: defau968
Category:

less

Transcript and Presenter's Notes

Title: Le squenage grande chelle au Genoscope


1
  • Le séquençage à grande échelle au Genoscope
  • Stratégies actuelles et perspectives

P. Wincker, Séminaire INRA, Paris, 06.11.07
2
  • Status Public Institute
  • Mission provide high-throughput sequencing data
    to the French Academic community , and carry out
    in-house genomic projects
  • Creation 1997
  • Part of the CEA Institut de Génomique since
    05/2007

3
Procedures on Scientific Projects
  • in house evaluated by the Scientific Committee
  • collaborative - proposed by
    external labs (annual call for proposals) -
    evaluated by the Scientific Committee -
    supported by Genoscope's budget
  • shared cost - consumables and labor
    supported by applicant - other costs on
    Genoscope's budget - approval by Scientific
    committee gt100 000 reads
  • paid services

4
Breakdown of sequencing activity since
1998 Total reads 41 681 315
5
Breakdown of sequencing activity in 2006 Total
reads 12 138 976
Coûts partagés 1,4
6
Successful applications since 1998 Total 188
7
Sequence categories
8
Genomes (finished and in progress)
9
(No Transcript)
10
Lorganisation du séquençageau Genoscope
11
Personnel (01/01/06)
  • Mapping
  • Libraries, subcloning
  • Sequencing template prepping
  • Finishing
  • Development
  • Research projects
  • R and D
  • Robotics
  • Informatics
  • Bio-informatics
  • QC and QA
  • Infrastructure (Kitchen, building etc.)
  • TOTAL (FTE)

8 11 18 15 4 27 8 3 21 24 2 9 150
12
Niveaux daccès aux capacités du Genoscope par
Appel dOffres
Projet
Séquençage Sanger, 454 (2007), Solexa (2008)
Assemblage, finition, clustering
Annotation procaryote (MAGE)
Annotation eucaryote (GAZE)
13
Sélection des projets
  • Appel doffres évalué annuellement par un conseil
    scientifique externe (1998-2007)
  • A partir de 2008
  • Appel doffres (GIS Ibisa)
  • Projets ANR (Programme Génomique)

14
Sequencing equipment total capacity ABI 3730
19 (30 M bases/day) 454/GSFLX 1 (100 M
bases/day)
15
Impact des nouvelles technologies de séquençage
16
Evaluation des NTSs au Genoscope
  • Qualité des lectures et des assemblages
  • Applications fonction de la taille des génomes,
    complémentarité aux autres technologies
  • Impact sur lobtention dune séquence finie

17
Exemple du séquenceur Roche / 454
18
(No Transcript)
19
(No Transcript)
20
(No Transcript)
21
(No Transcript)
22
(No Transcript)
23
454 data (flowgram)
Sanger data (chromatogram)
24
Evaluation de la qualité des lectures Mapping
des lectures 454 sur la séquence finie
dAcinetobacter baylyi
  • 478.961 lectures mappées (soit 99,55)
  • 98.200.952 nt alignés contenant 1.451.396
    erreurs (soit 1,48 derreurs)
  • Avec Q 20, 790.487 erreurs (8.10-3) et Q 40,
    343520 erreurs (3.10-3)
  • Sur les 172.668 lectures mappées à 100, 60.550
    sont sans erreurs (35)

25
Position des erreurs dans les lectures 454
26
Position des erreurs par type dans les lectures
454
27
Evaluation des assemblages 454
  • Deux types dassemblage proposés
  • De novo
  • Dirigé (en utilisant la séquence dun génome très
    proche)

28
Taille du N50 à différentes profondeurs
(assemblage de novo)
29
Taille du N50 à différentes profondeurs (de novo
vs dirigé)
30
Erreurs concentrées dans les régions
homopolymériques
  • Fonction de la taille de lhomopolymère
  • Pour M. agalactiae, couverture de 30x
  • si (N)n avec nlt5, taux derreur 1
  • si (N)n avec nlt9, taux derreur 5

? Le taux derreur dépend de la fréquence des
régions homopolymériques Ce nest pas une
valeur absolue
31
Evaluation des NTSs au Genoscope
  • Qualité des lectures et des assemblages
  • Applications fonction de la taille des génomes,
    complémentarité aux autres technologies
  • Impact sur lobtention dune séquence finie

32
De lassemblage 454 au génome fini
  • Points positifs
  • Pas de clonage ? présence des régions
    incompatibles avec E. coli
  • Quasi-insensibilité aux biais compositionnels
  • Vitesse une semaine de lADN à la séquence
  • Points négatifs
  • Pas de liens entre séquences ? pas de
    supercontigage
  • Taux derreur élevé dans les homopolymères
  • pas dassemblage des séquences répétées

33
Microbial Genome Sequencing
  • Until December 2006 12x coverage with Sanger
    technology, 3 libraries (insert sizes 3 kb, 10
    kb, 40 kb)
  • From january 2007 4x Sanger coverage, single
    library (10 or 40 kb) 20x coverage GS20 reads
  • Assembly with Arachne (Broad Institute) using
    Sanger reads and Newbler contigs
  • From June 2007, 4x Sanger coverage, single
    library (10 or 40 kb) , 15x coverage GSFLX
    reads
  • Assembly with Arachne (Broad Institute) using
    Sanger reads and Newbler contigs or with Newbler2
    using Sanger reads and GSFLX reads

34
Le séquenceur Solexa / illumina 1G
Amplification directe sur lames (pas de PCR en
émulsion) Séquençage par terminateurs
reversibles Longueurs de lecture 25-35
bases Débit 40 000 000 lectures / run
35
Applications du Solexa/Illumina 1G (ou ABI Solid)
  • SNP detection
  • ChIp-Seq
  • Quantitative / qualitative transcriptomics
  • small RNAs

36
Méthodes pour le re-séquençage environnement
informatique
  • Objectif aligner chaque lecture à une
    localisation unique (si elle existe) sur le
    génome de référence
  • Exemple si utilisation de blast
  • 1 lecture contre 140Mb (chr9 humain) 18s/CPU
  • 1 lecture contre 3Gb 386s/CPU
  • 1Gb lectures Solexa contre 3Gb 490 années/CPU
  • 20x de lectures Solexa contre 3 Gb 44.000
    années/CPU
  • Nécessité dutiliser des méthodes différentes
    qui tiennent compte de la petite taille des
    lectures
  • phageAlign compare chaque lecture avec les
    k-mers génomique (en triant les k-mers et en
    exploitant les parties communes des préfixes pour
    réduire le travail)
  • ELAND place les lectures dans une structure de
    données et les aligne toutes en même temps

37
Perspectives dutilisation Solexa / Illumina 1G
  • Small RNAs, tags avantage de coût par rapport
    au 454/Roche
  • Séquençage de génomes attente du développement
    dassembleurs adaptés
  • Amélioration de la qualité des séquences
    454/Roche assemblés

38
Notions de coût par base (ordre de grandeur)
Sanger (ABI3730xl) 1000 euros / Mbase ? taux
derreur lt 99, assemblage de qualité à 10
équivalents, supercontigage
immédiat Roche/454 GSFLX 100 euros /
Mbase ? taux derreur gt 1 dans les régions
homopolymériques, assemblage de qualité à
20 équivalents, pas de supercontigage Illumina
1G lt10 euros / Mbase ? taux derreur lt99.9
, pas dassemblage de qualité
39
4x
15x
0.5x
10-100x
Assemblage, finition
Assemblage, finition

15x
40
Evolution accélérée des NTSs
  • Roche / 454
  • 2006 20 Mb par run (100 bases par lecture)
  • 2007 100 Mb par run (250 bases par lecture)
  • 2008 1 Gb par run (500 bases par lecture)
  • Solexa/Illumina 1G
  • 2007 1 Gb par run (32 bases par lecture)
  • 2008 3 Gb par run (50 bases par lecture,
    lectures en paires)

? Difficile de prévoir quelle technologie sera
utilisée pour séquencer un génome dans 1-2
ans
41
Vers un séquençage génomique à très bas coût
  • Dépendra de la capacité à assembler des séquences
    courtes et peu chères
  • Développement de lectures paired-ends ?
  • Allongement des longueurs utiles de type Solexa ?
  • Baisse des coûts des lectures 454 ?
  • Amélioration spectaculaire des logiciels
    dassemblage ?
  • Arrivée dune nouvelle technologie ?

42
Une perspective très mobile
  • Les programmes de comparaison multi-génomes
    devraient se généraliser
  • La métagénomique connaîtra un développement
    exponentiel
  • De nombreux projets jugés jusqualors trop
    coûteux deviennent réalisables
  • Mais toutes ces perspectives nécessitent des
    progrès pour être envisageables pour des génomes
    de grande taille

43
Une perspective très mobile
  • Les technologies utilisées peuvent devenir
    caduques très vite
  • Les besoins informatiques augmentent
    considérablement
  • Risque denvahissement par des données massives
    de faible qualité

44
  • Director J. Weissenbach
  • Sequencing coordination P. Wincker
  • Production Sequencing J. Poulain
  • Roche / 454 development C. Cruaud
  • Informatics C. Scarpelli, V. Vico, V. Anthouard,
    J. Leseaux
  • Assembly J.M. Aury

45
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com