Heuristiques pour lalignement et la recherche dans les bases de donnes - PowerPoint PPT Presentation

1 / 36
About This Presentation
Title:

Heuristiques pour lalignement et la recherche dans les bases de donnes

Description:

Alignement local avec chaque s quence d'ADN (GenBank) ou de prot ines (Swiss-Prot) ... Score d'un alignement multipli par une valeur entre 0 et 1 en fonction de la ... – PowerPoint PPT presentation

Number of Views:89
Avg rating:3.0/5.0
Slides: 37
Provided by: mab66
Category:

less

Transcript and Presenter's Notes

Title: Heuristiques pour lalignement et la recherche dans les bases de donnes


1
Heuristiques pour lalignement et la recherche
dans les bases de données
2
Recherche dans les bases de données
  • Tache courante dun biologiste
  • Est-ce quune nouvelle séquence a déjà été
    complètement ou partiellement déposée dans les
    bases de données?
  • Est-ce que cette séquence contient un gène?
  • Est-ce que ce gène appartient à une famille
    connue? Quelle est la protéine encodée?
  • Existe-t-il dautres gènes homologues?
  • Existe-t-il des séquences non-codantes
    similaires. Répétitions ou séquences régulatrices
  • Logiciels les plus connus Smith-Waterman, FASTA
    et BLAST

3
(No Transcript)
4
Les bases de données bioinformatiques les plus
utilisées
  • NCBI, National Center for Biotechnology
    Information
  • GenBank Séquences dADN (3 billion de paires de
    bases)
  • Site officiel de BLAST
  • PubMed Permet la recherche de références
  • COGs Familles de gènes orthologues
  • EMBL, The European Molecular Biology Laboratory
  • ExPASy, Expert Protein Analysis System,
    Protéomique
  • Swiss-Prot Séquences de protéines
  • PROSITE Domaines et familles de protéines
  • SWISS-MODEL Outil de prédiction 3D de protéines
  • Différents outils de recherche
  • PDB, Protein Data Bank
  • Base de données de structures 3D de protéines
  • Visualisation et manipulation de structures
  • SCOP, Structural Classification of Proteins

5
Problèmes algorithmiques
  • Banques de données trop grandes nécessitant des
    algorithmes très rapides (sous linéaires)
  • Alignement de génomes complets
  • Tenir compte de la complexité biologique des
    séquences un algorithme optimal ne donne pas
    nécessairement des résultats biologiques
    satisfaisants
  • Développer des heuristiques qui allient rapidité
    et résultats biologiques satisfaisants

6
Recherche dans les banques de données
  • Fonction dune nouvelle séquence?
  • Démarche générale
  • Comparer la séquence requête avec les banques
    PROSITE ou BLOCKS, à la recherche de séquences
    conservées
  • Alignement local avec chaque séquence dADN
    (GenBank) ou de protéines (Swiss-Prot)
  • Utiliser FASTA ou BLAST
  • Essayer différentes matrices de substitution
    (PAM, BLOSUM)
  • Optimiser les alignements obtenus avec
    Smith-Waterman

7
Matrices PAM
  • PAM Point Accepted Mutation
  • Matrices de substitution pour les AA. dont les
    scores sont liés à la distance dévolution
  • Unité de mesure du taux de divergence entre 2
    seq. dAA, distance dévolution
  • Exp. S1 diverge de 5 PAM de S2
  • Définition S1, S2 divergent d1 unité PAM si la
    suite de mutations (substitutions) qui a converti
    S1 en S2 est telle quen moyenne, une seule
    mutation est survenue tous les 100 AA.

8
  • Mutations acceptées celles incorporées dans la
    protéine et transmises. Soit sans effet, soit
    bénéfique à lorganisme.
  • Pas de correspondance absolue entre unités PAM et
    divergence de séquences. Plusieurs mut. peuvent
    être survenues à la même pos.
  • Divergence dAA lt unités PAM
  • Exemple Deux seq. qui divergent de 100 PAM ne
    sont pas différentes à chaque pos.
  • En fait, deux seq. qui divergent de 200 PAM sont
    susceptibles de contenir 25 didentité de seq.

9
Matrices PAM
  • Différentes matrices PAM pour comparer des seq.
    dAA qui divergent dun nb spécifique dunités
    PAM 120 PAM, 250 PAM
  • Signification La case (i,j) dune mat. n PAM
    contient la fréquence avec laquelle lAA Ai est
    remplacée par lAA Aj dans les seq. qui divergent
    de n unités PAM
  • Méthode idéale de const. dune mat. n PAM
  • Considérer un ensemble de seq qui divergent de n
    unités PAM
  • Aligner les seq. 2 à 2
  • Compter le nb. dalignements Ai,Aj, pour chaque
    (i,j). Diviser par le nb total dappariements -
    - - gt f(i,j)
  • Case (i,j) de la mat. Contient log f(i,j)/
    f(i)f(j) où f(i) fréquence de Ai et f(j) freq.
    de Aj

10
  • Méthode précédente nécessite daligner
    correctement les séquences. Alignement pour avoir
    la matrice, et matrice pour avoir lalignement???
  • Méthode de Dayhoff
  • Pour des seq. très similaires (moins de 15 de
    différence), principalement la méthode idéale
  • - - - gt M Matrice 1 PAM.
  • Séquences plus divergentes Mn(i,j) probabilité
    que Ai se transforme en Aj en n unités PAM
  • Case (i,j) de la matrice n PAM
  • log f(i) Mn(i,j) / f(i)f(j) log
    Mn(i,j) / f(j)
  • Dans la pratique, on essaye plusieurs matrices
    PAM différentes. PAM 250 est la plus utilisée.

11
(No Transcript)
12
PROSITE et BLOCKS
  • PROSITE Dictionnaire de sites de protéines. Lié
    à Swiss-Prot.
  • Motifs représentés par une exp. reg. Ou par
    une matrice consensus
  • Exemple GGN SGAGxRxSGACx(2)IV ED.
  • BLOCKS Dérivé de PROSITE. Dictionnaire de
    séquences conservées.
  • BLOCK Petit intervalle très conservé dun
    alignement (sans gaps). Similarité de séquence,
    mais pas nécessairement similarité de fonction.

13
Matrices BLOSUM
  • Dérivées de BLOCKS. Ensemble de blocs de n
    colonnes et k lignes
  • Matrice BLOSUM Nb de fois que Ai, Aj se trouvent
    appariés, divisé par le nb de fois quils
    seraient appariés dans des seq. aléatoires.
  • Pour tous Ai, Aj, n(i,j) nb dappariements
    (Ai,Aj)
  • f(i) freq. de Ai f(j) freq. de Aj
  • e(i,j) n (k2) f(i) f(j)
  • s(i,j) log n(i,j) / e(i,j)

14
BLOSUM (suite)
  • Caractéristique Élimine la redondance dans les
    blocs.
  • Matrice BLOSUM x (généralement entre 50 et 80)
    Pour tout couple de lignes contenant plus de x
    de similarité, en garder une seule.
  • La plus utilisée est BLOSUM 62

15
Matrice BLOSUM 62
Score positif pour les identités, et négatif pour
les mismatchs
16
Qualité dun algorithme de comparaison de
séquences
  • Sélectivité (spécificité) Capacité à ne détecter
    que la réalité biologique et rien de plus
  • Problème des Faux-Positifs
  • Sensibilité Capacité à détecter tout ce qui est
    intéressant sur le plan biologique
  • Problème des Faux-Négatifs

17
Algorithmes de filtrage
  • Recherche de P de taille m dans S de taille n à k
    erreurs près
  • Programmation dynamique Temps O(mn)
  • Différentes améliorations Temps O(kn)
  • Algorithmes de filtrage Effectuer un premier
    passage sur S pour éliminer toutes les parties
    qui ne sont pas susceptibles de contenir P.
    Permet dobtenir des temps sous-linéaires en
    moyenne
  • Partitionner P (ou T) en facteurs de taille r
  • Utiliser une méthode de recherche exacte pour
    trouver toutes les occurrences de ces facteurs
    dans T, en temps (sous) linéaire
  • Utiliser une méthode de recherche approchée dans
    un intervalle restreint autour de chaque facteur
    trouvé, en temps (sous) linéaire

18
FASTA (Lipman, Pearson 1985)
  • Alignement local de P (taille m) dans T (taille
    n)
  • Pour une valeur ktup donnée (en général 6 pour
    nuc.2 pour AA), trouver toutes les paires de
    séquences de taille ktup identiques dans P et T
    hot-spot
  • Méthode Table de hashage contenant tous les
    facteurs de taille ktup de P recherche de tous
    les facteurs de taille ktup de T dans la table en
    O(mn)
  • Déterminer des zones denses en identité hot-spot
    consécutifs sur chaque diagonale. Score dune
    zone
  • Score positif pour chaque hot-spot
  • Score négatif pour les espaces entre les hot-spot
  • FASTA garde les 10 zones de score optimal. Zones
    contenant des matchs et mismatchs

19
  • Réaligner chaque zone, en considérant une matrice
    de substitution (PAM ou BLOSUM)
  • Init1 Meilleur alignement obtenu
  • Parmi les 10 zones, garder celles dont le score
    dépasse un seuil cut-off. Combiner les zones
    en une seule
  • Initn Contient insertions/suppressions/misma
    tchs
  • Programmation dynamique dans une bande autour de
    Init1 (bande de taille 16 si ktup2)
  • Opt Meilleur alignement obtenu
  • Au cours de la recherche, statistiques calculées
    pour Init1, Initn, Opt alignements significatifs
    ou non.

20
(No Transcript)
21
BLAST Basic local alignment search tool
  • Similarité locale entre une séquence requête et
    une banque de données
  • Devenu populaire grâce à une implémentation très
    efficace.
  • BLASTP séquence de protéine dans BD de protéines
  • BLASTN séquence de nucléotides dans BD dADN
  • BLASTX séquence de nucléotides (6 ordres de
    lecture) dans BD de protéines
  • TBLASTN séquence de protéine dans BD traduite
  • TBLASTX séquence traduite dans BD traduite
  • BLASTZ Étudié pour aligner de longues séquences
    dADN, utilisé pour lalignement de lhomme et de
    la souris
  • PHI-BLAST Recherche dune expression régulière
    (consensus)
  • PSI-BLAST Construit un consensus, ou matrice de
    score, à partir dun alignement multiple des
    hits de plus haut score obtenus par une
    recherche BLAST initiale

22
Méthode utilisée par BLAST
  • Former la liste de tous les facteurs de taille
    w de la séquence requête P

P
Maximum l-w1 mots
  • Pour chaque facteur f, former la liste de tous
    les mots de taille w dont le score avec f dépasse
    un seuil T
  • Exemple Pour f PQG, PQG, PRG, PKG, PDG, PMG

23
  • Identifier les occurrences exactes des mots de la
    liste dans la BD
  • Pour chaque paire de séquences trouvées, étendre
    lalignement dans les deux directions, jusquà ce
    que le score de lalignement chute de X par
    rapport à sa valeur dorigine. Segment accepté si
    scoregtS

24
  • Le HSP de score maximal sur lensemble de la
    séquence est appelé maximal scoring segment pair
    (MSP)
  • Les alignements locaux HSP sont chaînés pour
    former des alignements plus longs, incluant des
    espaces et des trous.
  • Si le MSP ou les HSP combinés ont un score qui
    dépasse un certain seuil S, il sont affichés

25
Paramètres
  • La séquence format FASTA
  • La banque (compressée)
  • W (taille du mot).
  • Protéines w de 3 à 5, et T 17
  • Donne à peu près 50 mots pour chaque facteur
  • Nucléotides w 12
  • S (seuil de sélection dun score)
  • Matrices de substitution (BLOSUM 62) ou score
    pour les nucléotides (5/-4)

26
Évaluation statistique
  • Expect-value nb de fois où un HSP est attendu
    par chance sur lensemble de la banque. Plus
    cette valeur est faible, plus le HSP est
    significatif
  • P-value P(N) Probabilité du score observé. Plus
    cette valeur est faible, plus le HSP est
    significatif.

27
Alignement de génomes entiers
  • Comparaison de génomes entiers permet de
  • Identifier les séquences codantes dans les 2
    espèces
  • Localiser les sites de reconnaissance des
    facteurs de transcription et les signaux de
    régulation
  • Comprendre les mécanismes et lhistoire de
    lévolution des génomes
  • Comparer lordre des gènes
  • Smith-Waterman, et même FASTA ou BLAST trop lents
    et pas adaptés à la comparaison de génomes
    entiers.
  • Améliorer sensitivité et temps de calcul, sans
    empirer la sélectivité

28
PatternHunter (B. Ma et al 2002)
BLAST trouve une graine de taille 11 qui match,
puis étend
GCNTACACGTCACCATCTGTGCCACCACNCATGTCTCTAGTGATCCCTCA
TAAGTTCCAACAAAGTTTGC

GCCTACACACCGCCAGTTGTG-TTCCTGCTATGTCTCTAGTGAT
CCCTGAAAAGTTCCAGCGTATTTTGC GAGTACTCAACACCAACATTGA
TGGGCAATGGAAAATAGCCTTCGCCATCACACCATTAAGGGTGA----

GAATACTCAACAGCAACATCAAC
GGGCAGCAGAAAATAGGCTTTGCCATCACTGCCATTAAGGATGTGGG -
-----------------TGTTGAGGAAAGCAGACATTGACCTCACCGAGA
GGGCAGGCGAGCTCAGGTA

TTGACAGTACACTCATAGTGTTGAGGAAAGCTGACGTTGACCTCACC
AAGTGGGCAGGAGAACTCACTGA GGATGAGGTGGAGCATATGATCACC
ATCATACAGAACTCAC-------CAAGATTCCAGACTGGTTCTTG

GGATGAGATGGAACGTGTGATGACCAT
TATGCAGAATCCATGCCAGTACAAGATCCCAGACTGGTTCTTG
29
Exemple dune occurrence manquée (Exemple de B.
Ma)
  • Pas de graine de taille 11 qui match, pourtant
    similarité de 80
  • GAGTACTCAACACCAACATTAGTGGGCAATGGAAAAT
  • GAATACTCAACAGCAACATCAATGGGCAGCAGAAAAT
  • Dilemme
  • Sensitivité nécessite des graines courtes
  • Capacité à détecter les homologies
  • Rapidité nécessite des graines plus longues
  • Mega-BLAST utilise des graines de taille 28.

30
PatternHunter utilise des graines espacées
  • 111010010100110111 (appelé modèle)
  • 11 matchs requis (poids11)
  • 7 positions dont care
  • GAGTACTCAACACCAACATTAGTGGCAATGGAAAAT
  • GAATACTCAACAGCAACACTAATGGCAGCAGAAAAT
  • 111010010100110111
  • Hit Tous les matchs requis sont satisfaits
  • Modèle de BLAST 11111111111

31
Simulated sensitivity curves
32
Pourquoi sensitivité meilleure?
  • Les copies shiftées des graines espacées ne
    chevauchent pas trop
  • 111010010100110111 11111111111
  • 111010010100110111 11111111111
  • 111010010100110111 11111111111
  • 111010010100110111 11111111111
  • 111010010100110111 ......
  • 111010010100110111
  • 111010010100110111
  • ......
  • Les Hits à différentes positions sont plus
    indépendants
  • Plus les copies shiftées sont indépendantes, plus
    on augmente la probabilité didentifier une
    homologie. Moins il y a de similarités entre deux
    copies shiftées, plus le modèle est susceptible
    de donner une bonne sensitivité

33
Pourquoi plus rapide avec des graines espacées?
CAA?A??A?C??TA?TGG? ???????? CAA?A??A?C
??TA?TGG? 111010010100110111 111010010100110111
  • TTGACCTCACC?
  • ?
  • TTGACCTCACC?
  • 11111111111
  • 11111111111
  • Une homologie donne lieu à plusieurs hits par
    BLAST (redondance)
  • Graines espacées donnent lieu à moins de hits
    pour chaque homologie

34
Observations (B. Ma)
  • Des modèles différents peuvent détecter
    différentes homologies
  • Deux conséquences
  • Certains modèles sont meilleurs que dautres
  • Meilleure sensitivité
  • PatternHunter I
  • On peut utiliser simultanément plusieurs modèles
    de graines
  • Approcher les 100 de sensitivité
  • PatternHunter II

35
Alignement de lhomme et de la souris par BLASTZ
(Schwartz et al. 2003)
  • Supprimer les répétitions propres à chaque espèce
  • Trouver touts les 12-mers espacés identiques, à
    une transition près, dans les deux génomes.
  • Étendre chaque paire de 12-mers dans les deux
    directions (sans gaps), jusquà ce que le score
    chute en dessous dun certain seuil
  • Si lalignement (sans gaps) trouvé dépasse un
    seuil (disons 300)
  • Étendre lalignement en autorisant les gaps
    (programmation dyn.)
  • Garder lalignement si le score dépasse un seuil
    (disons 5000)
  • Entre chaque paire dalignements, refaire létape
    2. avec des scores moins contraignants. Par
    exemple, 7-mers (match exact), seuils plus
    faibles (par exemple 2000 avec et sans gaps)
  • Rétablir les vraies positions des alignements
    trouvés (étape 1.)

36
Paramètres utilisés
  • Matrice de substitution
  • Gap de taille k pénalisé
  • par un poids de 40030k
  • Score dun alignement multiplié par une valeur
    entre 0 et 1 en fonction de la nature des
    séquences (biais des nucléotides)
  • Les seuils doivent être très élevés pour
    atteindre une spécificité raisonnable (au moins
    3000 pour les alignements avant gap)
  • 12-mers espacé (19 positions) 1110100110010101111
    (Ma et.al 2002)
  • Autoriser une transition (A-G, G-A, C-T, T-C)
Write a Comment
User Comments (0)
About PowerShow.com