Title: Heuristiques pour lalignement et la recherche dans les bases de donnes
1Heuristiques pour lalignement et la recherche
dans les bases de données
2Recherche dans les bases de données
- Tache courante dun biologiste
- Est-ce quune nouvelle séquence a déjà été
complètement ou partiellement déposée dans les
bases de données? - Est-ce que cette séquence contient un gène?
- Est-ce que ce gène appartient à une famille
connue? Quelle est la protéine encodée? - Existe-t-il dautres gènes homologues?
- Existe-t-il des séquences non-codantes
similaires. Répétitions ou séquences régulatrices - Logiciels les plus connus Smith-Waterman, FASTA
et BLAST
3(No Transcript)
4Les bases de données bioinformatiques les plus
utilisées
- NCBI, National Center for Biotechnology
Information - GenBank Séquences dADN (3 billion de paires de
bases) - Site officiel de BLAST
- PubMed Permet la recherche de références
- COGs Familles de gènes orthologues
- EMBL, The European Molecular Biology Laboratory
- ExPASy, Expert Protein Analysis System,
Protéomique - Swiss-Prot Séquences de protéines
- PROSITE Domaines et familles de protéines
- SWISS-MODEL Outil de prédiction 3D de protéines
- Différents outils de recherche
- PDB, Protein Data Bank
- Base de données de structures 3D de protéines
- Visualisation et manipulation de structures
- SCOP, Structural Classification of Proteins
5Problèmes algorithmiques
- Banques de données trop grandes nécessitant des
algorithmes très rapides (sous linéaires) - Alignement de génomes complets
- Tenir compte de la complexité biologique des
séquences un algorithme optimal ne donne pas
nécessairement des résultats biologiques
satisfaisants - Développer des heuristiques qui allient rapidité
et résultats biologiques satisfaisants
6Recherche dans les banques de données
- Fonction dune nouvelle séquence?
- Démarche générale
- Comparer la séquence requête avec les banques
PROSITE ou BLOCKS, à la recherche de séquences
conservées - Alignement local avec chaque séquence dADN
(GenBank) ou de protéines (Swiss-Prot) - Utiliser FASTA ou BLAST
- Essayer différentes matrices de substitution
(PAM, BLOSUM) - Optimiser les alignements obtenus avec
Smith-Waterman
7Matrices PAM
- PAM Point Accepted Mutation
- Matrices de substitution pour les AA. dont les
scores sont liés à la distance dévolution - Unité de mesure du taux de divergence entre 2
seq. dAA, distance dévolution - Exp. S1 diverge de 5 PAM de S2
- Définition S1, S2 divergent d1 unité PAM si la
suite de mutations (substitutions) qui a converti
S1 en S2 est telle quen moyenne, une seule
mutation est survenue tous les 100 AA.
8- Mutations acceptées celles incorporées dans la
protéine et transmises. Soit sans effet, soit
bénéfique à lorganisme. - Pas de correspondance absolue entre unités PAM et
divergence de séquences. Plusieurs mut. peuvent
être survenues à la même pos. - Divergence dAA lt unités PAM
- Exemple Deux seq. qui divergent de 100 PAM ne
sont pas différentes à chaque pos. - En fait, deux seq. qui divergent de 200 PAM sont
susceptibles de contenir 25 didentité de seq.
9Matrices PAM
- Différentes matrices PAM pour comparer des seq.
dAA qui divergent dun nb spécifique dunités
PAM 120 PAM, 250 PAM - Signification La case (i,j) dune mat. n PAM
contient la fréquence avec laquelle lAA Ai est
remplacée par lAA Aj dans les seq. qui divergent
de n unités PAM - Méthode idéale de const. dune mat. n PAM
- Considérer un ensemble de seq qui divergent de n
unités PAM - Aligner les seq. 2 à 2
- Compter le nb. dalignements Ai,Aj, pour chaque
(i,j). Diviser par le nb total dappariements -
- - gt f(i,j) - Case (i,j) de la mat. Contient log f(i,j)/
f(i)f(j) où f(i) fréquence de Ai et f(j) freq.
de Aj
10- Méthode précédente nécessite daligner
correctement les séquences. Alignement pour avoir
la matrice, et matrice pour avoir lalignement??? - Méthode de Dayhoff
- Pour des seq. très similaires (moins de 15 de
différence), principalement la méthode idéale - - - - gt M Matrice 1 PAM.
- Séquences plus divergentes Mn(i,j) probabilité
que Ai se transforme en Aj en n unités PAM - Case (i,j) de la matrice n PAM
- log f(i) Mn(i,j) / f(i)f(j) log
Mn(i,j) / f(j) - Dans la pratique, on essaye plusieurs matrices
PAM différentes. PAM 250 est la plus utilisée.
11(No Transcript)
12PROSITE et BLOCKS
- PROSITE Dictionnaire de sites de protéines. Lié
à Swiss-Prot. - Motifs représentés par une exp. reg. Ou par
une matrice consensus - Exemple GGN SGAGxRxSGACx(2)IV ED.
- BLOCKS Dérivé de PROSITE. Dictionnaire de
séquences conservées. - BLOCK Petit intervalle très conservé dun
alignement (sans gaps). Similarité de séquence,
mais pas nécessairement similarité de fonction.
13Matrices BLOSUM
- Dérivées de BLOCKS. Ensemble de blocs de n
colonnes et k lignes - Matrice BLOSUM Nb de fois que Ai, Aj se trouvent
appariés, divisé par le nb de fois quils
seraient appariés dans des seq. aléatoires. - Pour tous Ai, Aj, n(i,j) nb dappariements
(Ai,Aj) - f(i) freq. de Ai f(j) freq. de Aj
- e(i,j) n (k2) f(i) f(j)
- s(i,j) log n(i,j) / e(i,j)
-
14BLOSUM (suite)
- Caractéristique Élimine la redondance dans les
blocs. - Matrice BLOSUM x (généralement entre 50 et 80)
Pour tout couple de lignes contenant plus de x
de similarité, en garder une seule. - La plus utilisée est BLOSUM 62
15Matrice BLOSUM 62
Score positif pour les identités, et négatif pour
les mismatchs
16Qualité dun algorithme de comparaison de
séquences
- Sélectivité (spécificité) Capacité à ne détecter
que la réalité biologique et rien de plus - Problème des Faux-Positifs
- Sensibilité Capacité à détecter tout ce qui est
intéressant sur le plan biologique - Problème des Faux-Négatifs
17Algorithmes de filtrage
- Recherche de P de taille m dans S de taille n à k
erreurs près - Programmation dynamique Temps O(mn)
- Différentes améliorations Temps O(kn)
- Algorithmes de filtrage Effectuer un premier
passage sur S pour éliminer toutes les parties
qui ne sont pas susceptibles de contenir P.
Permet dobtenir des temps sous-linéaires en
moyenne - Partitionner P (ou T) en facteurs de taille r
- Utiliser une méthode de recherche exacte pour
trouver toutes les occurrences de ces facteurs
dans T, en temps (sous) linéaire - Utiliser une méthode de recherche approchée dans
un intervalle restreint autour de chaque facteur
trouvé, en temps (sous) linéaire
18FASTA (Lipman, Pearson 1985)
- Alignement local de P (taille m) dans T (taille
n) - Pour une valeur ktup donnée (en général 6 pour
nuc.2 pour AA), trouver toutes les paires de
séquences de taille ktup identiques dans P et T
hot-spot
- Méthode Table de hashage contenant tous les
facteurs de taille ktup de P recherche de tous
les facteurs de taille ktup de T dans la table en
O(mn) - Déterminer des zones denses en identité hot-spot
consécutifs sur chaque diagonale. Score dune
zone - Score positif pour chaque hot-spot
- Score négatif pour les espaces entre les hot-spot
- FASTA garde les 10 zones de score optimal. Zones
contenant des matchs et mismatchs
19- Réaligner chaque zone, en considérant une matrice
de substitution (PAM ou BLOSUM) - Init1 Meilleur alignement obtenu
- Parmi les 10 zones, garder celles dont le score
dépasse un seuil cut-off. Combiner les zones
en une seule - Initn Contient insertions/suppressions/misma
tchs - Programmation dynamique dans une bande autour de
Init1 (bande de taille 16 si ktup2) - Opt Meilleur alignement obtenu
- Au cours de la recherche, statistiques calculées
pour Init1, Initn, Opt alignements significatifs
ou non.
20(No Transcript)
21BLAST Basic local alignment search tool
- Similarité locale entre une séquence requête et
une banque de données - Devenu populaire grâce à une implémentation très
efficace. - BLASTP séquence de protéine dans BD de protéines
- BLASTN séquence de nucléotides dans BD dADN
- BLASTX séquence de nucléotides (6 ordres de
lecture) dans BD de protéines - TBLASTN séquence de protéine dans BD traduite
- TBLASTX séquence traduite dans BD traduite
- BLASTZ Étudié pour aligner de longues séquences
dADN, utilisé pour lalignement de lhomme et de
la souris - PHI-BLAST Recherche dune expression régulière
(consensus) - PSI-BLAST Construit un consensus, ou matrice de
score, à partir dun alignement multiple des
hits de plus haut score obtenus par une
recherche BLAST initiale
22Méthode utilisée par BLAST
- Former la liste de tous les facteurs de taille
w de la séquence requête P
P
Maximum l-w1 mots
- Pour chaque facteur f, former la liste de tous
les mots de taille w dont le score avec f dépasse
un seuil T - Exemple Pour f PQG, PQG, PRG, PKG, PDG, PMG
23- Identifier les occurrences exactes des mots de la
liste dans la BD - Pour chaque paire de séquences trouvées, étendre
lalignement dans les deux directions, jusquà ce
que le score de lalignement chute de X par
rapport à sa valeur dorigine. Segment accepté si
scoregtS
24- Le HSP de score maximal sur lensemble de la
séquence est appelé maximal scoring segment pair
(MSP) - Les alignements locaux HSP sont chaînés pour
former des alignements plus longs, incluant des
espaces et des trous. - Si le MSP ou les HSP combinés ont un score qui
dépasse un certain seuil S, il sont affichés
25Paramètres
- La séquence format FASTA
- La banque (compressée)
- W (taille du mot).
- Protéines w de 3 à 5, et T 17
- Donne à peu près 50 mots pour chaque facteur
- Nucléotides w 12
- S (seuil de sélection dun score)
- Matrices de substitution (BLOSUM 62) ou score
pour les nucléotides (5/-4)
26Évaluation statistique
- Expect-value nb de fois où un HSP est attendu
par chance sur lensemble de la banque. Plus
cette valeur est faible, plus le HSP est
significatif - P-value P(N) Probabilité du score observé. Plus
cette valeur est faible, plus le HSP est
significatif.
27Alignement de génomes entiers
- Comparaison de génomes entiers permet de
- Identifier les séquences codantes dans les 2
espèces - Localiser les sites de reconnaissance des
facteurs de transcription et les signaux de
régulation - Comprendre les mécanismes et lhistoire de
lévolution des génomes - Comparer lordre des gènes
- Smith-Waterman, et même FASTA ou BLAST trop lents
et pas adaptés à la comparaison de génomes
entiers. - Améliorer sensitivité et temps de calcul, sans
empirer la sélectivité
28PatternHunter (B. Ma et al 2002)
BLAST trouve une graine de taille 11 qui match,
puis étend
GCNTACACGTCACCATCTGTGCCACCACNCATGTCTCTAGTGATCCCTCA
TAAGTTCCAACAAAGTTTGC
GCCTACACACCGCCAGTTGTG-TTCCTGCTATGTCTCTAGTGAT
CCCTGAAAAGTTCCAGCGTATTTTGC GAGTACTCAACACCAACATTGA
TGGGCAATGGAAAATAGCCTTCGCCATCACACCATTAAGGGTGA----
GAATACTCAACAGCAACATCAAC
GGGCAGCAGAAAATAGGCTTTGCCATCACTGCCATTAAGGATGTGGG -
-----------------TGTTGAGGAAAGCAGACATTGACCTCACCGAGA
GGGCAGGCGAGCTCAGGTA
TTGACAGTACACTCATAGTGTTGAGGAAAGCTGACGTTGACCTCACC
AAGTGGGCAGGAGAACTCACTGA GGATGAGGTGGAGCATATGATCACC
ATCATACAGAACTCAC-------CAAGATTCCAGACTGGTTCTTG
GGATGAGATGGAACGTGTGATGACCAT
TATGCAGAATCCATGCCAGTACAAGATCCCAGACTGGTTCTTG
29Exemple dune occurrence manquée (Exemple de B.
Ma)
- Pas de graine de taille 11 qui match, pourtant
similarité de 80 - GAGTACTCAACACCAACATTAGTGGGCAATGGAAAAT
-
- GAATACTCAACAGCAACATCAATGGGCAGCAGAAAAT
- Dilemme
- Sensitivité nécessite des graines courtes
- Capacité à détecter les homologies
- Rapidité nécessite des graines plus longues
- Mega-BLAST utilise des graines de taille 28.
30PatternHunter utilise des graines espacées
- 111010010100110111 (appelé modèle)
- 11 matchs requis (poids11)
- 7 positions dont care
- GAGTACTCAACACCAACATTAGTGGCAATGGAAAAT
-
- GAATACTCAACAGCAACACTAATGGCAGCAGAAAAT
- 111010010100110111
- Hit Tous les matchs requis sont satisfaits
- Modèle de BLAST 11111111111
31Simulated sensitivity curves
32Pourquoi sensitivité meilleure?
- Les copies shiftées des graines espacées ne
chevauchent pas trop - 111010010100110111 11111111111
- 111010010100110111 11111111111
- 111010010100110111 11111111111
- 111010010100110111 11111111111
- 111010010100110111 ......
- 111010010100110111
- 111010010100110111
- ......
- Les Hits à différentes positions sont plus
indépendants - Plus les copies shiftées sont indépendantes, plus
on augmente la probabilité didentifier une
homologie. Moins il y a de similarités entre deux
copies shiftées, plus le modèle est susceptible
de donner une bonne sensitivité
33Pourquoi plus rapide avec des graines espacées?
CAA?A??A?C??TA?TGG? ???????? CAA?A??A?C
??TA?TGG? 111010010100110111 111010010100110111
- TTGACCTCACC?
- ?
- TTGACCTCACC?
- 11111111111
- 11111111111
- Une homologie donne lieu à plusieurs hits par
BLAST (redondance) - Graines espacées donnent lieu à moins de hits
pour chaque homologie
34Observations (B. Ma)
- Des modèles différents peuvent détecter
différentes homologies - Deux conséquences
- Certains modèles sont meilleurs que dautres
- Meilleure sensitivité
- PatternHunter I
- On peut utiliser simultanément plusieurs modèles
de graines - Approcher les 100 de sensitivité
- PatternHunter II
35Alignement de lhomme et de la souris par BLASTZ
(Schwartz et al. 2003)
- Supprimer les répétitions propres à chaque espèce
- Trouver touts les 12-mers espacés identiques, à
une transition près, dans les deux génomes. - Étendre chaque paire de 12-mers dans les deux
directions (sans gaps), jusquà ce que le score
chute en dessous dun certain seuil - Si lalignement (sans gaps) trouvé dépasse un
seuil (disons 300) - Étendre lalignement en autorisant les gaps
(programmation dyn.) - Garder lalignement si le score dépasse un seuil
(disons 5000) - Entre chaque paire dalignements, refaire létape
2. avec des scores moins contraignants. Par
exemple, 7-mers (match exact), seuils plus
faibles (par exemple 2000 avec et sans gaps) - Rétablir les vraies positions des alignements
trouvés (étape 1.)
36Paramètres utilisés
- Matrice de substitution
- Gap de taille k pénalisé
- par un poids de 40030k
- Score dun alignement multiplié par une valeur
entre 0 et 1 en fonction de la nature des
séquences (biais des nucléotides) - Les seuils doivent être très élevés pour
atteindre une spécificité raisonnable (au moins
3000 pour les alignements avant gap) - 12-mers espacé (19 positions) 1110100110010101111
(Ma et.al 2002) - Autoriser une transition (A-G, G-A, C-T, T-C)