Heuristiques pour lalignement et la recherche dans les bases de donnes

About This Presentation

Title:

Heuristiques pour lalignement et la recherche dans les bases de donnes

Description:

Alignement local avec chaque s quence d'ADN (GenBank) ou de prot ines (Swiss-Prot) ... Score d'un alignement multipli par une valeur entre 0 et 1 en fonction de la ... – PowerPoint PPT presentation

Number of Views:89

Avg rating:3.0/5.0

Slides: 37

Provided by: mab66

Category:

more less

Transcript and Presenter's Notes

Title: Heuristiques pour lalignement et la recherche dans les bases de donnes

1
Heuristiques pour lalignement et la recherche
dans les bases de données
2
Recherche dans les bases de données

Tache courante dun biologiste
Est-ce quune nouvelle séquence a déjà été
complètement ou partiellement déposée dans les
bases de données?
Est-ce que cette séquence contient un gène?
Est-ce que ce gène appartient à une famille
connue? Quelle est la protéine encodée?
Existe-t-il dautres gènes homologues?
Existe-t-il des séquences non-codantes
similaires. Répétitions ou séquences régulatrices
Logiciels les plus connus Smith-Waterman, FASTA
et BLAST

3
(No Transcript)
4
Les bases de données bioinformatiques les plus
utilisées

NCBI, National Center for Biotechnology
Information
GenBank Séquences dADN (3 billion de paires de
bases)
Site officiel de BLAST
PubMed Permet la recherche de références
COGs Familles de gènes orthologues
EMBL, The European Molecular Biology Laboratory
ExPASy, Expert Protein Analysis System,
Protéomique
Swiss-Prot Séquences de protéines
PROSITE Domaines et familles de protéines
SWISS-MODEL Outil de prédiction 3D de protéines
Différents outils de recherche
PDB, Protein Data Bank
Base de données de structures 3D de protéines
Visualisation et manipulation de structures
SCOP, Structural Classification of Proteins

5
Problèmes algorithmiques

Banques de données trop grandes nécessitant des
algorithmes très rapides (sous linéaires)
Alignement de génomes complets
Tenir compte de la complexité biologique des
séquences un algorithme optimal ne donne pas
nécessairement des résultats biologiques
satisfaisants
Développer des heuristiques qui allient rapidité
et résultats biologiques satisfaisants

6
Recherche dans les banques de données

Fonction dune nouvelle séquence?
Démarche générale
Comparer la séquence requête avec les banques
PROSITE ou BLOCKS, à la recherche de séquences
conservées
Alignement local avec chaque séquence dADN
(GenBank) ou de protéines (Swiss-Prot)
Utiliser FASTA ou BLAST
Essayer différentes matrices de substitution
(PAM, BLOSUM)
Optimiser les alignements obtenus avec
Smith-Waterman

7
Matrices PAM

PAM Point Accepted Mutation
Matrices de substitution pour les AA. dont les
scores sont liés à la distance dévolution
Unité de mesure du taux de divergence entre 2
seq. dAA, distance dévolution
Exp. S1 diverge de 5 PAM de S2
Définition S1, S2 divergent d1 unité PAM si la
suite de mutations (substitutions) qui a converti
S1 en S2 est telle quen moyenne, une seule
mutation est survenue tous les 100 AA.

Mutations acceptées celles incorporées dans la
protéine et transmises. Soit sans effet, soit
bénéfique à lorganisme.
Pas de correspondance absolue entre unités PAM et
divergence de séquences. Plusieurs mut. peuvent
être survenues à la même pos.
Divergence dAA lt unités PAM
Exemple Deux seq. qui divergent de 100 PAM ne
sont pas différentes à chaque pos.
En fait, deux seq. qui divergent de 200 PAM sont
susceptibles de contenir 25 didentité de seq.

9
Matrices PAM

Différentes matrices PAM pour comparer des seq.
dAA qui divergent dun nb spécifique dunités
PAM 120 PAM, 250 PAM
Signification La case (i,j) dune mat. n PAM
contient la fréquence avec laquelle lAA Ai est
remplacée par lAA Aj dans les seq. qui divergent
de n unités PAM
Méthode idéale de const. dune mat. n PAM
Considérer un ensemble de seq qui divergent de n
unités PAM
Aligner les seq. 2 à 2
Compter le nb. dalignements Ai,Aj, pour chaque
(i,j). Diviser par le nb total dappariements -
- - gt f(i,j)
Case (i,j) de la mat. Contient log f(i,j)/
f(i)f(j) où f(i) fréquence de Ai et f(j) freq.
de Aj

Méthode précédente nécessite daligner
correctement les séquences. Alignement pour avoir
la matrice, et matrice pour avoir lalignement???
Méthode de Dayhoff
Pour des seq. très similaires (moins de 15 de
différence), principalement la méthode idéale
- - - gt M Matrice 1 PAM.
Séquences plus divergentes Mn(i,j) probabilité
que Ai se transforme en Aj en n unités PAM
Case (i,j) de la matrice n PAM
log f(i) Mn(i,j) / f(i)f(j) log
Mn(i,j) / f(j)
Dans la pratique, on essaye plusieurs matrices
PAM différentes. PAM 250 est la plus utilisée.

11
(No Transcript)
12
PROSITE et BLOCKS

PROSITE Dictionnaire de sites de protéines. Lié
à Swiss-Prot.
Motifs représentés par une exp. reg. Ou par
une matrice consensus
Exemple GGN SGAGxRxSGACx(2)IV ED.
BLOCKS Dérivé de PROSITE. Dictionnaire de
séquences conservées.
BLOCK Petit intervalle très conservé dun
alignement (sans gaps). Similarité de séquence,
mais pas nécessairement similarité de fonction.

13
Matrices BLOSUM

Dérivées de BLOCKS. Ensemble de blocs de n
colonnes et k lignes
Matrice BLOSUM Nb de fois que Ai, Aj se trouvent
appariés, divisé par le nb de fois quils
seraient appariés dans des seq. aléatoires.
Pour tous Ai, Aj, n(i,j) nb dappariements
(Ai,Aj)
f(i) freq. de Ai f(j) freq. de Aj
e(i,j) n (k2) f(i) f(j)
s(i,j) log n(i,j) / e(i,j)

14
BLOSUM (suite)

Caractéristique Élimine la redondance dans les
blocs.
Matrice BLOSUM x (généralement entre 50 et 80)
Pour tout couple de lignes contenant plus de x
de similarité, en garder une seule.
La plus utilisée est BLOSUM 62

15
Matrice BLOSUM 62
Score positif pour les identités, et négatif pour
les mismatchs
16
Qualité dun algorithme de comparaison de
séquences

Sélectivité (spécificité) Capacité à ne détecter
que la réalité biologique et rien de plus
Problème des Faux-Positifs
Sensibilité Capacité à détecter tout ce qui est
intéressant sur le plan biologique
Problème des Faux-Négatifs

17
Algorithmes de filtrage

Recherche de P de taille m dans S de taille n à k
erreurs près
Programmation dynamique Temps O(mn)
Différentes améliorations Temps O(kn)
Algorithmes de filtrage Effectuer un premier
passage sur S pour éliminer toutes les parties
qui ne sont pas susceptibles de contenir P.
Permet dobtenir des temps sous-linéaires en
moyenne
Partitionner P (ou T) en facteurs de taille r
Utiliser une méthode de recherche exacte pour
trouver toutes les occurrences de ces facteurs
dans T, en temps (sous) linéaire
Utiliser une méthode de recherche approchée dans
un intervalle restreint autour de chaque facteur
trouvé, en temps (sous) linéaire

18
FASTA (Lipman, Pearson 1985)

Alignement local de P (taille m) dans T (taille
n)
Pour une valeur ktup donnée (en général 6 pour
nuc.2 pour AA), trouver toutes les paires de
séquences de taille ktup identiques dans P et T
hot-spot
Méthode Table de hashage contenant tous les
facteurs de taille ktup de P recherche de tous
les facteurs de taille ktup de T dans la table en
O(mn)
Déterminer des zones denses en identité hot-spot
consécutifs sur chaque diagonale. Score dune
zone
Score positif pour chaque hot-spot
Score négatif pour les espaces entre les hot-spot
FASTA garde les 10 zones de score optimal. Zones
contenant des matchs et mismatchs

Réaligner chaque zone, en considérant une matrice
de substitution (PAM ou BLOSUM)
Init1 Meilleur alignement obtenu
Parmi les 10 zones, garder celles dont le score
dépasse un seuil cut-off. Combiner les zones
en une seule
Initn Contient insertions/suppressions/misma
tchs
Programmation dynamique dans une bande autour de
Init1 (bande de taille 16 si ktup2)
Opt Meilleur alignement obtenu
Au cours de la recherche, statistiques calculées
pour Init1, Initn, Opt alignements significatifs
ou non.

20
(No Transcript)
21
BLAST Basic local alignment search tool

Similarité locale entre une séquence requête et
une banque de données
Devenu populaire grâce à une implémentation très
efficace.
BLASTP séquence de protéine dans BD de protéines
BLASTN séquence de nucléotides dans BD dADN
BLASTX séquence de nucléotides (6 ordres de
lecture) dans BD de protéines
TBLASTN séquence de protéine dans BD traduite
TBLASTX séquence traduite dans BD traduite
BLASTZ Étudié pour aligner de longues séquences
dADN, utilisé pour lalignement de lhomme et de
la souris
PHI-BLAST Recherche dune expression régulière
(consensus)
PSI-BLAST Construit un consensus, ou matrice de
score, à partir dun alignement multiple des
hits de plus haut score obtenus par une
recherche BLAST initiale

22
Méthode utilisée par BLAST

Former la liste de tous les facteurs de taille
w de la séquence requête P

P
Maximum l-w1 mots

Pour chaque facteur f, former la liste de tous
les mots de taille w dont le score avec f dépasse
un seuil T
Exemple Pour f PQG, PQG, PRG, PKG, PDG, PMG

Identifier les occurrences exactes des mots de la
liste dans la BD
Pour chaque paire de séquences trouvées, étendre
lalignement dans les deux directions, jusquà ce
que le score de lalignement chute de X par
rapport à sa valeur dorigine. Segment accepté si
scoregtS

Le HSP de score maximal sur lensemble de la
séquence est appelé maximal scoring segment pair
(MSP)
Les alignements locaux HSP sont chaînés pour
former des alignements plus longs, incluant des
espaces et des trous.
Si le MSP ou les HSP combinés ont un score qui
dépasse un certain seuil S, il sont affichés

25
Paramètres

La séquence format FASTA
La banque (compressée)
W (taille du mot).
Protéines w de 3 à 5, et T 17
Donne à peu près 50 mots pour chaque facteur
Nucléotides w 12
S (seuil de sélection dun score)
Matrices de substitution (BLOSUM 62) ou score
pour les nucléotides (5/-4)

26
Évaluation statistique

Expect-value nb de fois où un HSP est attendu
par chance sur lensemble de la banque. Plus
cette valeur est faible, plus le HSP est
significatif
P-value P(N) Probabilité du score observé. Plus
cette valeur est faible, plus le HSP est
significatif.

27
Alignement de génomes entiers

Comparaison de génomes entiers permet de
Identifier les séquences codantes dans les 2
espèces
Localiser les sites de reconnaissance des
facteurs de transcription et les signaux de
régulation
Comprendre les mécanismes et lhistoire de
lévolution des génomes
Comparer lordre des gènes
Smith-Waterman, et même FASTA ou BLAST trop lents
et pas adaptés à la comparaison de génomes
entiers.
Améliorer sensitivité et temps de calcul, sans
empirer la sélectivité

28
PatternHunter (B. Ma et al 2002)
BLAST trouve une graine de taille 11 qui match,
puis étend
GCNTACACGTCACCATCTGTGCCACCACNCATGTCTCTAGTGATCCCTCA
TAAGTTCCAACAAAGTTTGC

GCCTACACACCGCCAGTTGTG-TTCCTGCTATGTCTCTAGTGAT
CCCTGAAAAGTTCCAGCGTATTTTGC GAGTACTCAACACCAACATTGA
TGGGCAATGGAAAATAGCCTTCGCCATCACACCATTAAGGGTGA----

GAATACTCAACAGCAACATCAAC
GGGCAGCAGAAAATAGGCTTTGCCATCACTGCCATTAAGGATGTGGG -
-----------------TGTTGAGGAAAGCAGACATTGACCTCACCGAGA
GGGCAGGCGAGCTCAGGTA

TTGACAGTACACTCATAGTGTTGAGGAAAGCTGACGTTGACCTCACC
AAGTGGGCAGGAGAACTCACTGA GGATGAGGTGGAGCATATGATCACC
ATCATACAGAACTCAC-------CAAGATTCCAGACTGGTTCTTG

GGATGAGATGGAACGTGTGATGACCAT
TATGCAGAATCCATGCCAGTACAAGATCCCAGACTGGTTCTTG
29
Exemple dune occurrence manquée (Exemple de B.
Ma)

Pas de graine de taille 11 qui match, pourtant
similarité de 80
GAGTACTCAACACCAACATTAGTGGGCAATGGAAAAT
GAATACTCAACAGCAACATCAATGGGCAGCAGAAAAT
Dilemme
Sensitivité nécessite des graines courtes
Capacité à détecter les homologies
Rapidité nécessite des graines plus longues
Mega-BLAST utilise des graines de taille 28.

30
PatternHunter utilise des graines espacées

111010010100110111 (appelé modèle)
11 matchs requis (poids11)
7 positions dont care
GAGTACTCAACACCAACATTAGTGGCAATGGAAAAT
GAATACTCAACAGCAACACTAATGGCAGCAGAAAAT
111010010100110111
Hit Tous les matchs requis sont satisfaits
Modèle de BLAST 11111111111

31
Simulated sensitivity curves
32
Pourquoi sensitivité meilleure?

Les copies shiftées des graines espacées ne
chevauchent pas trop
111010010100110111 11111111111
111010010100110111 11111111111
111010010100110111 11111111111
111010010100110111 11111111111
111010010100110111 ......
111010010100110111
111010010100110111
......
Les Hits à différentes positions sont plus
indépendants
Plus les copies shiftées sont indépendantes, plus
on augmente la probabilité didentifier une
homologie. Moins il y a de similarités entre deux
copies shiftées, plus le modèle est susceptible
de donner une bonne sensitivité

33
Pourquoi plus rapide avec des graines espacées?
CAA?A??A?C??TA?TGG? ???????? CAA?A??A?C
??TA?TGG? 111010010100110111 111010010100110111

TTGACCTCACC?
?
TTGACCTCACC?
11111111111
11111111111

Une homologie donne lieu à plusieurs hits par
BLAST (redondance)
Graines espacées donnent lieu à moins de hits
pour chaque homologie

34
Observations (B. Ma)

Des modèles différents peuvent détecter
différentes homologies
Deux conséquences
Certains modèles sont meilleurs que dautres
Meilleure sensitivité
PatternHunter I
On peut utiliser simultanément plusieurs modèles
de graines
Approcher les 100 de sensitivité
PatternHunter II

35
Alignement de lhomme et de la souris par BLASTZ
(Schwartz et al. 2003)

Supprimer les répétitions propres à chaque espèce
Trouver touts les 12-mers espacés identiques, à
une transition près, dans les deux génomes.
Étendre chaque paire de 12-mers dans les deux
directions (sans gaps), jusquà ce que le score
chute en dessous dun certain seuil
Si lalignement (sans gaps) trouvé dépasse un
seuil (disons 300)
Étendre lalignement en autorisant les gaps
(programmation dyn.)
Garder lalignement si le score dépasse un seuil
(disons 5000)
Entre chaque paire dalignements, refaire létape
2. avec des scores moins contraignants. Par
exemple, 7-mers (match exact), seuils plus
faibles (par exemple 2000 avec et sans gaps)
Rétablir les vraies positions des alignements
trouvés (étape 1.)

36
Paramètres utilisés

Matrice de substitution
Gap de taille k pénalisé
par un poids de 40030k
Score dun alignement multiplié par une valeur
entre 0 et 1 en fonction de la nature des
séquences (biais des nucléotides)
Les seuils doivent être très élevés pour
atteindre une spécificité raisonnable (au moins
3000 pour les alignements avant gap)
12-mers espacé (19 positions) 1110100110010101111
(Ma et.al 2002)
Autoriser une transition (A-G, G-A, C-T, T-C)

Write a Comment

User Comments (0)

About PowerShow.com

Heuristiques pour lalignement et la recherche dans les bases de donnes - PowerPoint PPT Presentation

Heuristiques pour lalignement et la recherche dans les bases de donnes

Alignement local avec chaque s quence d'ADN (GenBank) ou de prot ines (Swiss-Prot) ... Score d'un alignement multipli par une valeur entre 0 et 1 en fonction de la ... – PowerPoint PPT presentation