LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES - PowerPoint PPT Presentation

About This Presentation
Title:

LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES

Description:

Ce n'est que dans les ann es 1940-1960, que l'on a pu d terminer que le mat riel ... car pour comprendre le g nome actuel, il est n cessaire de conna tre les ... – PowerPoint PPT presentation

Number of Views:416
Avg rating:3.0/5.0

less

Transcript and Presenter's Notes

Title: LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES


1
LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES
  • T. AL ANI
  • Laboratoire A2SI - Groupe ESIEE

2
1. Introduction
  • Le terme "génome" a été introduit en 1920 par
    Hans Winkler pour désigner l'ensemble (haploïde)
    des gènes d'un organisme. La nature du gène était
    alors inconnue. Ce n'est que dans les années
    1940-1960, que l'on a pu déterminer que le
    matériel génétique est constitué d'ADN ou d'ARN
    pour certains virus, et que l'on a découvert
    comment la succession des bases (la séquence)
    permet de coder une protéine. Nous sommes ainsi
    passés d'une définition théorique du génome
    (ensemble des gènes) à une définition physique
    le génome est constitué de molécules d'ADN.

3
Introduction (suite)
  • Chez les bactéries, ces deux définitions
    concordent le génome d'Escherichia coli, est
    formé d'une molécule d'ADN circulaire dans
    laquelle les gènes sont pratiquement accolés les
    uns aux autres.
  • Par contre, chez de nombreux eucaryotes et en
    particulier chez les vertébrés, le génome ne se
    limite pas à l'ensemble des gènes. Bien au
    contraire, les gènes ne constituent qu'une faible
    portion du génome.

4
Introduction (suite)
  • Ainsi, alors que la fonction primordiale du
    génome est de servir de support de l'information
    génétique, une fraction importante du génome ne
    contient apparemment aucune information.

5
Introduction (suite)
  • Différentes hypothèses ont été proposées pour
    expliquer cette situation paradoxale.
  • Certains auteurs pensent que l'ADN non génique
    est inutile et s'accumule dans le génome
    simplement parce qu'il n'est pas nuisible à
    l'individu.
  • D'autres considèrent au contraire que la vaste
    majorité de l'ADN participe à l'organisation du
    génome, système complexe et ordonné qui intègre
    de multiples fonctions.

6
Introduction (suite)
  • Cette question n'est pas encore tranchée. Ce qui
    est clair, c'est que pour comprendre le génome
    des vertébrés, il est nécessaire d'en étudier les
    65 à 99,9 qui sont constitués de séquences
    non-codantes.

7
Introduction (suite)
  • La compréhension du génome implique à la fois une
    étude fonctionnelle, structurale et évolutive.
  • L'étude fonctionnelle vise à identifier les
    différentes informations génétiques contenues
    dans le génome.
  • L'étude structurale a pour objet de connaître les
    différents niveaux d'organisation du génome et
    d'essayer de comprendre comment cette
    organisation est en lien avec la fonction du
    génome.
  • L'étude évolutive s'impose car pour comprendre le
    génome actuel, il est nécessaire de connaître les
    forces évolutives qui l'ont façonné.

8
Introduction (suite)
  • Même si le génome des vertébrés reste à bien des
    égards méconnu, des connaissances importantes se
    sont accumulées et une vision globale du génome
    commence à émerger.

9
Introduction (suite)
  • Lacide désoxyribonucléique (ADN) est le support
    de l'information génétique de tous les organismes
    vivants autonomes.
  • Chez les eucaryotes, cette information génétique
    est contenue dans le noyau cellulaire, délimité
    par une membrane, ainsi que, pour une plus faible
    part, dans les organites cytoplasmiques
    (mitochondries, chloroplastes).

10
Introduction (suite)
  • Le génome nucléaire est fragmenté en plusieurs
    molécules linéaires d'ADN, qui constituent les
    chromosomes. La taille du génome correspond au
    nombre de paires de bases contenues dans les
    chromosomes d'une cellule haploïde. La taille du
    génome est généralement constante pour une
    espèce(d'où la "valeur C" pour la désigner).

11
Introduction (suite)
  • Le génome a pour fonction première de contenir
    l'information génétique nécessaire au
    développement, à la survie et à la reproduction
    de l'organisme. Nous nous attendons donc à ce que
    la taille du génome soit proportionnelle à la
    complexité de l'organisme. Or nous savons depuis
    plus de 40 ans Mirsky et Ris 1951 que la taille
    des génomes n'est pas en relation directe avec la
    complexité d'un organisme, ni avec le nombre de
    ses gènes (paradoxe de la valeur C).
  • Mirsky A.E. Ris H. (1951) The DNA content of
    animal cells and its evolutionary significance.
    J. Gen. Physiol. 34451-462

12
Introduction (suite)
  • Contrairement à la taille des génomes, le nombre
    de gènes codant pour des protéines semble être
    corrélé (grossièrement) avec le degré de
    complexité de l'organisme Cavalier-Smith 1985.
  • Cavallier-Smith T. (1985) Eukaryote gene
    numbers, non-coding DNA and genome size. In The
    evolution of genome size. Cavallier-Smith T (ed)
    ,Wiley, London, pp. 69-103

13
Introduction (suite)
  • Pour progresser dans la compréhension du génome
    des vertébrés, il faut essayer d'avoir une vision
    globale de son fonctionnement, de son
    organisation et de son évolution. L'objectif de
    ce chapitre est de faire un survol des différents
    points de vue que l'on peut avoir sur le génome
    des vertébrés
  • compartimentation fonctionnelle quelles sont les
    informations génétiques contenues dans le génome?

14
Introduction (suite)
  • organisation structurale. La structure physique
    du génome peut être décrite sous plusieurs
    aspects organisation en classes de séquences
    répétées, structure de la chromatine, bandes
    chromosomiques, isochores. Quels sont les liens
    entre ces différents niveaux d'organisation?
  • évolution, relations structure-fonction Quelle
    est l'origine évolutive de l'organisation
    physique du génome? Quelles sont les relations
    entre cette organisation physique et le
    fonctionnement du génome?
  • composition nucléotidique homogène

15
Introduction (suite)
  • COMPARTIMENTATION FONCTIONNELLE
  • Le premier point important pour comprendre
    l'organisation du génome est d'identifier les
    informations génétiques qu'il contient. En
    génétique moléculaire, un gène est
    traditionnellement défini physiquement, comme une
    région d'ADN qui code pour une protéine ou qui
    spécifie un ARN fonctionnel. Cependant, une
    région d'ADN peut avoir une fonction qui ne
    requiert ni sa traduction ni même sa
    transcription.

16
Introduction (suite)
  • Cavalier-Smith (1985) propose donc de définir le
    gène simplement comme un fragment d'ADN qui a une
    fonction connue. On peut reconnaître trois types
    de gènes
  • les gènes protéiques, qui sont transcrits en ARN
    puis traduits en protéine
  • les gènes spécifiant des ARN, qui sont
    transcrits mais non traduits
  • les gènes régulateurs, dont la fonction ne
    requiert pas la transcription.

17
Introduction (suite)
  • Les gènes protéiques et les gènes spécifiant des
    ARN sont regroupés sous le terme de gènes
    structuraux.
  • La classe des gènes régulateurs comprend tous les
    éléments fonctionnels du génome qui ne sont pas
    des gènes structuraux (centromères, télomères,
    origines de réplication, etc.). Cette définition
    est volontairement floue, pour souligner le fait
    que les éléments fonctionnels du génome n'ont
    probablement pas encore été tous découverts.

18
Introduction (suite)
  • COMPARTIMENTATION STRUCTURALE
  • La structure physique du génome peut être
    décrites sous différents aspects, qui révèlent
    différents types de compartimentation
  • organisation en classes de séquences répétées et
    uniques
  • organisation en bandes chromosomiques, liée à la
    structure de la chromatine
  • organisation en domaines de composition
    nucléotidique homogène (isochores)
  • Il existe des relations entre ces différents
    niveaux d'organisation, ainsi qu'entre
    compartimentation physique et compartimentation
    fonctionnelle du génome.

19
Introduction (suite)
  • CORRELATIONS FONCTIONNELLES ET STRUCTURALES
  • La compartimentation des chromosomes en bandes
    et en isochores est corrélée avec différents
    aspects du fonctionnement du génome.

20
Introduction (suite)
  • L'analyse statistique des séquences biologiques
    est une approche puissante pour étudier la
    structure, le fonctionnement et l'évolution des
    génomes.
  • Les travaux de Grantham (1972) sur l'usage du
    code marquent sans doute le point de départ de
    cette nouvelle discipline. Depuis, les techniques
    de la biologie moléculaire ont très rapidement
    progressé et se sont diffusées dans de nombreux
    champs d'investigations de la recherche
    biologique et médicale.
  • Grantham R. (1972) Codon base randomness and
    composition drift in coliphage. Nature New Biol.
    237265-266

21
  • 2. Recherche de similitude
  • Permet de révéler des régions proches dans leur
    séquence primaire en se basant sur le principe de
    parcimonie en considérant le minimum de
    changements en insertion, suppression, ou
    substitution qui séparent deux séquences.
  • Apprendre ainsi, par association, des
    informations importantes sur la structure, la
    fonction ou l évolution des biomolécules.

22
Recherche de similitude (suite)
  • Utilisation
  • les recherches de motifs à travers une séquence,
  • la caractérisation de régions communes ou
    similaires entre deux ou plusieurs séquences,
  • la comparaison d'une séquence avec l'ensemble ou
    sous-ensemble des séquences d'une base de
    données,
  • l'établissement d'un alignement multiple sur
    lequel sont basées les analyses d'évolution
    moléculaire.
  • Nous décrirons dans ce cours les principes
    fondamentaux qui sont indispensables à la
    compréhension de ces outils.

23
Recherche de similitude (suite)
  • RECHERCHE PAR SIMILITUDE DANS LES BANQUES DE
    SÉQUENCES
  • Le problème qui est donc posé est le suivant
    connaissant un gène ou une protéine, quelles sont
    les séquences de la banque de données qui lui
    sont similaires?
  • La ressemblance que l'on cherche à détecter ne
    couvre pas forcément la séquence entière il est
    fréquent que les similitudes entre deux protéines
    ne portent que sur de courtes régions,
    correspondant par exemple à des motifs
    structuraux ou à des sites actifs.

24
Recherche de similitude (suite)
  • Le problème revient donc à rechercher des
    similitudes locales entre la séquence 'requête'
    et les séquences de la banque.

25
Recherche de similitude (suite)
  • Il existe de nombreuses méthodes de recherche de
    similitude, et leur efficacité peut être évaluée
    suivant plusieurs critères
  • pertinence (capacité à détecter des similitudes
    reflétant des relations évolutives,
    fonctionnelles ou structurales entre les
    séquences)
  • sensibilité (capacité à détecter toutes les
    similitudes pertinentes)
  • sélectivité (capacité à discriminer les
    similitudes significatives du bruit de fond)
  • rapidité

26
Recherche de similitude (suite)
  • De nombreux paramètres influent fortement sur
    l'efficacité de la recherche
  • choix de la mesure de similitude
  • choix de l'algorithme de recherche
  • choix de la stratégie de recherche (protéique ou
    nucléique, traitement du bruit de fond dû à la
    redondance ou aux séquences répétées)
  • complétude de la banque de données

27
Recherche de similitude (suite)
  • 2. 2. Mesure de similitude
  • Quel que soit l'algorithme utilisé, le résultat
    de la recherche dépend fortement de la mesure de
    similitude qui a été choisie. Pour quantifier la
    similitude entre deux séquences, celles-ci sont
    alignées, c'est-à-dire juxtaposées de manière à
    mettre en regard les résidus que l'on juge
    correspondre.

28
Recherche de similitude (suite)
  • Par exemple l'alignement
  • P I V S T Y A W R
  • P I L S T - A W R
  • indique que l'on suppose qu'il y a eu au cours
    de l'évolution substitution entre les résidus
    valine (V) et leucine (L), et qu'un résidu
    tyrosine (Y) a été inséré dans la première
    séquence ou délété dans la deuxième (NB on
    utilise généralement le terme "indel" pour
    indiquer un évènement d'insertion ou de délétion)
    .

29
Recherche de similitude (suite)
  • LES SYSTEMES DE SCORES
  • Les principes de la détermination d'un score
  • Objectif Qualifier et quantifier la similitude
    entre séquences.
  • La similitude entre deux séquences est mesurée
    en sommant le long de l'alignement, les scores
    attribués à chaque paire de résidus et aux
    indels. Le choix des scores associés aux
    identités, substitutions et aux indels détermine
    donc la signification biologique de la similitude
    que l'on mesure.

30
SCORE ELEMENTAIRE
Recherche de similitude (suite)
  • Ceci est un élément d une matrice de scores qui
    rend compte de tous les états possibles en
    fonction de l alphabet utilisé dans la
    description des séquences. Ainsi, pour les acides
    nucléiques, la matrice d'identité ou unitaire est
    principalement employée. Elle rend compte de
    l'identité des résidus pour chacune des positions
    de la comparaison, on parle ainsi de bon ou de
    mauvais appariement ou bien de bonne ou mauvaise
    association.

31
Recherche de similitude (suite)
  • Ce critère qui permet déjà d'établir des
    ressemblances ne suffit pas toujours pour révéler
    au mieux les similitudes entre séquences. Très
    rapidement, on s'est aperçu qu'une insertion ou
    une délétion d'une ou plusieurs bases pouvait
    améliorer le score d'une comparaison et ainsi
    faire davantage ressortir les zones identiques ou
    très proches.

32
Recherche de similitude (suite)
  • Ces brèches (en anglais gap) que l'on impose aux
    séquences sont évidemment pénalisantes dans le
    calcul du score.
  • Si l'on considère que le score donne le
    rapprochement entre deux séquences, on peut
    résumer celui-ci par l'équation suivante
  • (1)

où se est un score élémentaire et sp une pénalité
d'insertion ou de délétion.
33
Recherche de similitude (suite)
  • Deux remarques
  • le score est fonction de la longueur de la zone
    de similitude que l'on considère, c'est à dire
    que plus la longueur est grande, plus le score
    est élevé.
  • on peut nuancer le calcul en donnant plus ou
    moins d'importance aux pénalités et aux
    associations possibles entre résidus.
  • Ainsi, le poids d'une insertion peut être plus
    ou moins fort par rapport à une mauvaise
    association.

34
Recherche de similitude (suite)
  • On voit déjà très bien ici que par le biais de
    ces deux éléments fondamentaux, on pourra
    privilégier une situation plutôt qu'une autre,
    c'est-à-dire avoir des comparaisons de séquences
    avec peu ou beaucoup d'insertions-délétions. On
    retrouvera bien sûr ce type d'éléments sous forme
    de paramètre dans les programmes de comparaison.

35
LES MATRICES DE SUBSTITUTION
Recherche de similitude (suite)
  • Le choix de la pondération dépend de la nature
    de la similitude que l'on veut mettre en
    évidence.
  • La mesure de similitude la plus simple consiste
    à donner un score de zéro aux substitutions et un
    score de un aux identités. Cette méthode est
    cependant peu sensible car il existe différents
    degrés de similitude entre séquences.

36
Exemple
Recherche de similitude (suite)
  • D un point de vue physico-chimique, la valine
    est proche de l'alanine. En conséquence, la
    substitution d'une valine par une alanine ne
    perturbe généralement pas le fonctionnement de la
    protéine. De telles substitutions sont dites
    conservatrices et sont relativement fréquentes au
    cours de l'évolution car elles modifient peu le
    phénotype et offrent donc peu de prise à la
    sélection naturelle.

37
LES MATRICES DE SUBSTITUTION
Recherche de similitude (suite)
  • Matrices de substitutions nucléiques
  • Pour les séquences nucléiques, il existe
    seulement 4 x 4 possibilités de substitution.
    Certaines substitutions sont cependant plus
    probables que d'autres en particulier, dans le
    génome des mammifères, les transitions sont
    généralement plus fréquentes que les
    transversions. Des matrices de substitution
    nucléiques ont été développées pour tenir compte
    de cette propriété
  • States et al. 1991 Molecular sequence
    accuracy and the analysis of protein coding
    regions. Proc. Natl. Acad. Sci. U.S.A.
    885518-5522

38
EXEMPLE
Recherche de similitude (suite)
  • Matrices de substitutions nucléiques
  • a Matrice unitaire
  • A C G T
  • A 1 0 0 0
  • C 0 1 0 0
  • G 0 0 1 0
  • T 0 0 0 1
  • 2 scores possibles 1 pour l identité, 0
    autrement

39
EXEMPLE (SUITE)
Recherche de similitude (suite)
  • b Matrice à 3 scores
  • A C G T
  • A 3 0 1 0
  • C 0 3 0 1
  • G 1 0 3 0
  • T 0 1 0 3
  • 3 scores possibles 3 pour l identité, 1 pour
    une transition et 0 pour une transversion.

40
Recherche de similitude (suite)
  • Matrices de substitutions protéiques
  • Pour tenir compte des similitudes entre
    aminoacides, il est nécessaire de pondérer
    chacune des substitutions possibles. Ces
    pondérations forment une matrice de substitution
    20 x 20. Le choix de la pondération dépend de la
    nature de la similitude que l'on veut mettre en
    évidence.

41
Recherche de similitude (suite)
  • Matrices de substitutions protéiques (suite)
  • Dans le cas le plus général, on recherche une
    similitude qui reflète des relations d'homologie
    entre les séquences (et par conséquent des
    relations fonctionnelles et structurales) et on
    utilise donc une matrice qui indique les
    probabilités de substitution d'un aminoacide par
    un autre au cours de l'évolution.

42
Recherche de similitude (suite)
  • Matrices de substitutions protéiques (suite)
  • Choix des matrices de substitutions
  • Comme nous l'avons dit précédemment, le choix de
    la matrice de substitution dépend de la nature de
    la similitude que l'on veut mettre en évidence.
    Dans le cas le plus général, on recherche une
    similitude qui reflète une homologie entre les
    séquences et on utilise donc une matrice qui
    correspond aux probabilités de substitution d'un
    aminoacide par un autre au cours de l'évolution.

43
Recherche de similitude (suite)
  • Matrices de substitutions protéiques (suite)
  • Choix des matrices de substitutions (suite)
  • Ces probabilités varient avec la distance
    évolutive qui sépare deux protéines la matrice
    de substitution utilisée pour aligner deux
    séquences doit donc être choisie en conséquence.
  • La 'distance génétique' entre aminoacides est
    le nombre minimal de changements de nucléotides
    dans le codon pour convertir un résidu en un
    autre.
  • La distance évolutive  sépare la protéine
    requête des séquences similaires présentes dans
    la banque. Cette distance n'est pas connue a
    priori.

44
Recherche de similitude (suite)
  • Matrices de substitutions protéiques (suite)
  • Choix des matrices de substitutions (suite)
  • Différentes approches ont été proposées pour
    établir de telles matrices. Les matrices BLOSUM
    (Block Substitution Matrices) Henikoff et
    Henikoff 1992 ont été créées à partir
    d'alignements locaux, sans indels correspondant
    aux régions les plus conservées des protéines.

45
Recherche de similitude (suite)
  • Matrices de substitutions protéiques (suite)
  • Aucune extrapolation n'est nécessaire car ces
    matrices ont été calculées directement pour
    différentes distances évolutives. Plusieurs
    matrices BLOSUM (notées 45, 62 et 80) ont été
    générées qui diffèrent par le degré de similitude
    entre les séquences qui ont été alignées.

46
Recherche de similitude (suite)
  • Matrices de substitutions protéiques (suite)
  • Ainsi, la matrice BLOSUM-45 a été construite
    avec des séquences faiblement similaires et est
    donc adaptée pour de grandes distances
    évolutives, tandis que BLOSUM-80 est plus adaptée
    à de faibles distances évolutives.

47
Recherche de similitude (suite)
  • La synthèse de toutes les études montre que
    l'évaluation des matrices est très liée aux
    méthodes d'expertise utilisées et que leur usage
    est fortement corrélé aux types d'algorithme et
    de paramètrage utilisés. En conclusion, il
    apparaît tout de même que les matrices plutôt
    basées sur les comparaisons de séquences (comme
    les BLOSUM, Henikoff et Henikoff, 1992) semblent
    donner plus souvent de meilleurs résultats.
    Ainsi, la dernière version d'Octobre 1995 du
    programme FASTA de recherche avec les banques
    propose par défaut la matrice BLOSUM50.
  • Henikoff S. Henikoff J.G. (1993) Performance
    Evaluation of Amino Acid Substitution Matrices.
    Prot.Struct. Funct. Genet. 1749-61

48
Rappel des génétiques classiques
Recherche de similitude (suite)
  • Gènes et Phénotypes
  • Gène une unité fonctionnelle de l héritage,
    qui correspond habituellement à un segment d ADN
    codant pour une seule protéine.
  • Génome l ensemble entier de gènes d un
    organisme.
  • Locus l emplacement du gène dans le
    génome
  • allèles des formes possibles d un
    gène
Write a Comment
User Comments (0)
About PowerShow.com