Parcimonie - PowerPoint PPT Presentation

About This Presentation
Title:

Parcimonie

Description:

Parcimonie G n ralit s Principe Orientation de l arbre Caract res Proc dure Algorithme exact Algorithme branch and bound Algorithme heuristique – PowerPoint PPT presentation

Number of Views:49
Avg rating:3.0/5.0
Slides: 51
Provided by: Masse152
Category:
Tags: acct | parcimonie

less

Transcript and Presenter's Notes

Title: Parcimonie


1
Parcimonie
  • Généralités
  • Principe
  • Orientation de larbre
  • Caractères
  • Procédure
  • Algorithme exact
  • Algorithme branch and bound
  • Algorithme heuristique
  • Analyse des résultats
  • Retour aux caractères
  • Arbre consensus
  • Saturation robustesse
  • Congruence

2
Phénétique, évolutionnisme, cladisme
Convergences
Homoplasies
Réversions
Similitudes
Symplésiomorphies
Homologies partagées
Synapomorphies
Phénétique
Évolutionnisme
Cladisme
3
Homologie
A B C
u 0 1 0
v 0 0 1
w 1 0 0
x 1 0 0
y 1 1 0
z 1 0 0
Apomorphies partagées
Homologies partagées
1
2
0
3
0
1
Phylogénie cladiste
Phylogénie évolutive
4
Parcimonie 1
A B C
X 0 1 1
y 0 0 1
2 pas
3 pas
5
Parcimonie 2
A B C D
U 0 0 1 1
V 0 0 1 1
W 0 0 1 1
X 1 1 0 0
Y 1 0 0 1
Z 0 0 1 0
10 pas
7 pas
6
Arbre raciné ou non
E
ou
Arbre non raciné
7 arbres racinés
7
Raciner un arbre
  • Critères ontogéniques problème posé par la
    néoténie
  • Critères paléontologiques - absence de
    certains groupes - la parenté ne doit pas être
    trop éloignée
  • Critères chorologiques critère secondaire
    insuffisant seul
  • Critère extra groupe

8
Extra-groupe 1
X ext-g A B C
P P P P P
Q Q Q Q Q
2 pas il y a ambiguïté
9
Extra-groupe 2
X Y A B C
Q Q Q Q Q Q
1 pas
2 pas
10
Extra-groupe 3
X Y A B C
R R R R R R
2 pas dans chaque cas, on ne peut trancher
11
Extra-groupe 4
X Y Z A B C
R R R R R R R
3 pas
2 pas
12
Extra-groupe 5
X Y Z A B C
R R R R R R R
Le choix des groupes externes est un à-priori. Si
lon conteste cette qualité on peut trouver un
arbre plus court
1 pas
1 pas
13
Caractère (1)
c t 1 2 3
A 0 1 1
B 0 0 1
C 0 0 0
D 0 0 0
constant
0 pas
0 pas
0 pas
C1
non info
1 pas
1 pas
1 pas
C2
info
2 pas
2 pas
1 pas
C3
14
Caractère (2)
À états multiples 0 , 1 , 2 , 3
Binaire 0 , 1
Irréversible 0?1?2?3
Réversible 0?1
Irréversible 0?1
Additifs 0 ?3 coûte 3pas 0?1 coûte 1pas 0?2 coûte
2 pas
Non additifs 0 ?3 coûte 1pas 0?1et 0?2 aussi
15
Caractère (3)
vers de A C G T
A 0 5 1 5
C 5 0 5 1
G 1 5 0 5
T 5 1 5 0
Graphe des états dun caractère et matrice
correspondante. Les transversions sont comptées 5
fois plus que les transitions.
16
Modèles de Wagner, Camin-Sokal, Dollo
c t 1 2 3 4 5 6 7 8 9
A 0 1 0 0 0 0 0 0 1
B 1 0 1 1 1 0 0 0 0
C 1 0 0 1 1 1 1 1 0
D 1 1 1 1 1 1 1 1 1
E 0 0 0 1 1 1 1 1 1
X 0 0 0 0 0 0 0 0 0
14 pas (Camin-Sokal)
13 pas (Wagner)
15 pas (Dollo)
17
Une espèce éteinte le quagga
18
Positions informatives
Gène Cytochrome Oxydase Cytochrome Oxydase Cytochrome Oxydase Cytochrome Oxydase NADH Déshydrogénase NADH Déshydrogénase NADH Déshydrogénase
position 4 10 67 103 28 58 71
Quagga A C T T C C T
Z.pl. A C T T C C T
Z.mt. A T C T T C C
Cheval G T C C C T C
Vache G T C C T T A
19
Méthode exhaustive (1)
Avec 3 espèces un seul arbre est possible.
Le branchement pour la troisième espèce peut se
faire sur n'importe laquelle des branches 1, 2 ou
3.
6 pas
3 pas
6 pas
C'est l'arbre le plus court. On continue
cependant sur les 3 arbres.
20
Méthode exhaustive (2)
14 pas
TCCATTT
TCCATCC
On peut ajouter une nouvelle espèce de 5 façons
différentes.
11 pas
14 pas
CTTATCC
TCCATTC
9 pas
TCCGCTT
TCCATCT
11 pas
TCCATCT
21
Méthode exhaustive(3)
Après avoir évalué tous les arbres on choisit le
ou les plus courts
22
Branch and Bound
1 Évaluation de la longueur dun arbre au hasard.
2 Lexploration dun chemin sarrête dès que
cette longueur est dépassée
23
Nombre dArbres Possibles
24
Algorithme de Wagner1
(Farris 1970 methods for computing Wagner
trees.Syst. Zool., 18374-85)
Règle dagglomération les taxons les plus
éloignés sont connectés
C T 1 2 3 4 5
A 1 0 0 0 0
B 0 1 0 1 0
C 0 0 0 1 1
D 0 1 1 0 0
Distances 2 à 2
AB3
BC2
CD4
AC3
BD2
AD3
Y 00000
1 On connecte C et D (distance la pus grande)
2 Puis on ajoute A (ou B) au nœud
Y AY1/2(ACAD-CD)1/2(33-4)1
BY1/2(BCBD-CD)1/2(22-4)0
3 Cest donc A que lon ajoute en premier.
25
Algorithme de Wagner2
Il reste à placer B sur un des 3 segments YA, YC
ou YD.
Sil est sur DY YB1/2(BDYB-YD) or
YB1/2(ABCB-AC) et YD1/2(CDAD-AC)
Donc YB1/2(BD1/2(BABC)-1/2(CDAD))
1/2(21/2(32)-1/2(43)0,5
Sil est sur AY YB1/2(BA1/2(BCBD)-1/2(CADA)
)1
Sil est sur CY YB1/2(BC1/2(BABD)-1/2(ACDC
))0,5
Donc B est mis en Y
Y 00000
26
Algorithme de Wagner 3
Le résultat donne un des arbres qui nest pas le
plus court parmi les 3 arbres possibles. On peut
à partir de là par branch swapping (ici NNI
suffit) obtenir lun des plus courts.
6 pas
6 pas
7 pas
27
Branch swappingréarrangement local(NNI)
Exemple 2
Exemple 1
Nearest-Neighbor Interchange
28
Branch swappingréarrangement global(SPR)
d
Subtree Pruning Regrafting
29
Branch swappingréarrangement global(TBR)
2 sous arbres à reconnecter de toutes les façons
possibles
Tree Bisection-Reconnection
30
Exploration du paysage des arbres avec une
heuristique
31
Matrice
C T 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
A 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0
B 1 1 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 1 0 0
C 1 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 1 1
D 1 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
E 1 0 0 1 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0
ancêtre 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Homoplasiques
Informatifs
Non informatifs
32
DELayed TRANsformations
14 15 16
14 15 16
14 15 16
14 15 16
Il y a convergence sur les branches de A et C
pour les caractères 14 15 et 16
Dans cet exemple, loption MINF donnerait le
même résultat.
33
ACCelerated TRANsformation
14 15 16
réversion
34
Exclusion et pondération 1
1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1
2 3 4 A G G C T G C A A T C G T G A G A C T T C C
A T C G T G A C A C T G C C A T C G A C G C
T G C G A T C G T G A C G C T T C G A T C G T
G A G G C T G C A A T C G T G
La pondération différente entre transitions et
transversions entraîne des valeurs différentes
affectées aux différents changements détats du
caractère 8. Il nexiste plus une valeur unique
affectée à ce caractère.
35
Exclusion et pondération 2
1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1
2 3 4 A G G C T G C A A G C C A G A G A C T T C C
A G T C T G A C C C T G C C A G G G T G A C G C
T G C G A G C G A G A C T C T T C G A G A G T
G A G A C T G C A A G T C T G
Régions inversées répétées
36
Matrice de coût
BEGIN ASSUMPTIONS USERTYPE tv STEPMATRIX4
A C G U A . 1 0 1 C 1 . 1
0 G 0 1 . 1 U 1 0 1 .
37
Variabilité des nucléotides en fonction de leur
position dans le codon dans le gène rbcL
position 1 position 2 position 3 toutes les positions
nombre total de sites 416 413 409 1238
sites variables 81 44 347 472
sites informationnels 52 20 293 365
38
Saturation principe
16
8
4
28
20
6
32
41
16
42
40
27
39
Comparaison de la vitesse dévolution en
transitions et en transversions pour la position
3 des codons du gène rbcL
transitions
transversions
40
Comparaison de la vitesse dévolution en
transitions et en transversions pour les
positions 1 et 2 des codons du gène rbcL
transitions
transversions
41
Saturation
C?T
G?A
C?G
G?C
A?C
T?G
Pas de saturation le nombre de changements
observés est égal au nombre réel.
Saturation le nombre de changements observés
est inférieur au nombre réel.
42
CI, RI et RC
mLg minimum de larbre sLg réelle de
larbre gLg maximum de larbre
43
Variation de lindice de consistance en fonction
du nombre de taxa
Formule empirique NT nb de taxa CI
0,90-0,022NT0,000213(NT)2 Sanderson, Donoghue
(1989)Patterns of variation in levels in levels
of homoplasy. Evolution 43 pp1781-95
Nb. Tax. CI
15 0,6179
16 0,6025
17 0,5876
18 0,5730
19 0,5589
20 0,5452
21 0,5319
22 0,5191
23 0,5067
24 0,4947
25 0,4831
26 0,4720
27 0,4613
Nb. Tax. CI
28 0,4510
29 0,4411
30 0,4317
31 0,4227
32 0,4140
33 ,0,4060
34 0,3980
35 0,3910
36 0,3840
37 0,3776
38 0,3716
39 0,3660
40 0,3608
44
Consensus strict et semi strict
Arbre 1
Arbre 2
Consensus strict
Consensus semi strict
45
Consensus majoritaire
46
Consensus dAdams
47
Indice de Bremer
D1
48
Congruence principe
Le premier jeu de données donne des arbres
parcimonieux de Lgx
Le second jeu de données donne des arbres
parcimonieux de Lgy
La concaténation des 2 jeux de données donne des
arbres parcimonieux de Lgz
Un test statistique permet de dire si la
différence entre xy et z est significative ou non
49
Congruence test ILD
D(lgxlgy)-lgz
D est-il significatif?
Jeu 1 gt1 AAAA gt2 AGGA gt3 AGAG gt4 AAGG
Jeu 2 gt1 ggag gt2 agga gt3 gagg gt4 aaaa
Jeux 12 gt1 AAAAggag gt2 AGGAagga gt3 AGAGgagg gt4
AAGGaaaa
100 tirages au hasard
Simulation n gt1 AggAAggg gt2 GagGGaaa gt3
GgaGAggg gt4 AaaAGaaa
100 jeux simulés
Simulation n du jeu 1 gt1 AggA gt2 GagG gt3 GgaG gt4
AaaA
Simulation n du jeu 2 gt1 Aggg gt2 Gaaa gt3 Aggg gt4
Gaaa
Estimations de z
On détermine la distribution des valeurs de D.
si pb Dobs?5 ? Incongruence
Estimations de x
Estimations de y
50
Comparaison des deux méthodes de calcul darbre
Examen des caractères les uns après les autres
Calcul dune distance globale
La méthode peut retourner plusieurs arbres
également parcimonieux
Un seul arbre retourné par le programme
Il y a un test de robustesse des noeuds (mesure
de lhomoplasie dans larbre par le calcul du
rapport de la longueur minimale de larbre à sa
longueur réelle.
Pas de test de robustesse de larbre unique
(excepté le bootstrap)
Retour aux caractères pour éventuellement
réévaluer ceux qui donnent des aberrations
Pas de retour aux caractères pour pouvoir les
reconsidérer
Vitesse moyenne. Sur de grosses machines on peut
en plusieurs jours traiter des données jusqu'à
500 taxa
Rapide, même avec un grand nombre de taxa
Write a Comment
User Comments (0)
About PowerShow.com