Title: A Brief Introduction to Molecular Systematics
1A Brief Introduction to Molecular Systematics
- David S. Horner
- Dip. Scienze Biomolecolari e Biotecnologie
- david.horner_at_unimi.it
2Letteratura consigliata
Phylogenetic analyses a brief introduction to
methods and their application David S Horner and
Graziano Pesole Expert Rev. Mol. Diagn. 4(3),
339350 (2004) Phylogeny for the faint of
hearta tutorial Sandra L. Baldauf TRENDS in
Genetics Vol.19 No.6 June 2003
3ATTENZIONE
- Computers are like air-conditioning
- They stop working if you open Windows
4In Biologia Nulla Ha Senso Se Non è Visto da
una Prospettiva Evolutiva
Theodosius Dobzhansky (1900-1975)
(senza questa prospettiva la biologia diventa
semplicemente un cumulo di fatti scollegati
alcuni sono interessanti, ma non dipingono
insieme un quadro coerente)
5 Tassonomia evolutiva
Questa scuola tradizionale era dominante fino
agli anni 60. È basata sullassunzione che il
modo migliore di ricostruire le relazioni di un
gruppo è di studiarlo per tutta la vita. Poi, lo
specialista pubblica una filogenesi basata sulle
sue impressioni Ha il vantaggio che genera
esperti bravi. Ma ha anche lo svantaggio che non
è per niente un approccio oggettivo I risultati
sono poco riproducibili.
6 7(No Transcript)
8Molecole come documenti della storia evolutiva
- Ci possiamo chiedere dove, nella vita, cè la
quantità più alta di informazione rispetto al
passato, e come possiamo estrarla? - Forse nei vari tipi di macromolecole (sequenze)
che portano linformazione genetica
Emile Zuckerkandl Linus Pauling
9Evoluzione Molecolare
- TUTTI le sequenze molecolari (naturali) sono
prodotti di processi evolutivi - Possiamo usare sequenze per inferire rapporti
evolutivi tra sequenze (e tra organismi) - Se riusciamo capire come costretti selettivi
influenzano levoluzione di diversi tipi di
sequenze (geni codificanti, regione promotrice,
junk DNA etc), magari potremmo PREDIRE il ruolo
svolto da sequenze sotto esame.
10Perche ci interessa levoluzione molecolare?
- Per capire la storia naturale di organismi e
ambienti - Per identificare e classificare nuove specie
- Per capire processi evolutivi
- Per la predizione e modificazione di funzione/
specificità di geni/enzimi. - Studi basasti sullevoluzione molecolare può
aiutarci ad associare i cambiamenti funzionali
con le sostituzioni responsabili. - Sviluppo di medicine/vaccini (selezione)
- Biomonitoraggio (ecologia molecolare)
11Quale è il più stretto parente dei baci di
dama ?
UFO
Fragola vampira
Space alien
Gioiello metallaro
12(No Transcript)
13(No Transcript)
14(No Transcript)
15Lomologia è..
- Omologia similarita risultando da eredita da un
genitore stessa. Lidentificazione e lanalisi di
omologia sono fundamentale nella sistematica
filogenetica. - 70 homology?
16Typical Eukaryote Gene Structure
17Eredita dei geni
- Geni vengono ereditati dai genitori
- La loro sequenza puo cambiare con tempo
(mutazione) - Cambiamementi possono essere ereditati
- A volte, geni vengono DUPLICATI opure PERSI
- Nel arco del tempo evolutivo, solo sequenze
importanti vengono conservate - Possiamo applicare il concetto di omologia a
geni
18- Mutations are random events their occurrence is
independent of their selective value - i.e., they
do not occur when they are needed any more often
than they would otherwise. - Mutations at any single locus are rare events
mutation rates at a typical locus are about 1 in
106 gametes.
19Some types of mutations.
- Substitution one nucleotide is substituted for
another, frequently this causes no change in the
resulting organism, sometimes the change can be
dramatic. - Insertion DNA is inserted into a gene, either
one nucleotide or many. Sometimes, entire genes
are inserted by viruses and transposable
elements. - Deletion DNA bases are removed.
- Small insertions and deletions can inactivate
large stretches of a gene, by causing a frame
shift that renders a gene meaningless. - Duplication an entire gene is duplicated.
- Transposition DNA is moved to a new place in
the genome, frequently this happens because of
errors in meiosis or transposable elements.
20Meccanismi dellevoluzione
sostituzioni puntiformi
Transizioni
Transizioni
Transversioni
Pirimidine
Purine
21Meccanismi dellevoluzione
Transizioni vs Transversioni
Le transizioni sono più frequenti delle
trasversioni. La frequenza delle mutazioni
puntiformi (1 per 10-9 - 10-10 bases incorporate)
è molto inferiore di quanto atteso (circa 10-6) a
causa dei sistemi di riparazione.
22Soppressione di CpG
Modificazione epigenetica (metilazione) di
residui C nella dinucleotide CG e diffusa in
tanti organismi Il C metilato e sensibile a un
processo di diaminazione che cambia CgtT (U).
Dopo replicazione, se lerrore no e messo a
posto da proofreading, succede una transizione in
una delle eliche prodotte.
23Mutazioni PUNTIFORMI conseguenze
- Dipendono da
- Regione del gene che viene colpita (promotore,
regioni trascritte non tradotte, regione
codificante) - natura della mutazione
- Selezione Naturale
24Meccanismi dellevoluzione
Mutazione e Fissazione
Per essere geneticamente rilevante una mutazione
deve essere ereditata, cioè deve avvenire nella
linea germinale e diffondersi in una proporzione
significativa della popolazione
(fissazione). Nella filogenesi molecolare
studiamo mutazioni fissi.
25 26- Mutazione missenso (nonsinonima)
27- Mutazione nonsenso (nonsinonima)
28Indel nella seq. codificante per una proteina
29La teoria neutrale di Kimura (1968)
- Geni sono stati, in qualche senso, gia
ottimizzati dal processo evolutivo - La maggior parte delle nuove mutazioni sono
deleterie o neutrale. - La maggior parte della variazione osservata è
neutrale, poichè le mutazioni deleterie vengono
rapidamente eliminate. - Orologio molecolare
30- Tomoko Ohta 1973 ha introdotto il concetto di
nearly neutral evolution (evoluzione quasi
neutrale) (mutazioni poco deleterie possono
essere fissate nella popolazione). - Saul G. Needleman Christian D. Wunsch 1970
Allineamento ottimale di due sequenze omologhe. - Anni 70 - Biologia molecolare moderna
- Clonaggio di DNA
- Sequenziamento di DNA
- Anni 80
- PCR
- micro computer
- Primi Tree of life
31(No Transcript)
32(No Transcript)
33(No Transcript)
34DNA vs Proteins
Ser Gly Arg His Lys
UCU GGU CGU CAU AAA UCC GGC CGC CAC
AAG UCG GGG CGG UCA GGA CGA AGU AGC
Tante sequenze nucleotidiche diverse possono
codificare la stessa sequenza proteica
35Selezione al livello di DNA. Una stima semplice
per sequenze codificante
Per 2 sequenze Ka è la proporzione di siti
non-sinonimi dove ce stato un sostituzione. Ks
è la proporzione di siti sinonimi dove ce stato
un sostituzione. Se Ks / Ka gt1 ci sono
costretti che preventano sostituzioni
aminoacidici Ks / Ka 1 non ce selezione
Ks / Ka lt1 ce slezione positiva (cambiamenti
vengono seletti)
36DNA vs Proteins
Protein 2 cambiamenti
DNA 52 cambiamenti
37Protein sequence vs structure
Spinach and Azotobacter ferredoxins
38DNA vs Proteine
Il grado di conservazione segua lordine DNA lt
Sequenze Proteiche lt Struttura Secondaria
Proteica lt Struttura Tridimensionale Proteica
39Esiste un orologio molecolare?
- Lidea di orologio molecolare fu inizialmente
suggerita da Zuckerkandl e Pauling nel 1962 - Era basata sullosservazione che i tassi di
sostituzione aminoacidica nelle emoglobine
animali erano approssimativamente proporzionali
alle distanze temporali - stimate dai reperti
fossili
40- Stolen from a great site nitro.biosci.arizona.edu
/.../Lecture47.html - Although its importance, relative to Darwininan
evolution, is debated, this theory is farily well
supported by now. - Rates of molecular evolution vary among proteins,
and among organisms. Some proteins allow much
less neutral variation, and evolve more slowly. - Interestingly, population size is not that
important for rates of molecular evolution (it
cancels out in the math, small populations drift
faster, but have fewer mutants per generation)
41Non esiste un orologio molecolare universale
- La proposta iniziale vedeva lorologio come un
processo di tipo Poisson con un tasso costante - Ora si sa che è più complesso. Differenze nel
tasso di sostituzione esistono per - Differenti siti di una stessa molecola
- Differenti geni
- Differenti regioni dei genomi
- Differenti genomi entro una stessa cellula
- Differenti gruppi tassonomici analizzati per lo
stesso gene - Non esiste un orologio molecolare universale
42Multi-gene families Evolution by gene duplication
- Gene duplication is the most important mechanism
for generating new genes and new biochemical
processes. - This mechanism has facilitated the evolution of
complex organisms - In the genomes of eukaryotes, internal
duplications of gene segments have occurred
frequently. Many complex genes might have evolved
from small primordial genes through internal
duplication and subsequent modification. - Vertebrate genomes contain many gene families
absent in invertebrates. - Many gene duplications have occurred in the early
evolution of animals (Biologys Big Bang,
Cambrian explosion, 570-505 million year ago).
43Types of duplication events
- A duplication may involve
- a single gene (complete gene duplication)
- part of a gene (internal or partial gene
duplication) - part of a chromosome (partial polysomy)
- an entire chromosome (aneuploidy or polysomy)
- the whole genome (polyploidy)
44Duplicazioni Geniche
- Subito dopo una duplicazione genica, ce una
coppia di geni identici. - Cosa può succedere?
45Destini dei geni duplicati
- Possono mantenere la stessa funzione e pattern di
espressione - Possono accumulare mutazioni (nella regione
codificante o nel promotore) e diventare
pseudogeni
46Origine di pseudogeni
- Tanti geni duplicati diventano PSEUDOGENI e a
volte vengono persi dal genoma. - PSEUDOGENE una sequenza di DNA non-funzionale,
derivata da un gene funzionale. - Alcuni pseudogeni hanno una funzione e altri
vengono riabilitate.
47Origine di subfunzioni
- I geni derivati dalla duplicazione assumono
diversi aspetti della funzione del gene
ancestrale - Tali cambiamenti succedono spesso rapidamente
dopo la duplicazione.
48Origine di neofunzioni
- Cambiamenti funzionali della proteina risultano
da sostituzioni nella regione codificante - Pattern diversi dellesspresione (diversi
tissuti/tempi durante lo sviluppo) risultano da
sostituzioni nelle regioni regulatrici.
49Ortologhi e paraloghi
paraloghi
ortologhi
ortologhi
A
c
B
C
a
b
Duplicazione ci da 2 copie paraloghi nello
stesso genoma
Gene ancestrale
50Ortologia vs Paralogia
hanno entrambe limplicazione di omologia
Sequenze derivate da un gene ancestrale comune
dopo un evento di SPECIAZIONE
Ortologia
Sequenze derivate da un gene ancestrale comune
dopo un evento di DUPLICAZIONE GENICA
Paralogia
51Ruolo delle duplicazioni geniche nellevoluzione
dellorganismo
- generano nuovo materiale genetico per
levoluzione di nuove funzioni/complessità - duplicazioni specie-specifiche possono permettere
levoluzione di funzioni specie-specifiche che
possono facilitare ladattamento allambiente - Duplicazioni e generazione di pseudogeni
popolazione-specifica contribuiscono
allisolamento riproduttivo (speciazione)
52After a Duplication/Speciation
- AGGGCCCTTG
- AGGGTCCTTG
- This is the FIRST substitution event
- AGGGCCCTTG
- AGGGTCCTTG
- The SECOND event has a 1/20 chance (in this
case), of occurring at the SAME position - AGGGCCCTTG
- AGGGGCCTTG
53Saturazione nei dati di sequenza
- La saturazione è dovuta a cambiamenti multipli
dello stesso sito durante la divergenza (dopo una
ramificazione) - La maggior parte dei dati contiene alcuni siti
che evolvono rapidamente e che sono
potenzialmente saturati (es. Nelle sequenze
codificanti per proteine la terza posizione dei
codoni) - Nei casi più eclatanti i dati diventano
essenzialmente casuali e non è possibile
rintracciare informazioni circa le relazioni
evolutive
54Cambiamenti multipli a un singolo sito -
cambiamenti nascosti
Seq 1 AGCGAG Seq 2 GCCGAC
Numero di cambiamenti
A
G
T
G
3
pos 1
G
C
1
pos 2
A
C
C
2
pos 3
55Distanza Genetica
La proporzione osservata di cambiamenti non
riflette bene il reale numero di cambiamenti
evolutivi quando il livello di divergenza è alto.
expected difference
Correction
Saturation
observed difference
56Introduzione agli alberi filogenetici
57Phylogenetic systematics
- Omologia si riferisce allevidenza di un
progenitore comune (common descent) - Usa alberi per indicare relazione
- Gruppi monofiletici (clades) - contengono
organismi (o sequenze) che sono più strettamente
imparentate fra di loro di quanto siano
imparentate con altre organismi (o sequenze) al
di fuori del gruppo.
58Terminologia I
- Node/nodo un punto di ramificazione su un albero
filogenetico -
59E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Nodo
Uomo
Ramo
60Terminologia II
- Taxon Un livello di classificazione, una specie,
un genere, una famiglia. Usato nella filogenesi
molecolare anche per descrivere un OTU. - OTU (Operational Taxonomic Unit), una foglia di
un albero filogenetico, può essere una specie
oppure una sequenza
61E. coli
Taxon/OTU
Riso
Arabidopsis
Danio
Ratto
Taxon
Topo
Nodo
Uomo
Ramo
62- Clade/Gruppo monofiletico un gruppo che contiene
tutti gli OTU che sono discesi da un nodo. - Gruppo parafiletico un gruppo tassonomico che
NON contiene tutti gli OTU che sono discesi da un
nodo.
63E. coli
Riso
Arabidopsis
Danio
Ratto
Clade/Gruppo monofiletico
Topo
Uomo
Nodo Ancestrale
64Arabidopsis
Homo
Topo
Gecco
Passero
Clade?..SI
Falcone
Dinosauro
I rettili non costituiscono un gruppo
strettamente monofiletico. sono PARAFILETICI
65Cladogrammi
Cladogrammi mostrano lordine delle
ramificazioni, lunghezze dei rami non significano
niente
E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Uomo
E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Uomo
66Filogrammi
Filogrammi le lunghezze dei rami indicano il
grado di divergenza
E. coli
Riso
Arabidopsis
Danio
Ratto
Topo
Uomo
67Difficile sapere la direzione
ACCTC
ACGTC
GgtC?
ACGTC ?
ACCTC
ACGTC
CgtG ?
ACCTC ?
68OUTGROUP (Scelta)
- Una divergenza BASALE al INGROUP
- Non TROPPO lontano/divergente
- Meglio provare con piu di un outgroup
69Alberi e Radici
Albero non radicato
E. coli
Arabdopsis
Riso
70Alberi e Radici
Radicato da un outgroup
E.coli OUTGROUP
Arabidopsis
Gruppo monofiletico
Riso
Danio
Topo
Gruppo monofiletico
radice
Ratto
Homo
71Alberi e Radici
Albero non radicato
E. coli
Arabdopsis
Riso
72Alberi e Radici
Danio
Arabidopsis
Gruppo monofiletico
Riso
E. coli
Topo
Gruppo monofiletico
radice
Ratto
Homo
73Alberi di geni e alberi di specie
A
a
B
b
Albero di specie
Albero di geni
C
c
Facciamo spesso lassunzione che sono la stessa
cosa..
74Ortologhi and paraloghi
paraloghi
ortologhi
ortologhi
A
c
B
C
a
b
Duplicazione ci da 2 copie paraloghi nello
stesso genoma
Gene ancestrale
75Ortologhi and paraloghi
paraloghi
ortologhi
ortologhi
TopoB
ChimpB
HomoB
TopoA
ChimpA
HomoA
Duplicazione ci da 2 copie paraloghi nello
stesso genoma
Gene ancestrale
76Ortologhi and paraloghi
paraloghi
ortologhi
ortologhi
TopoB
ChimpB
HomoB
TopoA
ChimpA
HomoA
Duplicazione ci da 2 copie paraloghi nello
stesso genoma
Gene ancestrale
Pesce
77Ortologhi e paraloghi
Uomo
Topo
Chimp
Pesce
Un albero che contiene una selezione non completa
di paraloghi e ortologhi
78Ortologia vs Paralogia
hanno entrambe limplicazione di omologia
Sequenze derivate da un gene ancestrale comune
dopo un evento di SPECIAZIONE
Ortologia
Sequenze derivate da un gene ancestrale comune
dopo un evento di DUPLICAZIONE GENICA
Paralogia
79Lalbero filogenetico questo gene contiene un
misto di ortologhi e paraloghi
Gene duplication
Ratto 1
Topo 1
Homo 1
Danio 1
Topo 2
POLITOMIA
Ratto 2
Homo 2
Solanum tuberosum
Brassica
Riso
E.coli
Salmonella
80Lalbero filogenetico di questo gene contiene un
misto di ortologhi e paraloghi
Gene duplication
Ratto 1
Topo 1
Homo 1
Danio 1
Topo 2
Danio 2?
Ratto 2
Homo 2
Solanum tuberosum
Brassica
Riso
E.coli
Salmonella
81Numero di alberi distinti in funzione del numero
di taxa
N taxa N trees
10 2106
22 31023
50 31074
100 210182
1000 2102860
82Phylogenetic systematics
- Omologia si riferisce allevidenza di un
progenitore comune (common descent) - Usa alberi per indicare relazione
- Gruppi monofiletici (clades) - contengono
organismi (o sequenze) che sono più strettamente
imparentate fra di loro di quanto siano
imparentate con altre organismi (o sequenze) al
di fuori del gruppo.
83Newick Format
C
D
A
B
C
A
B
D
84Multifurcazioni
E
D
A
C
B
85Lunghezza di Rami
((A1,B1)2,(C2,D1)3)0
C
D
2
1
A
B
1
1
3
2