Title: Phylip Package
1Phylip Package
2Formato File Input
- In letteratura, i file del Phylip hanno
estensione .phy - Esempio nomeFile.phy
- Il pachetto Phylip di default prende in input il
file infile, senza estensione. Se tale file non
si trova nella cartella del programma Phylip che
si sta lanciando, allutente viene chiesto di
inserire il nome del file.
3Formato del file in input
- Primo rigo numero delle sequenze e numeri dei
nucleotidi o amino-acidi nellallineamento - Il nome della sequenza deve essere lungo
esattamente 10 caratteri (eventualmente bisogna
inserire dei caratteri alla fine). - I Gap devono essere indicati con -. Gaps (-) alla
fine di un file potrebbe causare uninterruzione
del programma. - I dati mancanti (Missing) o le informazioni
mancanti (nessuna sequenza) devono essere
indicati con ?. - Sono permessi gli spazi tra i blocchi
dellallineamento. Di solito ogni 10 basi o
aminoacidi.
4Esempio di file infile
5Panoramica dei programmi
- Distance methods
- Matrice delle distanze
- Costruzione alberi
- Character based methods
- Costruzione alberi
6Calcolo della distanza evolutiva
- La distanza evolutiva è una misura quantitativa
della differenza fra le sequenze genetiche
relative alle due specie rispetto
all'allineamento fornito e viene interpretata
come una stima del tempo di divergenza tra le due
specie. Per poter essere così interpretata, la
distanza evolutiva è calcolata basandosi sulla
stima della probabilità che si verifichi
l'insieme delle mutazioni che distinguono le
sequenze sotto l'assunzione di un preciso modello
biologico di riferimento. - Il modello di Jukes-Cantor. la probabilità che
una base azotata muti in una delle altre tre è
uniforme fra tutte le basi. - Il modello di Kimura. Questo modello si basa
sull'osservazione che la struttura chimica di
adenina e guanina (che sono due purine) è
profondamente differente da quella di citosina e
timina (che sono due pirimidine). Di conseguenza,
nel modello di Kimura si assume che la
probabilità che avvenga una transizione, cioè una
muta zione da una purina a una pirimidina (o
viceversa), sia differente dalla probabilità che
avvenga una transversione, cioè una mutazione da
una purina a un'altra purina o da una pirimidina
a un'altra pirimidina. Generalmente le
transizioni sono considerate più probabili delle
transversioni con un rapporto di 2/1.
Naturalmente il modello di Kimura è una
generalizzazione del modello di Jukes-Cantor. - Il modello F84. Questo modello è un arricchimento
del modello di Kimura in cui le 4 basi azotate
non sono considerate equiprobabili e, in base
alle frequenze con cui si presentano nelle
sequenze (o a informazioni a priori), vengono
derivate le probabilità di mutazione. - Il modello Log-Det. Questo modello si differenzia
dai precedenti e si basa sullastima della
probabilità congiunta con cui si presentano le
basi nelle due sequenze. Risulta essere
particolarmente adatto quando la frequenza delle
basi varia notevolmente di sequenza in sequenza.
In questi casi, infatti, i primi tre modelli non
forniscono risultati validi.
7Costruzione dellalbero
- Una volta ottenuta una matrice delle distanze
evolutive fra le specie si può procedere alla
costruzione dell'albero che rispetta le distanze
date. In letteratura sono stati proposti diversi
algoritmi per risolvere questo problema. - Tra di essi ricordiamo l'algoritmo UPGMA,
neighbour joining e Fitch-Margoliash. - I primi due algoritmi, che abbiamo visto a
lezione, si basano sulla fusione iterativa dei
due cluster di specie che, ad ogni passo,
minimizzano una funzione della distanza mentre il
terzo algoritmo ricerca l'albero che minimizza
l'errore fra distanza predetta sull'albero e
distanza evolutiva specificata in input. La
correttezza dei primi due algoritmi è garantita
solo se la matrice delle distanze soddisfa una
determinata ipotesi (ultrametricità per UPGMA e
additività per NJ) che, sfortunatamente, non è
verificata in pratica. Il terzo metodo, invece, è
più generale ma molto più lento dei precedenti e,
se la matrice delle distanze è quasi ultrametrica
(o quasi additiva), non fornisce risultati troppo
dissimili dai precedenti.
8Distance methods
- Calcolano la matrice delle distanze partendo
dalle sequenze allineate. Producono il file
outfile - dnadist DNA distance matrix calculation
- protdist Protein distance matrix calculation
- Costruiscono lalbero prendendo in input la
matrice delle distanze calcolata con dnadist o
protdist. - Producono i file outfile e outtree.
- fitch Fitch-Margoliash tree drawing method
without molecular clock - kitsch Fitch-Margoliash tree drawing method with
molecular clock - neighbor Neighbor-Joining and UPGMA tree drawing
method
9Dnadist
10Metodi di Ottimizzazione basati sullo stato ei
caratteri
- Massima Verosimiglianza (ML) Questo metodo ha
natura statistica e mira a ricostruire l'albero
che più verosimilmente ha portato alla
generazione dell'allineamento in input
ricostruendo la storia evolutiva di ogni singolo
sito (cioè ogni singola base) delle diverse
sequenze. Il metodo di ML è un metodo iterativo
potenzialmente molto lento e, in linea generale,
non è in grado di trovare l'albero filogenetico
ottimo. Per questo motivo è spesso buona norma
confrontare gli alberi risultanti da diverse
ricostruzioni a partire dalle stesse sequenze ma
considerate con ordini differenti. Qualora la
ricostruzione risentisse fortemente dell'ordine
delle sequenze, i risultati ottenuti avrebbero
scarsa significatività. Il metodo di massima
verosimiglianza fornisce alberi filogenetici non
radicati. - Massima Parsimonia. Il criterio di parsimonia è
un criterio usato trasversalmente in
bioinformatica perché formalizza il principio
conosciuto con il nome di rasoio di Occam
generalmente ritenuto valido in biologia (e anche
in altre discipline). Secondo il rasoio di Occam,
se più soluzioni a un problema sono possibili
allora quella giusta è (molto probabilmente)
quella più semplice. Nel caso della ricostruzione
di filogenesi secondo il metodo di massima
parsimonia, quindi, si ricerca l'albero che
induce il numero minimo di mutazioni tra i vari
nodi dell'albero, sia interni che foglia. Anche
in questo caso, lo spazio delle soluzioni, ovvero
di tutti gli alberi filogenetici pesati, in cui
trovare l'albero ottimo è potenzialmente molto
grande (varia esponenzialmente con il numero di
sequenze). Per questo motivo, anche il metodo di
massima parsimonia richiede un considerevole
sforzo computazionale per trovare la soluzione
ottima (se si - utilizza un algoritmo esatto) oppure
fornisce una soluzione buona in tempi ragionevoli
(utilizzando un algoritmo euristico).
11Character based methods
- Dalle sequenze allineate producono uno o più
alberi. Producono i file "outfile" e "outtree". - dnapars DNA parsimony
- dnapenny DNA parsimony using branch-and-bound
- dnaml DNA maximum likelihood without molecular
clock - dnamlk DNA maximum likelihood with molecular
clock - protpars Protein parsimony
- proml Protein maximum likelihood
12Valutazione degli alberi costruiti
13(No Transcript)
14BootStrapping
Con lopzione R si sceglie il numero di
replicazioni del dataset.
15Bootstrapping
- Dopo aver costruito un nuovo dataset costruisce
un nuovo albero - Serve a misurare il grado di confidenza
dellalbero ricostruito - Creazione di insiemi di sequenze artificiali,
ottenuti estraendo a caso le colonne delle
sequenze reali con reimbussolamento - Se gli alberi ricostruiti sono sempre uguali o
molto simili gt buona confidenza
16Resampling tool (bootstrapping)
- This program reads in a sequence alignment, and
generates a specified number of random samples
into a file outfile. These random datasets are
analyzed exactly the same way the original
dataset was analyzed. - These random samples are usually used in
subsequent analysis as a sequence alignment file
with the option M (use multiple datasets)
turned on. - Opzione R
- Seqboot Generates random samples by
bootstrapping or jack-knifing
17Consensus trees
This program constructs a consensus tree from
multiple trees. For example, dnapars can produce
multiple trees, which can be summarized by the
program Consense. Also the results of the
bootstrapping are summarized by the program
Consense as a majority rule tree. Consense
Draws consensus trees from multiple trees.
18Consensus trees
- Opzione C
- There are four consensus tree types to choose
from. - Strict consensus creates a tree which only
includes the set of sequences, if it occurs in
all the trees. - The MR, MRe and M1 all produce a majority rule
trees with slightly different options. - The default method (MRe) will include into the
new tree all the groups of sequences, which are
present in more than 50 of the trees. - M1 lets you to specify the percentage.
- Note, that the consensus tree from bootstrapping
samples should always be drawn with majority rule
method.
19Consensus trees
- Opzione R e O
- O Outgroup root No, use as outgroup species 1
- R Trees to be treated as Rooted No
- Selezionare Ryes se lalbero è con radice
(quindi si è usato UPGMA) e Rno se lalbero è
senza radice (quindi si è usato
Neighbor-Joining). - Se Rno, occorre scegliere loutgroup con
lopzione O, altrimenti di default considera la
prima specie come outgroup.
20Disegnare gli alberi
- Tree drawing
- Drawgram Draws a rooted tree
- Drawtree Draws an unrooted tree
- Occorre specificare il carattere da usare nel
disegno. Nel pacchetto sono inclusi - font1, font2, font3, font4, font5, font6.
- Loutput è il file chiamato plotfile. Occorre
rinominarlo aggiungendo lestensione.
21Formato File
Di default lalbero viene creato nel formato
Postscript (.ps). Per cambiarlo, scegliere
lopzione P. Per il formato .bmp
22Riepilogo
BootStrapping
Opzione C (Modello) Opzione R (Tipo
Albero) Opzione O (se necessaria)
Opzione M Selezionare il numero di dataset
replicati.
Inserire il numero di dataset da replicare