Phylip Package - PowerPoint PPT Presentation

1 / 22
About This Presentation
Title:

Phylip Package

Description:

Phylip Package Formato File Input In letteratura, ... These random samples are usually used in subsequent analysis as a sequence alignment file with the option M ... – PowerPoint PPT presentation

Number of Views:347
Avg rating:3.0/5.0
Slides: 23
Provided by: Gio119
Category:

less

Transcript and Presenter's Notes

Title: Phylip Package


1
Phylip Package
2
Formato File Input
  • In letteratura, i file del Phylip hanno
    estensione .phy
  • Esempio nomeFile.phy
  • Il pachetto Phylip di default prende in input il
    file infile, senza estensione. Se tale file non
    si trova nella cartella del programma Phylip che
    si sta lanciando, allutente viene chiesto di
    inserire il nome del file.

3
Formato del file in input
  1. Primo rigo numero delle sequenze e numeri dei
    nucleotidi o amino-acidi nellallineamento
  2. Il nome della sequenza deve essere lungo
    esattamente 10 caratteri (eventualmente bisogna
    inserire dei caratteri alla fine).
  3. I Gap devono essere indicati con -. Gaps (-) alla
    fine di un file potrebbe causare uninterruzione
    del programma.
  4. I dati mancanti (Missing) o le informazioni
    mancanti (nessuna sequenza) devono essere
    indicati con ?.
  5. Sono permessi gli spazi tra i blocchi
    dellallineamento. Di solito ogni 10 basi o
    aminoacidi.

4
Esempio di file infile
5
Panoramica dei programmi
  • Distance methods
  • Matrice delle distanze
  • Costruzione alberi
  • Character based methods
  • Costruzione alberi

6
Calcolo della distanza evolutiva
  • La distanza evolutiva è una misura quantitativa
    della differenza fra le sequenze genetiche
    relative alle due specie rispetto
    all'allineamento fornito e viene interpretata
    come una stima del tempo di divergenza tra le due
    specie. Per poter essere così interpretata, la
    distanza evolutiva è calcolata basandosi sulla
    stima della probabilità che si verifichi
    l'insieme delle mutazioni che distinguono le
    sequenze sotto l'assunzione di un preciso modello
    biologico di riferimento.
  • Il modello di Jukes-Cantor. la probabilità che
    una base azotata muti in una delle altre tre è
    uniforme fra tutte le basi.
  • Il modello di Kimura. Questo modello si basa
    sull'osservazione che la struttura chimica di
    adenina e guanina (che sono due purine) è
    profondamente differente da quella di citosina e
    timina (che sono due pirimidine). Di conseguenza,
    nel modello di Kimura si assume che la
    probabilità che avvenga una transizione, cioè una
    muta zione da una purina a una pirimidina (o
    viceversa), sia differente dalla probabilità che
    avvenga una transversione, cioè una mutazione da
    una purina a un'altra purina o da una pirimidina
    a un'altra pirimidina. Generalmente le
    transizioni sono considerate più probabili delle
    transversioni con un rapporto di 2/1.
    Naturalmente il modello di Kimura è una
    generalizzazione del modello di Jukes-Cantor.
  • Il modello F84. Questo modello è un arricchimento
    del modello di Kimura in cui le 4 basi azotate
    non sono considerate equiprobabili e, in base
    alle frequenze con cui si presentano nelle
    sequenze (o a informazioni a priori), vengono
    derivate le probabilità di mutazione.
  • Il modello Log-Det. Questo modello si differenzia
    dai precedenti e si basa sullastima della
    probabilità congiunta con cui si presentano le
    basi nelle due sequenze. Risulta essere
    particolarmente adatto quando la frequenza delle
    basi varia notevolmente di sequenza in sequenza.
    In questi casi, infatti, i primi tre modelli non
    forniscono risultati validi.

7
Costruzione dellalbero
  • Una volta ottenuta una matrice delle distanze
    evolutive fra le specie si può procedere alla
    costruzione dell'albero che rispetta le distanze
    date. In letteratura sono stati proposti diversi
    algoritmi per risolvere questo problema.
  • Tra di essi ricordiamo l'algoritmo UPGMA,
    neighbour joining e Fitch-Margoliash.
  • I primi due algoritmi, che abbiamo visto a
    lezione, si basano sulla fusione iterativa dei
    due cluster di specie che, ad ogni passo,
    minimizzano una funzione della distanza mentre il
    terzo algoritmo ricerca l'albero che minimizza
    l'errore fra distanza predetta sull'albero e
    distanza evolutiva specificata in input. La
    correttezza dei primi due algoritmi è garantita
    solo se la matrice delle distanze soddisfa una
    determinata ipotesi (ultrametricità per UPGMA e
    additività per NJ) che, sfortunatamente, non è
    verificata in pratica. Il terzo metodo, invece, è
    più generale ma molto più lento dei precedenti e,
    se la matrice delle distanze è quasi ultrametrica
    (o quasi additiva), non fornisce risultati troppo
    dissimili dai precedenti.

8
Distance methods
  • Calcolano la matrice delle distanze partendo
    dalle sequenze allineate. Producono il file
    outfile
  • dnadist DNA distance matrix calculation
  • protdist Protein distance matrix calculation
  • Costruiscono lalbero prendendo in input la
    matrice delle distanze calcolata con dnadist o
    protdist.
  • Producono i file outfile e outtree.
  • fitch Fitch-Margoliash tree drawing method
    without molecular clock
  • kitsch Fitch-Margoliash tree drawing method with
    molecular clock
  • neighbor Neighbor-Joining and UPGMA tree drawing
    method

9
Dnadist
10
Metodi di Ottimizzazione basati sullo stato ei
caratteri
  • Massima Verosimiglianza (ML) Questo metodo ha
    natura statistica e mira a ricostruire l'albero
    che più verosimilmente ha portato alla
    generazione dell'allineamento in input
    ricostruendo la storia evolutiva di ogni singolo
    sito (cioè ogni singola base) delle diverse
    sequenze. Il metodo di ML è un metodo iterativo
    potenzialmente molto lento e, in linea generale,
    non è in grado di trovare l'albero filogenetico
    ottimo. Per questo motivo è spesso buona norma
    confrontare gli alberi risultanti da diverse
    ricostruzioni a partire dalle stesse sequenze ma
    considerate con ordini differenti. Qualora la
    ricostruzione risentisse fortemente dell'ordine
    delle sequenze, i risultati ottenuti avrebbero
    scarsa significatività. Il metodo di massima
    verosimiglianza fornisce alberi filogenetici non
    radicati.
  • Massima Parsimonia. Il criterio di parsimonia è
    un criterio usato trasversalmente in
    bioinformatica perché formalizza il principio
    conosciuto con il nome di rasoio di Occam
    generalmente ritenuto valido in biologia (e anche
    in altre discipline). Secondo il rasoio di Occam,
    se più soluzioni a un problema sono possibili
    allora quella giusta è (molto probabilmente)
    quella più semplice. Nel caso della ricostruzione
    di filogenesi secondo il metodo di massima
    parsimonia, quindi, si ricerca l'albero che
    induce il numero minimo di mutazioni tra i vari
    nodi dell'albero, sia interni che foglia. Anche
    in questo caso, lo spazio delle soluzioni, ovvero
    di tutti gli alberi filogenetici pesati, in cui
    trovare l'albero ottimo è potenzialmente molto
    grande (varia esponenzialmente con il numero di
    sequenze). Per questo motivo, anche il metodo di
    massima parsimonia richiede un considerevole
    sforzo computazionale per trovare la soluzione
    ottima (se si
  • utilizza un algoritmo esatto) oppure
    fornisce una soluzione buona in tempi ragionevoli
    (utilizzando un algoritmo euristico).

11
Character based methods
  • Dalle sequenze allineate producono uno o più
    alberi. Producono i file "outfile" e "outtree".
  • dnapars DNA parsimony
  • dnapenny DNA parsimony using branch-and-bound
  • dnaml DNA maximum likelihood without molecular
    clock
  • dnamlk DNA maximum likelihood with molecular
    clock
  • protpars Protein parsimony
  • proml Protein maximum likelihood

12
Valutazione degli alberi costruiti
13
(No Transcript)
14
BootStrapping
Con lopzione R si sceglie il numero di
replicazioni del dataset.
15
Bootstrapping
  • Dopo aver costruito un nuovo dataset costruisce
    un nuovo albero
  • Serve a misurare il grado di confidenza
    dellalbero ricostruito
  • Creazione di insiemi di sequenze artificiali,
    ottenuti estraendo a caso le colonne delle
    sequenze reali con reimbussolamento
  • Se gli alberi ricostruiti sono sempre uguali o
    molto simili gt buona confidenza

16
Resampling tool (bootstrapping)
  • This program reads in a sequence alignment, and
    generates a specified number of random samples
    into a file outfile. These random datasets are
    analyzed exactly the same way the original
    dataset was analyzed.
  • These random samples are usually used in
    subsequent analysis as a sequence alignment file
    with the option M (use multiple datasets)
    turned on.
  • Opzione R
  • Seqboot Generates random samples by
    bootstrapping or jack-knifing

17
Consensus trees
This program constructs a consensus tree from
multiple trees. For example, dnapars can produce
multiple trees, which can be summarized by the
program Consense. Also the results of the
bootstrapping are summarized by the program
Consense as a majority rule tree. Consense
Draws consensus trees from multiple trees.
18
Consensus trees
  • Opzione C
  • There are four consensus tree types to choose
    from.
  • Strict consensus creates a tree which only
    includes the set of sequences, if it occurs in
    all the trees.
  • The MR, MRe and M1 all produce a majority rule
    trees with slightly different options.
  • The default method (MRe) will include into the
    new tree all the groups of sequences, which are
    present in more than 50 of the trees.
  • M1 lets you to specify the percentage.
  • Note, that the consensus tree from bootstrapping
    samples should always be drawn with majority rule
    method.

19
Consensus trees
  • Opzione R e O
  • O Outgroup root No, use as outgroup species 1
  • R Trees to be treated as Rooted No
  • Selezionare Ryes se lalbero è con radice
    (quindi si è usato UPGMA) e Rno se lalbero è
    senza radice (quindi si è usato
    Neighbor-Joining).
  • Se Rno, occorre scegliere loutgroup con
    lopzione O, altrimenti di default considera la
    prima specie come outgroup.

20
Disegnare gli alberi
  • Tree drawing
  • Drawgram Draws a rooted tree
  • Drawtree Draws an unrooted tree
  • Occorre specificare il carattere da usare nel
    disegno. Nel pacchetto sono inclusi
  • font1, font2, font3, font4, font5, font6.
  • Loutput è il file chiamato plotfile. Occorre
    rinominarlo aggiungendo lestensione.

21
Formato File
Di default lalbero viene creato nel formato
Postscript (.ps). Per cambiarlo, scegliere
lopzione P. Per il formato .bmp
22
Riepilogo
BootStrapping
Opzione C (Modello) Opzione R (Tipo
Albero) Opzione O (se necessaria)
Opzione M Selezionare il numero di dataset
replicati.
Inserire il numero di dataset da replicare
Write a Comment
User Comments (0)
About PowerShow.com