BIOLOGIA/MEDICINA

About This Presentation

Title:

BIOLOGIA/MEDICINA

Description:

BIOLOGIA/MEDICINA A Revolu o da Gen mica/Bioinform tica Hist ria da Biologia Molecular 1951 Fred Sanger, Amino Acid Sequence of Insulin 1953 Watson/Crick ... – PowerPoint PPT presentation

Number of Views:455

Avg rating:3.0/5.0

Slides: 137

Provided by: LIC81

Category:

more less

Transcript and Presenter's Notes

Title: BIOLOGIA/MEDICINA

1
BIOLOGIA/MEDICINA
A Revolução da Genômica/Bioinformática
2
A Verdadeira Revolução
Início do séc. 20 Mendel e as leis da
hereditariedade. 1944 DNA como elemento
carreador da informação genética
(Avery) 1953 Watson/Crick e aestrutura do
DNA. Anos 70 e 80 Biologia Molecular/Biotecnolo
gia Anos 90 e séc. 21 Genômica/Bioinformática
3
História da Biologia Molecular

1951 Fred Sanger, Amino Acid Sequence of Insulin
1953 Watson/Crick, Estrutura do DNA
1957 Francis Crick, Central Dogma, DNA ? RNA ?
Protein
1960s Nirenberg, Matthaei, The Genetic Code
1967 Shapiro and Beckwith, First gene cloned,
LacZ
1972 Paul Berg, First recombinant DNA molecule
1973 Cohen/Boyer, First recombinant organism
1977 Maxam/Gilbert and Fred Sanger, DNA
sequencing
1977 Fred Sanger, Complete sequence of phage
?X174
1978 David Botstein, Restriction Fragment Length
Polymorphisms (RFLP)
1980 Kerry Mullis, PCR
1983 Lee Hood, First Automated DNA Sequencer

4
Sequenciamentodo DNASanger, Gilbert (Nobel 1980)
5
Sequenciamento Automático
Leroy Hood
30kb por corrida
6
A era genômica
7
376 Genomas Concluídos! 251 como rascunho! 342
em andamento
327 Bacterial, 27 Archeal, 22 Eukaryotic

1995, Haemophilus influenzae
1996, Methanococcus jannaschii
1997, Saccharomyces cerevisiae
1997, Escherichia coli
1998, Caenorhabditis elegans
2000, Drosophila melanogaster
2000, Arabidopsis thaliana
2001, Homo sapiens
2002, Schizosaccharomyces pombe
2002, Oryza sativa
2002, Mus musculus
2005, Pan troglodites

http//www.ncbi.nlm.nih.gov 09/07/2006
8
Um modelo genético
9
Genoma Humano2001

International Consortium
Grupos acadêmicos
Celera Genomics
Companhia Privada

10
A nova revolução da Genômica
454
SOLiD - ABI
Solexa - Illumina
03 GB de DNA por corrida
120 MB de DNA por corrida
01 GB de DNA por corrida
12KB/US 100KB/US 300KB/US
Tecnologia de Capilar 0.5KB/US
11
Nova tecnologia

Dispensa clonagem dos fragmentos em sistemas
bacterianos
Dispensa a preparação de DNA molde para
sequenciamento
Reações feitas em paralelo em volume extremamente
pequeno - nanotecnologia

12
Aplicações

Sequenciamento de Genomas
sequenciamento de novo
re-sequenciamento - variabilidade SNPs e mutações
Sequenciamento de Transcriptomas
variabilidade - splicing, poliadenilação
quantificação de expressão gênica

13
Sequenciamento de novo
14
Re-sequenciamento
15
Transcriptoma
16
Projeto 454
Participantes LICR-SP, LICR-NY, Venter
Institute Objetivo Sequenciamento extensivo dos
genes expressos na linhagem celular HCC1954
(tumor de mama) buscando conhecer, com um único
set de dados, alterações genéticas e
epi-genéticas neste tipo de câncer. Sequenciador
454
17
Fapesp/LICR Genoma Humano do Câncer Projeto 454
Venter/LICR
sequências 1.2 milhões 520 mil
sequenciadores 05 MegaBaces 01 454
corridas 15,000 01
Custo (US) 12 milhões 10 mil Excluindo
o preço dos aparelhos
18
Um objetivo a curto prazo
19
Os sequenciadores de nova geraçãopromovem uma
mudança no paradigma
Geração de dados deixa de ser o fator limitante
Com os bilhões de datapoints gerados em horas, o
processamento e análise dos dados tornou-se o
maior gargalo das pesquisas biomédicas.
20
Bioinformática

Computação
Matemática
Biologia

21
O que é Bioinformática?
22
(No Transcript)
23
(No Transcript)
24
Bioinformática - História

1970, Needleman/Wunch, Alinhamento Global.
1972, Margaret Dayhoff, Matrizes de
Comparação.
1979, Walter Goad, GenBank.
1981, Smith/Waterman, Alinhamento Local.
1989, NHGRI, Projeto Genoma Humano.
1990, Altschul/Gish/Miller/Myers/Lipman, BLAST.
1994, Eddy/Krogh/Durbin, Hidden Markov Models
(HMMs).

25
Bioinformática - Importância

Poucas pessoas adequadamente treinadas em
Biologia e Computação.
Biologia em larga-escala. Produção de dados em
massa gera uma demanda para análises
computacionais.
Economiza tempo e dinheiro.

26
Bioinformática

Desenvolvimento de ferramentas.
Forma de explorar novos dados.
Processamento de dados gerados por projetos em
larga-escala.
Uma nova forma de se fazer ciência dirigida por
hipóteses.

27
Bioinformática
O Bioinformata O Usuário

Manipula a informação.
Desenvolve ferramentas
Bancos de dados locais.
Local.
Mta programação.
Habilidades de TI.

Recursos da Web.
Local ou remoto.
nada de programação.
pouca habilidade de TI.

28
Cinco websites que todos devem conhecer

NCBI (The National Center for Biotechnology
Information
http//www.ncbi.nlm.nih.gov/
EBI (The European Bioinformatics Institute)
http//www.ebi.ac.uk/
The UCSC Genome Browser
http//genome.ucsc.edu/
SwissProt/ExPASy (Swiss Bioinformatics Resource)
http//expasy.cbr.nrc.ca/sprot/
PDB (The Protein Databank)
http//www.rcsb.org/PDB/

29
NCBI (http//www.ncbi.nlm.nih.gov/)

Acesso aos bancos de dados via Entrez
Medline/OMIM
Genbank/Genpept/Structures
Servidor de BLAST
Todos os tipos de Blast
Portal do Genoma Humano
Muito, muito mais..

30
(No Transcript)
31
(No Transcript)
32
EBI (http//www.ebi.ac.uk/)

Acesso a bancos de dados via SRS
EMBL, SwissProt,
Muitas outras ferramentas
ClustalW, DALI,

33
(No Transcript)
34
UCSC Genome Browser (http//genome.ucsc.edu/)

Banco de dados e Browser para genomas de
diferentes espécies
Humano, camundongo, rato, zebrafish, etc.
Muitas outras ferramentas
SNPs, domínios prtéicos, genômica comparativa,
etc.

35
(No Transcript)
36
SwissProt (http//www.expasy.ch/sprot/)

Checagem manual.
O número de entradas errôneas é bastante
reduzido.
Cross-link extensivo com outros bancos
SwissProt é o gold-standard em termos de bancos
de dados e é o melhor lugar para se começar uma
análise se vc procura info para uma ou poucas

37
(No Transcript)
38
Protein Data Bank PDB (http//www.rcsb.org/pdb/)

Armazena a estrutura tri-dimensional para
milhares de proteínas
Acesso a vários serviços relacionados a biologia
estrutural

39
(No Transcript)
40
Bancos de Sequência Primários
GenBank (USA) http//www.ncbi.nlm.nih.gov/Genbank
EMBL (Europa) http//www.ebi.ac.uk/embl/ DDBJ
(Japão) http//www.ddbj.nig.ac.jp/
41
Homologia - Ortologia - Paralogia
42
Dois conceitos importantes

Paralogia O evento que originou às duas
sequências é um evento de duplicação gênica!
Orthologia O evento que deu origem às duas
sequências é um evento de especiação!

FUNÇÕES SIMILARES!
FUNÇÕES IDÊNTICAS!
43
Como definir função?

Alinhamento de sequências
Motivos (padrões consensuais)
Blocos, perfis, etc....
Hidden Markov Models - HMM

44
Similarity Searches on Sequence Databases, EMBnet
Course, October 2003
45
Alinhamento
0 1 2 3 4 5 6 7 8 9 10 G A A -
G G A T T A G G A T C G G A - - A
G

Identidade - MATCH
Semelhança / divergência - MISMATCH
Lacunas - GAPS
Inserção/Deleção - INDELS

46
Alinhamento

Qual é o melhor alinhamento ?
Alinhamento 1
A C G G A C T
-
A T C G G A T C T
Alinhamento 2
A T C G
G A T C T
-
A C G G A C T

47
Pontuação

Esquema de pontuação
match 2
mismatch 1
indel 2
Alinhamento 1 (5 2) (11) (4-2) 10 1
8 3
Alinhamento 2 (6 2) (11) (2-2) 12 1
4 9
Escore final soma dos escores para cada posição
Favorece os matches, penaliza os gaps

48
Matriz de Substituição

Tabela de comparação
Reflete a probabilidade ou frequência de
determinada substituição em sequências
biologicamente relacionadas
p(A ? B) p(B ? A)
Construídas pelo estudo do alinhamento de
diversas sequências relacionadas
AA ou nucleotídeos

49
Percent Accepted Mutation (PAM - Dayhoff)

Margaret Dayhoff (1978)
Probabilidade de substituição de aa em
alinhamentos globais de sequências homólogas
Cada matriz reflete as mutações entre sequências
que divergiram por determinado período de tempo
Mutações aceitas gt não afetam negativamente a
viabilidade da proteína
Primeira matriz
71 grupos de proteínas, 85 de similaridade
1572 substitutições de aminoácidos
Expansão do número de proteínas gt 1991 database

50
Matrizes PAM

Premissa gt cada mutação é independente das
mutações anteriores
Consequência gt as substituições observadas em
curtos períodos podem ser extrapoladas para
longos períodos
PAM 1 gt sequências com 1 ou menos de
divergência gt1 mutação aceita a cada 100
aminoácidos
PAM N mutações (PAM 1)N
PAM 250 gt 250 mutações por 100 aa gt 250
mutações em 2500 milhões anos
PAM 250 20 similar - PAM 120 40 - PAM 80
50 - PAM 60 60

51
http//www.blc.arizona.edu/courses/bioinformatics/
dayhoff.html
52
Blocks Substitution Matrix (BLOSUM)

Kenikoff Henikoff (1992)
Frequência de substituição de aa em um conjunto
de 2000 padrões (blocos)
Maior número de sequências consideradas gt mais
de 500 famílias
Alinhamentos locais de sequências relacionadas e
não geradas a partir de extrapolações
BLOSUM 62 é o padrão para BLAST 2.0 gt sequências
moderadamente distantes ou mais próximas
Sequências Consenso
60 idênticas BLOSUM 60
80 idênticas BLOSUM 80

53
http//www.blc.arizona.edu/courses/bioinformatics/
blosum.html
G A V C T K I G V V C Y R E
6049(-2)2(-3) 16
54
Relação ente BLOSUM e PAM
http//www.ncbi.nlm.nih.gov/Education/BLASTinfo/Sc
oring2.html

PAM gt origens evolutivas de proteínas
BLOSUM gt domínios conservados

55
Global vs. Local

Global
Alinhamento de toda a sequência utilizado o
maior número de caracteres possíveis
Sequências similares e de tamanho aproximado
Local
Segmentos com o maior número de identidades
Regiões alinhadas e não alinhadas (? mismatch)
Sequências similares em algumas regiões, que
diferem em tamanho ou que compartilham domínios
conservados

56
Aplicações

Global
Deduzir histórias evolutivas entre membros da
mesma família
Estabelecer a existência de um ancestral comum
(homologia)
Local
Inferir funções biológicas
Identificar regiões conservadas e de alta
similaridade (sítio ativo, domínios) entre outras
pouco conservadas
Reconstruir sequências de DNA a partir de seus
fragmentos
Comparar sequências de mRNA (sem íntrons) à
sequência genômica

57
Métodos de Análise

Diagramas - DOT PLOT
Algoritmo de Programação Dinâmica
Algoritmos Heurísticos - Word-Based ou K-tuples

58
Dot Plot
59
Inserções Deleções
60
Repetições Inversões
61
Programas Disponíveis

Dotter (http//www.cgr.ki.se/cgr/groups/sonnhammer
/Dotter.html)
COMPARE DOTPLOT (Genetics Computer Group)
PLALIGN (http//fasta.bioch.virginia.edu/fasta/fas
ta_list.html)
Web browser (http//www.isrec.isb-sib.ch/java/dotl
et/Dotlet.html)

62
Programação Dinâmica

Needleman Wunsch (1970)
Compara cada par de caracteres nas duas
sequências
Posiciona os gaps de forma a obter o maior número
de alinhamentos idênticos ou similares
Gera uma matriz de números que representa todos
os possíveis alinhamentos de acordo com um
sistema de escore
Alinhamento ótimo gt maior escore

63
Limitações

Computacionalmente lento
Número de alinhamentos cresce exponencialmente
com a média dos comprimentos das sequências (n)
Número de cálculos gt proporcional a n2 ou n3
Memória gt capacidade da ordem de n2

64
Needleman-Wunsch
As sequências abcdefghajklm abbdhijk São
alinhadas e scores são dados a b
c d e f g h a j k l m
a b b d . . . h i j k
match 4 4 4 4 4 4
mismatch -3 -3 gap_open
-2 gap_extend -1-1-1 Score total
de 24-6-2-3 13.
65
Needleman-Wunsch
O alinhamento de maior score entre as
duas sequências é considerado o mais provável.
66
Needleman-Wunsch
Saída típica
Global HBA_HUMAN vs HBB_HUMAN Score
290.50 HBA_HUMAN 1
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44

HBB_HUMAN 1
VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE
43 HBA_HUMAN 45 HF.DLS.....HGSAQVKGHG
KKVADALTNAVAHVDDMPNALSAL 83

HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKK
VLGAFSDGLAHLDNLKGTFATL 88 HBA_HUMAN 84
SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF
128
HBB_HUMAN 89
SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV
133 HBA_HUMAN 129 LASVSTVLTSKYR
141
HBB_HUMAN 134
VAGVANALAHKYH
146 id 45.32 similarity
63.31 Overall id 43.15 Overall similarity
60.27
67
Razões para se usar um banco de sequências

Eu acabei de obter uma sequência. O que é sabido
à respeito desta sequência? Ela é única?
Eu tenho uma sequência única. Ela tem
similaridade com alguma outra sequência de função
conhecida?
Eu encontrei uma nova proteína em um determinado
organismo. Existe um ortólogo conhecido?
Eu decidi trabalhar com um gene novo. Eu não
tenho como obter um clone contendo a sequência
deste gene. Eu preciso da sequência do cDNA para
fazer uma PCR.

68
O que envolve uma busca ?

Algoritmos de busca (BLAST, FASTA)
Matrizes de comparação (PAM vs. BLOSUM)
Banco de dados (nr, dbEST)
Parâmetros de busca (filtros on/off, threshold,
etc)

69
Basic Local Alignment Search Tool

Método heurístico gt método empírico, que utiliza
a fórmula tentativa e erro para encontrar as
soluções
Significado estatístico gt determina se um
alinhamento ocorre aleatoriamente ou não
Vantagem gt pelo menos 50 vezes mais rápido que
os algoritmos de programação dinâmica e mais
apropriados para busca em bancos de dados
Desvantagem gt não garante uma solução com um
alinhamento ótimo como os algoritmos de
programação dinâmica

70
Aplicações

Identificar sequências ortólogas e parálogas
Descobrir novos genes ou proteínas
Descobrir variantes de genes e proteínas
Investigar Expressed Sequence Tags - ESTs
Explorar a estrutura e função de proteínas

71
BLAST WEB Pages

BLAST (NCBI National Center for Biotechnology
Information) http//www.ncbi.nlm.nih.gov/BLAST/
BLAST2 (Swiss EMBnet server - European Molecular
Biology network??) http//www.ebi.ac.uk/blastall/
WU-BLAST (Washington University)
http//blast.wustl.edu/

72
(No Transcript)
73
Blast é Heurístico

1) Tabela de busca com todas as palavras
(words) de comprimento W (3 aa ou11 nucleot.)
mais as palavras vizinhas semelhantes, que
aparecem pelo menos T vezes na sequência query.
2) Busca de sementes (hits, hot spots) na
sequência do banco de dados que alinhem com as
palavras previamente estabelecidas.
3) Extensão das sementes em ambas as direções,
produzindo alinhamentos locais máximos (HSP -
high scoring pair) com ou sem lacunas, de acordo
com os parâmetros estabelecidos.
4) Registro da informação em um arquivo
SeqAlign (ASN.1).
5) A informação é utilizada para buscar
sequências similares. Os resultados podem ser
reformatados sem a necessidade de refazer a busca.

74
Sensibilidade vs. Seletividade

Sensibilidade
Habilidade de encontrar a maior parte dos membros
relacionados à família da sequência query
Seletividade
Habilidade de não identificar sequências de
outras famílias como falso-positivos
Grau de cobertura dos membros da família dado um
nível de falso-positivos

75
Escores e Estatística

Bit Score
Indica quão bom é o alinhamento. Quanto maior o
escore, melhor o alinhamento
Considera o número de resíduos idênticos ou
similares e a quantidade de gaps
Influenciado pela Matriz de Substituição (padrão
BLOSUM 62 )
Exceção blastn and MegaBLAST
Normalização bit scores de diferentes
alinhamentos podem ser comparados

76
Escores e Estatística

E-value
Significado estatístico do alinhamento
Quanto menor o escore, mais significativo é o
alinhamento
E-value 0.05. Significa que existem 5 chances
em 100 (1 em 20) da similaridade entre as
sequências ocorrer aleatoriamente
Influenciado pelo tamanho do banco de dados e o
sistema de escore utilizado

77
Etapas de Busca

1) Selecionar a sequência (query)
2) Selecionar o banco de dados
3) Selecionar o programa
4) Definir os parâmetros

78
Passo 1 Escolha da sequência

Natureza
Tamanho
Formatos Identificadores (ID), FASTA (gtseq
name), sequências puras (txt?)

79
(No Transcript)
80
(No Transcript)
81
Passo 2 Seleção do Banco de Dados

Proteínas
GenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP
Nucleotídeos
GenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69,
STS70, vetores, sequências de mitocôndrias,
GSS71, sequências HTGS72
Conteúdo
não-redundância,
periodicidade de atualização
organismos ou espécies
sequências patenteadas
interesse imunológico
elementos repetitivos, etc.

82
http//www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
83
(No Transcript)
84
Passo 3 Seleção do Programa

Natureza da sequência
Finalidade da busca
Banco de dados

85
DNA codifica 6 proteínas potenciais
5 CAT CAA 5 ATC AAC 5 TCA ACT
5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACC
CAC 3 3 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTT
TGGATGGGTG 5
5 GTG GGT 5 TGG GTA 5 GGG TAG
86
Tipos de Programas
programa entrada banco de dados
1 blastn DNA DNA 1 blastp
protein protein 6 blastx DNA
protein 6 tblastn protein
DNA 36 tblastx DNA DNA
87
Passo 4 Seleção dos parâmetros

Tamanho da palavra (w-er)
Filtros
E value
Matriz de substituição penalidades para gap

Sensibilidade e velocidade gt W, T e
X Seletividade gt cutoff score
88
Entrez
Filter
Expect
organism
Word size
Scoring matrix
89
Filtro
90
Report Header

Tipo de programa (BLASTP), versão (2.2.1) e data
da versão
Artigo que descreve o BLAST, request ID (issued
by QBLAST), a definição da sequência e resumo do
banco de dados
Taxonomy reports mostra o resultado deste BLAST
na base de informação do banco de dados Taxonomy

91
Taxonomy Report
92
Graphical Overview
query
database hits

Quanto mais próximas da query, mais semelhantes
Barras em rosa lower-scoring matches que alinham
em 2 regiões (resíduos 3-60 e 220-500)
Segmento rachurado as duas regiões de
similaridade estão na mesma proteína mas esta
região não alinha
Outras barras lower-scoring matches

93
One-line Descriptions

(a) gi number, designação do banco de dados,
número de acesso e o nome do locus para as
sequências encontradas, separados por barras
verticais
(b) Definição da sequência
(c) Escore de alinhamento ( bits)
(d) E-value

94
Pairwise Sequence Alignment
95
(No Transcript)
96
Famílias de Elementos Repetitivos

Alu
L1
L2
Tais sequências podem gerar alinhamentos espúrios.

97
Alu

Constitutes about 5 of the human genome.
Short interspersed repeats.
Found in primate genomes.
ALU elements often found in 3 regions or introns.

98
Blast usando uma sequência de Alu
99
(No Transcript)
100
Como identificar e remover elementos repetitivos

Filter para elementos repetitivos no servidor de
Blast do NCBI
Repeat Masker http//ftp.genome.washington.edu/cg
i-bin/RepeatMasker

101
Nair Rost, 2002
102
Way out!

psi-Blast
pattern (phi-Blast)
Hidden Markov Models (HMMs)

103
Position Specific Interactive (PSI)-BLAST

Detecta proteínas fracamente relacionadas ou
novos membros de uma família protéica (mais
sensível)
Utilizado quando o BLAST padrão falha em
encontrar hits significativos ou retorna hits com
decrições do tipo "hypothetical protein" ou
"similar to... "
Busca iterativa gt comparam-se as sequências de
alto escore com a sequência de busca para
determinar quais delas são altamente conservadas
Sequências resultantes gt construção de um modelo
de escore específico por posição (consenso) gt
Position-Specific Scoring Matrix (PSSM ou profile)

104
PSI-BLAST - Algoritmo

Busca com BLASTp normal
Construção de um consenso a partir das regiões
alinhadas com E values menores que o limite
estabelecido (padrão 0.005)
Utilizando este consenso, procede a uma nova
pesquisa sobre a base de dados
Quaisquer novos hits abaixo do limite são
incluídos em um novo PSSM
Fim do processo (convergência) nenhuma nova
sequência é adicionada ao consenso em iterações
subsequentes

105
Pattern-Hit Initiated (PHI)-BLAST

Busca proteínas que contém padrão especificado
pelo usuário E é similar à sequência query em
relação in the vicinity ao padrão
Reduz o número de hits que contém o padrão no
banco de dados mas pode também apresentar
nenhuma homologia ao query
Exemplo de sequência query e um padrão no formato
ProSite
gtgi4758958refNP_004148.1 Human
cAMP-dependent protein kinaseMSHIQIPPGLTELLQGYTVE
VLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDR
VADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVI
HPKTDEQRCRLQEACKDILLFKNLDQEQLSQVLDAMFERIVKADEHVID
QGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELALMYNTPR
AATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEV
SERMKIVDVIGEKIYKDGERIITQGEKADSFYIIESGEVSILIRSRTKS
NKDGGNQEVEIARCHKGQYFGELALVTNKPRAASAYAVGDVKCLVMDVQ
AFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ
Padrão encontrado
LIVMF-G-E-x-GAS-LIVM-x(5,11)-R-STAQ-A-x-
LIVMA-x-STACV

106
Hidden Markov Models

An approach based on statistical sampling theory
Previously used with success for natural language
processing
Model sequence as a Markov model that is not
known (hidden)
Observed sequence is a noisy representation of
the hidden true model

107
A HMM for a DNA sequence
C
C
A
T
T (prob 0.8) or A (prob 0.2)
G (prob 0.1) or C (prob 0.9)
A (prob 0.7) or T (prob 0.3)
G (prob 0.1) or C (prob 0.9)
108
Idea of HMM

Since multiple alignment of k sequences take
O(Nk) time, instead estimate a statistical model
of the sequences
Align the multiple sequences to this model
This is equivalent to aligning the sequences to
one another

109
Protein Family Classification

Pfam
large collection of multiple sequence alignments
and hidden Markov models
covers many common protein domains and families
Over 73 of all known protein sequences have at
least one match
5,193 different protein families

110
Pfam

Initial multiple alignment of seeds using a
program such as Clustal
Alignment hand scrutinized and adjusted

111
Pfam

Links to the Pfam software
http//pfam.wustl.edu/
http//www.sanger.ac.uk/Software/Pfam/index.shtml
View some examples
http//pfam.wustl.edu/

112
Locating ORFs

Simplest method of predicting coding regions is
to search for open reading frames (ORFs)
open reading frames begin with a start (AUG)
codon, and ends with one of three stop codons
Six total reading frames

113
Locating ORFs

Prokaryotes DNA sequences coding for proteins
generally transcribed into mRNA which is
translated into protein with very little
modification
Locating an open reading frame from a start codon
to a stop codon can give a strong suggestion into
protein coding regions
Longer ORFs are more likely to predict
protein-coding regions than shorter ORFs.

114
Locating ORFs

Eukaryotes mRNA undergoes processing to remove
introns before the protein is translated
ORF corresponding to a gene may contain regions
with stop codons found within intronic regions
Posttranscriptional modification makes gene
prediction more difficult

115
Filogenia

Problema de determinação de árvores filogenéticas
Encontrar a árvore que melhor descreve a relação
entre um conjunto de objetos (espécies ou táxons)

116
Filogenia

Táxons e Complexidade
3 árvores possíveis para 4 táxons
Para 5 táxons?

117
Filogenia

Táxons e Explosão Combinatorial

118
Métodos para reconstrução filogenética

03 métodos principais
Parsimônia
Métodos baseados em distância
Verossimilhança máxima

119
Parsimônia

Dá preferência à topologia que requer o menor
número de mudanças .

120
Filogenia

Métodos de Distância
A distância evolutiva é calculada para todos os
pares de táxons
Matriz de Distâncias
A árvore filogenética é construída considerando a
relação entre esses valores de distâncias

121
O método de evolução mínima

Para todas as topologias possíveis
Calcula o comprimento de todos os ramos, S
Mantém a árvore com menos S.
Problema computacionalmente intenso. Não é usado
com mais de 25 sequências.

122
Filogenia

Métodos com Critério de Ótimo
Máxima Verossimilhança
Determina-se a probabilidade de um modelo
evolutivo gerar um certo dado
Considera todos os sítios e todas as
possibilidades de mutações em todos os nós
internos da árvore proposta
Multiplica-se a probabilidade de cada sítio
Probabilidade da árvore
Pode ser utilizado para análises de
características e de valores
Mais consistente e com estimativas com menor
variância
Não é simples e intuitivo
Computacionalmente intenso

123
Bootstrap procedure

O suporte para cada ramo interno é expresso em
termos the de réplicas.

124
"bootstrapped tree
125
Bootstrap

Ramos internos suportados por 90 das réplicas
são considerados estatisticamente significativos.
O procedimento de bootstrap não define se um
programa é bom. Uma árvore errada pode ter 100
de suporte de bootstrap em seus ramos internos.

126
Tempo de processamento para vários programas
distance lt parsimony PHYML ltlt Bayesian lt
classical ML NJ DNAPARS PHYML
MrBayes fastDNAml,PAUP
127
Recursos de Web para filogenia

Compilações
Uma lista de web sites http//www.ucmp.berkeley.ed
u/subway/phylogen.html
Uma lista grande de programashttp//evolution.gen
etics.washington.edu/ phylip/software.html

128
Recursos de Web para filogenia

Editor de alinhamento
SEAVIEW para windows e unixhttp//pbil.univ-lyo
n1.fr/software/seaview.html
Programas para filogenia molecular
PHYLIP http//evolution.genetics.washington.edu/
phylip.html
PAUP http//paup.csit.fsu.edu/index.html
PHYLO_WIN http//pbil.univ-lyon1.fr/software/ph
ylowin.html
MrBayes
http//morphbank.ebc.uu.se/mrbayes/
PHYML http//www.lirmm.fr/guindon/phyml.htm

129
Recursos de Web para filogenia

Desenho de árvores
NJPLOT (para todas as plataformas)http//pbil.un
iv-lyon1.fr/software/njplot.html
Aulas de filogeniahttp//www.bioinf.org/molsys/le
ctures.html

130
sandro_at_ludwig.org.br
131
Ontologia Fornecer um vocabulário
estruturado e controlado para representar o
conhecimento biológico nos bancos de dados.for
the
132
Gene Onthology (GO)