Bancos de Dados - PowerPoint PPT Presentation

1 / 40

About This Presentation

Title:

Bancos de Dados

Description:

Bancos de Dados BD de Seq ncias H uma quantidade gigantesca de informa o sobre biomol culas em BD p blicos Mais de 348 BD BD de seq ncias de ... – PowerPoint PPT presentation

Number of Views:40

Avg rating:3.0/5.0

Slides: 41

Provided by: Emb71

Category:

more less

Transcript and Presenter's Notes

Title: Bancos de Dados

1

Bancos de Dados

2
BD de Seqüências

Há uma quantidade gigantesca de informação sobre
biomoléculas em BD públicos
Mais de 348 BD
BD de seqüências de nucleotídeos
EMBL (http//www.ebi.ac.uk/embl)
GenBank (http//www.ncbi.nlm.nih.gov/GenBank)
DDBJ (http//www.ddbj.nig.ac.jp)
UniGene (http//www.ncbi.nlm.nih.gov/UniGene)
BD de seqüências de proteínas
SWISS-PROT, TrEMBL (http//www.expansy.ch/sprot)
PIR (http//pir.georgetown.edu)
BD de motivos
Pfam (http//www.sanger.ac.uk/Software/Pfam)
PROSITE (http//www.expansy.ch/prosite)
BD de estruturas macromoleculares 3D
PDB (http//www.rcsb.org/pdb)

3
Usos de BD de Seqüências

O que se pode descobrir sobre um gene por meio de
uma busca a um BD?
Informação evolutiva genes homólogos,
freqüências dos alelos, ...
Informação genômica localização no cromossomo,
intros, UTRs, regiões reguladoras, ...
Informação estrutural estruturas da proteína
correspondente, tipos de folds, domínios
estruturais, ...
Informação de expressão expressão específica a
um dado tecido, fenótipos, doenças, ...
Informação funcional função molecular/enzimática,
papel em diferentes rotas, papel em doenças, ...

4
Busca de Informação

Busca de informação sobre genes e produtos
gênicos
Gene e produtos gênicos são geralmente
organizados por seqüência
Seqüências genômicas codificam todas
características de um organismo
Produtos gênicos são descritos unicamente por sua
seqüência
Seqüências similares entre biomoléculas indica
tanto uma função similar quanto um relacionamento
evolutivo
Seqüências de macromoléculas proporciona chaves
biologicamente significativas para busca em BD

5
Busca em BD de Seqüências

Comece com uma seqüência, encontre informação
sobre ela
Muitos tipos de seqüências de entrada
Pode ser uma seqüência de aminoácido ou de
nucleotídeo
Genômica, cDNA/mRNA, proteína
Completa ou fragmentada
Matches exatos são raros
Em geral, o objetivo é recuperar um conjunto de
seqüências similares

6
Busca em BD de Seqüências

O que queremos saber sobre a seqüência?
Ela é similar ao algum gene conhecido? Quão
próximo é o melhor match? Significância?
O que sabemos sobre este gene?
Genômica (localização no cromossomo, regiões
reguladoras, ...)
Estrutural (estrutura conhecida? ...)
Funcional (molecular, celular e doença)
Informação evolutiva
Este gene é encontrado em outros organismos?
Qual é sua árvore taxonômica?

7
NCBI e Entrez

A mais usada interface para a recuperação de
informação de BD biológicos é o sistema Entrez do
NCBI (http//www.ncbi.nlm.nih.gov/Entrez)
NCBI (National Center for Biotechnology
Information)
O sistema Entrez tira vantagem do fato que há
relacionamentos lógicos pré-existentes entre as
entradas indíviduas encontradas em diversos BD
públicos
Por um exemplo, um artigo no PuBMed pode
descrever o sequenciamento de um gene cuja
seqüência aparece no GenBank
A seqüência de nucleotídeos, por sua vez, pode
codificar o produto de uma proteína cuja
seqüência está armazenada em um BD de proteínas
A estrutura 3D desta proteína pode ser conhecida
- as coordenadas da estrutura podem aparecer em
um BD de estruturas
Finalmente, o gene pode ter sido mapeado para uma
região específica do cromossomo - BD de
mapeamento
A existência dessas conexões naturais, levou ao
desenvolvimento de um método por meio do qual
toda a informação poderia ser encontrada sem ter
que visitar sequencialmente BD distintos

8
O Sistema Entrez (1/2)

Para ser claro, Entrez não é um BD
É a interface por meio da qual todos os seus BDs
componentes podem ser acessados
O espaço de informação do Entrez inclui
Registros do PubMed
Dados sobre seqüências de nucleotídeos e
proteínas
Informação sobre estruturas 3D
Informação de mapeamento
A vantagem do Entrez está no fato que toda esta
informação pode ser acessada por meio de apenas
uma query (consulta)

9
O Sistema Entrez (2/2)
10
BLAST Busca com uma Seqüência

O objetivo é encontrar outras seqüências que são
mais similares a query (consulta) do que seria
esperado por ter acontecido ao acaso
Homologia
Pode começar com seqüências de nucleotídeos ou
aminoácidos
Pode fazer a busca por nucleotídeos/aminoácidos

11
BLAST
12
Mais que NCBI

Links para anotações funcionais fora do NCBI
Gene Ontology - nomes padrões para
Funções moleculares
Localização celular
Processos
Links para BD de enzimas
Funções da enzimas
Links para o BD KEGG (vias)

13
KEGG
14
Referências

A. D. Baxevanis e B. F. Francis Ouellete (eds.).
Bioinformatics a practical guide to the analysis
of genes e proteins. John Wiley Sons. 2001.
The Molecular Biology Database Collection 2003
update -- Nucleic Acids Research 31(1)1-12

15
Alinhamento de Seqüências

Possibilitar ao pesquisador determinar se duas
seqüências apresentam suficiente similaridade tal
que um inferência sobre homologia pode ser
justificada
Homologia significa dizer que duas (ou mais)
seqüências tem um ancestral comum
História evolutiva
Similaridade é uma medida da qualidade do
alinhamento entre duas seqüências, baseada em
algum critério
Não se refere a nenhum processo histórico
Apenas uma comparação das seqüências com algum
método
É uma afirmação logicamente mais fraca
Em bioinformática, esses dois termos são muitas
vezes confundidos
A razão é provavelmente porque uma similaridade
significativa é um forte argumento para homologia
e, a partir disso, para a dedução de que as
seqüências codificam um gene com uma função
biológica similar

16
Bases Evolucionárias

Mutações
Os eventos mais simples que ocorrem durante o
curso da evolução molecular são substituições de
um nucleotídeo por outro e a deleção ou inserção
de uma par de base
Quando uma alinhamento de seqüências refletem
genuinamente a história evolutiva de dois genes
ou proteínas
Resíduos que foram alinhados mas não são
idênticos representaria uma substituição
Regiões onde os resíduos de uma seqüência não
correspondem a nada na outra seria interpretado
como ou uma inserção uma seqüência ou uma deleção
na outra

A L I G N M E N T - L I G A M E
N T
17
Relação entre Sequências
18
Similaridade

Similaridade pode ser definida contando posições
que são idênticas entre duas seqüências
Gaps (inserções/deleções) podem ser importantes

G A A T T C A G T T A G G
A T T C G - A
19
Substituições

Nem todo mismatch (substituições) são iguais
Alguns aminoácidos são mais substituível entre si
Serina e treonina são mais parecidos do que
triptofan e alanina
Podemos adicionar um custo diferente para cada
tipo de mismatch (substituição)
Em geral, não usamos custos diferentes para os
mismatches no alinhamento de nucleotídeos
Nenhuma substituição, por si, é melhor do que
outra

20
Gaps

Sem gaps, há NM possíveis alinhamentos entre
seqüências de comprimentos N e M
Uma vez gaps são permitidos, isto se torna um
número muito grande
O número de possíveis alinhamentos torna-se
exponencial no tamanho das seqüências
Logo, não podemos experimentar todos

21
Alinhamento Aleatórios

A introdução de gaps também pode levar a
alinhamentos sem sentido

S O M E T I M E S Q U I P S E N T I C E
S - - E - - - Q U - -
- E N - - C E

É necessário distinguir entre alinhamentos que
ocorreram devidoa homologia daqueles que são
esperados a acontecer ao acaso
Defina um esquema (função) de score (pontuação)
que leve em consideração ambos mismatches e
penalidades para gaps

22
Match Scores

Match scores são em geral calculadoscom base na
freqüência de mutações particulares em
seqüências muito similares

23
Alinhamento Global e Local (1/2)

Global
Seqüências são comparadas como um todo
Útil quando temos seqüências que diferem pouco
entre si
Inclui gaps
Local
O alinhamento localiza fragmentos de seqüências
que são mais similares
Algumas vezes não inclui gaps
Muitas proteínas não apresentam um padrão global
de similaridade
Mosaico de domínios modulares
Alinhamento de seqüências de nucleotídeos de um
mRNA processado (spliced) com sua seqüencia
genômica (Exon/Intron)

24
Alinhamento Global e Local (2/2)
25
Score do Alinhamento

Um score (pontuação) do alinhamento é a soma de
todos os match scores, com a penalidade subtraída
para cada gap

A B C D E F G A C C - F G
match gap score
score 8 2 8 8 8 gt 34 - (102) 22
26
Métodos de Alinhamento de Seqüências

Dado um par de seqüências e função de score
(pontuação), identifique o alinhamento que obteve
o melhor score
Alinhamento ótimo
Lembre, há um número exponencial de alinhamentos
possíveis
A maioria deles com scores muito ruins
Alinhamento de pares de seqüências
Matriz de pontos (dot matrix)
Programação dinâmica
Dicionário de palavras ou k-tuplas (BLAST)

27
Matriz de Pontos

Permite a inspeção visual de um possível
alinhamento entre duas seqüências
Permite que repeats e inversões sejam detectadas
Permite a identificação de regiões
auto-complementares (e.g., RNA com estrutura
secundária)
O alinhamento não é produzido

28
Exemplo

Seqüências
ATGCGTCGTT
ATCCGCGAT

Passos
Organize as seqüências em uma matriz
Coloque um ponto em cada lugar que houver um
match entre duas bases
Trechos diagonais (indicados por linhas) são
áreas de alinhamento
Mais de um alinhamento pode surgir

29
Assuntos Abordados

BLAST original
Gapped BLAST
PSI-BLAST
PHI-BLAST

30
Original BLAST (Proteínas)

Determinando as sementes
Sementes de tamanho fixo (w)
Pontuação mínima para a semente (T)
Procurando ocorrências
Tabela com todas as palavras de tamanho w
Autômato finito baseado em transições (Mealy)
Estendendo um alinhamento
Alinhamento sem gaps
Limite para expansão de alinhamento (X)

31
Original BLAST (DNA)

Determinando as sementes
Todas as seqüências de tamanho fixo (w) n-w1
sementes
Banco de dados comprimido
4 nucleotídeos armazenados em um byte
Buscas por casamentos são acelerados por um fator
4
Filtros
Regiões pouco significativas (SEG)
Repetições

32
Estatísticas paracomparação local (1)

Número esperado de seqüências (E-value) com score
maior ou igual a S é dado por
Calculando o score normalizado (bit score)

33
PSI-BLAST

Variante do BLAST que permite comparar proteínas
fracamente relacionadas, mas com regiões bem
conservadas.
Position-Specific Score para cada posição da
seqüência usada como query, um valor é associado
para cada resíduo. Quanto mais conservado o
resíduo, maior o score.
Para uma seqüência de tamanho L, a matriz de
pontuação terá tamanho L x 20.

34
PSI-BLASTOs 5 Passos

Compara a query com um banco de proteínas usando
Gapped BLAST.
É construído um alinhamento múltiplo, e a partir
deste um perfil (seqüência matriz de
pontuação).
O perfil é comparado com o banco de proteínas em
busca de alinhamentos locais.
PSI-BLAST estima a significância estatística dos
alinhamentos encontrados.
Finalmente, PSI-BLAST retorna ao passo 2 por um
número arbitrário de vezes, até convergir.

35
Performance do PSI-BLAST
Teste com 11 famílias de proteínas
Smith- Watterman Original BLAST Gapped BLAST PSI-BLAST
Total de Hits (E ? 0.01) 1739 1656 1731 2649
Tempo Normalizado 36.0s 1.0s 0.34s 0.87s
36
PHI-BLAST

Recebe como entrada uma seqüência de aminoácidos
e um padrão (estilo PROSITE) existente nesta
seqüência.
Apenas as seqüências do banco que baterem com
este padrão serão consideradas.
O padrão é usado como semente para o alinhamento
local gerado pelo BLAST.

37
O Algoritmo do PHI-BLAST

A busca por seqüências do banco de dados que
batem com o padrão é realizada com uma adaptação
dos métodos propostos por Baeza-Yates Gonnet e
Wu Manber.
O alinhamento das seqüências é realizado com a
heurística do Gapped BLAST.
O algoritmo só permite o uso de padrões
relativamente raros no banco de dados.

38
PHI-BLASTAnálise Estatística

Score de um alinhamento SSleftS0Sright
Score relevante SSleftSright
Probabilidade de se obter um score ? S
Número de alinhamentos com score ? S

39
PHI-BLASTExemplo (E-Value)
Exemplo Padrão PHI-BLAST BLAST
A GAxxxxGKST 0.038 4.7
B hxhxDxGxG 0.017 1.8
C DhDhhh 0.061 8.6
D QxxGRxGAR 0.54 -
40
PHI-BLASTExemplo (Tempo)
Exemplo Tamanho Hits PHI-BLAST BLAST
A 549 14582 26s 77s
B 615 2986 12s 103s
C 449 1890 10s 71s
D 424 672 9s 64s

Write a Comment

User Comments (0)