An - PowerPoint PPT Presentation

About This Presentation
Title:

An

Description:

Title: Bioinform tica aplicada ao estudo do genoma de insetos vetores Author: Antonio Last modified by: Antonio Created Date: 9/7/2004 8:45:36 PM – PowerPoint PPT presentation

Number of Views:53
Avg rating:3.0/5.0
Slides: 31
Provided by: Anton191
Category:

less

Transcript and Presenter's Notes

Title: An


1
Análise Computacional de Seqüências Nucleotídicas
e Protéicas
  • BLAST
  • Antonio Basílio de Miranda
  • 24/11/2004

2
BLAST Basic Local Alignment and Search Tool
  • Provavelmente a ferramenta computacional mais
    utilizada em biologia molecular e bioinformática
  • Busca seqüências armazenadas nos bancos de dados
    pela similaridade entre a estrutura primária da
    seqüência query e as armazenadas
  • Anotações (características) descritas para
    seqüências armazenadas podem ser transferidas
    para a seqüência query desde que suas estruturas
    primárias sejam semelhantes
  • O maior problema é definir um cut-off, limite
    onde as similaridades encontradas entre a query e
    os hits não sejam mais significativos

3
BLAST Basic Local Alignment and Search Tool
  • É um método heurístico para alinhamentos locais
  • Projetado especificamente para buscas em bancos
    de dados
  • Idéia básica bons alinhamentos irão conter
    pequenos trechos de combinações iguais

4
BLAST
  • Existem vários sabores e tipos de BLAST
  • Nucleotídeo
  • Proteína
  • Traduzido
  • Genomas

5
BLAST
  • Nucleotídeo
  • Nucleotídeo-nucleotídeo (blastn)
  • Megablast
  • Megablast descontínuo
  • Busca por hits curtos e quase perfeitos
  • Busca em cromatogramas

6
BLAST
  • Proteína
  • Proteína-proteína (blastp)
  • PHI-BLAST e PSI-BLAST (através da obtenção de
    perfis)
  • Busca por hits curtos e quase perfeitos
  • Busca no banco de dados de domínios conservados
    (rps-blast) (Smart, PFam e COG)
  • Busca pela arquitetura de domínios (cdart)

7
PHI-BLAST e PSI-BLAST
  • PHI-BLAST Quais outras seqüências protéicas
    contém tanto a ocorrência do padrão P e são
    homólogas a query P na vizinhança das ocorrências
    dos padrões?
  • PSI-BLAST Construção de uma matriz de valores
    posição-específica (position specific scoring
    matrix, PSSM)

8
BLAST
  • Traduzido
  • query traduzida x banco de dados de proteínas
    (blastx)
  • query de proteína x banco de dados traduzido
    (tblastn)
  • query traduzida x banco de dados traduzido
    (tblastx)

9
BLAST
  • Genomas
  • Galinha, vaca, porco, cachorro, ovelha, gato
  • Amostras ambientais
  • Homem, camundongo, rato
  • Fugu rubripes, zebrafish
  • Insetos, nematódeos, plantas, fungos, malária
  • Genomas microbianos, outros genomas eucarióticos

10
BLAST - algoritmo
  • 1. Filtrar as regiões de baixa complexidade
  • 2. Criar as query words (de comprimento 3 para
    sequências protéicas e 11 para DNA) através do
    uso de uma janela deslizante

MEFPGLGSLGTSEPLPQFVDPALVSS
MEF EFP FPG PGL GLG
11
BLAST - algoritmo
  • 3. Utilizando uma matriz de substituição (PAM,
    BLOSUM), contar todas as possíveis palavras de
    tamanho 3 ou 11 contra a query
  • 4. Selecionar um limite (neighborhood word score
    threshold - T) para manter as sequências mais
    significativas (normalmente umas 50 por query)

12
(Parênteses matrizes de substituição)
  • O que é uma matriz de substituição?
  • É uma matriz representando todas as possíveis
    trocas entre aminoácidos, onde um valor é
    atribuído a cada uma destas trocas
  • Esses valores são obtidos através da contagem
    dessas trocas tomando-se como base umdeterminado
    modelo evolutivo

13
Parênteses matrizes de substituição)
14
BLAST - algoritmo
  • 5. Repetir os passos 3 e 4 para cada query word
    no passo 2
  • 6. Organizar as palavras de alta pontuação em uma
    árvore de busca

M
E
E
P
F
G
15
BLAST - algoritmo
  • 7. Procurar em cada sequência no banco de dados
    uma combinação com uma query word de alta
    pontuação. Cada combinação será uma semente
    para um alinhamento sem gaps.
  • 8. Extensão das combinações
  • 8.1. BLAST original extensão das combinações à
    esquerda e à direita da semente usando
    alinhamentos sem gaps. Esta extensão irá
    continuar enquanto o score aumentar ou pelo menos
    continuar o mesmo. Esta extensão é o chamado HSP
    (High Scoring Pair).

16
BLAST - algoritmo
  • 8.2. Atualmente combinações ao longo da mesma
    diagonal (Dot plot) com uma distância A entre as
    duas são reunidas e a extensão se dá com a
    sequência maior.
  • 9. Utilizando uma contagem limite S, manter
    somente as combinações estendidas com score
    mínimo igual a S.

17
BLAST - algoritmo
  • 10. Determinar a significância estatística de
    cada combinação remanescente
  • 11. Tentar estender os HSPs de cada combinação
    remanescente
  • 12. Mostrar os alinhamentos locais (dea cordo com
    Smith-Waterman).

18
(Parênteses matrizes de homologia)
19
Resultado (BLASTN)
20
Resultado (formatação)
21
Resultado (BLASTN)
  • O output é dividido em cinco partes
  • 1. Um header contendo a versão do BLAST, data da
    compilação, referência, RID, etc.
  • 2. Uma visão gráfica dos alinhamentos
  • 3. Um sumário com uma descrição em uma linha de
    cada hit
  • 4. Os alinhamentos
  • 5. Rodapé com a descrição detalhada dos
    parâmetros de busca empregados, o banco de dados,
    etc.
  • Existem várias opções de formatação dos
    resultados.

22
Resultado (header)
23
Resultado (graphical overview)
24
Resultado (one-line descriptions)
25
Resultado (links)
  • G Gene
  • U UniGene
  • E GEO Profile (dados de expressão gênica e
    hibridização genômica obtidos por tecnologia
    high-throughput)

26
Resultado (alignments)
27
  • HSP High Scoring Pairs
  • Segmentos onde o alinhamento possui alta qualidade

28
HSPs
29
Resultado (footer)
30
CDART
Write a Comment
User Comments (0)
About PowerShow.com