Introducci - PowerPoint PPT Presentation

Loading...

PPT – Introducci PowerPoint presentation | free to download - id: 73d3c9-Y2MyO



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

Introducci

Description:

Introducci n a la Bioinform tica - LAB Tom s Arredondo Vidal 2010 – PowerPoint PPT presentation

Number of Views:1
Avg rating:3.0/5.0
Date added: 2 March 2019
Slides: 65
Provided by: Toma1156
Learn more at: http://profesores.elo.utfsm.cl
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: Introducci


1
Introducción a la Bioinformática - LABTomás
Arredondo Vidal2010
2
Introducción a la Bioinformática
  • Esta charla trata de lo siguiente
  • Introducción a bases de datos y herramientas
    utilizadas en la bioinformática

3
Introducción a la Bioinformática
ADN de Células
  • Prokariotas
  • Organismos microscópicos
  • Su genoma es una molécula circular de ADN
  • Genoma es del orden de 0.6-8 Mpb (millones de
    pares de bases)
  • Densidad de genes es de aproximadamente un gen
    1000 pares de bases
  • Sus genes no son sobrepuestos (no overlap)
  • Sus genes son transcritos (copiados a ARNm)
    inmediatamente después de una región llamada
    promotor
  • Son continuamente codificantes (sin intrones)

4
Introducción a la Bioinformática
ADN de Células
  • Eukariotes
  • Organismos variados (plantas, animales,
    hongos,...)
  • Genoma consiste de múltiples pedazos contiguos
    de ADN típicamente denominados cromosomas
  • Genoma es del orden de 10-3000 Mpb (millones de
    pares de bases)
  • Densidad de genes es de aproximadamente un gen
    100000 pares bases
  • Genoma incluye muchas áreas no codificantes
  • Sus genes son transcritos (copiados a ARNm)
    después de una región llamada promotor pero
    elementos en la secuencia a gran distancia pueden
    tener gran efecto en el proceso
  • Genes pueden derivar en múltiples formas de ARNm
    y proteínas
  • Mas complejas!

5
Introducción a la Bioinformática
6
Introducción a la Bioinformática
7
Introducción a la Bioinformática
  • Dogma Central (Watson Crick)
  • Transferencia general de la información
  • De ADN a ADN, de ADN a ARN, de ARN a Proteína

8
Introducción a la Bioinformática
Dogma Central (Watson Crick)
9
Introducción a la Bioinformática
Dogma Central (Watson Crick)
10
Introducción a la Bioinformática
  • Dogma Central (Watson Crick)
  • Transferencia general de la información
  • De ADN a ADN, de ADN a ARN, de ARN a Proteína

11
Introducción a la Bioinformática
Documentación
  • PUBMED
  • El National Center for Biotechnology Information
    (NCBI) tiene muchos diferentes recursos
    disponibles para investigadores bioinformaticos
    en la web
  • NCBI crea bases de datos publicas, hace
    investigacion en biologia computacional,
    desarrolla herramientas para analizar datos
    genomicos (e.g. BLAST) y disemina la informacion
    para tener mejor entendimiento de los procesos
    moleculares que afectan las enfermedades y la
    salud humana
  • NCBI da acceso a PUBMED, mas de 200 revistas
    sobre biologia, medicina, bioinformatica
  • Ir a www.ncbi.nlm.nih.gov/entrez/query.fcgi?dbPm
    c

12
Introducción a la Bioinformática
Genómica
  • NCBI
  • En Genomica NCBI trabaja en conjunto con el
    European Molecular Biology Laboratory (EMBL) y el
    DNA Data Bank of Japan
  • Sitio web de NCBI http//www.ncbi.nlm.nih.gov/
  • Bases de datos de NCBI
  • http//www.ncbi.nlm.nih.gov/gquery/gquery.fcgi

13
Introducción a la Bioinformática
Genómica
  • Bases de datos de nucleótidos
  • La bioinformática requiere encontrar e
    interpretar datos biológicos. De nuestro interés
    son las bases de datos para nucleótidos,
    proteínas y vías metabólicas
  • Algunas bases de datos o fuentes de nucleótidos
    incluyen Genbank, NCBI LocusLink, TIGR, Ensembl,
    RefSeq y PDB
  • Entrez es una colección de bases de datos
    nucleótidos y mantiene un registro histórico
    (primario) de todos las secuencias de nucleótidos
    que se han introducido en Genbank, RefSeq y PDB
  • Entrez (4/2006) tiene sobre 130 mil millones de
    bases!
  • Se puede utilizar el Genbank ID (e.g. X01714),
    un gene id (e.g. gi41296) o el nombre de la
    proteína (dUTPase) para iniciar búsquedas en
    Genbank

14
Introducción a la Bioinformática
Genómica
  • Significado de los campos Entrez / Genbank
  • Locus nombre de locus, tamaño de la secuencia
    (pbs), el tipo de molecula (ADN, ARN), topologia
    (lineal o circular)
  • Definition definición corta del gen que
    corresponde a la secuencia
  • Accession lista el identificador único en las
    varias bases de datos (e.g. X01714)
  • Keywords palabras claves
  • Source el nombre común del organismo relevante
    al cual pertenece la secuencia
  • Organism Identificación del organismo completo
    con la completa información taxonómica
  • Reference Artículos en los que se determino la
    secuencia
  • Comments Comentarios

15
Introducción a la Bioinformática
Genómica
  • Significado de los campos Entrez / Genbank
  • FEATURES Área que incluye varias secciones
  • source Origen de regiones especificas en la
    secuencia, se usa para distinguir vectores de
    clones de secuencias
  • promoter muestra la ubicación precisa de un
    elemento promotor
  • misc feature característica miscelánea, indica
    comienzo de trascripción
  • RBS (Ribosome Binding Site) lugar del ultimo
    elemento al principio de la cadena (upstream)
  • CDS secuencia codificante (ORFs)
  • misc feature indica elementos potencialmente
    reguladores
  • BASE COUNT cuenta de las bases a, t, c, g
  • Secuencia secuencia genética en líneas de 60
    nucleótidos

16
Introducción a la Bioinformática
Genómica
  • Bases de datos de nucleótidos Entrez
  • Como seleccionar un record de una secuencia
    especifica en un
  • prokariote del gen dUTPase
  • Ir a Entrez www.ncbi.nlm.nih.gov/entrez
  • Elegir del menu Search Nucleotide
  • Escribir el identificador de Genbank / accession
    (X01714)
  • Seleccionar el link X01714
  • Seleccionar Display ? Fasta para el formato FASTA
  • Seleccionar Text para generar un archivo texto

17
Introducción a la Bioinformática
Genómica
  • Bases de datos de nucleótidos Entrez
  • Como seleccionar un record de una secuencia
    especifica, el
  • gen dUTPase en el ARN mithocondrial de un
    eukariote
  • Ir a Entrez www.ncbi.nlm.nih.gov/entrez
  • Elegir del menu Search Nucleotide
  • Escribir el identificador de Genbank / accession
    (U90223)
  • Seleccionar el link U90223
  • Seleccionar Display ? default para el formato
    FASTA
  • Seleccionar Text para generar un archivo texto

18
Introducción a la Bioinformática
Genómica
  • Bases de datos de nucleótidos Entrez
  • Como seleccionar un record de una secuencia
    especifica en un
  • eukariote del gen dUTPase en la secuencia
    genética (un
  • cromosoma)
  • Ir a Entrez www.ncbi.nlm.nih.gov/entrez
  • Elegir del menu Search Nucleotide
  • Escribir el identificador de Genbank / accession
    (AF018430)
  • Seleccionar el link AF018430
  • Seleccionar Display ? default para el formato
    FASTA
  • Seleccionar Text para generar un archivo texto
  • FASTA es un formato formato para seleccionar
    (copiar y pegar)
  • la secuencia de nucleótidos deseado.

19
Introducción a la Bioinformática
Genómica
  • Bases de datos de nucleótidos Entrez
  • Para hacer una búsqueda relacionada con una
    proteína
  • especifica (e.g. dUTPase) sin saber el número de
    accesión
  • Ir a Entrez www.ncbi.nlm.nih.gov/entrez
  • Elegir del menu Search Nucleotide
  • Escribir human organism AND dUTPase Protein
    name y apretar Go
  • La búsqueda va a retornar varias selecciones
    AH005568 es la
  • secuencia completa, el resto son exons y
    secuencias
  • de aminoácidos nuclear y mitocondrial
  • Seleccionar Link al lado del link AF018432 y
    seleccionar secuencias relacionadas
  • La selección retorna varios datos, algunos son
    secuencias de ARNm como el U90223

20
Introducción a la Bioinformática
Genómica
  • Bases de datos de nucleótidos Entrez
  • Para hacer una búsqueda relacionada con una
    proteína
  • especifica (e.g. dUTPase) sin saber el número de
    accesión
  • Ir a Entrez www.ncbi.nlm.nih.gov/entrez
  • Elegir del menú Search Nucleotide
  • Escribir human organism AND dUTPase Protein
    name y apretar Go
  • La búsqueda va a retornar varias selecciones
    AH005568, ...
  • algunas exones y otras son secuencias completas
    de
  • aminoácidos nuclear y mitocondrial
  • Seleccionar Link al lado del link AF018432 y
    seleccionar secuencias relacionadas
  • La selección retorna varios datos, algunos son
    secuencias de ARNm como el U90223

21
Introducción a la Bioinformática
Genómica
  • Bases de datos de nucleótidos Entrez
  • Para hacer una busqueda relacionada con una
    proteína
  • especifica (e.g. dUTPase) sin saber el número de
    accesión
  • Ir a Entrez www.ncbi.nlm.nih.gov/entrez
  • Elegir del menú Search Nucleotide
  • Escribir human organism AND dUTPase Title y
    apretar Go
  • La búsqueda va a retornar mas de 190 selecciones
    de GenBank
  • pero muchas son secuencias parciales de ARNm
    llamadas
  • ESTs (Expressed Sequence Tags)
  • Para eliminar estos ESTs
  • Seleccionar Limits link (abajo de ventana Search)
  • Seleccionar Exclude ESTs
  • Ir a la parte de arriba y seleccionar Go

22
Introducción a la Bioinformática
Genómica
  • Bases de datos de genes LocusLink/Entrez Gene
  • Para hacer una búsqueda relacionada con un locus
    (ubicación)
  • de un gen en una cromosoma (no solo instancias de
    secuencias
  • relacionados a un gen)
  • Ir a Genbank Entrez Gene http//www.ncbi.nih.gov/
    entrez/query.fcgi?dbgene
  • En el For escribir DUT (nombre del gen) y
    apretar Go
  • Ir a SNP Gene View
  • La búsqueda va a retornar el LocusID de tres
    organismos con
  • este gen (dUTPase)

23
Introducción a la Bioinformática
Genómica
  • Significado de los campos Entrez Gene
  • La búsqueda en Entrez Gene va a retornar la
    siguiente
  • información (e.g. DUT), incluyendo su ubicación
  • Official Symbol DUT and Name dUTP
    pyrophosphatase Homo sapiens
  • Other Aliases HGNC3078, dUTPase
  • Other Designations dUTP nucleotidohydrolase
    deoxyuridine 5'-triphosphate nucleotidohydrolase
    deoxyuridine triphosphatase
  • Chromosome 15 Location 15q15-q21.1
  • GeneID 1854

24
Introducción a la Bioinformática
Genómica
  • Bases de datos de genes
  • Para trabajar con genomas completos virales
  • Ir a Entrez www.ncbi.nlm.nih.gov/entrez/.
  • Elegir en la barra arriba del menú Genome
  • Hacer click en el link Viruses
  • Escribir en la ventana de búsqueda HIV2
  • Seleccionar
  • La barra azul simboliza el genoma del virus, se
    puede seleccionar para ver la región de interés
  • Se puede seleccionar la sección Coding para ver
    una lista de proteínas, esta a la vez se puede
    guardar (Save) en varios formatos incluyendo Fasta

25
Introducción a la Bioinformática
Genómica
  • Bases de datos de genes
  • Para trabajar con genomas completos bacteriales
  • Ir a Entrez www.ncbi.nlm.nih.gov/entrez/.
  • Elegir en la barra arriba del menú Genome
  • Hacer click en el link Related resources
    Microbial
  • Se puede seleccionar el genoma para una bacteria
    de interés
  • Se puede seleccionar bajo Genbank para ver la
    secuencia

26
Introducción a la Bioinformática
Genómica
  • Proyecto del Genoma Humano
  • Para trabajar con el genoma humano
  • Ir a http//www.ncbi.nlm.nih.gov/genome/guide/
  • Para buscar genes
  • Ir a http//www.ncbi.nlm.nih.gov/entrez/query.fcg
    i?dbGene
  • Ver sample searches human muscular dystrophy
  • Para ver homologias entre varios organismos y el
    genoma humano
  • Ir a http//www.ncbi.nlm.nih.gov/entrez/query.fcg
    i?dbhomologene
  • Seleccionar Tax Plot Homo sapiens, mus musculus
    and rattus norvegicus
  • Plot It!

27
Introducción a la Bioinformática
Genómica
  • Bases de datos de genes eukariotes Ensembl
  • Ensembl incluye el genoma de eukariotes como el
    ratón,
  • humano, mosquito y mas
  • Ir a Ensemble www.ensembl.org/.
  • Elegir botón Homo sapiens
  • Elegir cromosoma 15, al medio de q21.1
  • Se puede ver el gen DUT
  • Otras cosas de interés son el mapa del sitio
    (Site Map) y el tour
  • del sitio (Ensembl Tour)
  • Ensemble también incluye información acerca de
    los genes
  • como por ejemplo las enfermedades que han sido
    relacionados
  • a el. Elegir data mining de la pagina principal.
    Otro sitio de
  • interés es el buscados de genomas de USC
  • Ir a genome.cse.ucsc.edu/.
  • Ir a genomes, buscar U90223 (dUTPase)

28
Introducción a la Bioinformática
Proteómica
  • Bases de datos de proteínas
  • Secuenciar genomas es mas fácil que secuenciar
    proteínas de aminoácidos directamente
  • La mayoría de las secuencias de aminoácidos
    conocidas se ha obtenido indirectamente a través
    del análisis de secuencia genómicas
  • La proteómica o el estudio de la visualización y
    análisis de las moléculas de proteínas en
    organismos nos indican que las proteínas reales
    no actúan como se esperaría de una simple
    traducción de ORFs de nucleótidos
  • La razón es que cuando se traduce la cadena de
    aminoácidos puede ser muy modificada antes de
    convertirse en la proteína final
  • Esto se denomina maduración de la proteína

29
Introducción a la Bioinformática
Proteómica
  • Bases de datos de proteínas
  • Algunos etapas en la maduración (modificaciones
    de post-
  • traducción) de las proteínas incluyen
  • Cortes en la cadena de aminoácidos
  • Eliminación de fragmentos en la cadena de
    aminoácidos
  • Modificación química de aminoácidos especificas
  • Suma de moléculas de lípidos
  • Suma de moléculas glicosidicas (de azúcar)
  • Un rol fundamentar para una base de datos de
    proteínas
  • es mostrar esta información cuando esta
    disponible por
  • experimentos (e.g. 2D gel electrofóresis) o se
    predice
  • por técnicas computacionales

30
Introducción a la Bioinformática
Proteómica
  • Bases de datos de proteínas
  • Para que la proteína haga su función correcto
    dentro de la célula es necesario que llegue a su
    ubicación correcta en el organismo o en la
    célula. Esto requiere que durante su traducción
    la cadena sea expuesta a señales especificas que
    célula utiliza para dirigir la proteína a su
    ubicación especifica atravesando membranas en su
    ruta
  • Algunos destinos finales de las proteínas
    incluyen
  • Membrana celular
  • Afuera de la célula
  • Transportado al periplasma (para bacterias)
  • Transportado al mitocondria o otro organello
  • Transportado al núcleo celular
  • Saber el destino final de la proteína es
    importante para saber su funcionamiento y este
    tipo de información se incluye bases de datos de
    proteínas

31
Introducción a la Bioinformática
32
Introducción a la Bioinformática
Proteómica
  • Bases de datos de proteínas
  • Factores adicionales para determinar el
    funcionamiento de la proteína son sus folds
    (vueltas)
  • Típicamente estos se determinan a través de la
    hidrofobicidad, acoplamiento (docking) de los
    aminoácidos, cargas electrostáticas
  • La cadena péptica se convierte en una proteína
    en 3D funcional y estable a través de esta
    vueltas
  • La estructura final depende de subdominios (o
    formas) de aminoácidos que funcionan como bloques
    lego
  • La naturaleza organiza estos bloques para
    producir la inmensa variedad de proteínas
    existentes
  • La mayoría de las proteínas naturales están
    hechas de combinaciones de una a 10 dominios
    elegidos de varios miles
  • Estos dominios se identifican por
    características bases (signaturas) de
    aminoácidos, estas secuencias conservadas que
    generan dominios se denominan motifs

33
Introducción a la Bioinformática
Proteómica
1A5P_ RIBONUCLEASE A KETAAAKFER QHMDSSTSAA
SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ
KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT
QANKHIIVAC EGNPYVPVHF DASV KETAAAKFER
QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES
LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS
KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV
34
Introducción a la Bioinformática
35
Introducción a la Bioinformática
Proteómica
  • Bases de datos de proteínas SWISS-PROT
  • La principal base de datos de proteínas por la
    calidad de sus datos anotados es SWISS-PROT
  • Se utiliza el Primary Accession Number
    (identificador de la proteína) para identificar
    una secuencia que se quiere encontrar (e.g.
    P32861)
  • SWISS-PROT es un recurso de datos derivado
    (secundario) de la literatura y manualmente
    verificados
  • TrEMBL es una base de datos automáticamente
    anotada

36
Introducción a la Bioinformática
Proteómica
  • Bases de datos de proteínas SWISS-PROT
  • Como ejemplo vamos a ver la proteína denominada
    EGF
  • receptor
  • Ir a SWISS-PROT www.expasy.ch/sprot/.
  • Escribir en la ventana Search P00533
  • Go!

37
Introducción a la Bioinformática
Proteómica
  • Significado de los Campos SWISS-PROT
  • La búsqueda en SWISS-PROT va a retornar varios
    campos
  • Entry Name identificador que indica que tipo de
    registro se retorno en la búsqueda, no es
    necesariamente estable (puede cambiar)
  • Primary Accession Number identificador único y
    estable de la secuencia, este numero tiene que
    ser usado como referencia del trabajo (e.g.
    P00533)
  • Secondary Accession Numbers identificadores
    antiguos relacionados con esta secuencia
  • Fecha inicial
  • Sequence was last modified in Fecha ultima
    modificación
  • Annotations were last modified in últimos
    cambios a este registro

38
Introducción a la Bioinformática
Proteómica
  • Significado de los Campos SWISS-PROT
  • Otros campos retornados
  • Protein name información descriptiva de la
    secuencia
  • Synonyms el nombre y numero de la reacción
    bioquímica que esta proteína (enzima) ejecuta
  • Gene name nombre del gen relacionado
  • From origen de la proteína
  • Taxonomy clasificación taxonómica del organismo
    origen de la proteína
  • Comments sección con información de utilidad
    que no pertenece a otra de las secciones
  • Cross-References sección con enlaces a otras
    bases de datos que contienen información acerca
    de esta proteína
  • Keywords palabras claves en este registro
  • Features sección que mapea la información de la
    proteína a su secuencia

39
Introducción a la Bioinformática
Genomica
  • Bases de datos de Vías Metabólicas
  • Algunas recursos sobre vías metabólicas
    incluyen KEGG, BRENDA, IUBMB, ECOCYC
  • KEGG (Kyoto Encyclopedia of Genes and Genomes)
    incluye una gran cantidad de vías metabólicas y
    es la mas importante a nivel mundial
  • En KEGG típicamente se utiliza el numero de la
    enzima (E.C. para comenzar una búsqueda)
  • BRENDA es un sistema de información enzimático
  • IUBMB es el sitio oficial de la Unión de
    Bioquímica y Biología Molecular
  • ECOCYC es la enciclopedia de genes y el
    metabolismo de E.Coli

40
Introducción a la Bioinformática
Vías Metabólicas
  • Bases de datos de Vías Metabólicas
  • Típicamente se utiliza el nombre de la via (e.g.
    Xenobiotics/DDT, 2,4-DICHOLOROBENZOATE
    DEGRADATION)
  • KEGG
  • www.genome.ad.jp/kegg
  • Expasy
  • www.expasy.ch/cgi-bin/search-biochem-index
  • Brenda
  • www.brenda.uni-koeln.de/
  • La IUMBM tiene informacion sobre nombres de
    enzimas
  • www.chem.qmw.ac.uk/iubmb/
  • ECOCYC
  • www.ecocyc.org

41
Introducción a la Bioinformática
Vías Metabólicas
Bases de datos de Vías Metabólicas KEGG
LinkDB KEGG ENTRY EC 2.7.1.2 NAME
Glucokinase CLASS Transferases Transferring
phosphorus-containing groups Phosphotransferases
with an alcohol group as acceptor SYSNAME
ATPD-glucose 6-phosphotransferase REACTION ATP
D-Glucose ADP D-Glucose 6-phosphate
SUBSTRATE ATP D-Glucose PRODUCT ADP D-Glucose
6-phosphate COMMENT A group of enzymes found in
invertebrates and microorganisms highly specific
for glucose. lt...gt
42
Introducción a la Bioinformática
Vías Metabólicas
  • Aplicaciones Para Comparar Secuencias
  • BLAST (Basic Local Alignment Search Tool) es la
    principal aplicación para comparar secuencias
  • Las principales versiones son BLASTP y TBLASTN
  • BLASTP compara la secuencia de una proteína con
    una base de datos de proteínas
  • TBLASTN comparar la secuencia de una proteína
    con una base de datos de nucleótidos

43
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • Usos de BLAST
  • Para encontrar algo acerca de la función de mi
    proteína usar BLASTP para comparar con otras
    proteínas en las bases de datos
  • Para descubrir nuevos genes que codifican a
    alguna proteína (o enzima) usar TBLASTN para
    comparar la proteína con secuencias de ADN
    traducidas en todas sus posibles ORFs

44
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • BLASTP Protein to Protein BLAST
  • Como ejemplo vamos a usar el servidor NCBI BLAST
  • para encontrar proteínas similares al nucleolin
    del
  • hamster en la base de datos SWISS-PROT
  • Ir a BLAST www.ncbi.nih.gov/BLAST
  • Elegir Standard protein-protein BLAST
  • Insertar proteina a comparar puede ser usando el
    numero de accesion (P09405) o insertando la
    secuencia en formato FASTA
  • Choose database swissprot
  • Deseleccionar CD Search (dominios conservados muy
    tipicos como Zn Fingers)
  • Apretar BLAST!
  • Seleccionar Format! que abre una ventana nueva
  • Guardar los resultados (Save Picture As)

45
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • Resultados de BLAST
  • Parte grafica muestra donde nuestra secuencia
    es similar a las otras secuencias
  • Hit list nombre de secuencias similares a la
    nuestra
  • Alignments los alineamientos entre nuestra
    secuencia y las secuencias similares
  • Parametros parametros usados

46
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • Resultados de BLAST
  • Sequence Accesion Number
  • Description
  • Bit score estima el significado del
    alineamiento (mientras mayor mejor)
  • E-value estima el numero de veces que se
    pudiera encontrar un alineamiento tan bueno
    aleatoriamente (mientras menor mejor)
  • Alineamientos (identidad, largo)

47
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • Otros tipos de BLAST
  • BLASTP compara una secuencia de aminoácidos
    contra una base de datos de secuencias de
    proteínas
  • BLASTN compara una secuencia de nucleótidos
    contra una base de datos de nucleótidos
  • BLASTX toma una secuencia de nucleótidos y la
    traduce en los seis posibles RFs para comparar
    con una base de datos de secuencias de proteínas
  • TBLASTN compara una secuencia de aminoácidos
    contra una base de datos de nucleótidos,
    traduciendo la secuencia de aminoácidos a todos
    sus posibles RFs
  • TBLASTX compara una secuencia de aminoácidos
    contra una base de datos de nucleótidos,
    traduciendo la secuencia de aminoacidos y la base
    de datos a todos sus posibles RFs

48
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • Aplicaciones Para Comparar Secuencias Múltiples
  • Alineamientos múltiples se utilizan para
    comparar secuencias homologas (ancestro comun)
  • Se alinean aminoácidos o nucleótidos en la misma
    columna por que son homólogos de acuerdo a algún
    criterio
  • Los criterios principales son
  • similitud estructural
  • similitud evolucionaría
  • similitud funcional
  • similitud secuencial
  • Los programas automáticos típicamente usan el
    criterio de similitud secuencial porque es el mas
    fácil de implementar. Cuando las secuencias son
    similares todos los criterios son equivalentes

49
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • Aplicaciones Para Comparar Secuencias Múltiples
  • Una comparación de múltiples secuencias nos
    permite
  • Extrapolar determinar que una secuencia
    realmente es parte de una familia de proteinas o
    dominio
  • Analisis filogenetico con una seleccion
    cuidadose se puede reconstruir la historia
    evolucionaria de las proteinas
  • Identificacion de patrones al descubrir una
    region conservada se puede identificar una region
    que es caracteristica de una funcion (motif) en
    secuencias nucleicas o de aminoacidos
  • Elementos reguladores de ADN se puede encontrar
    sitios de binding
  • Prediccion de estructura ayuda a generar
    predicciones de la estructura 3D de la proteina
  • Analisis PCR identificar porciones menos
    degeneradas de la familia de proteinas

50
Introducción a la Bioinformática
Herramientas Bioinformáticas
Aplicaciones Para Comparar Secuencias
Múltiples Este análisis nos permite ver las
fuerzas que moldean la evolución Aminoácidos (o
nucleótidos) importantes no cambian (mutan)...
Porque? Los menos importantes cambian mas
fácilmente, a veces aleatoriamente, y a veces
para adaptarse a una función
51
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • KEGG, Genbank y BLAST para encontrar vías de
  • interés en un organismo especifico (eg. LB400)
  • Como encontrar si hay una enzima especifica de
    una vía
  • especifica en un genoma de interés (e.g. LB400)
  • Ir a KEGG http//www.genome.jp/kegg/pathway.html
  • Elegir 2,4-Dichlorobenzoate degradation
  • Elegir enzima 1.1.3.38 (vanillyl-alcohol
    oxidase)
  • Ir a Genbank http//www.ncbi.nlm.nih.gov/
  • Elegir una proteina que no diga mutante en
  • Nombre, ni Hipotetical/Putativo en Organismo
  • Elegir Numero de accesión P56216
  • Ver en formato FASTA y copiar
  • Ir a LB400 http//genome.ornl.gov/microbial/bfun/
  • Hacer TBLASTN con secuencia en formato FASTA, ver
    si la secuencia tiene alineamientos correctos

52
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • BLAST para seleccionar secuencias para el
  • Alineamiento Múltiple
  • Vamos a usar ExPASy BLAST y ExPASy para encontrar
  • secuencias parecidas a la proteína P20472
    (calcium
  • kinase)
  • Ir a ExPASy
  • http//www.expasy.ch/cgi-bin/BLASTEMBnet-CH.pl
  • Insertar proteina a comparar P20472
  • Seleccionar blastp
  • Elegir SWISS-PROT TREMBL TREMBL_NEW
  • En Options elegir el numero de secuencias
    (scoring y alignment) a 1000
  • Apretar BLAST!
  • Seleccionar secuencias 10 o menos (al principio)
  • Exportar las secuencias (usar FASTA)

53
Introducción a la Bioinformática
Herramientas Bioinformáticas
  • ClustalW para Alineamiento Múltiple
  • Ir a ClustalW www.ebi.ac.uk/clustalw/index
  • Insertar secuencias en la ventana Sequence
  • En Alignment pulldown elegir Fast
  • En Output Format pulldown elefir Aln Without
    Numbers
  • En Output order elegir Input
  • Presionar el boton RUN
  • Guardar los resultados
  • Los resultados se analizan para ver las
    posiciones que
  • son importantes y que no se les permite mutar
  • (conservados) evolucionariamente.

54
Introducción a la Bioinformática
Genómica
  • Evolución Genética
  • Todos los genes están relacionados (Zuckerkandl,
    Pauling 1960s)
  • Los genes a veces evolucionan independientemente
    del organismo (formulado por R. Dawkins 1976)
  • Solamente unos pocos miles de familias de genes
    existen (C. Chothia, 1992, Nature 357)

55
Introducción a la Bioinformática
Genómica
  • Análisis Filogenético Definiciones
  • Genes Homólogos Genes con un ancestro común
  • Genes Ortólogos Homólogos separados por
    especiacion en el cual un ancestro común genera
    dos subgrupos que lentamente se separan para
    convertirse en nuevas especies
  • Genes Paralogs Homólogos separados por un
    evento de duplicación. Una de las copias
    típicamente mantiene su función mientras que la
    otra tiene otra función pero relacionada
  • Genes Xenologs Xenologs ocurren por la
    transferencia horizontal de una especie a otra.
    No hay historia del nuevo gen en el genoma que
    fue insertado

56
Introducción a la Bioinformática
Búsqueda de secuencias/proteínas homologas
57
Introducción a la Bioinformática
Genómica
Análisis filogenético Ortólog y Paralog
A
Duplicación
A
B
Especiación
A1
B1
A2
B2
58
Introducción a la Bioinformática
Genómica
Análisis filogenético Globina y Myoglobina
globin mouse
Globin ancestor
globin
Ancestral globin gene
duplication
globin man
Myoglobin
Myoglobin mouse
Myoglobin man
59
Introducción a la Bioinformática
Genómica
  • Análisis Filogenético Algunas herramientas
  • ClustalW Herramienta de tipo caja negra para
    análisis filogenético
  • Phylip Método mas sofisticado que permite
    controlar los parámetros necesarios en la
    reconstrucción

60
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos
Medicina
Genome
Gene map
Gene sequence
Expression
Diseases
c
t
Alzheimers
Cancer
a
t
t
Arthritis
t
t
t
a
a
t
t
CV Disease
a
a
t
MS
t
a
t
t
a
Obesity
Vision
t
t
a
Arthritis
61
Introducción a la Bioinformática
Genómica
Análisis Filogenético Algunas herramientas Ir a
Entrez Genome Seleccionar Microorganismo Sele
ccionar proteína de interés Exportar la
secuencia (FASTA) Seleccionar blastp
(protein-protein) Apretar BLAST! Se detectan
los dominios putativos conservados Hacer click
en la secuencia conservada (en rojo) Click en
search for similar domain architecture para
comparar con otros microorganismos
62
Introducción a la Bioinformática
Ejemplo. Bacillus anthracis plasmid pX01
63
Introducción a la Bioinformática
SE ACABO?
64
Referencias
  • Brown, T.A., Genomes, Wiley, 1999
  • Claverie, J.M., Bioinformatics for Dumies, Wiley,
    2003
  • Perkus, J. K., Mathematics of Genome Analysis,
    2002
  • Gibas, C., Developing Bioinformatics Computer
    Skills, 2001
  • http//www.biologia.edu.ar/index.html
  • http//www.arrakis.es/7Elluengo/
  • Link antiguo http//www.multisan2001.com
About PowerShow.com