INTRODUCCION A LA BIOINFORMATICA - PowerPoint PPT Presentation

1 / 36
About This Presentation
Title:

INTRODUCCION A LA BIOINFORMATICA

Description:

SGD (Saccharomyces Genome Database) Bases de datos biol gicas: prote nas ... KEGG: Kyoto Encyclopedia of Genes and Genomes: www.genome.ad.jp/kegg/kegg/html ... – PowerPoint PPT presentation

Number of Views:778
Avg rating:3.0/5.0
Slides: 37
Provided by: alejandr75
Category:

less

Transcript and Presenter's Notes

Title: INTRODUCCION A LA BIOINFORMATICA


1
INTRODUCCION A LA BIOINFORMATICA
  • Catedra de Microbiologia Industrial y
    Biotecnologia
  • TP 1- Microbiologia Industrial - 2006

2
Los Ćŗltimos avances en la investigaciĆ³n en
Ciencias Biologicas estƔn produciendo un enorme
crecimiento en el volumen y la complejidad de la
informaciĆ³n biolĆ³gica disponible. Las TecnologĆ­as
de la InformaciĆ³n y las Comunicaciones son
cruciales para posibilitar el almacenamiento e
interpretaciĆ³n de estos datos en los centros de
investigaciĆ³n de un modo eficiente y robusto
  • Se crean numerosas bases de datos
  • herramientas de anĆ”lisis tanto en software como
    del hardware

nueva disciplina cientĆ­fica
BioinformƔtica
3
Bases de datos introducciĆ³n conceptos bĆ”sicos
QuƩ es una base de datos?
Una colecciĆ³n de datos
CĆ³mo colecciono los datos?
DecisiĆ³n del usuario. DiseƱo de la base de datos.
Puedo usar
Procesador de texto? (Word)
Si. Permite sĆ³lo bĆŗsqueda y ordenamiento simples.
TambiƩn. Como los datos estƔn en columnas
independientes, se puede ordenar en formas mƔs
complejas. Las bĆŗsquedas siguen siendo simples.
Planilla de CƔlculo? (Excel)
4
Bases de datos introducciĆ³n conceptos bĆ”sicos
  • Una colecciĆ³n de registros (records).
  • Cada registro tiene varios campos.
  • Cada campo contiene informaciĆ³n especĆ­fica.
  • Cada campo contiene datos de un tipo determinado.
  • Ej dinero,texto, nĆŗmeros enteros, fechas,
    direcciones
  • Cada registro tiene una clave primaria. Un
    identificador Ćŗnico que define al registro sin
    ambigĆ¼edad.

Planilla VersiĆ³n simple de una base de datos
5
(No Transcript)
6
Bases de datos biolĆ³gicas DNA
  • Nucleotide databases
  • Genbank International Collaboration
  • NCBI (USA), EMBL (Europe), DDBJ (Japan and Asia)
  • Organism specific databases
  • FlyBase
  • ChickBASE
  • pigbase
  • SGD (Saccharomyces Genome Database)

7
Bases de datos biolĆ³gicas proteĆ­nas
  • Protein Databases
  • NCBI
  • Genpept Translated Proteins from Genbank
    Submissions
  • EMBL
  • TrEMBL Translated Proteins from EMBL Database
  • SwissProt
  • recibe secuencias peptĆ­dicas
  • cura y anota secuencias provenientes de TrEMBL
  • http//www.expasy.ch (Ćŗltima versiĆ³n
    no-gratuita)
  • NCBI tiene la Ćŗltima versiĆ³n gratuita.

8
Bases de datos biolĆ³gicas estructura
  • Structure databases
  • PDB Protein structure database.
  • http//www.rscb.org/pdb/
  • SCOP structural classification of proteins
  • family, superfamily, fold
  • CATH structural classification of proteins
  • class, architecture, topology, homology
  • Genome Mapping Information
  • NCBI(Human)
  • Genome Centers
  • Stanford, Washington University, UCSC
  • TIGR
  • CELERA
  • SANGER
  • Research Centers and Universities

9
Bases de datos biolĆ³gicas literatura
  • Literature databases
  • NCBI Pubmed All biomedical literature.
  • www.ncbi.nlm.nih.gov
  • Abstracts and links to publisher sites for
  • full text retrieval/ordering
  • journal browsing.
  • Publisher web sites.
  • ScienceDirect www.sciencedirect.com
  • Pathways Database
  • KEGG Kyoto Encyclopedia of Genes and Genomes
    www.genome.ad.jp/kegg/kegg/html

10
Searching Entrez using Global Query
11
(No Transcript)
12
Bases de datos biolĆ³gicas GenBank
  • Es un Banco no se intenta unificar datos.
  • No se pueden modificar las secuencias sin el
    consentimiento del autor (submitter).
  • No se intenta unificar (puede haber mĆ”s de una
    secuencia para un locus/gen).
  • Puede haber registros de diversas calidades de
    secuencia y diferentes fuentes.

13
BĆŗsquedas de informaciĆ³n interfase de usuario
(SĆ©quenle Retrieval System)
EBI
NCBI
( European Bioinformatics Institute)
( National Center for Biotechnology Information)
14
Formas de representar la informaciĆ³n
  • En una base de datos, la informaciĆ³n estĆ”
    representada en forma compleja
  • El usuario sin embargo tiene acceso a formas mĆ”s
    simples de representaciĆ³n de los datos flatfiles
  • Ejemplos de archivos simples (flatfiles) FASTA,
    GenBank/EMBL
  • En general son archivos de texto (o HTML enel
    caso de pƔginas web) conteniendo todos los datos
    de un registro, organizados de alguna forma
    particular.
  • Ejemplos
  • GenBank/EMBL, FASTA, Swissprot

15
(No Transcript)
16
(No Transcript)
17
(No Transcript)
18
(No Transcript)
19
(No Transcript)
20
BĆŗsquedas simples
  • Los motores de bĆŗsqueda ofrecen bĆŗsquedas simples
  • No imponen restricciones
  • El usuario tipea palabras libremente
  • Usan estrategias para intentar adivinar la
    intenciĆ³n del usuario (sobre quĆ© campo de la base
    de datos buscar)

21
Ejemplo term mapping - Entrez (PubMed)
  • Entrez busca en una serie de listas para ver si
    la palabra que ingresaron se encuentra en alguna
  • MeSH (Medical Subject Headings) vocabulario
    controlado utilizado para indexar artĆ­culos en
    PubMed.
  • Journals nombre completo del journal,
    abreviaturas usadas en MEDLINE y nĆŗmeros ISSN.
  • Lista de frases cientos de miles de frases
    generadas a partir de MeSH y otros vocabularios
    controlados similares.
  • Indice de autores apellido e iniciales.
  • Stopwords palabras comunes, presentes en casi
    todos los registros de la base de datos (a, an,
    by, of, the )

22
BĆŗsquedas simples pros / cons
  • Ventajas
  • rĆ”pidas de formular
  • no hay que leer el manual
  • Desventajas
  • poco selectivas

Ej. buscar cell mortality
23
BĆŗsquedas avanzadas
  • Presuponen un cierto conocimiento sobre la
    organizaciĆ³n subyacente de los datos
  • Hay que especificar sobre quĆ© campos buscar
  • ? hay que conocer los campos
  • Entrez se especifican entre corchetes
  • Tags predefinidos (hay que conocerlos)
  • Escherichia coliorganism
  • reviewpublication type
  • attenuatorfeature key
  • SRS formulario avanzado (no hay que conocer
    tƩrminos o tags)

24
Busquedas
25
BĆŗsquedas avanzadas Entrez
  • Entrez provee ademĆ”s
  • History una historia de las bĆŗsquedas que van
    realizando. En cualquier momento pueden combinar
    bĆŗsquedas o volver sobre alguna de ellas
  • Preview/Index les permite probar una bĆŗsqueda
    (preview) y ver el nĆŗmero de registros que
    selecciona o ver los Ć­ndices y el nĆŗmero de
    registros asociados a cada uno de ellos
  • Details permite analizar la traducciĆ³n que
    realizĆ³ Entrez de la bĆŗsqueda que realizamos (uso
    de sinĆ³nimos, lĆ­mites, etc)

26
Operadores lĆ³gicos
  • En bĆŗsquedas simples o avanzadas siempre tienen a
    disposiciĆ³n operadores lĆ³gicos para encadenar
    tƩrminos
  • AND (uniĆ³n)
  • human AND genome
  • human genome
  • human genome
  • OR (intersecciĆ³n)
  • human OR genome
  • human genome
  • NOT (subconjunto)
  • human NOT genome

27
Orden de los tƩrminos en un query
  • El orden de los tĆ©rminos es importante
  • Un query se evalĆŗa de izquierda a derecha
  • human NOT genome no es lo mismo que genome NOT
    human
  • Si el query tiene muchos tĆ©rminos pueden forzar
    el orden de evaluaciĆ³n usando parĆ©ntesis
  • human AND cancer AND (cell OR science OR nature)
  • casein kinase NOT (human OR mouse)

28
Utilidades
A parti de una secuencia nucleotidica se puede
  • Traducir a proteinas
  • Comparar con otras secuencias (BLAST)
  • Mapa de restricciones
  • DiseƱo de Primers
  • cDNA
  • UTR
  • Secuencias codificantes
  • Promotores
  • Sitios especializados
  • BCM Search Launcher
  • wEMBOSS
  • Biology Work Bench

29
Alineamiento de secuencias. BĆŗsqueda de
secuencias en bases de datos
El alineamiento de secuencias es similar a otros
tipos de anƔlisis comparativo. En ambos es
necesario cuantificar las similitudes y
diferencias (scoring) entre un grupo relacionado
de entidades.
30
Alineamientos
  • QuĆ© es un alineamiento?
  • El procedimiento de comparaciĆ³n de dos (o mĆ”s)
    secuencias que busca una serie de caracteres
    individuales o patrones de caracteres que se
    encuentren en el mismo orden en ambas secuencias
  • CĆ³mo alineamos dos secuencias?
  • a mano (como en los viejos tiempos)
  • usando un mĆ©todo/algoritmo

31
Tipos de alineamiento
Alineamientos locales
No hay necesidad de alinear todas las bases
Blast (Entrez) Smith-Watermann (SSBJ)
Alineamiento global
Todas las bases se alinean con otra base o con un
gap (-)
Needelmann - Wunsch
32
Alineamiento mĆŗltiple de secuencias (MSA)
FHIT_HUMAN -----------MS-F RFGQHLIKP-SVVFL
KTELSFALVNRKPVV PGHVLV... APH1_SCHPO
-----------MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL
PGHVLV... HNT2_YEAST MILSKTKKPKSMNKP
IYFSKFLVT-EQVFY KSKYTYALVNLKPIV
PGHVLI... Y866_METJA -----------MCIF
CKIINGEIP-AKVVY EDEHVLAFLDINPRN KGHTLV...
  • Revelan funciones de genes que no son tan
    evidentes.
  • DiseƱo de Primers degenerados para regiones
    semiconservadas
  • Se pueden generara profiles que dan informacion
    sobre motivos de proteinas.

33
BLAST algoritmos
34
Parametos a tener en cuenta en el resultado de un
alineamiento
  • scoring (sistemas de puntaje)
  • reglas para asignar puntos
  • el mĆ”s simple match, mismatch, gap
  • Uso de matrices para determinar el score PAM /
    BLOSUM
  • test de significancia (E)
  • Cual es la probabilidad de que un alineamiento
    con un score similar similar ocurra ente
    proteinas no relacionadas

35
(No Transcript)
36
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com