Molekularbiologische Datenbanken - PowerPoint PPT Presentation

1 / 97
About This Presentation
Title:

Molekularbiologische Datenbanken

Description:

Molekularbiologische Datenbanken QUELLEN: http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl Thoralf T pel: Web-basierte Informationssysteme in der – PowerPoint PPT presentation

Number of Views:212
Avg rating:3.0/5.0
Slides: 98
Provided by: Uwe70
Category:

less

Transcript and Presenter's Notes

Title: Molekularbiologische Datenbanken


1
Molekularbiologische Datenbanken
QUELLENhttp//nar.oxfordjournals.org/content/vo
l35/suppl_1/index.dtl
Thoralf Töpel Web-basierte Informationssysteme
in der molekularen Bioinformatik, Vorlesung,
SoSe 05
2
Überblick I
  • Problem Datenbank lt-gt DATENBANK
  • Warum gibt es öffentlich zugängliche
    molekularbiologische Datenbanken?
  • Data Submission Veröffentlichung
  • Veröffentlichung
  • Austausch von Informationen und Daten
  • Erlangung von Reputation
  • Molekularbiologische Datenbanken (MDB)
    Veröffentlichungen, nicht Tupel
  • Definitionen erforderlich!!! -gt Verweis auf
    Vorlesung

3
Überblick II
  • Paper, Bücher, Reports
  • 1907 / 1927 Chemical/Biological Abstracts
  • Sekundärliteratur Abstracts, bibliographische
    Daten
  • 1972 Medline
  • Publication Index (einer von vielen)
  • PubMed http//www.ncbi.nlm.nih.gov/entrez
  • Aktuell
  • gt 15.000.000 Artikel http//www.ncbi.nlm.nih.gov/
    Literature/
  • gt 19.000 Journals ftp//ftp.ncbi.nih.gov/pubmed/J
    _Medline.txt
  • Online Links zu Volltextartikeln

4
Überblick III
  • Erste Sequenzen Proteine
  • Länger bekannt und untersucht, einfacher
    zugänglich
  • DNA Zellkern, kompakte Packung, große Länge,
    Instabilität
  • Erste Proteinsequenz 1951 (Sanger Tuppy)
    Seitenkette von Insulin
  • Sammlung ab Anfang der 1960er (Dayhoff et al.
    1965)
  • Protein Sequence Atlas Buchform, 1968-1978
  • Motivation Evolutionäre Untersuchungen
  • 1980 Protein Information Resource (seit 1988
    PIR-Int.)
  • 1986 SWISS-PROT Genf (Amos Bairoch) plus EBI

5
Überblick IV
Wachstum von Uni-ProtKB/SWISS-PROT Quelle ht
tp//www.expasy.org
6
Überblick V
  • Proteine falten sich in komplexe Strukturen, die
    entscheidend für die Funktion ist
  • Strukturaufklärung
  • Röntgenkristallographie (seit 50er Jahren
  • Nuclear Magnetic Resonance (NMR)
  • Protein Data Bank (PDB)
  • Seit 1971 in Brookhaven
  • Seit 1999 Rutger University
  • Cambridge Structural Database 1965

7
Überblick VI
Wachstum von PDB Quelle http//www.rcsb.org
8
Überblick VIIDNA-Sequenzierung
  • Doppelhelix der DNA 1953 (Watson, Crick)
  • Entwicklung DNA Sequenzierung Beginn der 1970er
    (Sanger, 1972 ) radioactive dideoxy sequencing
  • Sammlungen von DNA Sequenzen
  • Los Alamos National Laboratory seit 1979GenBank
    am NCBI (National Center f Biotech. Information)
  • European Molecular Biology Laboratory 1980EMBL
    am EBI (European Bioinformatics Institute)
  • DNA DataBank of Japan 1986DDBJ am NIG (National
    Inst. of Genetics)
  • Int. Nuc. Sequence DB Collaboration seit ca. 1986
  • Täglicher Austausch
  • Jeweils verantwortlich für submittete Sequenzen

9
Überblick VIII
Wachstum von EMBL Quelle http//www.ebi.ac.uk
10
Überblick IX
  • Vernetzung

Quellehttp//www.genome.ad.jp/dbget/dbget.links.
html
11
Probleme I (Quelle U. Leser)
  • Text -gt Daten
  • Alle (großen) öffentlichen Datenbanken entstanden
    aus Büchern
  • Sammlungen bekannter Daten einer Art DNA,
    Proteinsequenz, Proteinstruktur
  • Jährliche / Quartalsweises Erscheinen
  • Buch Band CD FTP WWW
  • Flaches, textorientiertes Datenmodell
  • Aufbau nach Entries
  • Viele Beschreibungen in freier Textform
  • Für Menschen, nicht Computer

12
Probleme II (Quelle U. Leser)
  • Schwierigkeiten
  • Hohe Redundanz (Literatur, ...)
  • Keine Vergleichbarkeit freier Beschreibungen
  • Keine Standardparser einsetzbar (Grammatiken)
  • Controlled Vocabularies schwierig (keine FK)
  • Schlechte Skalierbarkeit
  • Vorteil
  • Lesbarkeit Übersichtlich
  • Einfach editierbar, keine Einschränkungen
  • Entwicklung Trennung von Speicherformat,
    Austauschformat, Benutzerinterface

13
Probleme III (Quelle U. Leser)
  • Kontinuierliche Entwicklung !!!
  • Sukzessive Übernahme von DB Techniken

14
Eigenschaften I (Quelle U. Leser)
  • Passiv oder aktiv
  • Model 1
  • Alle Daten werden submittet
  • Sinn Archivierung, ID Vergabe und roher
    Zugriff
  • Verpflichtung durch Journals, Geldgeber, Gewissen
  • Beispiele Genbank/EMBL..., PDB, ...
  • Model 2
  • Aktiv sammeln Journals, andere Datenquellen, ...
  • Sinn Integration, Veredlung, Vollständigkeit
  • Ermöglicht zentralen Zugriff ohne Verpflichtung
  • Beispiele SWISS-PROT, PIR, ...
  • Mischformen
  • GDB - Human Genome Database
  • The Official World-Wide Database for the
    Annotation of the Human Genome

15
Eigenschaften I (Quelle U. Leser)
  • Passiv oder aktiv ??

16
Eigenschaften II (Quelle U. Leser)
  • Database Curation
  • Curation Verbesserung, Heilung
  • Modell 1
  • Submitter/Quelle ist Datenherr
  • Keine (inhaltlichen) Veränderungen
  • Beispiele Genbank, ArrayExpress, ...
  • Modell 2
  • Daten werden laufend verbessert
  • Hoher (manueller) Aufwand
  • Beispiele SWISS-PROT, MGD - Mouse Genome DB,
    MIPS, ...

17
Eigenschaften II - Beispiel (Quelle U. Leser)
18
Eigenschaften III (Quelle U. Leser)
  • Redundanz
  • Model 1
  • Alles aufnehmen
  • Modell 2
  • Entfernen gleicher oder sehr ähnlicher Einträge
  • Was ist sehr ähnlich ?
  • Homologes Protein in anderer Spezies ?
  • Homologes Gen an anderer Position ?
  • Muss festgelegt werden !
  • Beispiel SP Redundanzminimierung durch Editoren
  • Beispiel UniGene Redundanzminimierung durch
    Algorithmen

19
Eigenschaften IV (Quelle U. Leser)
  • Integration
  • Modell 1
  • DB als Archiv unverbundener Objekte
  • Problemloses Löschen / Hinzufügen von Objekten
  • Modell 2
  • Objekte als Knoten in einem komplexen Geflecht
  • Neue Knoten können Änderungskaskaden auslösen
  • Verschiedene Integrationstiefen
  • Links zu anderen Quellen
  • DBGET
  • Integr8 (web portal provides easy access to
    integrated information about deciphered genomes
    and their corresponding proteomes)
  • automatische Integration anhand definierter
    Kriterien (ENSEMBL a software system which
    produces and maintains automatic annotation on
    selected eukaryotic genomes )
  • Manuelle Integration anhand Wissen des Editors
    (SP)
  • DBGET / DBLINK Datenbank aus Links

20
Eigenschaften IV - Beispiel zu Modell 2
(Quelle U. Leser)
21
Eigenschaften IV - Beispiel zu Modell 2
(Quelle U. Leser)
Datenherkunft unklar!
Integrated X-Chromosome Database
22
Eigenschaften IV - Beispiel zu Modell 2
(Quelle U. Leser)
23
Eigenschaften V (Quelle U. Leser)
  • Fokus
  • Organismus, Gewebe, Chromosome, ...
  • Datentyp Sequenzen, Strukturen, Motive, ...
  • Tiefe Datenbanken
  • Wenig Klassen, viele Objekte
  • EMBL, ArrayExpress, GDB, 2D Page
    (SWISS-2DPAGETwo-dimensional polyacrylamide gel
    electrophoresis database) ...
  • Breite Datenbanken
  • Viele Klassen, wenig Objekte
  • Chromosom-/ Spezies-/ Krankheitsspezifisch
  • MGD, MIPS, Genecards, ...

24
Eigenschaften V - Beispiel (Quelle U. Leser)
Genomics Unified Schema (GUS) is an extensive
relational database schema and associated
application framework designed to store,
integrate, analyze and present functional
genomics data. The GUS schema supports a wide
range of data types including genomics, gene
expression, transcript assemblies, proteomics and
others. It emphasizes standards-based ontologies
and strong-typing.
25
Eigenschaften VI (Quelle U. Leser)
  • Position in Wissensschöpfungskette
  • Primärdatenbanken
  • Nahe am Experiment
  • Wenig Verarbeitung (kurze Annotationspipelines)
  • Keine Konsensdaten
  • Genbank/EMBL, PDB, UniGene
  • Sekundärdatenbanken
  • Intensive Arbeit zur Datenverbesserung
  • Reichhaltige Annotation und Verlinkung
  • Intensive Integration und Curationüber Datentypen
    hinweg
  • SWISS-PROT, MGD, OMIM, ...
  • Tertiärdatenbanken
  • Datenbanken von Annotationstypen oder
    Featuretypen
  • GeneOntology, PFAM, PRINTs, InterPro, CATH, ....

26
Eigenschaften VI - Beispiel (Quelle U.
Leser)
27
Eigenschaften VII (Quelle U. Leser)
  • Zweck
  • Lange bestehend, international organisiert
  • Referenzdatenbanken, öffentliches Archiv
  • Genbank, SWISS-PROT, PIR, PDB, ...
  • Projektbezogen, One-Shot
  • Existieren ca. bis zur Veröffentlichung
  • Ergebnis einer Datenanalyse
  • Hochaktuell für kurze Zeit
  • Labor-Datenbanken
  • Verzahnung mit LIMS (Laboratory Info. Mang. S.)
  • Grundlage der Datenanalyse
  • Speichert Rohdaten (Traces, Bilder, MS-Spektren)

28
Eigenschaften VII - Beispiel
Genexpressionsdaten (Quelle U. Leser)
29
Eigenschaften VIII (Quelle U. Leser)
  • Technik
  • Verwendete Technologie
  • Relationale DBMS (Oracle, Sybase, Informix)
  • Objektorientierte DBMS (Versant, Objectstore)
  • XML Datenbanken (Tamino, XIS)
  • Proprietäre Techniken (ACeDB, Icarus/SRS)
  • Flatfiles
  • Zugriffsmechanismen
  • Anfragesprachen SQL, XQuery, OQL,
  • Canned Queries, Webforms
  • Indexmechanismen, Keywordsuche
  • Navigation

30
Anforderungen
  • Datenmenge
  • GenBank-Flatfiles 110 GB (2/2003)
  • SWISS-PROT, TrEMBL Oracle-Export 1 GB (2/2003)
  • Flexibilität
  • Forschungsfragen ändern sich
  • Design muß Wartbarkeit und Flexibilität
    ermöglichen
  • Schemaänderungen, neue Datentypen, Optimierungen,
    Integration
  • Offenheit
  • Zugriff durch unterschiedliche Clients, geeignete
    Export-Formate
  • Datenqualität
  • Unscharfe, widersprüchliche Daten durch
    Experimente

31
Klassifikation
  • Jährliche Sonderausgabe der Nucleic Acids
    Research (seit 1996)
  • seit 2004 Database Issue
  • Molecular Biology Database
  • Collection
  • http//nar.oupjournals.org
  • 2005 719 DBs
  • 2006 858 DBs

32
Klassifikation (2)
33
Nukleotidsequenzdatenquellen
  • Labors, Sequenzierkonsortien, Patentanmeldungen
    hinterlegen ihre Sequenzen
  • GenBank (National Center for Biotechnology
    Information, NIH)
  • EMBL-Bank (European Molecular Biology Laboratory,
    EMBL-EBI)
  • DDBJ DNA Database of Japan
  • International Nucleotide Sequence Database
    Collaboration
  • Täglicher Abgleich der Sequenzen
  • Inhaltlich deckungsgleich
  • Separate Eingabepunkte für neue Sequenzen
  • Unterschiede im Speicherformat und Annotation
  • Abstimmung der Datenformate

34
Nukleotidsequenzdatenquellen (2)
  • Bedingung für Veröffentlichung eines Artikels in
    Fachzeitschrift
  • Einbringung der neuen Nukleotidsequenz in DB
  • Inhalt
  • Daten und Annotation für eine einzige,
    zusammenhängende Sequenz
  • Auch Sammlung mehrerer veröffentlichter Artikel
    als überlappende Fragmente
  • Lebensgeschichte ohne Annotation vorläufig
    ungeprüft Standard
  • Selten stirbt ein Eintrag
  • Eigenschaftstabelle (feature table) verweist auf
    Abschnitte, die
  • bestimmte Funktionen ausführen oder beeinflussen
  • mit anderen Molekülen in Wechselwirkung treten
  • sich auf die Replikation auswirken
  • an der Rekombination beteiligt sind
  • Wiederholungseinheiten darstellen
  • eine Sekundär- oder Tertiärstruktur besitzen
  • überarbeitet oder korrigiert wurden

35
EMBL - Database
  • EMBL Nucleotide Sequence Database
  • Inhalt stieg in einem Jahr von 27,2 auf 42,3
    Mill. Einträge (Sept. 2004)
  • Verfügbare Daten vierteljährlich komplette DB,
    tägliche Updates
  • Bevorzugte Dateneingabe über WebIn
  • Zugriff über
  • SRS, FTP
  • Dbfetch, EMBL Sequence Version Archive (SVA)
  • Strukturierte Wertepaare AC X64011 S78972
  • Feature Table Key Location/Qualifiers CDS
    23..400 /product"alcohol dehydrogenase"
    /gene"adhI"
  • The feature CDS is a coding sequence beginning at
    base 23 and ending at base 400, has a product
    called 'alcohol dehydrogenase' and is coded for
    by a gene called "adhI".

36
EMBL Format
ID LISOD standard genomic DNA PRO 756 BP.XX
AC X64011 S78972XXSV X64011.1XXDT
28-APR-1992 (Rel. 31, Created)DT 30-JUN-1993
(Rel. 36, Last updated, Version 6)XXDE Listeria
ivanovii sod gene for superoxide dismutaseXXKW
sod gene superoxide dismutase.XXOS Listeria
ivanoviiOC Bacteria Firmicutes
Bacillus/Clostridium groupOC Bacillus/Staphyloco
ccus group Listeria.XXRN 1RX MEDLINE
92140371.RA Haas A., Goebel W.RT "Cloning of a
superoxide dismutase gene from Listeria ivanovii
byRT functional complementation in Escherichia
coli and characterization of theRT gene
product."RL Mol. Gen. Genet. 231313-322(1992).
XXDR SWISS-PROT P28763 SODM_LISIV.XXFH Key
Location/QualifiersFHFT source 1..756FT
/db_xref"taxon1638"FT /organism"Listeria
ivanovii"FT /strain"ATCC 19119"FT
/mol_type"genomic DNA"FT RBS 95..100
37
EMBL WebIn
  1. Submitter Information
  2. Release Date Information
  3. Sequence Data, Description and Source Information
  4. Reference Citation Information
  5. Feature Information (e.g. coding regions,
    regulatory signals etc.)

38
EMBL Dbfetch
39
EMBL SRS
4.3 Nukleotidsequenzdatenquellen
40
EMBL XML-Unterstützung
  • EMBL XML XEMBL
  • CORBA-basierter WWW-Dienst
  • Erzeugung von XML-Files aus EMBL-Flat-Files
  • Zur Zeit Unterstützung von DTDS von BSML und
    AGAVE ( Architecture for Genomic Annotation,
    Visualization and Exchange)
  • Zugriff über SOAP ( Simple Object Access Protocol
    vom W3-Konsortium) bzw. CGI-Aufrufe

4.3 Nukleotidsequenzdatenquellen
41
EMBL Überblick
Domäne Nukleotid-Sequenzen
Zugriffmöglichkeit Lokale Flat-Files, WWW, XEMBL
Anfrageschnittstelle WWW, SRS, XEMBL
Datenformat ASCII, HTML, XML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über Accession Numbers (Quasi-Standard)
Datenaktualität Tägliche Update
Zugriffskosten keine
4.3 Nukleotidsequenzdatenquellen
42
Die Genbank Sequenzdatenbank
  • Anbieter National Institutes of Health (NIH)
    erzeugt vom National Center for Biotechnology
    Information (NCBI) http//www.ncbi.nlm.nih.gov/
  • Inhalt alle öffentlich verfügbaren RNA, DNA und
    Protein-Sequenzen mit Annotationen
  • täglicher Abgleich mit EMBL und DDBJ
  • Untergliederung in Divisionen
  • phylogentisch (Verwandschaft, Abstammung)
  • technologisch Wie wird Sequenz generiert?
  • Releases 2x monatlich mit täglichen Updates
  • Nicht entwickelt für Zugriff mittels Computer!!!

43
GenBank Format
  • Informationseinheit GBFF (GenBank Flatfile)
  • Header
  • LOCUS eind. Name, Sequenzlänge, Molekültyp,
    Datum
  • DEFINITION biologische Zusammenfassung
  • ACCESSION Schlüssel
  • VERSION Angabe der letztgültigen Version
  • KEYWORDS nicht-standardisierte Beschreibung der
    Sequenz
  • SOURCE/ORGANISM Trivialname/wiss. Name des
    Organismus
  • REFERENCE Block mit mind. einer Referenz
  • Features
  • Source Quelle des verwendeten biol. Materials
  • CDS Sequenzabschnitt für Aminosäuresequenz
  • Nukleotidsequenz

44
GenBank Format (2)
LOCUS LISOD 756 bp DNA linear BCT
30-JUN-1993DEFINITION Listeria ivanovii sod
gene for superoxide dismutase.ACCESSION X64011
S78972VERSION X64011.1 GI44010KEYWORDS sod
gene superoxide dismutase.SOURCE Listeria
ivanovii ORGANISM Listeria ivanovii Bacteria
Firmicutes Bacillales Listeriaceae Listeria.
REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A.
and Goebel,W. TITLE Cloning of a superoxide
dismutase gene from Listeria ivanovii
by functional complementation in Escherichia
coli and characterization of the gene product
JOURNAL Mol. Gen. Genet. 231 (2), 313-322
(1992) MEDLINE 92140371REFERENCE 2 (bases 1
to 756) AUTHORS Kreft,J. TITLE Direct
Submission JOURNAL Submitted (21-APR-1992) J.
Kreft, Institut f. Mikrobiologie, Universitaet
Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg,
FRGFEATURES Location/Qualifiers source
1..756 /organism"Listeria ivanovii"
/strain"ATCC 19119" /db_xref"taxon1638"
/mol_type"genomic DNA" RBS 95..100
/gene"sod" gene 95..746 /gene"sod"
CDS 109..717 /gene"sod"
/EC_number"1.15.1.1" /codon_start1
/transl_table11 /product"superoxide
dismutase"
4.3 Nukleotidsequenzdatenquellen
45
GenBank Suche
46
Proteinsequenzdatenquellen
  • Meistens aus Nukleinsäuresequenzen abgeleitet
  • Typische Vertreter
  • Swiss-Prot (Schweizer Institut für Bioinformatik,
    EMBL)
  • PIR (Georgetown University Washington, MIPS
    München, Japan)
  • TrEMBL (EMBL)
  • UniProt (Swiss-Prot TrEMBL PIR)

47
Swiss-Prot
  • Kommentierte Proteinsequenzdatenbank
  • Umfangreiche Bemerkungen (Annotationen), geringe
    Redundanz, Links zu anderen Datenquellen
  • Entwicklung seit 1986 an der Universität Genf,
    Schweiz
  • Partnerschaftlich vom EMBL-EBI und dem SIB (Swiss
    Institute of Bioinformatics) betrieben
  • Aminosäurensequenz, Annotationen, Verweise,
    Synonyme, Literaturreferenzen, Schlüsselworte
  • Format der Daten orientiert sich an der
    EMBLNukleotidsequenzdatenbank
  • Umfang Proteinsequenz, Version, Vorgänger,
    Autor, Datum, Länge, Methode, letzte Änderung,
    Organismus, Sequenzfeatures, Links, Ref.
  • Engpässe und somit zeitliche Verzögerungen
    während des Annotationsverfahres
  • 1996 Entwicklung von TrEMBL, Rechnerannotierte
    Einträge (Translation of EMBL nucleotide
    sequence database)

48
Swiss-Prot Format
4.4 Proteinsequenzdatenquellen
49
Swiss-Prot Format (2)
50
Swiss-Prot Dienste
Bildquelle http//www.expasy.org/sitemap.html
51
Swiss-Prot Links
Bildquelle http//www.expasy.org/sprot/userman.ht
ml
52
Swiss-Prot Überblick
Domäne Proteine, Aminosäuresequenz
Zugriffmöglichkeit Lokale Flat-Files, WWW
Anfrageschnittstelle WWW, SRS, Nice-Prot
Datenformat ASCII, HTML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über Accession Numbers (Quasi-Standard)
Datenaktualität Tägliche Update
Zugriffskosten keine
53
TrEMBL
  • Rechner-annotierte Übersetzungen aller
    kodierender Regionen in DDBJ/EMBL/GenBank
  • Proteinsequenzen aus Literatur und Submission,
    die nicht in Swiss-Prot
  • Schnelle Publikation ohne Verzögerung durch
    aufwendige manuelle Annotation
  • Vorgehen
  • Vergabe eines TrEMBL-Eintrages
  • Automatische Annotation Informationstransfer von
    bekannten Einträgen aus Swiss-Prot zu nicht
    annotierten TrEMBL-Einträgen über
    InterPro-Gruppen
  • Redundanzbeseitigung Sequenzen mit gleichem
    Organismus, voller Länge und Identität werden zu
    einem Eintrag verschmolzen
  • Herkunftsnachweis TrEMBL enthält Daten aus
    unterschiedlichen Quellen, Herkunft eines
    Eintrages wird dokumentiert ermöglicht
    Qualitätsbewertung und Aktualisierung

54
UniProt
  • Universal Protein Knowledgebase
  • Seit 2002 Vereinigung kommentierter
    Proteinsequenzdatenbanken
  • Sammlung der einzelnen Sequenzinformationen und
    funktionalen Daten
  • das UniProt Archive (UniParc) nichtredundante
    Sammlung von Proteinsequenzen aus verschiedenen
    Quellen (SwissProt, TrEMBL, PIRPSD, EMBL,
    Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase und
    Patentämter
  • zentrale UniProt Knowledgebase (UniProt)
    Proteinsequenzen, Annotation und funktionale
    Informationen aus SWISSPROT, TrEMBL und PIRPSD
    wechselseitige Referenzen Unterscheidung der
    Informationen in manuell annotierte Sequenzen,
    die durch eine Literaturrecherche und evaluierte
    Computeranalysen entstanden sind, und
    rechnerannotierte Sequenzen
  • die UniProt NREF Datenbank (UniRef)
    nichtredundante Verknüpfungen verfügbarer
    Sequenzen mit Links zu den beteiligten Sequenzen,
    Taxonomie, Literaturreferenzen und der
    resultierenden Sequenz

55
UniProt Format
56
UniProt Format (2)
Bildquelle http//www.expasy.org/sprot/userman.ht
ml
57
MDB Klassifikation (1)
  • Nukleotidsequenzdatenquellen
  • Daten und Annotation für eine einzige,
    zusammenhängende Sequenz
  • GenBank, EMBL-Bank, JJDB
  • Proteinsequenzdatenquellen
  • Meistens aus Nukleinsäuresequenzen abgeleitet
  • Swiss-Prot, PIR, TrEMBL, UniProt

58
MDB Klassifikation (2)
59
Strukturdatenquellen
  • Archivierung von Gruppen aus Atomkoordinaten und
    Annotationen für biochemische Strukturen
  • Struktur
  • PDB
  • MSD (EBI), MMDB (NCBI)
  • Klassifikation der Proteinfaltungsmuster
  • SCOP
  • DALI

60
Proteinstruktur
  • Von eindimensionaler (Nukleotid-/Aminosäuresequenz
    ) zur räumlichen Welt
  • Proteine in vielfältigen Funktionen
    Strukturproteine, Enzyme, Transport- und
    Speicherproteine, Hormone, Rezeptoren,
    Transkriptionsregulation, Immunsystem
  • Lokalisierung der Funktion in kleinem Teil des
    Proteins aktives Zentrum
  • Evolution der Proteine Strukturveränderung durch
    Mutationen
  • Dreidimensionale Struktur von ca. 15000 Proteinen
    bekannt
  • Unterscheidung in
  • Primärstruktur Aminosäuresequenz
  • Sekundärstruktur Wasserstoff-stabilisierte
    Krümmung der Hauptkette
  • Tertiärstruktur
  • Quartärstruktur
  • Supersekundärstruktur, Domänen

61
PDB
  • Protein Data Bank
  • Datensammlung zur Struktur biologischer
    Makromoleküle
  • Proteine, Nukleinsäuren, Kohlenhydrate
  • 1971 gegründet an Brookhaven National
    Laboratories,
  • Pflege durch Research Collaboration for
    Structural Bioinformatics
  • Prüfungsprozeß vor Aufnahme einer neuen Struktur
  • Hohe Redundanz, geringer Umfang
  • Inhalt
  • Allgemeine Angaben (Protein, Publikation)
  • Aminosäuresequenz
  • Experimentelle Einzelheiten der
    Strukturaufklärung, ähnliche Strukturen
  • Koordinaten der Atome

62
PDB Dateiformat
  • Anordnung der 3D-Struktur des Proteins in
    Raumgitter
  • Atome, die über Bindungen in Wechselwirkung
    stehen
  • Jedes Atom besitzt bestimmte Position relativ zum
    Nullpunkt
  • Zuordnung weiterer Daten (Atomcharakter,
    Bindungen, Wechselwirkungen)
  • Verschiedene Werkzeuge zur Visualisierung
    (RasMol, Swiss PDB Viewer, Cn3D)
  • PDB-Koordinatendatei
  • Schlüssel-Wert-Paare
  • Kooperation als Worldwide Protein Data Bank
    (wwPDB)
  • PDB, EBI-MSD, PDBj
  • Vereinheitlichung, Transparenz

63
PDB Beispieldatei
64
PDB Beispieldatei (2)
Bildquelle http//www.rcsb.org/pdb/
65
PDB Überblick
Domäne Proteinstrukturen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW, SRS
Datenformat HTML, ASCII, PDB-Format, Spezialformate
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über PDB-Nummer (Quasi-Standard)
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
66
SCOP
  • Structural Classification of Proteins
  • Erkennung von Ordnungskriterien in der Vielfalt
    der Proteinstrukturen
  • Hierarchische Ordnung auf der Basis der
    PDB-Einträge in Bezug auf evolutionäre und
    strukturelle Ähnlichkeiten
  • Auch Proteine mit geringer Sequenzähnlichkeit
    können sehr ähnliche 3D-Strukturen besitzen
  • Unterteilung des Proteinmoleküls in Domänen (rel.
    unabhängige Faltungseinheiten)
  • Strukturierung aufsteigend nach Ähnlichkeit
    Sequenz/Struktur
  • Class Klasse
  • Fold Faltung Major structural similarity
  • Superfamily Superfamilie Probable common
    evolutionary origin
  • Family Familie Clear evolutionarily
    relationship
  • Protein, Spezies

67
SCOP Beispieleintrag
68
SCOP Überblick
Domäne Klassifikation von Proteinstrukturen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW
Datenformat HTML, ASCII
Schemainformation Externe Dokumentation
Identifikationsmechanismus Klassifikation
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
69
Metabolische und Signalwege
  • Stoffwechsel (Metabolismus) Chemische Prozesse
    in einemBiosystem (Proteinsynthese, Biosynthese,
    Zellkommunikation)
  • Vorgänge prinzipiell bei allen Lebewesen gleich
  • Metabolic Pathway (Stoffwechselweg) in
    Wechselwirkung
  • stehende biochemische Reaktionen durch Enzyme
    reguliert
  • Produktion und Konsumption von Zwischenprodukten
  • Reaktion durch Enzyme gehemmt oder gefördert

Bildquelle http//biopath.fmi.uni-passau.de/
70
Metabolische und Signalwege (2)
  • Signaling Pathway (Signalweg)
    Signalübermittlung von Zelle zu Zelle bzw. Organ
    zu Organ
  • Signalvermittlung durch chemische Verbindungen
    (Signalmoleküle)
  • Typischer Ablauf
  • Extrazelluläre Signalmoleküle binden an Rezeptor
    (Membranproteine)
  • Hormon-Rezeptor-Komplex löst intrazelluläres
    Signalmolekül aus
  • (Signaltransduktion, mehrstufige
    Signaltransduktion Signalkaskade)

71
BRENDA
  • Braunschweig Enzyme Database
  • 1987 an GBF Braunschweig entwickelt
  • Heute Pflege an Universität zu Köln
  • Inhalt
  • Enzyme und metabolische Zusammenhänge
  • Biochemische und molekulare Informationen,
    Klassifikation und Nomenklatur, Reaktion und
    Spezifität, kinetische Parameter, , Links,
    Referenzen
  • Umfang
  • 83000 Enzyme in 9800 Organismen
  • Klassifiziert durch 4200 unterschiedliche
    EC-Nummern
  • Extrahiert aus 46000 Publikationen

72
BRENDA GUI
73
BRENDA Überblick
Domäne Metabolische und Signalwege
Zugriffmöglichkeit WWW
Anfrageschnittstelle WWW, SRS
Datenformat HTML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über entsprechende Schlüssel
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
74
KEGG
  • Kyoto Encyclopedia of Genes and Genomes
  • Sammlung einzelner Genome, Genprodukte und ihre
    Funktion, Zusammenführung von biochemischen und
    genetischen Daten
  • 1995 im Rahmen des HGP gegründet
  • Organisation in Graphenstruktur
  • Graph Knoten Kanten
  • Gene universe Gen beschreiben Beziehungen
  • Chemical universe Chemische Substanz zwischen
    den Knoten
  • Protein network Protein
  • Gruppen besitzen verschiedene Teildatenbanken,
    die miteinander verknüpft sind

75
KEGG Vernetzung
Bildquelle http//www.genome.ad.jp/dbget/
4.6 Metabolische und Signalwege
76
KEGG Pathway
Bildquelle http//www.genome.ad.jp/kegg/
77
KEGG Genes, Enzyme
78
KEGG Überblick
Domäne Metabolische und Signalwege
Zugriffmöglichkeit WWW, Lokale Flat-Files, SOAP
Anfrageschnittstelle WWW, SRS, DBGET
Datenformat HTML, XML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über entsprechende Schlüssel
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
79
OMIM
  • Online Mendelian Inheritance in Man
  • Datenbank für Gene und genetisch bedingte
    Erkrankungen des Menschen
  • Auswertung biomedizinischer Literatur
  • Ursprünglich von Medizinern seit 1966 in
    Papierform veröffentlicht
  • Seit 1987 auch online verfügbar
  • Teil des Entrez-Systems am NCBI
  • Pflege durch Johns-Hopkins-Universität, Baltimore
  • Durchschnittlich 8500 Nutzer mit 100000 Anfragen
    pro Tag
  • Ca. 16000 Einträge

80
OMIM 261600.0001
  • Erste Ziffer bezeichnet die Art der Vererbung
  • 1----- (100000- ) Autosomale Loci oder
    Phänotypen (vor 15. Mai 1994)2----- (200000- )
    Autosomale Loci oder Phänotypen (nach 15. Mai
    1994)3----- (300000- ) X-chromosomale Loci oder
    Phänotypen
  • 4----- (400000- ) Y-chromosomale Loci oder
    Phänotypen 5----- (500000- ) Mitochondriale Loci
    oder Phänotypen
  • 6----- (600000- ) Autosomale Loci oder
    Phänotypen (nach 15. Mai 1994)
  • Identifikation verschiedener Mutationen über
    nachfolgende vierstellige Nummer
  • 261600.0001 PHENYLKETONURIA PAH, IVS12DS, G-A,
    1
  • 261600.0002 PHENYLKETONURIA PAH, ARG408TRP
  • Zusätzlich Präfix
  • Gen einer bekannten Sequenz
  • Beschreibender Eintrag (typ. Phänotyp), kein
    bestimmter Locus
  • Gen einer bekannten Sequenz und Phänotyp
  • Bestätigter vererbter Phänotyp oder Locus mit
    unbekannter mol. Basis
  • Gelöschter Eintrag

81
OMIM GUI
82
OMIM Überblick
Domäne Gene und genetisch bedingte Erkrankungen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW, SRS
Datenformat HTML, ASCII
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über MIM-Nummer (Quasi-Standard)
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
83
PubMed
  • Sammlung von Referenzen biomedizinischer
    Literatur
  • Teil des Entrez-Systems am NCBI
  • Zugriff auf
  • Medline (4800 Journals, 12 Mill. Referenzen, seit
    1966 indexiert)
  • OldMedline (2 Mill. Referenzen, 1950-1966
    indexiert, kein MeSH, kein Abstract)
  • Weitere Beiträge (z.B. außerhalb des thematischen
    Schwerpunktes, elektronische Übermittlung der
    Referenzen durch Verlag)
  • Suche anhand von Stichwörtern, Verknüpfung durch
    Boolesche Operatoren, Eingrenzung des
    Suchbereiches auf bestimmte Datenfelder (Title,
    Author, )
  • MeSH (Medical Subject Headings) Annotation der
    Artikel mit kontrolliertem Vokabular

4.8 Weitere Quellen
84
PubMed (2)
  • Teilweise Zugriff auf Volltext-Artikel
  • No abstract
  • Abstract
  • Free full text
  • Free in PMC

85
PubMed GUI
4.8 Weitere Quellen
86
PubMed Überblick
Domäne Literaturreferenzen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW, SRS
Datenformat HTML, ASCII, XML, ASN.1
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über PubMed-ID (PMID) (Quasi-Standard)
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
87
Gene Ontology
  • The Gene Ontology project provides a controlled
    vocabulary to describe gene and gene product
    attributes in any organism!
  • What does the Gene Ontology Consortium do?
  • Biologists currently waste a lot of time and
    effort in searching for all of the available
    information about each small area of research.
    This is hampered further by the wide variations
    in terminology that may be common usage at any
    given time, and that inhibit effective searching
    by computers as well as people.
  • The use of GO terms by several collaborating
    databases facilitates uniform queries across
    them. The controlled vocabularies are structured
    so that you can query them at different levels
    for example, you can use GO to find all the gene
    products in the mouse genome that are involved in
    signal transduction, or you can zoom in on all
    the receptor tyrosine kinases. This structure
    also allows annotators to assign properties to
    gene products at different levels, depending on
    how much is known about a gene product.

88
Gene Ontology (2)
  • 3 Ontologien
  • Molecular function
  • Molecular function describes activities, such as
    catalytic or binding activities, at the
    molecular level.
  • Bsp pyrimidine metabolism, alpha-glucoside
    transport
  • Biological process
  • A biological process is series of events
    accomplished by one or more ordered assemblies of
    molecular functions
  • Bsp hexose biosynthesis, hexose metabolism,
    monosaccharide biosynthesis
  • Cellular component
  • A cellular component is just that, a component of
    a cell but with the proviso that it is part of
    some larger object, which may be an anatomical
    structure or a gene product group.
  • Bsp nucleus, ribosome, proteasome

89
Gene Ontology - AmiGo
4.8 Weitere Quellen
90
Gene Ontology und Pflanzen-ESTs
4.8 Weitere Quellen
91
Plant Ontology
  • Plant Ontology Consortium (POC) aims to develop,
    curate and share controlled vocabularies
    (ontologies) that describe plant structures and
    growth/developmental stages providing a semantic
    framework for meaningful cross-species queries
    across database
  • Plant Structure
  • A controlled vocabulary of botanical terms
    describing morphological and anatomical
    structures representing organ, tissue and cell
    types and their relationships. Examples are
    stamen, gynoecium, petal, parenchyma, guard cell,
    etc.
  • Growth and developmental stages
  • A controlled vocabulary of terms describing
    growth and developmental stages in model plant
    species and their relationships. Examples are
    embryo development stage, seedling stage,
    flowering stage, etc.

92
Plant Ontology - AmiGo
4.8 Weitere Quellen
93
Plant Ontology und Pflanzen cDNA-Arrays
4.8 Weitere Quellen
94
TIGR Gene Indicies
  • TIGR - The Institute for Genomic Research is a
    not-for-profit center dedicated to deciphering
    and analyzing genomes the complex molecular
    chains that constitute each organisms unique
    genetic heritage.
  • TIGR Gene Indices
  • megablast
  • CAP3
  • Paracel TranscriptAssembler
  • DNA-Protein Search program (dps)
  • Weitere Analysen
  • ORF annotation
  • Genome mapping
  • expression profiles of the EST
  • Domain annotation of TCs

95
TIGR Gene Indicies 4 Kategorien
96
TIGR Gene Indicies Beispiel
97
Molekularbiologische Datenquellen
  • Es könnte noch beliebig weitergehen!!!
Write a Comment
User Comments (0)
About PowerShow.com