Title: GDV%20Proseminar
1Johann Wolfgang Goethe-Universität Frankfurt am
Main
- GDV Proseminar
- Visualisierung in der Bioinformatik
- Genom Visualisierung
- FfM., den 05.06.2003
- Oleg Rempel und Sven Zöller
2Gliederung
- 1 Einleitung
- 1.1 Exkurs ins menschlichen Genom
- 1.2 Human Genom Projekt
- 2 Graphisches Darstellen von Genomen
- 2.1 Ziele
- 2.2 Probleme
- 3 ProtAnnot und Neomorphic GeneViewer
- 3.1 Hintergrund
- 3.2 Semantisches Zooming
- 3.3 Zweidimensionales Zooming
- 3.4 Einzelne oder doppelte Reihenfolge der
Genstruktur - 3.5 Umgang mit der Komplexität der
Informationen - 3.6 Proteinvorhersage
- 4 Beispiel SeqVISTA
- 4.1 Hintergrund
- 4.2 SeqVISTA
- 4.3 repetitive Elemente
- 4.4 Proteinstruktur
- 5 Zusammenfassung
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
3Genom als der Bauplan des Lebens
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Genom (Erbgut) ist die Gesamtheit der
Erbinformation einer Zelle. - Die Erbinformation ist die in der DNA jeder
Zelle gespeicherte - Information zur Ausbildung von Merkmalen.
- Unter Merkmalen versteht man die Entwicklung,
das Aussehen, das - Verhalten, die Gesundheit und die Neigung zu
bestimmten - Krankheiten.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
4Sitz des Genoms
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Jede Zelle des menschlichen Organismus besitzt
das komplette Genom. - Das meiste menschliche Genom (99,9995) befindet
sich im Zellkern. - Rest (0,0005) in Mitochondrien der Zelle.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
5DNA
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Erbsubstanz der Erbinformation ist die
- DNA (DesoxyriboNucleid Acid).
- Die DNA besteht aus Bausteinen
- (Nukleotiden), die in zwei komplementär
- angeordneten Strängen miteinander
- Verknüpft sind.
- Die beiden DNA-Stränge sind spiralförmig
- um die eigene Achse gewunden, bilden so
- genannte Doppelhelix.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
6Von Doppelhelix zu einem Chromosom
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Die Doppelhelix ist durch mehrfaches Umwickeln
sehr - dicht gepackt und bildet zusammen mit
HistonProteinen - eine Chromatinfaser aus.
- Die Chromatinfaser ist ihrerseits umgewickelt und
- bildet Chromosomen aus.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
7Chromosomen
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Bei einem Mensch gib es 23
- Chromosomen, die normaler
- Weise doppelt vertreten sind.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
8Chromosomen
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Ein Chromosom ist ca. 1,4 µm
- breit und ist unter dem
- Mikroskop sichtbar.
- Ein Chromosom kann mehrere
- Gene enthalten.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
9Gen
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Gen ist ein bestimmter
- proteinkodierender DNA
- Abschnitt.
- Im menschlichen Genom sind
- ca. 27 000 30 000 Gene,
- davon sind in Mitochondrien
- 13 Gene.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
10Codierung
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Es gibt 4 verschiedene Nukleotide in der DNA
A,C,G und T - Da jedes Nukleotid immer einen spezifischen
Partner in dem zweiten - DNA-Strang hat, nennt man die beiden Partner ein
Basenpaar.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
11Codierung
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Die Abfolge der Besenpaaren kann bei der
Expression in die Abfolge der - Aminosäuren eines Proteins übersetzt werden.
- Drei Basen eines DNA-Stranges sind die kleinste
Informationseinheit der - DNA und wird als Codon oder Basentriplett
bezeichnet. - Ein Codon kodiert eine bestimmte Aminosäure oder
hat eine andere Funktion. - Es gibt 64 (43) mögliche Codons und nur 20
Aminosäuren die sie kodieren. - Das erschwert die Entzifferung der Codierung.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
12Sequenz
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Die Abfolge der Nukleotiden in der DNA bezeichnet
man als Sequenz. - Bei Menschen insgesamt 3,2 Milliarden
Besenpaaren, - nur 1- 5 davon stellen Gene dar.
- In Mitochondrien 16 kbp
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
13Sequenz -Regionen
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- Man unterscheidet verschiedene Regionen der
Sequenz - Exon die proteinkodierende Region
- Intron hat keine proteinkodierende Funktion.
- Promotor Region, wo die Transkription startet.
- Terminator Region, wo die Transkription endet.
- ORF offener Leseraster.
- URF nichtidentifizierter Leseraster
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
14Sequenz
- 1 Einleitung
- 1.1 Exkurs ins menschliche Genom
- gtgi16164037211292-256037 Homo sapiens
chromosome Y genomic contig - GTTTGTGGCCTGGTCGGCGTCCCGTAGGGCGCCCTCCCGCGCTAGGCCG
GCCGGCGTGGCGCTCGGCGCCGAACAGGCCCCGAGGAGGCCGCAGTTAGG
CCTAGTGATTATCCAGTTGCCCTGAGCGGCTGCGGAGGTGCGCTCCATAA
GCGGGCAGGGTGGGAAAAGTTCGCCCGTTTGTCCGGAAGGCAGTTGATGG
ACCTGGGGTCGACACCACTGCGGACGCAGGGCACGGCACGGGGGCGAGAA
GGCGAAGGCTGCAGGCGTGAGGTGAAGGCCGGAGGCCTGCTGGGCCTATT
TTCGCTATGTAAATGTCCGCGAAGGGGAGGAGGGACGGGGGGGCAAGATG
GCGGCTGCTAGGCGCCTGCTGCTGGGGAGTATTGAGAGTGTTGTCGGGAG
GCGGAGCCGCCATCTTGAAGGCGGTATCTGGAAAAAAAATTCGGTTATGA
TCCTTGAGGCGGGGATGGGGAAAAGGACGGCGGCGGCGGCGGCAGCGCAG
CCTCCGGCGCGACGGCGTGTCTGCGCAACAGGGCGTGCTCGTTCCCTTGG
CGGCCCTTGCCTTTGTCGCCATATGCGCGCGTACGTTCCAGACGCCTGCG
GCAGCGCCACCTTTCGGCCTTCCCCTCACAGCCCATCCTTGGCTGGGTGC
AGTGTCGGCTACGCTTTAGGTGACATGCCGCAGGCGTCCGTTCGGGCGCC
GGGGTCATTTCGCCCCTCAGCGCTCCCGGCTCTGTGCCCTTCCGAGAGTC
TACAGCCACCCGTTTCAGCAGGTGGCAATTCGGGCATCTAGGCTCACGAG
AGCACATAAATTCCAGAAAATTTTATTTTCCCCTAATTAAAGTCATTATG
TGGCTGTTCGGGGACCTTCGATGCGCTTATTTTTCAACCATC
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
15Daten
- 1 Einleitung
- 1.2 Human Genom Projekt
- 1986 Aufruf des amerikanischen Krebsforschers
Renato Dulbecco das komplette menschliche Genom
zu entschlüsseln. - 1987 Amerikanische Kongress bewilligt 200
Millionen Dollar jährlich, - geplant sind 15 Jahre arbeit.
- 1997 Start des Human Genom Projektes in
Deutschland. - 2000 Erste Ergebnisse würden veröffentlicht.
- 2001 Begann die zweite Phase des Projektes.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
16Ziel
- 1 Einleitung
- 1.2 Human Genom Projekt
- Das Ziel des öffentlich finanzierten
Humangenomprojektes ist, - aller Wissenschaftler mit einem öffentlichem
Verzeichnis der Gensequenz - zu versorgen, und dadurch die biomedizinische
Forschung zu - beschleunigen.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
17Firmen
- 1 Einleitung
- 1.2 Human Genom Projekt
- Im Jahre1991 wird HUGO (HUman Genom Organisation)
gegründet, welche - die Durchführung des Projektes koordinieren soll.
- Wenig später hat aber eine private US-Firma
"Celera Genomics" des - Genforschers Craig Venter die Führung übernommen.
- Die deutschen Firmen erhoffen bei der zweiten
Phase des Projektes, wo es - hauptsächlich um die Erkennung der Genfunktionen
geht, die Nase vorne zu - halten.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
18Ergebnisse
- 1 Einleitung
- 1.2 Human Genom Projekt
- Obwohl in der Presse schon mehrmals verkündet
wurde, dass das menschliche - Genom beinah vollständig entziffert ist und
veröffentlicht wurde, - Wissenschaftler in der ganzen Welt arbeiten noch
heftig daran. - Hauptgrunde dafür sind
- Die Funktion der meisten Genen ist noch
unbekannt. - Viele Gene besitzen mehrere Funktionen.
- Die entzifferten Gensequenz kann Fehler
enthalten.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
19Die Bereitstellung der Sequenz
- 2 Ziele und Probleme beim graphischen Darstellen
von Genomen - 2.1 Ziele
- Wie in Humangenomprojekt ist auch hier das
Hauptziel, aller Wissenschaftler mit - der öffentlichen Gensequenz zu versorgen.
- Die entzifferten Daten sind da, aber die sind oft
viel zu unübersichtig und - komplex, deshalb werden effektive
Visualisierungswerkzeuge gebraucht, - welche die Wissenschaftler helfen damit zu
arbeiten.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
20Grafische Darstellung
- 2 Ziele und Probleme beim graphischen Darstellen
von Genomen - 2.1 Probleme
- Ein nützlicher und effektiver Weg etwas
unübersichtliches sichtbar zu machen ist - die grafische Darstellung.
- Providerswerkzeuge
- Das LocusLink von NCBI und der Genomsuch-Browser
von UCSC. - Beide arbeiten aber in sogenannten Client-server
model
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
21Java-Applets
- 2 Ziele und Probleme beim graphischen Darstellen
von Genomen - 2.1 Probleme
- Das Client-server model erschwert viele
Manipulationen. - Es wird versucht das Problem durch Java-Applets
zu lösen, die von dem Server - runtergeladen werden können und in einer Java
vitrual machine auf dem PC des - Benutzers laufen und verändern werden können.
- Aus Sicherheitsgründen sind die Java-Applets aber
etwas problematisch, - da die sehr wohl Trojaner seien können.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
22ProtAnnot und Neomorphic GeneViewer
- 3 ProtAnnot und Neomorphic GeneViewer
- 3.1 Hintergrund
- Als Beispiele der alternativen Visualisierungstech
nik werden hier als erstes - ein Prototyp des Protein-Domain-Viewer ProtAnnot
- und Neomorphic GeneViewer, ein Genombrowser,
- der zuerst für das Institut der Genomforschung
(TIGR) - speziell für das Arabidopsis Genom geschrieben
wurde.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
23Semantisches Zooming
- 3 ProtAnnot und Neomorphic GeneViewer
- 3.2 Semantisches Zooming
-
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
24Zweidimensionales Zooming
- 3 ProtAnnot und Neomorphic GeneViewer
- 3.3 Zweidimensionales Zooming
-
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
25Doppelte Reihenfolge der Genstruktur
- 3 ProtAnnot und Neomorphic GeneViewer
- 3.4 Einzelne oder doppelte Reihenfolge der
Genstruktur - Gen-Finder-Programme.
- Sequenzen werden in zwei parallelen Reihen
dargestellt und so verglichen. - Ca. 1/2 - 1/3 der menschlichen Genen enthalten
mehrere Transkriptionsvarianten . - Erkennung oft nur von einer Transkriptionsvariante
.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
26Einzelne Reihenfolge der Genstruktur
- 3 ProtAnnot und Neomorphic GeneViewer
- 3.4 Einzelne oder doppelte Reihenfolge der
Genstruktur -
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
27Umgang mit der Komplexität der Informationen
- 3 ProtAnnot und Neomorphic GeneViewer
- 3.5 Umgang mit der Komplexität der Informationen
- ESTs (expressed sequence tags) von
- SNURF-Gen, das in der Lage ist zwei
- unterschiedliche Proteine zu kodieren.
- RT-PCR
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
28(No Transcript)
29Das alternative Splicing (oder Spleissen)
- 3 ProtAnnot und Neomorphic GeneViewer
- 3.6 Proteinvorhersage
-
- ARG1 (Arginase Gen)
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
30Zwei Formen eines plasminogen Aktivators
- 3 ProtAnnot und Neomorphic GeneViewer
- 3.6 Proteinvorhersage
-
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
31Hintergrund
4 4.1
- alle gefundenen Geninformationen werden in Text
basierenden Datenbanken gespeichert - kein intuitives Verständnis über die komplexe
Struktur von Genen möglich - Datenbanken liefern graphische Darstellungen nur
zu einer Fragestellung - SeqVISTA übernimmt die Aufgabe der graphischen
Visualisierung von verschiedenen
Datenbankinformationen gleichzeitig
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
32SeqVISTA
4 4.2
- einfaches Verständnis durch dreigeteilten
Bildschirm (tree panel, graphics panel und
sequence panel)
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
33SeqVISTA
4 4.2
- Suchfunktionen innerhalb der Sequenz
- Start- und Endsequenz sind bekannt
- Sequenzfragment ist bekannt
- durch Markierung einer Region in der Sequenz
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
34SeqVISTA
4 4.2
- Vorteile von SeqVISTA im Bezug auf Datenimport
- Akzeptanz der wichtigsten Datenbankformate
(GenBank flat file format GBFF, GenBank HTML
format, FASTA format und meta-based SeqVISTA
format.) - einfaches Laden der Sequenz durch Eingabe der GI
oder durch Laden von der NCBI-Internetseite. - durch Pluginentwicklung können externe
Analyseprogramme SeqVISTA zur graphischen
Visualisierung nutzen.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
35repetitive Elemente
4 4.3
- Untersuchung der Lage und Eigenschaften
repetitiver Elemente im Bezug zur Gesamtsequenz.
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
36Proteinstruktur
4 4.4
- PSIPRED berechnet wahrscheinliche sekundär
Strukturen der Proteine anhand der Gensequenz
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung
37Zusammenfassung
5
- komplexe Gensequenzen werden übersichtlich
dargestellt - Zugriff auf externe Programme zu vertiefenden
Analysen - Darstellung externer Ergebnisse
Proseminar Visualisierung in der
Bioinformatik Genom Visualisierung