Title: R N A
1R N A
2Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
3Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
4Sekundärstrukturen und deren Funktion
- Ständig wiederkehrende Motive in RNA-Struktur
erkennbar - RNA besteht hauptsächlich aus Kombinationen
dieser Motive - Achtung keine Pseudoknoten berücksichtigt
5Sekundärstrukturen und deren Funktion
- RNA-Sekundärstrukturen wichtig für
- Katalyse (Ribozyme)
- RNA-Splicing
- Regulation der Translation
- Interaktionen zwischen Nucleinsäuren
- Sekundärstrukturen bestimmen auch die
Tertiärstruktur - ? korrekte Sekundärstruktur wichtig für korrekte
Tertiärstruktur - ? korrekte Sekundärstruktur wichtig für korrekte
Funktion - Strukturbestimmung experimentell schwierig
- Besonders für langkettige Nucleinsäuren
- ? rechnergestützte Strukturvorhersage extrem
wichtig
6Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
7Algorithmus - Grundidee
- Annahme Faltung nur in bestimmte
Sekundärstrukturelemente - Ansatz verfolgt Minimierung der freien Energie
- Energie (U)
- Nimmt ab, wenn z.B. Bindungen ausgebildet werden
- Entropie (S)
- Maß für die Unordnung eines Systems
- Nimmt nach 2. Hauptsatz der Thermodynamik zu
- Freie Energie (Helmholtz Energie, F) F U TS
- Setzt Entropie und Energie in Beziehung
8Algorithmus - Grundidee
- Algorithmus arbeitet in 2 Schritten
- Schritt 1
- Untersucht bildbare Sekundärstrukturen der
Sequenz (und ihre freie Energie) - Errechnet Zustandssummen für Teilsequenzen
- Schritt 2
- Errechnet mit Zustandssummen Gibbs-Boltzmann-Verte
ilung (Ws) der Strukturen - Wählt zufällige Kombination von
Sekundärstrukturen aus
1)
2)
--______------_----_--_-_----
Teilergebnisse
Sammlung von Basenpaaren
Sekundärstruktur
9Algorithmus - Grundidee - Probleme
- freien Energie für Sekundärstrukturen nur
approximiert - ? durch Änderungen andere Faltungen
wahrscheinlicher - Tertiärstruktur (und Effekte) unberücksichtigt
- Struktur mit minimaler freier Energie (MFE) muss
nicht die reale sein - ? Realität suboptimal
- Aber Algorithmus sucht nicht unbedingt die
wahrscheinlichsten Teilstrukturen aus
10Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
11Algorithmus Vorgehen (I)
- Berechnen der Boltzmann-Statistik
(Gibbs-Boltzmann-Verteilung) einer - Sekundärstruktur I
- für eine gegebene Sequenz S
- nach
- E(S, I) freie Energie der Sekundärstruktur für
diese Sequenz - R Gaskonstante
- U Zustandssumme aller zulässigen
Sekundärstrukturen für S - Bedeutung Wahrscheinlichkeit einer bestimmten
Sekundärstruktur für eine gegebene Sequenz unter
Berücksichtigung aller möglichen
Sekundärstrukturen
12Algorithmus Vorgehen (I) Defs.
Rij
3
5
.. ..
1 i
.. j n
- n Anzahl an Ribonukleotiden
- Rij Teilsequenz von Nukleotid i bis Nukleotid
j 1 i,j n - rk Nukleotid an Position k, rk ?A, C, G, U
i k j - Iij Sekundärstruktur für Rij, ri und rj paaren
eventuell - IPij Sekundärstruktur für Rij, ri und rj paaren
miteinander
13Algorithmus Vorgehen (I)
Benötigt in
Erinnerung
Teilsequenz
- Zustandssummen für Rij
- mit Sekundärstruktur Iij
- mit Sekundärstruktur IPij
- (i und j gepaart)
- E(Rij, x) freie Energie der Sekundärstruktur x
für Rij - R Gaskonstante
- T 310,15 K
- Rekursive Berechnung durch Algo vom McCaskill
Sek.-Strt.
Sek.-Strt.
14Algorithmus Vorgehen (I)
- Berechnung der u(i, j) bzw. up(i, j)..
- Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer
I1n für R1n berechnet werden
Sek.-Strt.
S (Gesamtsequenz)
Genutzt in Schritt 2
15Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
16Algorithmus Vorgehen (II)
Rij
3
5
.. ..
1 i
.. j n
- Rij kann 5 verschiedene Zustände annehmen
17Algorithmus Vorgehen (II) nötige Variablen(1)
- Ws, eine dieser 5 Möglichkeiten zu wählen
(unbekannt, ob ri und rj paaren)
Strafe für Paarung AC bzw. GU
freie Energie für dangling 5
freie Energie für dangling 3
Array mit zuvor berechneten Variablen
Zuerst h variieren, dann zu den Positionen von h
l verändern
18Algorithmus Vorgehen (II) nötige Variablen(2)
- Bekannt, dass ri und rj paaren ? Ws für die 5
möglichen Strukturen
freie Energie eines Hairpin geschlossen von ri
und rj
freie Energie des Stacking-Bp ri und rj
freie Energie eines Bulge bzw. Interior Loop
Möglichkeiten, zwischen h und l einen Bulge bzw.
Interior Loop zu sampeln
19Algorithmus Vorgehen (II)
- Sampeln
- berechne die Struktur-Ws für Rij (mit den u(i,j)
aus Schritt 1) - wähle über eine Zufallsvariable gemäß den
berechneten Wahrscheinlichkeiten eine Möglichkeit - Benutzt zwei Stacks
- A verwaltet Tupel (i, j, I) (noch zu faltendes
Teilstück) - Sequenz von Nukleotid i bis j
- I 1 Nukeotid i und j bilden eine Bindung aus
I 0 unbekannt, ob i und j paaren - B
- Wird durch Algorithmus gefüllt
- sammelt Basenpaare und ungepaarte Basen
- ? enthält nötige Informationen für
Sekundärstruktur - Startzustand
- A enthält (1, n, 0)
0
1
20Algorithmus Vorgehen (II)
Erinnerung
A ungefaltete Bereiche
B Bindungsbeziehungen
I 0
- 1) Start mit R1n (also (1, n, 0) auf Stack A),
Paarung nicht bekannt? bilde die P0, Pij,
Phi, Pil, Ps1h für i 1, j n wähle eine
Möglichkeit - Mögliche Ergebnisse
Keine Paarung, füge ungepaarte Basen von 1 bis n
in Stack B ein
(1, n, 1) in Stack A einfügen
(h, n, 1) in Stack A einfügen ungepaarte Basen 1
bis (h-1) in Stack B einfügen
(1, l, 1) (l1, n, 0) in Stack A einfügen
(h, l, 1) (l1, n, 0) in Stack A
einfügen Ungepaarte Basen von 1 bis (h-1) in
Stack B einfügen
21Algorithmus Vorgehen (II)
Erinnerung
A ungefaltete Bereiche
B Bindungsbeziehungen
2) Nimm nächstes Tupel (i, j, I) für Rij von
Stack A a) I 0 verfahre wie im letzten
Schritt berechne die P-- b) I 1 i und j
paaren, betrachte die QijH, QijS, QijBI, QijM
Füge die ungepaarten Basen in Stack B ein Füge das schließende Basenpaar in Stack B ein Nimm neues Tupel von Stack A
Füge das Basenpaar ij in Stack B ein Füge (i1, j-1, 1) in Stack A ein Nimm neues Tupel von Stack A
Berechne die QhlBI, i lt h,l, lt j Füge Basenpaar ij und ungepaarte Basen des Loops in Stack B ein Füge (h, l, 1) in Stack A ein Nimm neues Tupel von Stack A
22Algorithmus Vorgehen (II)
1) Sampel das erste innere Basenpaar (bilde
die P--, wähle Möglichkeit, verfahre entsprechend)
.. ..
2) Sampel das nächste Basenpaar
.. ..
3) Wiederhole 2, bis alle abgearbeitet Nimm neues
Tupel von Stack A
23Algorithmus Vorgehen(II)
Stack A
Stack B
Für jedes Basenpaar innerhalb des MB-Loop
Schritt 1 nimm (i, j, I) von A
Stack A leer?
I 0
Sampel Basenpaar
Möglichkeiten der Paarbildung bestimmt
I 1
Sampel Loop
Struktur bestimmt, zu der Basenpaar zugehörig ist
24Algorithmus Vorgehen(II)
- Samling-Schritt arbeitet, bis Stack A leer ist
- Stack B enthält Angaben über Paarungen der n
Basen in R1n - ? 1 Sekundärstruktur
- Wahrscheinlichkeit eines Struktur nimmt
exponentiell mit wachsender freier Energie ab
(bedingt durch Boltzmann-Verteilung) - Mit hoher Wahrscheinlichkeit optimale MFE
- Mit relativ hoher Wahrscheinlichkeit gute
(suboptimale) MFE - Mit geringer Wahrscheinlichkeit schlechte MFE
- Sinnvoll Sampling-Schritt mehrfach ablaufen
lassen - ? statistisch repräsentatives Ergebnis
- Konsensus-Struktur
25Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
26Beispiele Leptomonas collosoma
- Faltung der spliced leader RNA (SL RNA) von L.
collosoma - 56 nt lang
- 2 Sekundärstrukturen identifiziert (Funktion
unbekannt) - Vorgehen
- Mit Schritt 1 die Ws der Substrukturen berechnet
- 1000 mal gesampelt
- Entstandene Sekundärstrukturen verglichen
- Ergebnis
- 2 generelle Klassen
- Klasse 1 mit 3 Unterklassen (A, B, C)
- Klasse 2 mit 2 Unterklassen (A, B)
27Beispiele Leptomonas collosoma
- Klasse 1 Alle Unterklassen mit 2 identischen
Helices - 1
- 2
Weitere 2 Helices gemeinsam
Unterschied in Hairpin
Quadratgröße Häufigkeit der Basenpaare in
Samples
mfold(3.1)-Struktur ? MFE-Struktur
28Beispiele Leptomonas collosoma
- Klasse 2 Unterklassen erneut mit 2 identischen
Helices - Unterklasse B mit zusätzlichem Stem am 5-Ende
Quadratgröße Häufigkeit der Basenpaare in
Samples
29Beispiele Leptomonas collosoma
- Repräsentanten der Klasse 1
identisch
mfold(3.1)-Struktur ? MFE-Struktur
Bis auf Fehlen der kurzen Helix mit
mfold-Struktur identisch
Experimentell bestimmte Faltungsart 1
30Beispiele Leptomonas collosoma
- Repräsentanten der Klasse 2
identisch
Experimentell bestimmte Faltungsart 2
31Beispiele Leptomonas collosoma
- Gesamtübersicht Häufigkeiten der Klassen und
deren Repräsentanten
- Tatsächliche Faltungsart 1
- Leicht veränderte mfold-Struktur (suboptimale
MFE)
- Tatsächliche Faltungsart 2
? Tatsächliche Strukturen mit geringer Ws
32Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
33Beispiele Bakteriophage ?
- Zwischen-Ergebnis aus Tests mit L.
collosomaAlgo erzeugt viele alternative
Strukturen - Weitere Untersuchung mit Vorhersage von
mRNA-Strukturen - Charakteristische Bereiche der cIII-mRNA des
Bakteriophagen ? - das Startcodon (AUG) (0 bis 3)
- die Shine-Dalgarno-Sequenz (-13 bis -7) nötig
zur Translationsinitiierung - Kommt in 2 Konformationen vor
- Vorgehen
- Sampling-Schritt 100 mal wiederholt
- Die 100 erzeugten Strukturen von Hand betrachtet
und charakterisiert
34Beispiele Bakteriophage ?
- Struktur A Shine-Dalgarno-Sequenz und Startcodon
in Sekundärstrukturen keine Translation - Struktur B Shine-Dalgarno-Sequenz und Startcodon
zugänglich Translation möglich
rightmost stem
leftmost stem
middle stem
35Beispiele Bakteriophage ?
- Ergebnis des Samplings
- 89/100 Strukturen leichte Variationen von
Struktur A - leftmost-Stem in 67/89 exakt vorhergesagt
- rightmost-Stem in 72/89 nahezu exakt vorhergesagt
(gelegentlich 2 zusätzliche Paare) - 3/100 Strukturen Variationen von Struktur B
- zusätzliche Helix in SD-Sequenz enthalten
- 8 Strukturen, die weder an A noch an B erinnern
rightmost stem
leftmost stem
middle stem
36Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
37Beispiele - Auswertung
- Algorithmus erzeugt leicht suboptimale Faltungen,
die nahe der MFE liegen - ABER suboptimale Faltung ist nicht gleich
tatsächlicher (suboptimaler) Faltung - Erklärung der Autoren unbekannte Einflüsse der
Tertiärstruktur für verantwortlich für Stabilität - Besser geeignet zur Faltung von mRNA als für
funktionelle RNA (z.B. spliced leader)
38Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
39Probability Profiling
- Einzelsträngige (ungepaarte) RNA-Regionen
interagieren potentiell mit - DNA
- RNA
- Proteinen (z.B. in Translation)
- Vorhersage dieser accessible sites mit dem
Sampling-Teil des Algorithmus - Erstellen von Probability Profiles (Diagramme)
der Weite W (in Nukleotiden) - An Position i wird die Ws aufgetragen, dass die
Nukleotide i bis i(W-1) ungepaart sind(ergibt
sich aus Multiplikation der Einzelwahrscheinlichke
iten (aus Statistik)) - Zum Vergleich ss-count Statistik, in wieviel
Prozent aller erzeugten Faltungen Base i
ungepaart war
40Probability Profiling - Beispiel
- mRNA Homo sapiens ?-Glutamyl-Hydrolase
- Nukleotide 0 60
41Probability Profiling - Beispiel
- mRNA Homo sapiens ?-Glutamyl-Hydrolase
- Nukleotide 1261 1322
42Probability Profiling - Ergebnis
- MFE-Struktur gibt für Vorhersage von accessible
sites keine Hinweise - Da nur 1 Struktur die MFE-Struktur ist
- Binäre Entscheidung in 1 Struktur ist Base in
Basenpaar oder nicht - ss-count betrachtet nur Statistik eines
Nukleotids, keine Aussage über nachfolgende - Probability Profile verlässlichste Aussage der 3
Möglichkeiten - da Ws der nachfolgenden Paarungen berücksichtigt
43Probability Profiling für Loops
- Bisher nur berücksichtig ob gepaart oder
ungepaart - Sampling-Schritt gibt aber mit zurück, in welchem
Loop-Typ sie enthalten sind - ? Probability Profiling für bestimmte Loops
möglich
44Probability Profiling für Loops
- Loop-Probability-Profiles für Escherichia coli
Alanin-tRNA
Hairpin
Bulge
External
Internal
Multi
Multi
dangling-3-Ende aus Nukleotiden
Kleeblattstruktur der tRNA
Enthält keine Bulges oder Internal Loops ? dort
keine Peaks
16 der gesampelten Strukturen haben einen
einzelsträngigen Bereich, der zwei gefaltete
Domänen vebrindet
45Probability Profiling für Loops
- Weitere Bedeutung des Hairpin-Loop-Profiles
- Höchster Peak ? konserviertester Loop
- HPlot-Ws der Basen des Anticodon-Loops
- G34 0,968
- G35 0,961
- C36 0,962
- ? Selbst wenn sich die restliches Strukturnicht
zum Kleeblatt faltet, bleibt dieseaccessible
site erhalten - Untersuchung weiterer tRNAs interessant, aber
schwierig, da modifizierte Basen vorhanden
46Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
47Probability Profiling für Accessibility Plots
- Probability Profiles geben Differenzierung
zwischen gebunden / einzelsträngig - Nucleinsäuren müssen einzelsträngig sein, um zu
interagieren - Probability Profiles überlagern, um Interaktion
vorherzusagen
- Target Homo sapiens ?-Glutamyl-Hydrolase mRNA
- Antisense insgesamt 1233 nt
- Gute Zugänglichkeit zwischen 730 und 750 (target)
- Zugängliche Bereiche müssen nicht an gleichen
Stellen liegen - Sollten aber gleich lang sein
48Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
49Sampelgröße
- Standardgröße 1000 repräsentativ!
- Beispiel Homo sapiens ?-Glutamyl-Hydrolase mRNA
- 1187 nt ? 10303 Sekundärstrukturen (Vergleich
1080 Atome im Universum) - 2 Sammlungen von 1000 Samples erstellt
- Für jede Sammlung ein Histogramm
erstelltHistogramme sind identisch - Probability Profiles erstelltnahezu
deckungsgleich - Aber keine einzige Struktur kommt doppelt vor
50Samplegröße - Histogramme
51Samplegröße - Probability Profiles
52Übersicht
- RNA falten
- Sekundärstrukturen und Funktion
- Algorithmus zur RNA-Faltung von Ding und Lawrence
- Grundidee
- Vorgehen Schritt 1
- Vorgehen Schritt 2
- Beispiele
- Leptomonas collosoma
- Bakteriophage ?
- Auswertung
- Probability Profiling
- Accessibility Plots
- Samplegröße
- Sfold
- RNA finden
53Sfold
- Algorithmus integriert in Paket Sfold
- Erhältlich z.B. über sfold.wadsworth.org
- Laufzeit des Algo O(n³)
- Vergleich Eddy/Rivas O(n6)
- Reeder/Giegerich O(n4)
- Aber dafür mit Pseudoknoten
Sequenz Länge (nt) Zeit (sek) Speicher (MB)
E. coli tRNAAla 76 1,48 14,6
H. sapiens BCRP mRNA 2418 3.505,86 149,2
H. sapiens ESR mRNA 6450 92.995,25 969,1
Vergleich von Rechenzeit und Speicherverbrauch
beim Berechnen der Zustandssummen und
anschließendem Sampeln von 1000 Strukturen
54Übersicht
- RNA falten
- RNA finden
- Motivation und Ansätze
- Modelle
- Prinzip
- Parameterschätzung
- Piktogramme
- Algorithmus
- Tests und Ergebnisse
- Verbesserungen
55Übersicht
- RNA falten
- RNA finden
- Motivation und Ansätze
- Modelle
- Prinzip
- Parameterschätzung
- Piktogramme
- Algorithmus
- Tests und Ergebnisse
- Verbesserungen
56Motivation Ansätze
- Gefaltete RNA funktionell bedeutsam
- Steuerung der eigenen Translation
- Funktion als tRNA
- Ribozyme
- Nicht alle RNA wird wie mRNA translatiert
- Nicht alle Gene auf DNA codieren für Proteine
- Einige kodieren auch für funktionelle nicht
kodierende RNA (ncRNA) - Ziel Gene auf DNA erkennen, die für ncRNA
kodieren - Problem entsprechende Gene bisher nicht
einheitlich charakterisierbar
57Motivation Ansätze
- Maizel 1988
- Sekundärstruktur bestimmt Funktion
- Funktionelle RNA muss also stabile
Sekundärstruktur haben - Stabil Minimum der freien Energie
- Ergebnis Faltungsvorhersage weniger divers
- Ergebnisse enttäuschend
- Badger Olsen 1999
- Anderes Gebiet Identifizierung von codierenden
Regionen in Bakterien - Arbeitet mit Alignments von Sequenzen
- Nutzen BLASTN um Sequenzidentität zwischen 2
Species zu bestimmen - Programm CRITICA untersucht Mutationsmuster der
gaplosen Bereiche - Mutationen, die AS nicht verändern (synonym)
Score - Mutationen, die AS verändern - Score
58Motivation Ansätze
- Rivas Eddy 2001
- Aufbauend auf Idee von Badger Olsen
- Erweiterungen Probabilistisches Modell (Aussage
mit Ws) - dritter zusätzlicher Zustand (funktionelle
RNA) - Alignments mit Gaps zugelassen
- Alignment nur teilweise relevant (irrelevante
Flanken möglich) - Ziel gegebene Sequenz klassifizieren in
- Kodierend für Proteine
- kodierend für ncRNA
- Andere Bereiche
- Ansatz findet ncRNA mit konservierter Struktur
Probleme - Manche bekannte ncRNA-Gene nicht konserviert
- Manche konservierte Bereiche nicht ncRNA-Gene
- ncRNA-Gen beschreibt Bereich mit konservierter
Struktur, Funktionalität muss untersucht werden
59Motivation Ansätze
- Eingabe eines Alignments zweier verwandter Genome
(DNA-Sequenzen) - Analyse der beobachteten Mutationen
- Kodierend Synonyme Mutationen (gleiche AS
kodiert) - Funktionell kompensierend, Struktur erhalten
- Keins zufällige Mutation
- Analyse
- Jeder Fall 1 Modell, das entsprechende Sequenzen
baut - Nachbau des Alignments mit den 3 Modellen
- Ausgabe der Ws, dass Alignment einem Modell
enstpringt - Modell mit höchster Ws gewinnt
AGTGCTAGCT
GATGCTAGCT
ncRNA?
60Übersicht
- RNA falten
- RNA finden
- Motivation und Ansätze
- Modelle
- Prinzip
- Parameterschätzung
- Piktogramme
- Algorithmus
- Tests und Ergebnisse
- Verbesserungen
61Modelle - Prinzip
- OTH (weder kodierend noch funktionell)
- pair-HMM
- 16 verschiedene Parameter pOTH(a,b) Ws(a in
Seq X, b in Seq Y) - Wahrscheinlichkeit des Alignments Produkt der Ws
der alignierten Positionen
HMM
pair-HMM
GTTAACTGAGTAACG
x x x x
GTTAACTGAGTAACG
GCAAGCTGAGTTACG
62Modelle - Prinzip
- COD (Gen kodierend für Proteine)
- pair-HMM
- Alignierte Sequenzen sollten für gleiches Protein
kodieren - Synonyme Mutationen, AS-Sequenz unverändert
- 64 64 Parameter pCOD(a1a2a3, b1b2b3)
- Emission erfolgt Codon für Codon
- Gleichzeitig a1a2a3 in Sequenz X
- b1b2b3 in Sequenz Y
- Ws des Alignments für einen Reading-Frame
Produkt der Doppel-Codon-Ws - Richtiger Reading-Frame nicht bekannt
- Ws des Alignments
1 Ereignis
Sequenz X
GGT
GGA
Sequenz Y
G
f Frame P(fCOD) 1/6
63Modelle - Prinzip
- RNA (Gen kodierend für ncRNA)
- pair Stochastic Context Free Grammar (pSCFG)
- Mutation ändert Sekundärstruktur nicht
- Von gleichen Positionen zu gleichen Positionen
Watson-Crick-Paarung möglich - Abschnitte in Sek-Struktur 16 16
Parameter pRNA(aLaR, bLbR) - Ws (Emission eines Basenpaars in X, homologes
Basenpaar in Y) - Ungepaarte Abschnitte 4 4 Parameter pRNA(a,
b) - Analog zu OTH-Modell
- Ws für ein Alignment mit Struktur s Produkt aus
- pRNA(xixj, yiyj) für gepaarten Positionen i,j
- pRNA(xk, yk) für einzelsträngige Positionen k
- Richtige Struktur nicht bekannt
- Ws des Alignments
p
u
v
TTGTTCGAAAGAACG
TTGACCGAAAGGTCG
s Sekundärstruktur
64Modelle - Prinzip
- Problem bei RNA-Modell
- In COD-Modell alle Frames gleich wahrscheinlich
- Gilt nicht für Sek-Strukturen in RNA-Modell
- P(sRNA) muss für jedes s berechnet werden
- Gelöst durch früheren Algorithmus von Rivas und
Eddy - Viertes Modell (IID)
- Erzeugt unabhängige Sequenzen
- 8 Parameter pX(a) pY(b)
- Klassifikation durch Likelihoods
- Wahrscheinlichkeit des Modells gegeben die Daten
- Bayessche-Posteriori-Ws berechnet a priori alle
3 Modelle gleich wahrscheinlich - Hohe RNA-posteriori-Ws Alignment Kandidat für
ncRNA-Gene - Beurteilung der Güte der Aussage durch
log-odds-Score
65Übersicht
- RNA falten
- RNA finden
- Motivation und Ansätze
- Modelle
- Prinzip
- Parameterschätzung
- Piktogramme
- Algorithmus
- Tests und Ergebnisse
- Verbesserungen
66Modelle - Parameterschätzung
- 4392 Emission-Ws zu bestimmen
- Ideal Trainings-Sets aus Alignments von
- Real existierenden RNAs
- Kodierende Genomregionen
- Konservierte nicht kodierende Regionen
- Keine genügend großen Trainings-Sets verfügbar
- Mit zufällig erzeugten Sequenzen
- Sequenzen erzeugen
- Mit Werten aus AS-Substitutionsmatrizen
(BLOSUM62) Codon-Ws errechnen (pCOD) - Daraus Nucleotid-Substitutions-Ws des OTH-Modells
errechnen - OTH-Ws mit Basenpaarhäufigkeiten kombinieren ?
RNA-Ws - 48 Transitions-Ws
- von Hand erzeugt Modelle generieren Sequenzen,
mit realen verglichen - Suboptimale Methode, bisher aber keine Alternative
67Übersicht
- RNA falten
- RNA finden
- Motivation und Ansätze
- Modelle
- Prinzip
- Parameterschätzung
- Piktogramme
- Algorithmus
- Tests und Ergebnisse
- Verbesserungen
68Modelle - Piktogramme
- IID-Modell erzeugt 2 unabhängige Sequenzen
X
Emittiert in Seq. X
F
S
K
T
Y
Emittiert in Seq. Y
69Modelle - Piktogramme
- OTH-Modell erlaubt lokale Alignments zwischen 2
Sequenzen
X
X emittiert in X, Gap in Y XY emittiert in X
und Y Y emittiert in Y, Gap in X
FL
FR
B
XY
E
Y
F Flanking States
FJ
O
70Modelle - Piktogramme
- COD-Modell Alignment kodierender Bereiche
eingebettet in unabhängige Bereiche - Neuer Typ von Zuständen COD
- Ermöglichen indels (Insertionen oder
Deletionen) - Kompensieren Verlust durch Shotgun-Sequenzierung
BLASTN (positions-unabhängig) - Emission von ungleichen (und überzähligen)
AS-Anzahlen - Exemplarische Angabe der entsprechenden Ws
C(3,3)
C(3,2) 3 verschiedene Zustände
C(3,4) 4 verschiedene Zustände
C(3,0)
Alle Möglichkeiten p?,?(a1a?,b1b?) ?,? ?
0,2,3,4 a,b ?A,C,G,U
71Modelle - Piktogramme
- COD-Modell Alignment kodierender Bereiche
eingebettet in unabhängige Bereiche
C(3,0)
OB
B
E
OE
C(0,3)
OJ
72Modelle - Piktogramme
- RNA-Modell erzeugt ncRNA-Gene eingebettet in
unabhängige Bereiche - Grammatik hat 3 verschiedene Zustände
(nicht-Terminale) - V Sequenzfragment, dessen Enden sicher gepaart
sind - W Sequenzfragment, dessen Enden eventuell
gepaart sind - WB wie W, wird nur benutzt, um Multi-Loops zu
starten
- 2 Arten von Emissionswahrscheinlichkeiten
aL.aR
bL.bR
WB identisch
Emission ja/nein
Emission von gepaarten Nukleotiden in beide
Sequenzen
Nukleotid-Vektor
Emission von ungepaarten Nukleotiden
Erzeugen Gaps im Alignment
73Modelle - Piktogramme
- RNA-Modell erzeugt ncRNA-Gene eingebettet in
unabhängige Bereiche
RNA
OB
OE
OJ
74Übersicht
- RNA falten
- RNA finden
- Motivation und Ansätze
- Modelle
- Prinzip
- Parameterschätzung
- Piktogramme
- Algorithmus
- Tests und Ergebnisse
- Verbesserungen
75Algorithmus - Vorgehen
- Eingabe paarweises Sequenz-Alignment von L
alignierten Paaren - Scoring des Alignments
- OTH, COD (HMM) Viterbi/Forward Speicher
O(L) Zeit O(L) - RNA (SCFG) CYK/Inside Speicher O(L²) Zeit
O(L³) - Für jedes Modell Ws, dass Alignment von Modell
generiert wurde - Alignment Klassifizieren (Bayessche-Posteriori-Ws
) - Annahme P(Modeli) sind gleich
Ws der Klasse bei gegebenem Alignment
Ws des Alignments bei verwendetem Modell
Ws des Modells
Ws des Alignments
76Algorithmus - Ergebnis
- Bilden von log-odds-Score zur Gütebeurteilung
- ld ( beobachtet / erwartet )
- Aussage darüber, wie nahe Erwartung an
beobachtetem Ereignis ist - Annahme weder für Proteine noch ncRNA kodierend
- Log-odds-Score von COD und RNA zu OTH bilden
- 2 Werte, als Koordinaten in Diagramm
- Diagramm-Repräsentation der Information(Phase
Diagram) - 3 verschiedene Fälle
- y gt x y gt 0 ? RNA
- x gt y x gt 0 ? COD
- x lt 0 y lt 0 ? OTH
77Übersicht
- RNA falten
- RNA finden
- Motivation und Ansätze
- Modelle
- Prinzip
- Parameterschätzung
- Piktogramme
- Algorithmus
- Tests und Ergebnisse
- Verbesserungen
78Tests und Ergebnisse
- Tests mit simulierten Daten
- Sinn Daten im Voraus eindeutig klassifiziert,
Leistungsfähigkeit beurteilbar - Jedes der 3 Modelle (OTH, RNA, COD) generiert
1000 200nt lange Alignments - Alle 300 Alignments durch Algorithmus bewertet
und klassifiziert - Klassifizierung soll auf Mutationsmuster beruhen,
nicht auf Sequenzidentität oder Gap-Häufigkeit - Spalten der Alignments zufällig neu
zusammengesetzt - Sequenzidentität und Anzahl der Gaps
beibehaltenMutationsmuster, das Veränderung
erklärt hat, zerstört - Darstellung in Phase-Diagrams
79Tests und Ergebnisse
- Phase-Diagram der durch COD-erzeugten Alignments
RNA
OTH
COD
blau Klassifizierung der original
Alignments rot Klassifizierung nach Shuffling
80Tests und Ergebnisse
- Phase-Diagramm der durch RNA erzeugten Alignments
RNA
OTH
COD
blau Klassifizierung der original
Alignments rot Klassifizierung nach Shuffling
81Tests und Ergebnisse
- Phase-Diagramm der durch OTH erzeugten Alignments
RNA
OTH
COD
blau Klassifizierung der original
Alignments rot Klassifizierung nach Shuffling
82Tests und Ergebnisse
- Tests an simulierten Genomen
- Sinn Untersuchen der Tendenz zu false
Positives, wenn COD und OTH dominieren - Erzeugen von 2 Pseudobakteriengenomen ohne
funktionelle RNA - Länge 2 Megabasen
- Länge kodierender Regionen normalverteilt um
900nt - Länge nichtkodierender Regionen normalverteilt
um 100nt - 90 kodierend
- GC-Gehalt 1) 38,90
- 2) 47,25
- 3) 57,70
- Anzahl der false Positives
- 1) 8
- 2) 14
- 3) 21
- Erneute Analyse von Genomsatz 3 mit neuem
Parametersatz 1 false Positive - Sensitivität sinkt mit steigendem GC-Gehalt, kann
angepasst werden
83Tests und Ergebnisse
- Tests an realen Genomen
- Sinn Test unter realistischen Bedingungen
- Analyse der Genome von Escherichia coli und
Salmonella typhi (eng verwandt) - Bekannt 115 RNA-Gene (22 rRNAs, 86 tRNAs, 7
andere) 4290 kodierende Gene - Genom aufgeteilt in 3 Bereiche 115 RNA-Features
(1 des Genoms) 4290 ORF-Features (88 des
Genoms) 2367 intergene Sequenzen (11 des
Genoms) - Jede der 3 Sammlungen gegen Salmonella typhi
aligniert, bewertet
84Tests und Ergebnisse
ncRNAs ORFs
vorhanden 115 4290
In Alignments (gt50nt, E lt 0,01) 33 3181
erkannt als RNA 33 20
erkannt als COD - 2876
erkannt von alignierten 100 90,4
erkannt von gesamt 28,6 67
- Problem Blast lieferte nicht ausreichend viele
signifikante Alignments - Von alignierten Sequenzen Großteil erkannt
85Übersicht
- RNA falten
- RNA finden
- Motivation und Ansätze
- Modelle
- Prinzip
- Parameterschätzung
- Piktogramme
- Algorithmus
- Tests und Ergebnisse
- Einsatz und Verbesserung
86Einsatz Verbesserung
- Anwendungsgebiete
- Erkennen von Kandidaten für ncRNA positiv
identifizierte Regionen weiter untersuchen - Erkennen von für Proteine kodierende Regionen
- Fehlerquellen und Verbesserungen
- Modelle für fixe evolutionäre Distanz (BLOSUM 62)
passt nicht auf alle eingegebenen Daten - BLASTN zum Alignieren von positionsunabhängig
evolvierten SequenzenAlignment mit
Sankoff-Algorithmus sehr teuer Zeit O(L6),
Speicher O(L4) - Training mit zufällig erzeugten Daten nicht
optimaltrainiertes System scheint RNA-Modell zu
favorisieren - Verfahren sucht nach konservierter
Sekundärstrukturkann keine ncRNA erkennen, die
nur sehr wenige Sekundärstrukturen ausbildet - Fehlklassifizierung von mRNA mit stark
ausgebildeter Sekundärstrukturz.B. zur
Translationskontrolle
87Übersicht
- RNA falten
- RNA finden
- Quellen
88Quellen
- A statistical sampling algorithm for RNA
secondary structure prediction Nucleic Acids
Research 31(24) S.7280-7301 Ding, Ye,Lawrence,
Charles E. 2003 - Noncoding RNA gene detection using comparative
sequence analysis BMC Bioinformatics 2(8) Eddy,
Sean R.,Rivas, Elena 2001
89?