Title: Vortrag in Rahmen des Seminars "Aktuelle Themen der Bioinformatik"
1- A probabilistic model for the evolution of RNA
structure - Holmes
- RNA secondary structure prediction with simple
pseudoknots - Deogun, Donis, Komina, Ma
2Gliederung
- Einführung
- Das TKF91 Modell
- Der TKF91 Structure Tree
- Vorstellung der durchgeführten Tests
- Interpretation der Ergebnisse
3Ergebnis des Humangenomprojekts Gut DREI
Prozent brauchbares Material und jede Menge
Schrott.
4- snRNA Splicing von pre-mRNA
- guideRNA RNA-Editing in Mitchondrien
- Ribonukleasen Regulation der Biosynthese von
tRNA - tRNA Proteinbiosynthese
- rRNA Proteinbiosynthese
- Telomerase RNA DNA Synthese an chromsomalen
Enden - snoRNA Methylierung von rRNA
5- Ziel
- Identifikation funktioneller Signale in einer
Gensequenz. - Idee
- Funktionelle Signale sind evolutionär
konserviert. - Vorgehensweise
- Fitten der Daten an probabilistische Modelle, die
den evolutionären Prozess - darstellen.
6- Es existieren verschiedene Arten von
konservierten Elementen x, y, z - Für jedes Szenario kann man ein
probabilistisches Modell Mx, My, Mz erstellen. - Die Likelihood der beobachteten Daten unter
jedem dieser Modelle werden - verglichen.
- Modell mit der besten Anpassung zeigt den Typ
des funktionellen Elements.
7- Es existieren zwei Vorgehensweisen zur Verwendung
von evolutionärer - Distanz
- Trainingsalignments werden eingeteilt nach ihrer
prozentualen Sequenz- - identität. Alignments, die gleich eingeteilt
wurden, repräsentieren dann - Sequenzen mit äquivalenten Distanzen. (siehe
BLOSUM) - Evolutionäre Distanz wird als Zeitmessung
betrachet. Man legt einen - stochastischen Prozess zugrunde, mit konstanten
Mutationsparametern. - (siehe PAM)
8- Bisherige Ansätze zur Identifikation von
funktioneller non-coding RNA - betrachten Sekundärstruktur nicht.
- Aber
- Funktion und Struktur sind eng miteinander
verknüpft - In der Biologie ist Funktion immer bedingt durch
Struktur - Daher
- Neues Modell betrachtet evolutionäre Entwicklung
von Sekundärstruktur
9Gliederung
- Einführung
- Das TKF91 Modell
- Der TKF91 Structure Tree
- Vorstellung der durchgeführten Tests
- Interpretation der Ergebnisse
10TKF91-Modell beschreibt die Evolution einer
einzelnen Sequenz unter dem Einfluss von 2 Arten
von Mutations-Ereignissen 1.
Punkt-Substitutionen 2. InDel-Ereignisse Die
Raten der Mutations-Ereignisse sind unabhängig
von benachbarten Ereignissen.
11- Das Modell ist zeit-reversibel
- Es kann oBdA davon ausgegangen werden, dass eine
der beiden - Sequenzen die Ursequenz der anderen ist.
12Punkt - Substitutionen
- Positionen evolvieren unabhängig voneinander
- Zugrunde liegendes Substitionsmodell
13Insertionen - Deletionen
? A ? G ? C ? U ? U ? A ? C ? C ? G ? A ?
- N1 Positionen, an denen eingefügt werden kann
- - mit Rate ?
- N Positionen, an denen gelöscht werden kann
- - mit Rate ?
- ?? lt ? vorrausgesetzt ?? kein Ungleichgewicht
immortal link
mortal links
14Folgende Wahrscheinlichkeiten ergeben sich aus
Raten ?n und ?n ?n Wahrscheinlichkeit einer
Nicht-Deletion ?n Wahrscheinlichkeit einer
Insertion ?n Wahrscheinlichkeit einer
Insertion nach einer Deletion ?n
Wahrscheinlichkeit die Sequenz fortzuführen Auße
rdem ist Mn(i,j) die Substitutionswahrscheinlichk
eit von Base i durch j
15Die Sequenzlänge im Gleichgewicht ist geometrisch
verteilt, mit Parameter??.
16(No Transcript)
17Gliederung
- Einführung
- Das TKF91 Modell
- Der TKF91 Structure Tree
- Vorstellung der durchgeführten Tests
- Interpretation der Ergebnisse
18- Gewurzelter Baum, indem jeder Knoten einen Grad
? 3 besitzt. - Beschreibt die Sekundärstruktur einer
RNA-Sequenz - 4 Arten von Knoten
- 1. singlet
- 2. paired
- 3. loop
- 4. stem
-
- Struktur wird vom Auftreten von Loop- und
Stem-Knoten bestimmt -
unabhängig evolvierende Nukleotide kovariante
Basenpaare Anfang einer Loopsequenz Anfang einer
Stemsequenz
19- Knotenbeschriftungen
- L, S
- A, C, G, U
- ² AA, AC, AG, AU, CA, CC, CG, CU, GA, GC, GG,
GU, UA, UG, UC, UU
20(No Transcript)
21(No Transcript)
22(No Transcript)
23(No Transcript)
24- Implementierung der Grammatik-Parser setzt eine
Umgestaltung der - Grammatik voraus.
- Problemstellen
- Null-Zykel - können durch Loop-/Stemlängen 0
entstehen - Silent Bulges - S ? S
- Loop Bifurcation - L ?LL
25Null-Zykel (4, 7, 11)
Loop Bifurcation (24, 27)
Silent Bulge (32, 29, 30)
26(No Transcript)
27Komplexität der Algorithmen single sequence
SCFG Zeit ?(L³) Platz ?(L²) pairwise
SCFG Zeit ?(L³M³) Platz ??(L²M²) gt Finden
des wahrscheinlichsten Parse-Baums mit Hilfe des
CYK-Algorithmus
28Gliederung
- Einführung
- Das TKF91 Modell
- Der TKF91 Structure Tree
- Vorstellung der durchgeführten Tests
- Interpretation der Ergebnisse
29 Implementierung eines Alignment-Tool auf Basis
der SCFGs Basierend auf dynamischen
Programmieren mit beschleunigenden
Heuristiken Als Test der Leistungsfähigkeit des
Modells werden Paare von RNA-Sequenzen miteinander
aligniert und deren Struktur vorhergesagt. 4
verschiedene Familien mit variierender Homologie
im Bereich der Sekundärstruktur wurden
ausgewählt.
30Alignment mit dem TKF91-Structure Tree
Strukturvorhersage für einzelne Sequenz
Strukturvorhersage summiert über alle Alignments
mit der anderen Sequenz
Alignment mit dem TKF91-Modell
31Purine Riboswitch
- Identische Sekundärstruktur
- Primärsequenz weicht voneinander ab
32(No Transcript)
33Nano translational control element
- Deletion des äußeren Stems
34(No Transcript)
35U2 splicing factors
- Deletion von Stem 4, 5 und 6
- sehr ähnliche Primärsequenz
36(No Transcript)
37RNase P Genes
- Starker Unterschied
- in der Sekundärstruktur
- variabelste Familie in
- RFAM
38(No Transcript)
39RNA Sequenzen Strukturvorhersage StructureTree singlet Strukturvorhersage StructureTree paired pairHMM Alignment pairSCFG Alignment
Purine Riboswitches schlecht korrekt korrekt korrekt
Nano translational control element schlecht gut Probleme in den Rand-bereichen wesentlich besser
U2 splicing factors schlecht korrekt schlecht korrekt
RNase P schlecht schlecht schlecht schlecht
40Gliederung
- Einführung
- Das TKF91 Modell
- Der TKF91 Structure Tree
- Vorstellung der durchgeführten Tests
- Interpretation der Ergebnisse
41- Stärken des Modells
- streng konservierte Struktur und wenige InDels
führen zu guter - Struktur-Vorhersage und Alignment
- Bei vielen InDels in Loops und Stems oder bei
geringfügigen Änderungen - der Sekundärstruktur arbeitet der StructureTree
auch gut - Schwächen des Modells
- Ab einem bestimmten Grad der strukturellen
Unterschiede zwischen - Sequenzen versagt das Modell (RNase P)
42- Mögliche Verbesserungen
- Hinzunahme von long indels und affiner
Gap-Penalty - zusätzliche Modellierung von Thermodynamik-Effekt
en (Basepair Stacking, Nearst Neighbour - Interaktion)
- Verbessertes Einfügen von Bulges (Zulassen von
L-Knoten in Stems) - Annahme das Stems und Loops alle mit der
gleichen Rate evolvieren ist empirisch nicht
belegt - Triloops, Tetraloops, U-Turns u.ä. werden nicht
speziell behandelt, obwohl oft evolutionär - konserviert
- Einführung spezieller InDel-Raten für
Stems/MultiStems (bislang gleiche Raten) - Verbesserung der Stem-Deletion, äußer Stems
sollten nicht zwangsläufig zu Löschung von - inneren führen. Belegt durch empirische
Studien in RFAM.
43- A probabilistic model for the evolution of RNA
structure - Holmes
- RNA secondary structure prediction with simple
pseudoknots - Deogun, Donis, Komina, Ma
44Gliederung
- Einleitung
- Algorithmus von Akutsu
- Nearest Neighbour Thermodynamik Regeln
- Berechnung minimaler Energien von
RNA-Substrukturen - Optimale Energie eines Pseudoknots
- Analyse des Algorithmus
45- Wie bereits gesehen, ist die Pseudoknoten-Vorhers
age kein triviales Problem. - Die Möglichkeit zur Vorhersage ist aber wichtig,
da Pseudoknoten verbreitete - Strukturen sind, die eine wichtige Rolle in
funktionell wichtiger RNA spielen. - In diesem Algorithmus werden nur einfache
Pseudoknoten betrachtet. - Algorithmus wurde entwickelt, um Sequenzen mit
Länge gt100 betrachten zu - können.
- Laufzeitverbesserung im Gegensatz zu Eddy/Rivas
- ER ??(n6) Zeit, ?(n4) Platz ? DK ??(n4)
Zeit, ?(n3) Platz
46Nearest Neighbour Thermodynamik Regeln
mfold-Algorithmus
Neuer Algorithmus zur Vorhersage von
Pseudoknots
Akutsu-Algorithmus zur Vorhersage von
Pseudoknots unter Maximierung von Basenpaaren
47Definition Eine Sekundärstruktur S einer
RNA-Sequenz A a1a2an ist eine Menge von
Basenpaaren. Ein Basenpaar zwischen ai und aj (
i lt j ) wird notiert als ( i j )
M (i ? j) 1 ? i lt j ? n, (ai ? aj) ist
Basenpaar und jedes i und j taucht max
1 mal auf
48Eine Menge von Basenpaaren wird
RNA-Sekundärstruktur ohne Pseudoknoten genannt,
wenn folgende Bedingung erfüllt ist
Es existieren keine Basenpaare (ai ? aj), (ah ?
ak)?? M, die i ? h ? j ? k erfüllen.
49Eine Menge von Basenpaaren wird
RNA-Sekundärstruktur mit Pseudoknoten genannt,
wenn folgende Bedingung erfüllt ist
Es existieren Positionen j und j für I lt j lt
j lt K, so dass für jedes Paar (i ? j) ? MI,K
gilt I ? i lt j lt j lt j oder j lt i lt j?
j ? K
50Gliederung
- Einleitung
- Algorithmus von Akutsu
- Nearest Neighbour Thermodynamik Regeln
- Berechnung minimaler Energien von
RNA-Substrukturen - Optimale Energie eines Pseudoknots
- Analyse des Algorithmus
51Der Algorithmus von Akutsu bewertet
RNA-Strukturen anhand der Anzahl ihrer
Basenpaare. Idee Basenpaarungen tragen zu
einer erhöhten Ordnung im Molekül bei und
erniedrigen dadurch die freie Energie der
Struktur. Strukturen mit hoher Anzahl
Basenpaaren werden daher in der Natur bevorzugt
und durch den Algorithmus besser bewertet.
52- Zur Berechnung des optimalen Pseudoknots werden 4
Matrizen benötigt - SL(i, j, k) enthält Score des besten Foldings
zwischen I und i, und - j und k. Unter der Bedingung das i mit j paart.
- SR(i, j ,k) enthält Score des besten Foldings
zwischen I und i, und - j und k. Unter der Bedingung das j mit k paart.
- SM(i, j, k) enthält Score des besten Foldings
zwischen I und i, und - j und k. Unter der Bedingung das weder i mit j,
noch j mit - k paart.
- PS(i, j) enthält Score des besten Pseudoknot mit
Anfangspunkt i - und Endpunkt j
53Um einen Pseudoknot mit Anfangspunkt I und
Endpunkt K zu finden, muss der Algorithmus drei
Typen von Triplets berechnen SL(i, j, k), SR(i,
j, k) und SM(i, j, k) für jedes i, j, k für das
gilt (I ? i lt j lt k ? K)
Berechnung von SL(i, j, k)
54Berechnung von SR(i, j, k)
Berechnung von SM(i, j, k)
55Für jedes Paar (I, K), wobei I lt K, werden die
SL, SM und SR Matrizen berechnet.
Optimaler Score für jedes Paar (i, j) kann durch
folgende Rekursion berechnet werden
56Gliederung
- Einleitung
- Algorithmus von Akutsu
- Nearest Neighbour Thermodynamik Regeln
- Berechnung minimaler Energien von
RNA-Substrukturen - Optimale Energie eines Pseudoknots
- Analyse des Algorithmus
57Die Nearest Neighbour Energy Rules sind weit
verbreitet in der RNA Sekundärstrukturvorhersage.
Problem ist so definiert Berechnung von
RNA-Strukturen mit minimaler freier Energie
(?-?G)
58Problem Es existiert keine systematische Studie
über die Thermodynamik von Pseudoknots. In den
Nearest Neighbour Energy Rules sind Pseudoknots
verboten. Annahme Freie Energie eines
Pseudoknots ist die Summe der stabilisierenden
Werte beider Stämme und die der
destabilisierenden Loops.
59Gliederung
- Einleitung
- Algorithmus von Akutsu
- Nearest Neighbour Thermodynamik Regeln
- Berechnung minimaler Energien von
RNA-Substrukturen - Optimale Energie eines Pseudoknots
- Analyse des Algorithmus
60Zur Berechnung der minimalen Energie von
RNA-Substrukturen werden 3 N x N Matrizen
benötigt 1. V(i,j) enthält Score des besten
Foldings zwischen i und j, unter der Bedingung
das i und j paart. 2. W(i,j) enthält Score des
besten Foldings zwischen i und j, egal ob i
und j paaren oder nicht. 3. PS(i,j) enthält
Score der besten Pseudoknot-Konfiguration
zwischen den Positionen i und j.
61V(i, j) ?? , wenn i und j nicht paaren können
62Algorithmus nimmt immer ein Nukleotid dazu und
beobachtet, was die beste Struktur in jedem
Schritt ist. Im letzten Schritt wird W(1, n)
berechnet und enthält die minimale Energie der
gesamten Sequenz. Über ein Traceback durch die
Matrizen werden die Strukturen der
Sequenz bestimmt.
63(No Transcript)
64Gliederung
- Einleitung
- Algorithmus von Akutsu
- Nearest Neighbour Thermodynamik Regeln
- Berechnung minimaler Energien von
RNA-Substrukturen - Optimale Energie eines Pseudoknots
- Analyse des Algorithmus
65Optimale Energie eines Pseudoknots Folgende
Matrizen werden zur Berechnung benötigt 1.
SL(i, j, k) Enthält Score des besten Folding
zwischen Positionen I und i, und j und k.
Enthält Energie des Loops der von i und j
geschlossen wird. Setzt Paarung von i und j
vorraus. 2. SR(i, j, k) Enthält Score des besten
Folding zwischen Positionen I und i, und j
und k. Enthält Energie des Loops der von i und
j1 geschlossen wird. Setzt Paarung von j und
k vorraus. 3. SM(i, j, k) Enthält Score des
besten Folding zwischen Positionen I und i,
und j und k. Enthält Energie des Loops der
von i und j1 geschlossen wird. Setzt vorraus,
dass weder i mit j paart, noch j mit k.
664. stem1(i, j) Enthält Energie von S1, die in
SL(i, j, k) gespeichert ist, falls i mit j
paart und in SM(i, j, k) falls i nicht mit j
paart. 5. stem2(j, k) Enthält Energie von S2,
die in SR(i, j, k) gespeichert ist, falls j
mit k paart und in SM(i, j, k) falls j nicht mit
k paart.
- stem1 und stem2 werden zur Berechnung von SL, SR
und SM benötigt. - stem1 und stem2 erhalten die Werte, die als
minimale Energien für SL, SR oder SM gewählt
wurden. - stem1 und stem2 enthalten zusammen die Energie
einer Struktur (i, j, k). -
67(No Transcript)
68Initialisierung SL(i, j, k) SR(i, j, k)
SM(i, j, k) ? für alle i, j,
k außer SL(i, k-1, k) hairpin(i, k-1)
penalty wenn i und k-1 paaren können stem1(i, j)
hairpin(i, j) falls i und j paaren
können stem1(i, j) ? sonst stem2(i, j)
? für alle i, j
69- Berechnung der SL Matrix
- Wenn i und j paaren, kann der Wert in SL(i, j, k)
auf drei Arten - zustandekommen
- Das Paar (i j) schließt einen Hairpin Loop
- 2. Das Paar (i j) stackt auf einem Paar (i-1
j1) - 3. Das Paar (i j) schließt zusammen mit einem
Paar (ip jp) einen Bulge oder einen Internal
Loop
70SL(i, j, k) min E1, E2 E1 hairpin(i, j)
stem2(j1, k) E2 minI?i, i4 ?jltjpltk
hairpin(i,j) hairpin(ip, jp) loop(ip, jp, i,
j) SL(ip, jp, k)
71(No Transcript)
72Spezialfall Ist stem2(j1, k) ?? ( ?
Substruktur enthält nur einen Hairpin-Loop), dann
folgt E1 hairpin(i,j) penalty
Paaren i und j nicht, werden SL(i, j, k) und
stem1(i, j) wie folgt berechnet
73- Berechnung der SR Matrix
- Wenn j und k paaren, kann der Wert in SL(i, j, k)
auf drei Arten - zustandekommen
- Das Paar (j k) schließt einen Hairpin Loop
- 2. Das Paar (j k) stackt auf einem Paar (j1
k-1) - 3. Das Paar (j k) schließt zusammen mit einem
Paar (jp kp) einen Bulge oder einen Internal
Loop
74SR(i, j, k) min E3, E4 E3 hairpin(j, k)
stem1(i, j1) E4 minjltjp, jp4?kpltk
loop(j, k, jp, kp) SL(i, jp, kp)
75(No Transcript)
76Spezialfall Ist stem1(i, j1) ?? ( ?
Substruktur enthält nur einen Hairpin-Loop), dann
folgt E3 hairpin(j, k) penalty
Paaren j und k nicht, werden SR(i, j, k) und
stem2(j, k) wie folgt berechnet
77Berechnung der SM Matrix In der SM Matrix geht
man davon aus, dass weder i mit j, noch j mit
k paaren, auch wenn sie dazu in der Lage wären.
? ? ?
Bei Fall 1.) stem1(i, j) stem1(i-1, j) Bei
Fall 2.) stem1(i, j) stem1(i, j1), stem2(j, k)
stem2(j1, k) Bei Fall 3.) stem2(j, k)
stem2(j, k-1)
78- Komplexität
- Für jedes Paar (I, K) müssen Scores für ?(n³)
Triplets berechnet werden. - Der Score eines Triplets hängt nur von I ab nicht
von K. - Es müssen ?(n³) Scores für jedes I berechnet
werden - ? Zeit ?(n4)
- Der Speicherplatzbedarf resultiert aus den
NxNxN-Matrizen - ? Speicherplatz ??(n³)
79Gliederung
- Einleitung
- Algorithmus von Akutsu
- Nearest Neighbour Thermodynamik Regeln
- Berechnung minimaler Energien von
RNA-Substrukturen - Optimale Energie eines Pseudoknots
- Analyse des Algorithmus
80- Ergebnisse
- Test mit einer Menge von simplen Pseudoknots aus
PseudoBase - 169 Sequenzen, mit einer Länge zwischen 19 und
114 Nukleotiden - Algorithmus faltet 163 Pseudoknots und 6
einfache Strukturen - 131/163 sind korrekt oder fast korrekt gefaltet
worden - Für 3 der 6 einfachen Strukturen kann die
Vorhersage, durch Erhöhen der - penalty verbessert werden
- Bei einer der simplen Strukturen ist im
Pseudoknot der Datenbank ein A-G bp - enthalten
-
81- Vergleich mit dem Eddy/Rivas Programm
Eddy/Rivas Deogun/Komina
50 der Pseudoknots erkannt 95 der Pseudoknots erkannt Davon 78 mit korrekter oder fast-korrekter Struktur
Berechnungszeiten 75 Nukleotide ? 55
Sekunden 114 Nukleotide ? 8 Minuten
82Quellen Akutsu (2000) Dynamic programming
algorithm for RNA secondary structure prediction
with pseudoknots, Discrete Apllied
Mathematics Deogun, Komina et al. (2004) RNA
Secondary Structure Prediction with Simple
Pseudoknots, APBC2004 Holmes (2004) A
probabilistic model for the evolution of RNA
structure, BMC Bioinformatics Mattick (2005)
Das verkannte Genom-Programm, Spektrum der
Wissenschaft (März 05) Thorne, Kishino,
Felsenstein (1991) An evolutionary model for
maximum likelihood alignment of DNA sequences, J
Mol Evol Zuker et al. Algorithms and
thermodynamics for RNA secondary structure
prediction A practical guide, NATO ASI Series