Vortrag in Rahmen des Seminars "Aktuelle Themen der Bioinformatik" - PowerPoint PPT Presentation

1 / 82

About This Presentation

Title:

Vortrag in Rahmen des Seminars "Aktuelle Themen der Bioinformatik"

Description:

A probabilistic model for the evolution of RNA structure Holmes RNA secondary structure prediction with simple pseudoknots Deogun, Donis, Komina, Ma – PowerPoint PPT presentation

Number of Views:108

Avg rating:3.0/5.0

Slides: 83

Provided by: Matthi205

Category:

more less

Transcript and Presenter's Notes

Title: Vortrag in Rahmen des Seminars "Aktuelle Themen der Bioinformatik"

1

A probabilistic model for the evolution of RNA
structure
Holmes
RNA secondary structure prediction with simple
pseudoknots
Deogun, Donis, Komina, Ma

2
Gliederung

Einführung
Das TKF91 Modell
Der TKF91 Structure Tree
Vorstellung der durchgeführten Tests
Interpretation der Ergebnisse

3
Ergebnis des Humangenomprojekts Gut DREI
Prozent brauchbares Material und jede Menge
Schrott.
4

snRNA Splicing von pre-mRNA
guideRNA RNA-Editing in Mitchondrien
Ribonukleasen Regulation der Biosynthese von
tRNA
tRNA Proteinbiosynthese
rRNA Proteinbiosynthese
Telomerase RNA DNA Synthese an chromsomalen
Enden
snoRNA Methylierung von rRNA

Ziel
Identifikation funktioneller Signale in einer
Gensequenz.
Idee
Funktionelle Signale sind evolutionär
konserviert.
Vorgehensweise
Fitten der Daten an probabilistische Modelle, die
den evolutionären Prozess
darstellen.

Es existieren verschiedene Arten von
konservierten Elementen x, y, z
Für jedes Szenario kann man ein
probabilistisches Modell Mx, My, Mz erstellen.
Die Likelihood der beobachteten Daten unter
jedem dieser Modelle werden
verglichen.
Modell mit der besten Anpassung zeigt den Typ
des funktionellen Elements.

Es existieren zwei Vorgehensweisen zur Verwendung
von evolutionärer
Distanz
Trainingsalignments werden eingeteilt nach ihrer
prozentualen Sequenz-
identität. Alignments, die gleich eingeteilt
wurden, repräsentieren dann
Sequenzen mit äquivalenten Distanzen. (siehe
BLOSUM)
Evolutionäre Distanz wird als Zeitmessung
betrachet. Man legt einen
stochastischen Prozess zugrunde, mit konstanten
Mutationsparametern.
(siehe PAM)

Bisherige Ansätze zur Identifikation von
funktioneller non-coding RNA
betrachten Sekundärstruktur nicht.
Aber
Funktion und Struktur sind eng miteinander
verknüpft
In der Biologie ist Funktion immer bedingt durch
Struktur
Daher
Neues Modell betrachtet evolutionäre Entwicklung
von Sekundärstruktur

9
Gliederung

Einführung
Das TKF91 Modell
Der TKF91 Structure Tree
Vorstellung der durchgeführten Tests
Interpretation der Ergebnisse

10
TKF91-Modell beschreibt die Evolution einer
einzelnen Sequenz unter dem Einfluss von 2 Arten
von Mutations-Ereignissen 1.
Punkt-Substitutionen 2. InDel-Ereignisse Die
Raten der Mutations-Ereignisse sind unabhängig
von benachbarten Ereignissen.
11

Das Modell ist zeit-reversibel
Es kann oBdA davon ausgegangen werden, dass eine
der beiden
Sequenzen die Ursequenz der anderen ist.

12
Punkt - Substitutionen

Positionen evolvieren unabhängig voneinander
Zugrunde liegendes Substitionsmodell

13
Insertionen - Deletionen
? A ? G ? C ? U ? U ? A ? C ? C ? G ? A ?

N1 Positionen, an denen eingefügt werden kann
- mit Rate ?
N Positionen, an denen gelöscht werden kann
- mit Rate ?
?? lt ? vorrausgesetzt ?? kein Ungleichgewicht

immortal link
mortal links
14
Folgende Wahrscheinlichkeiten ergeben sich aus
Raten ?n und ?n ?n Wahrscheinlichkeit einer
Nicht-Deletion ?n Wahrscheinlichkeit einer
Insertion ?n Wahrscheinlichkeit einer
Insertion nach einer Deletion ?n
Wahrscheinlichkeit die Sequenz fortzuführen Auße
rdem ist Mn(i,j) die Substitutionswahrscheinlichk
eit von Base i durch j
15
Die Sequenzlänge im Gleichgewicht ist geometrisch
verteilt, mit Parameter??.
16
(No Transcript)
17
Gliederung

Einführung
Das TKF91 Modell
Der TKF91 Structure Tree
Vorstellung der durchgeführten Tests
Interpretation der Ergebnisse

Gewurzelter Baum, indem jeder Knoten einen Grad
? 3 besitzt.
Beschreibt die Sekundärstruktur einer
RNA-Sequenz
4 Arten von Knoten
1. singlet
2. paired
3. loop
4. stem
Struktur wird vom Auftreten von Loop- und
Stem-Knoten bestimmt

unabhängig evolvierende Nukleotide kovariante
Basenpaare Anfang einer Loopsequenz Anfang einer
Stemsequenz
19

Knotenbeschriftungen
L, S
A, C, G, U
² AA, AC, AG, AU, CA, CC, CG, CU, GA, GC, GG,
GU, UA, UG, UC, UU

20
(No Transcript)
21
(No Transcript)
22
(No Transcript)
23
(No Transcript)
24

Implementierung der Grammatik-Parser setzt eine
Umgestaltung der
Grammatik voraus.
Problemstellen
Null-Zykel - können durch Loop-/Stemlängen 0
entstehen
Silent Bulges - S ? S
Loop Bifurcation - L ?LL

25
Null-Zykel (4, 7, 11)
Loop Bifurcation (24, 27)
Silent Bulge (32, 29, 30)
26
(No Transcript)
27
Komplexität der Algorithmen single sequence
SCFG Zeit ?(L³) Platz ?(L²) pairwise
SCFG Zeit ?(L³M³) Platz ??(L²M²) gt Finden
des wahrscheinlichsten Parse-Baums mit Hilfe des
CYK-Algorithmus
28
Gliederung

Einführung
Das TKF91 Modell
Der TKF91 Structure Tree
Vorstellung der durchgeführten Tests
Interpretation der Ergebnisse

29
Implementierung eines Alignment-Tool auf Basis
der SCFGs Basierend auf dynamischen
Programmieren mit beschleunigenden
Heuristiken Als Test der Leistungsfähigkeit des
Modells werden Paare von RNA-Sequenzen miteinander
aligniert und deren Struktur vorhergesagt. 4
verschiedene Familien mit variierender Homologie
im Bereich der Sekundärstruktur wurden
ausgewählt.
30
Alignment mit dem TKF91-Structure Tree
Strukturvorhersage für einzelne Sequenz
Strukturvorhersage summiert über alle Alignments
mit der anderen Sequenz
Alignment mit dem TKF91-Modell
31
Purine Riboswitch

Identische Sekundärstruktur
Primärsequenz weicht voneinander ab

32
(No Transcript)
33
Nano translational control element

Deletion des äußeren Stems

34
(No Transcript)
35
U2 splicing factors

Deletion von Stem 4, 5 und 6
sehr ähnliche Primärsequenz

36
(No Transcript)
37
RNase P Genes

Starker Unterschied
in der Sekundärstruktur
variabelste Familie in
RFAM

38
(No Transcript)
39
RNA Sequenzen Strukturvorhersage StructureTree singlet Strukturvorhersage StructureTree paired pairHMM Alignment pairSCFG Alignment
Purine Riboswitches schlecht korrekt korrekt korrekt
Nano translational control element schlecht gut Probleme in den Rand-bereichen wesentlich besser
U2 splicing factors schlecht korrekt schlecht korrekt
RNase P schlecht schlecht schlecht schlecht
40
Gliederung

Einführung
Das TKF91 Modell
Der TKF91 Structure Tree
Vorstellung der durchgeführten Tests
Interpretation der Ergebnisse

Stärken des Modells
streng konservierte Struktur und wenige InDels
führen zu guter
Struktur-Vorhersage und Alignment
Bei vielen InDels in Loops und Stems oder bei
geringfügigen Änderungen
der Sekundärstruktur arbeitet der StructureTree
auch gut
Schwächen des Modells
Ab einem bestimmten Grad der strukturellen
Unterschiede zwischen
Sequenzen versagt das Modell (RNase P)

Mögliche Verbesserungen
Hinzunahme von long indels und affiner
Gap-Penalty
zusätzliche Modellierung von Thermodynamik-Effekt
en (Basepair Stacking, Nearst Neighbour
Interaktion)
Verbessertes Einfügen von Bulges (Zulassen von
L-Knoten in Stems)
Annahme das Stems und Loops alle mit der
gleichen Rate evolvieren ist empirisch nicht
belegt
Triloops, Tetraloops, U-Turns u.ä. werden nicht
speziell behandelt, obwohl oft evolutionär
konserviert
Einführung spezieller InDel-Raten für
Stems/MultiStems (bislang gleiche Raten)
Verbesserung der Stem-Deletion, äußer Stems
sollten nicht zwangsläufig zu Löschung von
inneren führen. Belegt durch empirische
Studien in RFAM.

A probabilistic model for the evolution of RNA
structure
Holmes
RNA secondary structure prediction with simple
pseudoknots
Deogun, Donis, Komina, Ma

44
Gliederung

Einleitung
Algorithmus von Akutsu
Nearest Neighbour Thermodynamik Regeln
Berechnung minimaler Energien von
RNA-Substrukturen
Optimale Energie eines Pseudoknots
Analyse des Algorithmus

Wie bereits gesehen, ist die Pseudoknoten-Vorhers
age kein triviales Problem.
Die Möglichkeit zur Vorhersage ist aber wichtig,
da Pseudoknoten verbreitete
Strukturen sind, die eine wichtige Rolle in
funktionell wichtiger RNA spielen.
In diesem Algorithmus werden nur einfache
Pseudoknoten betrachtet.
Algorithmus wurde entwickelt, um Sequenzen mit
Länge gt100 betrachten zu
können.
Laufzeitverbesserung im Gegensatz zu Eddy/Rivas
ER ??(n6) Zeit, ?(n4) Platz ? DK ??(n4)
Zeit, ?(n3) Platz

46
Nearest Neighbour Thermodynamik Regeln
mfold-Algorithmus
Neuer Algorithmus zur Vorhersage von
Pseudoknots
Akutsu-Algorithmus zur Vorhersage von
Pseudoknots unter Maximierung von Basenpaaren
47
Definition Eine Sekundärstruktur S einer
RNA-Sequenz A a1a2an ist eine Menge von
Basenpaaren. Ein Basenpaar zwischen ai und aj (
i lt j ) wird notiert als ( i j )
M (i ? j) 1 ? i lt j ? n, (ai ? aj) ist
Basenpaar und jedes i und j taucht max
1 mal auf
48
Eine Menge von Basenpaaren wird
RNA-Sekundärstruktur ohne Pseudoknoten genannt,
wenn folgende Bedingung erfüllt ist
Es existieren keine Basenpaare (ai ? aj), (ah ?
ak)?? M, die i ? h ? j ? k erfüllen.
49
Eine Menge von Basenpaaren wird
RNA-Sekundärstruktur mit Pseudoknoten genannt,
wenn folgende Bedingung erfüllt ist
Es existieren Positionen j und j für I lt j lt
j lt K, so dass für jedes Paar (i ? j) ? MI,K
gilt I ? i lt j lt j lt j oder j lt i lt j?
j ? K
50
Gliederung

Einleitung
Algorithmus von Akutsu
Nearest Neighbour Thermodynamik Regeln
Berechnung minimaler Energien von
RNA-Substrukturen
Optimale Energie eines Pseudoknots
Analyse des Algorithmus

51
Der Algorithmus von Akutsu bewertet
RNA-Strukturen anhand der Anzahl ihrer
Basenpaare. Idee Basenpaarungen tragen zu
einer erhöhten Ordnung im Molekül bei und
erniedrigen dadurch die freie Energie der
Struktur. Strukturen mit hoher Anzahl
Basenpaaren werden daher in der Natur bevorzugt
und durch den Algorithmus besser bewertet.
52

Zur Berechnung des optimalen Pseudoknots werden 4
Matrizen benötigt
SL(i, j, k) enthält Score des besten Foldings
zwischen I und i, und
j und k. Unter der Bedingung das i mit j paart.
SR(i, j ,k) enthält Score des besten Foldings
zwischen I und i, und
j und k. Unter der Bedingung das j mit k paart.
SM(i, j, k) enthält Score des besten Foldings
zwischen I und i, und
j und k. Unter der Bedingung das weder i mit j,
noch j mit
k paart.
PS(i, j) enthält Score des besten Pseudoknot mit
Anfangspunkt i
und Endpunkt j

53
Um einen Pseudoknot mit Anfangspunkt I und
Endpunkt K zu finden, muss der Algorithmus drei
Typen von Triplets berechnen SL(i, j, k), SR(i,
j, k) und SM(i, j, k) für jedes i, j, k für das
gilt (I ? i lt j lt k ? K)
Berechnung von SL(i, j, k)
54
Berechnung von SR(i, j, k)
Berechnung von SM(i, j, k)
55
Für jedes Paar (I, K), wobei I lt K, werden die
SL, SM und SR Matrizen berechnet.
Optimaler Score für jedes Paar (i, j) kann durch
folgende Rekursion berechnet werden
56
Gliederung

Einleitung
Algorithmus von Akutsu
Nearest Neighbour Thermodynamik Regeln
Berechnung minimaler Energien von
RNA-Substrukturen
Optimale Energie eines Pseudoknots
Analyse des Algorithmus

57
Die Nearest Neighbour Energy Rules sind weit
verbreitet in der RNA Sekundärstrukturvorhersage.
Problem ist so definiert Berechnung von
RNA-Strukturen mit minimaler freier Energie
(?-?G)
58
Problem Es existiert keine systematische Studie
über die Thermodynamik von Pseudoknots. In den
Nearest Neighbour Energy Rules sind Pseudoknots
verboten. Annahme Freie Energie eines
Pseudoknots ist die Summe der stabilisierenden
Werte beider Stämme und die der
destabilisierenden Loops.
59
Gliederung

Einleitung
Algorithmus von Akutsu
Nearest Neighbour Thermodynamik Regeln
Berechnung minimaler Energien von
RNA-Substrukturen
Optimale Energie eines Pseudoknots
Analyse des Algorithmus

60
Zur Berechnung der minimalen Energie von
RNA-Substrukturen werden 3 N x N Matrizen
benötigt 1. V(i,j) enthält Score des besten
Foldings zwischen i und j, unter der Bedingung
das i und j paart. 2. W(i,j) enthält Score des
besten Foldings zwischen i und j, egal ob i
und j paaren oder nicht. 3. PS(i,j) enthält
Score der besten Pseudoknot-Konfiguration
zwischen den Positionen i und j.
61
V(i, j) ?? , wenn i und j nicht paaren können
62
Algorithmus nimmt immer ein Nukleotid dazu und
beobachtet, was die beste Struktur in jedem
Schritt ist. Im letzten Schritt wird W(1, n)
berechnet und enthält die minimale Energie der
gesamten Sequenz. Über ein Traceback durch die
Matrizen werden die Strukturen der
Sequenz bestimmt.
63
(No Transcript)
64
Gliederung

Einleitung
Algorithmus von Akutsu
Nearest Neighbour Thermodynamik Regeln
Berechnung minimaler Energien von
RNA-Substrukturen
Optimale Energie eines Pseudoknots
Analyse des Algorithmus

65
Optimale Energie eines Pseudoknots Folgende
Matrizen werden zur Berechnung benötigt 1.
SL(i, j, k) Enthält Score des besten Folding
zwischen Positionen I und i, und j und k.
Enthält Energie des Loops der von i und j
geschlossen wird. Setzt Paarung von i und j
vorraus. 2. SR(i, j, k) Enthält Score des besten
Folding zwischen Positionen I und i, und j
und k. Enthält Energie des Loops der von i und
j1 geschlossen wird. Setzt Paarung von j und
k vorraus. 3. SM(i, j, k) Enthält Score des
besten Folding zwischen Positionen I und i,
und j und k. Enthält Energie des Loops der
von i und j1 geschlossen wird. Setzt vorraus,
dass weder i mit j paart, noch j mit k.
66
4. stem1(i, j) Enthält Energie von S1, die in
SL(i, j, k) gespeichert ist, falls i mit j
paart und in SM(i, j, k) falls i nicht mit j
paart. 5. stem2(j, k) Enthält Energie von S2,
die in SR(i, j, k) gespeichert ist, falls j
mit k paart und in SM(i, j, k) falls j nicht mit
k paart.

stem1 und stem2 werden zur Berechnung von SL, SR
und SM benötigt.
stem1 und stem2 erhalten die Werte, die als
minimale Energien für SL, SR oder SM gewählt
wurden.
stem1 und stem2 enthalten zusammen die Energie
einer Struktur (i, j, k).

67
(No Transcript)
68
Initialisierung SL(i, j, k) SR(i, j, k)
SM(i, j, k) ? für alle i, j,
k außer SL(i, k-1, k) hairpin(i, k-1)
penalty wenn i und k-1 paaren können stem1(i, j)
hairpin(i, j) falls i und j paaren
können stem1(i, j) ? sonst stem2(i, j)
? für alle i, j
69

Berechnung der SL Matrix
Wenn i und j paaren, kann der Wert in SL(i, j, k)
auf drei Arten
zustandekommen
Das Paar (i j) schließt einen Hairpin Loop
2. Das Paar (i j) stackt auf einem Paar (i-1
j1)
3. Das Paar (i j) schließt zusammen mit einem
Paar (ip jp) einen Bulge oder einen Internal
Loop

70
SL(i, j, k) min E1, E2 E1 hairpin(i, j)
stem2(j1, k) E2 minI?i, i4 ?jltjpltk
hairpin(i,j) hairpin(ip, jp) loop(ip, jp, i,
j) SL(ip, jp, k)
71
(No Transcript)
72
Spezialfall Ist stem2(j1, k) ?? ( ?
Substruktur enthält nur einen Hairpin-Loop), dann
folgt E1 hairpin(i,j) penalty
Paaren i und j nicht, werden SL(i, j, k) und
stem1(i, j) wie folgt berechnet
73

Berechnung der SR Matrix
Wenn j und k paaren, kann der Wert in SL(i, j, k)
auf drei Arten
zustandekommen
Das Paar (j k) schließt einen Hairpin Loop
2. Das Paar (j k) stackt auf einem Paar (j1
k-1)
3. Das Paar (j k) schließt zusammen mit einem
Paar (jp kp) einen Bulge oder einen Internal
Loop

74
SR(i, j, k) min E3, E4 E3 hairpin(j, k)
stem1(i, j1) E4 minjltjp, jp4?kpltk
loop(j, k, jp, kp) SL(i, jp, kp)
75
(No Transcript)
76
Spezialfall Ist stem1(i, j1) ?? ( ?
Substruktur enthält nur einen Hairpin-Loop), dann
folgt E3 hairpin(j, k) penalty
Paaren j und k nicht, werden SR(i, j, k) und
stem2(j, k) wie folgt berechnet
77
Berechnung der SM Matrix In der SM Matrix geht
man davon aus, dass weder i mit j, noch j mit
k paaren, auch wenn sie dazu in der Lage wären.
? ? ?
Bei Fall 1.) stem1(i, j) stem1(i-1, j) Bei
Fall 2.) stem1(i, j) stem1(i, j1), stem2(j, k)
stem2(j1, k) Bei Fall 3.) stem2(j, k)
stem2(j, k-1)
78

Komplexität
Für jedes Paar (I, K) müssen Scores für ?(n³)
Triplets berechnet werden.
Der Score eines Triplets hängt nur von I ab nicht
von K.
Es müssen ?(n³) Scores für jedes I berechnet
werden
? Zeit ?(n4)
Der Speicherplatzbedarf resultiert aus den
NxNxN-Matrizen
? Speicherplatz ??(n³)

79
Gliederung

Einleitung
Algorithmus von Akutsu
Nearest Neighbour Thermodynamik Regeln
Berechnung minimaler Energien von
RNA-Substrukturen
Optimale Energie eines Pseudoknots
Analyse des Algorithmus

Ergebnisse
Test mit einer Menge von simplen Pseudoknots aus
PseudoBase
169 Sequenzen, mit einer Länge zwischen 19 und
114 Nukleotiden
Algorithmus faltet 163 Pseudoknots und 6
einfache Strukturen
131/163 sind korrekt oder fast korrekt gefaltet
worden
Für 3 der 6 einfachen Strukturen kann die
Vorhersage, durch Erhöhen der
penalty verbessert werden
Bei einer der simplen Strukturen ist im
Pseudoknot der Datenbank ein A-G bp
enthalten

Vergleich mit dem Eddy/Rivas Programm

Eddy/Rivas Deogun/Komina
50 der Pseudoknots erkannt 95 der Pseudoknots erkannt Davon 78 mit korrekter oder fast-korrekter Struktur
Berechnungszeiten 75 Nukleotide ? 55
Sekunden 114 Nukleotide ? 8 Minuten
82
Quellen Akutsu (2000) Dynamic programming
algorithm for RNA secondary structure prediction
with pseudoknots, Discrete Apllied
Mathematics Deogun, Komina et al. (2004) RNA
Secondary Structure Prediction with Simple
Pseudoknots, APBC2004 Holmes (2004) A
probabilistic model for the evolution of RNA
structure, BMC Bioinformatics Mattick (2005)
Das verkannte Genom-Programm, Spektrum der
Wissenschaft (März 05) Thorne, Kishino,
Felsenstein (1991) An evolutionary model for
maximum likelihood alignment of DNA sequences, J
Mol Evol Zuker et al. Algorithms and
thermodynamics for RNA secondary structure
prediction A practical guide, NATO ASI Series

Write a Comment

User Comments (0)