Vortrag in Rahmen des Seminars "Aktuelle Themen der Bioinformatik" - PowerPoint PPT Presentation

1 / 82
About This Presentation
Title:

Vortrag in Rahmen des Seminars "Aktuelle Themen der Bioinformatik"

Description:

A probabilistic model for the evolution of RNA structure Holmes RNA secondary structure prediction with simple pseudoknots Deogun, Donis, Komina, Ma – PowerPoint PPT presentation

Number of Views:108
Avg rating:3.0/5.0
Slides: 83
Provided by: Matthi205
Category:

less

Transcript and Presenter's Notes

Title: Vortrag in Rahmen des Seminars "Aktuelle Themen der Bioinformatik"


1
  • A probabilistic model for the evolution of RNA
    structure
  • Holmes
  • RNA secondary structure prediction with simple
    pseudoknots
  • Deogun, Donis, Komina, Ma

2
Gliederung
  • Einführung
  • Das TKF91 Modell
  • Der TKF91 Structure Tree
  • Vorstellung der durchgeführten Tests
  • Interpretation der Ergebnisse

3
Ergebnis des Humangenomprojekts Gut DREI
Prozent brauchbares Material und jede Menge
Schrott.
4
  • snRNA Splicing von pre-mRNA
  • guideRNA RNA-Editing in Mitchondrien
  • Ribonukleasen Regulation der Biosynthese von
    tRNA
  • tRNA Proteinbiosynthese
  • rRNA Proteinbiosynthese
  • Telomerase RNA DNA Synthese an chromsomalen
    Enden
  • snoRNA Methylierung von rRNA

5
  • Ziel
  • Identifikation funktioneller Signale in einer
    Gensequenz.
  • Idee
  • Funktionelle Signale sind evolutionär
    konserviert.
  • Vorgehensweise
  • Fitten der Daten an probabilistische Modelle, die
    den evolutionären Prozess
  • darstellen.

6
  • Es existieren verschiedene Arten von
    konservierten Elementen x, y, z
  • Für jedes Szenario kann man ein
    probabilistisches Modell Mx, My, Mz erstellen.
  • Die Likelihood der beobachteten Daten unter
    jedem dieser Modelle werden
  • verglichen.
  • Modell mit der besten Anpassung zeigt den Typ
    des funktionellen Elements.

7
  • Es existieren zwei Vorgehensweisen zur Verwendung
    von evolutionärer
  • Distanz
  • Trainingsalignments werden eingeteilt nach ihrer
    prozentualen Sequenz-
  • identität. Alignments, die gleich eingeteilt
    wurden, repräsentieren dann
  • Sequenzen mit äquivalenten Distanzen. (siehe
    BLOSUM)
  • Evolutionäre Distanz wird als Zeitmessung
    betrachet. Man legt einen
  • stochastischen Prozess zugrunde, mit konstanten
    Mutationsparametern.
  • (siehe PAM)

8
  • Bisherige Ansätze zur Identifikation von
    funktioneller non-coding RNA
  • betrachten Sekundärstruktur nicht.
  • Aber
  • Funktion und Struktur sind eng miteinander
    verknüpft
  • In der Biologie ist Funktion immer bedingt durch
    Struktur
  • Daher
  • Neues Modell betrachtet evolutionäre Entwicklung
    von Sekundärstruktur

9
Gliederung
  • Einführung
  • Das TKF91 Modell
  • Der TKF91 Structure Tree
  • Vorstellung der durchgeführten Tests
  • Interpretation der Ergebnisse

10
TKF91-Modell beschreibt die Evolution einer
einzelnen Sequenz unter dem Einfluss von 2 Arten
von Mutations-Ereignissen 1.
Punkt-Substitutionen 2. InDel-Ereignisse Die
Raten der Mutations-Ereignisse sind unabhängig
von benachbarten Ereignissen.
11
  • Das Modell ist zeit-reversibel
  • Es kann oBdA davon ausgegangen werden, dass eine
    der beiden
  • Sequenzen die Ursequenz der anderen ist.

12
Punkt - Substitutionen
  • Positionen evolvieren unabhängig voneinander
  • Zugrunde liegendes Substitionsmodell

13
Insertionen - Deletionen
? A ? G ? C ? U ? U ? A ? C ? C ? G ? A ?
  • N1 Positionen, an denen eingefügt werden kann
  • - mit Rate ?
  • N Positionen, an denen gelöscht werden kann
  • - mit Rate ?
  • ?? lt ? vorrausgesetzt ?? kein Ungleichgewicht

immortal link
mortal links
14
Folgende Wahrscheinlichkeiten ergeben sich aus
Raten ?n und ?n ?n Wahrscheinlichkeit einer
Nicht-Deletion ?n Wahrscheinlichkeit einer
Insertion ?n Wahrscheinlichkeit einer
Insertion nach einer Deletion ?n
Wahrscheinlichkeit die Sequenz fortzuführen Auße
rdem ist Mn(i,j) die Substitutionswahrscheinlichk
eit von Base i durch j
15
Die Sequenzlänge im Gleichgewicht ist geometrisch
verteilt, mit Parameter??.
16
(No Transcript)
17
Gliederung
  • Einführung
  • Das TKF91 Modell
  • Der TKF91 Structure Tree
  • Vorstellung der durchgeführten Tests
  • Interpretation der Ergebnisse

18
  • Gewurzelter Baum, indem jeder Knoten einen Grad
    ? 3 besitzt.
  • Beschreibt die Sekundärstruktur einer
    RNA-Sequenz
  • 4 Arten von Knoten
  • 1. singlet
  • 2. paired
  • 3. loop
  • 4. stem
  • Struktur wird vom Auftreten von Loop- und
    Stem-Knoten bestimmt

unabhängig evolvierende Nukleotide kovariante
Basenpaare Anfang einer Loopsequenz Anfang einer
Stemsequenz
19
  • Knotenbeschriftungen
  • L, S
  • A, C, G, U
  • ² AA, AC, AG, AU, CA, CC, CG, CU, GA, GC, GG,
    GU, UA, UG, UC, UU

20
(No Transcript)
21
(No Transcript)
22
(No Transcript)
23
(No Transcript)
24
  • Implementierung der Grammatik-Parser setzt eine
    Umgestaltung der
  • Grammatik voraus.
  • Problemstellen
  • Null-Zykel - können durch Loop-/Stemlängen 0
    entstehen
  • Silent Bulges - S ? S
  • Loop Bifurcation - L ?LL

25
Null-Zykel (4, 7, 11)
Loop Bifurcation (24, 27)
Silent Bulge (32, 29, 30)
26
(No Transcript)
27
Komplexität der Algorithmen single sequence
SCFG Zeit ?(L³) Platz ?(L²) pairwise
SCFG Zeit ?(L³M³) Platz ??(L²M²) gt Finden
des wahrscheinlichsten Parse-Baums mit Hilfe des
CYK-Algorithmus
28
Gliederung
  • Einführung
  • Das TKF91 Modell
  • Der TKF91 Structure Tree
  • Vorstellung der durchgeführten Tests
  • Interpretation der Ergebnisse

29
Implementierung eines Alignment-Tool auf Basis
der SCFGs Basierend auf dynamischen
Programmieren mit beschleunigenden
Heuristiken Als Test der Leistungsfähigkeit des
Modells werden Paare von RNA-Sequenzen miteinander
aligniert und deren Struktur vorhergesagt. 4
verschiedene Familien mit variierender Homologie
im Bereich der Sekundärstruktur wurden
ausgewählt.
30
Alignment mit dem TKF91-Structure Tree
Strukturvorhersage für einzelne Sequenz
Strukturvorhersage summiert über alle Alignments
mit der anderen Sequenz
Alignment mit dem TKF91-Modell
31
Purine Riboswitch
  • Identische Sekundärstruktur
  • Primärsequenz weicht voneinander ab

32
(No Transcript)
33
Nano translational control element
  • Deletion des äußeren Stems

34
(No Transcript)
35
U2 splicing factors
  • Deletion von Stem 4, 5 und 6
  • sehr ähnliche Primärsequenz

36
(No Transcript)
37
RNase P Genes
  • Starker Unterschied
  • in der Sekundärstruktur
  • variabelste Familie in
  • RFAM

38
(No Transcript)
39
RNA Sequenzen Strukturvorhersage StructureTree singlet Strukturvorhersage StructureTree paired pairHMM Alignment pairSCFG Alignment
Purine Riboswitches schlecht korrekt korrekt korrekt
Nano translational control element schlecht gut Probleme in den Rand-bereichen wesentlich besser
U2 splicing factors schlecht korrekt schlecht korrekt
RNase P schlecht schlecht schlecht schlecht
40
Gliederung
  • Einführung
  • Das TKF91 Modell
  • Der TKF91 Structure Tree
  • Vorstellung der durchgeführten Tests
  • Interpretation der Ergebnisse

41
  • Stärken des Modells
  • streng konservierte Struktur und wenige InDels
    führen zu guter
  • Struktur-Vorhersage und Alignment
  • Bei vielen InDels in Loops und Stems oder bei
    geringfügigen Änderungen
  • der Sekundärstruktur arbeitet der StructureTree
    auch gut
  • Schwächen des Modells
  • Ab einem bestimmten Grad der strukturellen
    Unterschiede zwischen
  • Sequenzen versagt das Modell (RNase P)

42
  • Mögliche Verbesserungen
  • Hinzunahme von long indels und affiner
    Gap-Penalty
  • zusätzliche Modellierung von Thermodynamik-Effekt
    en (Basepair Stacking, Nearst Neighbour
  • Interaktion)
  • Verbessertes Einfügen von Bulges (Zulassen von
    L-Knoten in Stems)
  • Annahme das Stems und Loops alle mit der
    gleichen Rate evolvieren ist empirisch nicht
    belegt
  • Triloops, Tetraloops, U-Turns u.ä. werden nicht
    speziell behandelt, obwohl oft evolutionär
  • konserviert
  • Einführung spezieller InDel-Raten für
    Stems/MultiStems (bislang gleiche Raten)
  • Verbesserung der Stem-Deletion, äußer Stems
    sollten nicht zwangsläufig zu Löschung von
  • inneren führen. Belegt durch empirische
    Studien in RFAM.

43
  • A probabilistic model for the evolution of RNA
    structure
  • Holmes
  • RNA secondary structure prediction with simple
    pseudoknots
  • Deogun, Donis, Komina, Ma

44
Gliederung
  • Einleitung
  • Algorithmus von Akutsu
  • Nearest Neighbour Thermodynamik Regeln
  • Berechnung minimaler Energien von
    RNA-Substrukturen
  • Optimale Energie eines Pseudoknots
  • Analyse des Algorithmus

45
  • Wie bereits gesehen, ist die Pseudoknoten-Vorhers
    age kein triviales Problem.
  • Die Möglichkeit zur Vorhersage ist aber wichtig,
    da Pseudoknoten verbreitete
  • Strukturen sind, die eine wichtige Rolle in
    funktionell wichtiger RNA spielen.
  • In diesem Algorithmus werden nur einfache
    Pseudoknoten betrachtet.
  • Algorithmus wurde entwickelt, um Sequenzen mit
    Länge gt100 betrachten zu
  • können.
  • Laufzeitverbesserung im Gegensatz zu Eddy/Rivas
  • ER ??(n6) Zeit, ?(n4) Platz ? DK ??(n4)
    Zeit, ?(n3) Platz

46
Nearest Neighbour Thermodynamik Regeln
mfold-Algorithmus
Neuer Algorithmus zur Vorhersage von
Pseudoknots
Akutsu-Algorithmus zur Vorhersage von
Pseudoknots unter Maximierung von Basenpaaren
47
Definition Eine Sekundärstruktur S einer
RNA-Sequenz A a1a2an ist eine Menge von
Basenpaaren. Ein Basenpaar zwischen ai und aj (
i lt j ) wird notiert als ( i j )
M (i ? j) 1 ? i lt j ? n, (ai ? aj) ist
Basenpaar und jedes i und j taucht max
1 mal auf
48
Eine Menge von Basenpaaren wird
RNA-Sekundärstruktur ohne Pseudoknoten genannt,
wenn folgende Bedingung erfüllt ist
Es existieren keine Basenpaare (ai ? aj), (ah ?
ak)?? M, die i ? h ? j ? k erfüllen.
49
Eine Menge von Basenpaaren wird
RNA-Sekundärstruktur mit Pseudoknoten genannt,
wenn folgende Bedingung erfüllt ist
Es existieren Positionen j und j für I lt j lt
j lt K, so dass für jedes Paar (i ? j) ? MI,K
gilt I ? i lt j lt j lt j oder j lt i lt j?
j ? K
50
Gliederung
  • Einleitung
  • Algorithmus von Akutsu
  • Nearest Neighbour Thermodynamik Regeln
  • Berechnung minimaler Energien von
    RNA-Substrukturen
  • Optimale Energie eines Pseudoknots
  • Analyse des Algorithmus

51
Der Algorithmus von Akutsu bewertet
RNA-Strukturen anhand der Anzahl ihrer
Basenpaare. Idee Basenpaarungen tragen zu
einer erhöhten Ordnung im Molekül bei und
erniedrigen dadurch die freie Energie der
Struktur. Strukturen mit hoher Anzahl
Basenpaaren werden daher in der Natur bevorzugt
und durch den Algorithmus besser bewertet.
52
  • Zur Berechnung des optimalen Pseudoknots werden 4
    Matrizen benötigt
  • SL(i, j, k) enthält Score des besten Foldings
    zwischen I und i, und
  • j und k. Unter der Bedingung das i mit j paart.
  • SR(i, j ,k) enthält Score des besten Foldings
    zwischen I und i, und
  • j und k. Unter der Bedingung das j mit k paart.
  • SM(i, j, k) enthält Score des besten Foldings
    zwischen I und i, und
  • j und k. Unter der Bedingung das weder i mit j,
    noch j mit
  • k paart.
  • PS(i, j) enthält Score des besten Pseudoknot mit
    Anfangspunkt i
  • und Endpunkt j

53
Um einen Pseudoknot mit Anfangspunkt I und
Endpunkt K zu finden, muss der Algorithmus drei
Typen von Triplets berechnen SL(i, j, k), SR(i,
j, k) und SM(i, j, k) für jedes i, j, k für das
gilt (I ? i lt j lt k ? K)
Berechnung von SL(i, j, k)
54
Berechnung von SR(i, j, k)
Berechnung von SM(i, j, k)
55
Für jedes Paar (I, K), wobei I lt K, werden die
SL, SM und SR Matrizen berechnet.
Optimaler Score für jedes Paar (i, j) kann durch
folgende Rekursion berechnet werden
56
Gliederung
  • Einleitung
  • Algorithmus von Akutsu
  • Nearest Neighbour Thermodynamik Regeln
  • Berechnung minimaler Energien von
    RNA-Substrukturen
  • Optimale Energie eines Pseudoknots
  • Analyse des Algorithmus

57
Die Nearest Neighbour Energy Rules sind weit
verbreitet in der RNA Sekundärstrukturvorhersage.
Problem ist so definiert Berechnung von
RNA-Strukturen mit minimaler freier Energie
(?-?G)
58
Problem Es existiert keine systematische Studie
über die Thermodynamik von Pseudoknots. In den
Nearest Neighbour Energy Rules sind Pseudoknots
verboten. Annahme Freie Energie eines
Pseudoknots ist die Summe der stabilisierenden
Werte beider Stämme und die der
destabilisierenden Loops.
59
Gliederung
  • Einleitung
  • Algorithmus von Akutsu
  • Nearest Neighbour Thermodynamik Regeln
  • Berechnung minimaler Energien von
    RNA-Substrukturen
  • Optimale Energie eines Pseudoknots
  • Analyse des Algorithmus

60
Zur Berechnung der minimalen Energie von
RNA-Substrukturen werden 3 N x N Matrizen
benötigt 1. V(i,j) enthält Score des besten
Foldings zwischen i und j, unter der Bedingung
das i und j paart. 2. W(i,j) enthält Score des
besten Foldings zwischen i und j, egal ob i
und j paaren oder nicht. 3. PS(i,j) enthält
Score der besten Pseudoknot-Konfiguration
zwischen den Positionen i und j.
61
V(i, j) ?? , wenn i und j nicht paaren können
62
Algorithmus nimmt immer ein Nukleotid dazu und
beobachtet, was die beste Struktur in jedem
Schritt ist. Im letzten Schritt wird W(1, n)
berechnet und enthält die minimale Energie der
gesamten Sequenz. Über ein Traceback durch die
Matrizen werden die Strukturen der
Sequenz bestimmt.
63
(No Transcript)
64
Gliederung
  • Einleitung
  • Algorithmus von Akutsu
  • Nearest Neighbour Thermodynamik Regeln
  • Berechnung minimaler Energien von
    RNA-Substrukturen
  • Optimale Energie eines Pseudoknots
  • Analyse des Algorithmus

65
Optimale Energie eines Pseudoknots Folgende
Matrizen werden zur Berechnung benötigt 1.
SL(i, j, k) Enthält Score des besten Folding
zwischen Positionen I und i, und j und k.
Enthält Energie des Loops der von i und j
geschlossen wird. Setzt Paarung von i und j
vorraus. 2. SR(i, j, k) Enthält Score des besten
Folding zwischen Positionen I und i, und j
und k. Enthält Energie des Loops der von i und
j1 geschlossen wird. Setzt Paarung von j und
k vorraus. 3. SM(i, j, k) Enthält Score des
besten Folding zwischen Positionen I und i,
und j und k. Enthält Energie des Loops der
von i und j1 geschlossen wird. Setzt vorraus,
dass weder i mit j paart, noch j mit k.
66
4. stem1(i, j) Enthält Energie von S1, die in
SL(i, j, k) gespeichert ist, falls i mit j
paart und in SM(i, j, k) falls i nicht mit j
paart. 5. stem2(j, k) Enthält Energie von S2,
die in SR(i, j, k) gespeichert ist, falls j
mit k paart und in SM(i, j, k) falls j nicht mit
k paart.
  • stem1 und stem2 werden zur Berechnung von SL, SR
    und SM benötigt.
  • stem1 und stem2 erhalten die Werte, die als
    minimale Energien für SL, SR oder SM gewählt
    wurden.
  • stem1 und stem2 enthalten zusammen die Energie
    einer Struktur (i, j, k).

67
(No Transcript)
68
Initialisierung SL(i, j, k) SR(i, j, k)
SM(i, j, k) ? für alle i, j,
k außer SL(i, k-1, k) hairpin(i, k-1)
penalty wenn i und k-1 paaren können stem1(i, j)
hairpin(i, j) falls i und j paaren
können stem1(i, j) ? sonst stem2(i, j)
? für alle i, j
69
  • Berechnung der SL Matrix
  • Wenn i und j paaren, kann der Wert in SL(i, j, k)
    auf drei Arten
  • zustandekommen
  • Das Paar (i j) schließt einen Hairpin Loop
  • 2. Das Paar (i j) stackt auf einem Paar (i-1
    j1)
  • 3. Das Paar (i j) schließt zusammen mit einem
    Paar (ip jp) einen Bulge oder einen Internal
    Loop

70
SL(i, j, k) min E1, E2 E1 hairpin(i, j)
stem2(j1, k) E2 minI?i, i4 ?jltjpltk
hairpin(i,j) hairpin(ip, jp) loop(ip, jp, i,
j) SL(ip, jp, k)
71
(No Transcript)
72
Spezialfall Ist stem2(j1, k) ?? ( ?
Substruktur enthält nur einen Hairpin-Loop), dann
folgt E1 hairpin(i,j) penalty
Paaren i und j nicht, werden SL(i, j, k) und
stem1(i, j) wie folgt berechnet
73
  • Berechnung der SR Matrix
  • Wenn j und k paaren, kann der Wert in SL(i, j, k)
    auf drei Arten
  • zustandekommen
  • Das Paar (j k) schließt einen Hairpin Loop
  • 2. Das Paar (j k) stackt auf einem Paar (j1
    k-1)
  • 3. Das Paar (j k) schließt zusammen mit einem
    Paar (jp kp) einen Bulge oder einen Internal
    Loop

74
SR(i, j, k) min E3, E4 E3 hairpin(j, k)
stem1(i, j1) E4 minjltjp, jp4?kpltk
loop(j, k, jp, kp) SL(i, jp, kp)
75
(No Transcript)
76
Spezialfall Ist stem1(i, j1) ?? ( ?
Substruktur enthält nur einen Hairpin-Loop), dann
folgt E3 hairpin(j, k) penalty
Paaren j und k nicht, werden SR(i, j, k) und
stem2(j, k) wie folgt berechnet
77
Berechnung der SM Matrix In der SM Matrix geht
man davon aus, dass weder i mit j, noch j mit
k paaren, auch wenn sie dazu in der Lage wären.
? ? ?
Bei Fall 1.) stem1(i, j) stem1(i-1, j) Bei
Fall 2.) stem1(i, j) stem1(i, j1), stem2(j, k)
stem2(j1, k) Bei Fall 3.) stem2(j, k)
stem2(j, k-1)
78
  • Komplexität
  • Für jedes Paar (I, K) müssen Scores für ?(n³)
    Triplets berechnet werden.
  • Der Score eines Triplets hängt nur von I ab nicht
    von K.
  • Es müssen ?(n³) Scores für jedes I berechnet
    werden
  • ? Zeit ?(n4)
  • Der Speicherplatzbedarf resultiert aus den
    NxNxN-Matrizen
  • ? Speicherplatz ??(n³)

79
Gliederung
  • Einleitung
  • Algorithmus von Akutsu
  • Nearest Neighbour Thermodynamik Regeln
  • Berechnung minimaler Energien von
    RNA-Substrukturen
  • Optimale Energie eines Pseudoknots
  • Analyse des Algorithmus

80
  • Ergebnisse
  • Test mit einer Menge von simplen Pseudoknots aus
    PseudoBase
  • 169 Sequenzen, mit einer Länge zwischen 19 und
    114 Nukleotiden
  • Algorithmus faltet 163 Pseudoknots und 6
    einfache Strukturen
  • 131/163 sind korrekt oder fast korrekt gefaltet
    worden
  • Für 3 der 6 einfachen Strukturen kann die
    Vorhersage, durch Erhöhen der
  • penalty verbessert werden
  • Bei einer der simplen Strukturen ist im
    Pseudoknot der Datenbank ein A-G bp
  • enthalten

81
  • Vergleich mit dem Eddy/Rivas Programm

Eddy/Rivas Deogun/Komina
50 der Pseudoknots erkannt 95 der Pseudoknots erkannt Davon 78 mit korrekter oder fast-korrekter Struktur
Berechnungszeiten 75 Nukleotide ? 55
Sekunden 114 Nukleotide ? 8 Minuten
82
Quellen Akutsu (2000) Dynamic programming
algorithm for RNA secondary structure prediction
with pseudoknots, Discrete Apllied
Mathematics Deogun, Komina et al. (2004) RNA
Secondary Structure Prediction with Simple
Pseudoknots, APBC2004 Holmes (2004) A
probabilistic model for the evolution of RNA
structure, BMC Bioinformatics Mattick (2005)
Das verkannte Genom-Programm, Spektrum der
Wissenschaft (März 05) Thorne, Kishino,
Felsenstein (1991) An evolutionary model for
maximum likelihood alignment of DNA sequences, J
Mol Evol Zuker et al. Algorithms and
thermodynamics for RNA secondary structure
prediction A practical guide, NATO ASI Series
Write a Comment
User Comments (0)
About PowerShow.com