R N A

About This Presentation

Title:

R N A

Description:

Title: RNA Author: admin Last modified by: admin Created Date: 5/29/2005 8:18:43 PM Document presentation format: Bildschirmpr sentation Company: administration – PowerPoint PPT presentation

Number of Views:42

Avg rating:3.0/5.0

Slides: 90

Provided by: adm137

Category:

Tags: structure

more less

Transcript and Presenter's Notes

Title: R N A

1
R N A

Falten Finden

2
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

3
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

4
Sekundärstrukturen und deren Funktion

Ständig wiederkehrende Motive in RNA-Struktur
erkennbar
RNA besteht hauptsächlich aus Kombinationen
dieser Motive
Achtung keine Pseudoknoten berücksichtigt

5
Sekundärstrukturen und deren Funktion

RNA-Sekundärstrukturen wichtig für
Katalyse (Ribozyme)
RNA-Splicing
Regulation der Translation
Interaktionen zwischen Nucleinsäuren
Sekundärstrukturen bestimmen auch die
Tertiärstruktur
? korrekte Sekundärstruktur wichtig für korrekte
Tertiärstruktur
? korrekte Sekundärstruktur wichtig für korrekte
Funktion
Strukturbestimmung experimentell schwierig
Besonders für langkettige Nucleinsäuren
? rechnergestützte Strukturvorhersage extrem
wichtig

6
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

7
Algorithmus - Grundidee

Annahme Faltung nur in bestimmte
Sekundärstrukturelemente
Ansatz verfolgt Minimierung der freien Energie
Energie (U)
Nimmt ab, wenn z.B. Bindungen ausgebildet werden
Entropie (S)
Maß für die Unordnung eines Systems
Nimmt nach 2. Hauptsatz der Thermodynamik zu
Freie Energie (Helmholtz Energie, F) F U TS
Setzt Entropie und Energie in Beziehung

8
Algorithmus - Grundidee

Algorithmus arbeitet in 2 Schritten
Schritt 1
Untersucht bildbare Sekundärstrukturen der
Sequenz (und ihre freie Energie)
Errechnet Zustandssummen für Teilsequenzen
Schritt 2
Errechnet mit Zustandssummen Gibbs-Boltzmann-Verte
ilung (Ws) der Strukturen
Wählt zufällige Kombination von
Sekundärstrukturen aus

1)
2)

--______------_----_--_-_----
Teilergebnisse
Sammlung von Basenpaaren
Sekundärstruktur
9
Algorithmus - Grundidee - Probleme

freien Energie für Sekundärstrukturen nur
approximiert
? durch Änderungen andere Faltungen
wahrscheinlicher
Tertiärstruktur (und Effekte) unberücksichtigt
Struktur mit minimaler freier Energie (MFE) muss
nicht die reale sein
? Realität suboptimal
Aber Algorithmus sucht nicht unbedingt die
wahrscheinlichsten Teilstrukturen aus

10
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

11
Algorithmus Vorgehen (I)

Berechnen der Boltzmann-Statistik
(Gibbs-Boltzmann-Verteilung) einer
Sekundärstruktur I
für eine gegebene Sequenz S
nach
E(S, I) freie Energie der Sekundärstruktur für
diese Sequenz
R Gaskonstante
U Zustandssumme aller zulässigen
Sekundärstrukturen für S
Bedeutung Wahrscheinlichkeit einer bestimmten
Sekundärstruktur für eine gegebene Sequenz unter
Berücksichtigung aller möglichen
Sekundärstrukturen

12
Algorithmus Vorgehen (I) Defs.
Rij
3
5
.. ..
1 i
.. j n

n Anzahl an Ribonukleotiden
Rij Teilsequenz von Nukleotid i bis Nukleotid
j 1 i,j n
rk Nukleotid an Position k, rk ?A, C, G, U
i k j
Iij Sekundärstruktur für Rij, ri und rj paaren
eventuell
IPij Sekundärstruktur für Rij, ri und rj paaren
miteinander

13
Algorithmus Vorgehen (I)
Benötigt in
Erinnerung
Teilsequenz

Zustandssummen für Rij
mit Sekundärstruktur Iij
mit Sekundärstruktur IPij
(i und j gepaart)
E(Rij, x) freie Energie der Sekundärstruktur x
für Rij
R Gaskonstante
T 310,15 K
Rekursive Berechnung durch Algo vom McCaskill

Sek.-Strt.
Sek.-Strt.
14
Algorithmus Vorgehen (I)

Berechnung der u(i, j) bzw. up(i, j)..
Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer
I1n für R1n berechnet werden

Sek.-Strt.
S (Gesamtsequenz)
Genutzt in Schritt 2
15
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

16
Algorithmus Vorgehen (II)
Rij
3
5
.. ..
1 i
.. j n

Rij kann 5 verschiedene Zustände annehmen

17
Algorithmus Vorgehen (II) nötige Variablen(1)

Ws, eine dieser 5 Möglichkeiten zu wählen
(unbekannt, ob ri und rj paaren)

Strafe für Paarung AC bzw. GU
freie Energie für dangling 5
freie Energie für dangling 3
Array mit zuvor berechneten Variablen
Zuerst h variieren, dann zu den Positionen von h
l verändern
18
Algorithmus Vorgehen (II) nötige Variablen(2)

Bekannt, dass ri und rj paaren ? Ws für die 5
möglichen Strukturen

freie Energie eines Hairpin geschlossen von ri
und rj
freie Energie des Stacking-Bp ri und rj
freie Energie eines Bulge bzw. Interior Loop
Möglichkeiten, zwischen h und l einen Bulge bzw.
Interior Loop zu sampeln
19
Algorithmus Vorgehen (II)

Sampeln
berechne die Struktur-Ws für Rij (mit den u(i,j)
aus Schritt 1)
wähle über eine Zufallsvariable gemäß den
berechneten Wahrscheinlichkeiten eine Möglichkeit
Benutzt zwei Stacks
A verwaltet Tupel (i, j, I) (noch zu faltendes
Teilstück)
Sequenz von Nukleotid i bis j
I 1 Nukeotid i und j bilden eine Bindung aus
I 0 unbekannt, ob i und j paaren
B
Wird durch Algorithmus gefüllt
sammelt Basenpaare und ungepaarte Basen
? enthält nötige Informationen für
Sekundärstruktur
Startzustand
A enthält (1, n, 0)

0
1
20
Algorithmus Vorgehen (II)
Erinnerung
A ungefaltete Bereiche
B Bindungsbeziehungen
I 0

1) Start mit R1n (also (1, n, 0) auf Stack A),
Paarung nicht bekannt? bilde die P0, Pij,
Phi, Pil, Ps1h für i 1, j n wähle eine
Möglichkeit
Mögliche Ergebnisse

Keine Paarung, füge ungepaarte Basen von 1 bis n
in Stack B ein
(1, n, 1) in Stack A einfügen
(h, n, 1) in Stack A einfügen ungepaarte Basen 1
bis (h-1) in Stack B einfügen
(1, l, 1) (l1, n, 0) in Stack A einfügen
(h, l, 1) (l1, n, 0) in Stack A
einfügen Ungepaarte Basen von 1 bis (h-1) in
Stack B einfügen
21
Algorithmus Vorgehen (II)
Erinnerung
A ungefaltete Bereiche
B Bindungsbeziehungen
2) Nimm nächstes Tupel (i, j, I) für Rij von
Stack A a) I 0 verfahre wie im letzten
Schritt berechne die P-- b) I 1 i und j
paaren, betrachte die QijH, QijS, QijBI, QijM
Füge die ungepaarten Basen in Stack B ein Füge das schließende Basenpaar in Stack B ein Nimm neues Tupel von Stack A
Füge das Basenpaar ij in Stack B ein Füge (i1, j-1, 1) in Stack A ein Nimm neues Tupel von Stack A
Berechne die QhlBI, i lt h,l, lt j Füge Basenpaar ij und ungepaarte Basen des Loops in Stack B ein Füge (h, l, 1) in Stack A ein Nimm neues Tupel von Stack A
22
Algorithmus Vorgehen (II)
1) Sampel das erste innere Basenpaar (bilde
die P--, wähle Möglichkeit, verfahre entsprechend)
.. ..
2) Sampel das nächste Basenpaar
.. ..
3) Wiederhole 2, bis alle abgearbeitet Nimm neues
Tupel von Stack A
23
Algorithmus Vorgehen(II)
Stack A
Stack B
Für jedes Basenpaar innerhalb des MB-Loop

Sampling im Überblick

Schritt 1 nimm (i, j, I) von A
Stack A leer?
I 0
Sampel Basenpaar
Möglichkeiten der Paarbildung bestimmt
I 1
Sampel Loop
Struktur bestimmt, zu der Basenpaar zugehörig ist
24
Algorithmus Vorgehen(II)

Samling-Schritt arbeitet, bis Stack A leer ist
Stack B enthält Angaben über Paarungen der n
Basen in R1n
? 1 Sekundärstruktur
Wahrscheinlichkeit eines Struktur nimmt
exponentiell mit wachsender freier Energie ab
(bedingt durch Boltzmann-Verteilung)
Mit hoher Wahrscheinlichkeit optimale MFE
Mit relativ hoher Wahrscheinlichkeit gute
(suboptimale) MFE
Mit geringer Wahrscheinlichkeit schlechte MFE
Sinnvoll Sampling-Schritt mehrfach ablaufen
lassen
? statistisch repräsentatives Ergebnis
Konsensus-Struktur

25
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

26
Beispiele Leptomonas collosoma

Faltung der spliced leader RNA (SL RNA) von L.
collosoma
56 nt lang
2 Sekundärstrukturen identifiziert (Funktion
unbekannt)
Vorgehen
Mit Schritt 1 die Ws der Substrukturen berechnet
1000 mal gesampelt
Entstandene Sekundärstrukturen verglichen
Ergebnis
2 generelle Klassen
Klasse 1 mit 3 Unterklassen (A, B, C)
Klasse 2 mit 2 Unterklassen (A, B)

27
Beispiele Leptomonas collosoma

Klasse 1 Alle Unterklassen mit 2 identischen
Helices
1
2

Weitere 2 Helices gemeinsam
Unterschied in Hairpin
Quadratgröße Häufigkeit der Basenpaare in
Samples
mfold(3.1)-Struktur ? MFE-Struktur
28
Beispiele Leptomonas collosoma

Klasse 2 Unterklassen erneut mit 2 identischen
Helices
Unterklasse B mit zusätzlichem Stem am 5-Ende

Quadratgröße Häufigkeit der Basenpaare in
Samples
29
Beispiele Leptomonas collosoma

Repräsentanten der Klasse 1

identisch
mfold(3.1)-Struktur ? MFE-Struktur
Bis auf Fehlen der kurzen Helix mit
mfold-Struktur identisch
Experimentell bestimmte Faltungsart 1
30
Beispiele Leptomonas collosoma

Repräsentanten der Klasse 2

identisch
Experimentell bestimmte Faltungsart 2
31
Beispiele Leptomonas collosoma

Gesamtübersicht Häufigkeiten der Klassen und
deren Repräsentanten

Tatsächliche Faltungsart 1

mfold-Struktur (MFE)

Leicht veränderte mfold-Struktur (suboptimale
MFE)

Tatsächliche Faltungsart 2

? Tatsächliche Strukturen mit geringer Ws
32
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

33
Beispiele Bakteriophage ?

Zwischen-Ergebnis aus Tests mit L.
collosomaAlgo erzeugt viele alternative
Strukturen
Weitere Untersuchung mit Vorhersage von
mRNA-Strukturen
Charakteristische Bereiche der cIII-mRNA des
Bakteriophagen ?
das Startcodon (AUG) (0 bis 3)
die Shine-Dalgarno-Sequenz (-13 bis -7) nötig
zur Translationsinitiierung
Kommt in 2 Konformationen vor
Vorgehen
Sampling-Schritt 100 mal wiederholt
Die 100 erzeugten Strukturen von Hand betrachtet
und charakterisiert

34
Beispiele Bakteriophage ?

Struktur A Shine-Dalgarno-Sequenz und Startcodon
in Sekundärstrukturen keine Translation
Struktur B Shine-Dalgarno-Sequenz und Startcodon
zugänglich Translation möglich

rightmost stem
leftmost stem
middle stem
35
Beispiele Bakteriophage ?

Ergebnis des Samplings
89/100 Strukturen leichte Variationen von
Struktur A
leftmost-Stem in 67/89 exakt vorhergesagt
rightmost-Stem in 72/89 nahezu exakt vorhergesagt
(gelegentlich 2 zusätzliche Paare)
3/100 Strukturen Variationen von Struktur B
zusätzliche Helix in SD-Sequenz enthalten
8 Strukturen, die weder an A noch an B erinnern

rightmost stem
leftmost stem
middle stem
36
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

37
Beispiele - Auswertung

Algorithmus erzeugt leicht suboptimale Faltungen,
die nahe der MFE liegen
ABER suboptimale Faltung ist nicht gleich
tatsächlicher (suboptimaler) Faltung
Erklärung der Autoren unbekannte Einflüsse der
Tertiärstruktur für verantwortlich für Stabilität
Besser geeignet zur Faltung von mRNA als für
funktionelle RNA (z.B. spliced leader)

38
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

39
Probability Profiling

Einzelsträngige (ungepaarte) RNA-Regionen
interagieren potentiell mit
DNA
RNA
Proteinen (z.B. in Translation)
Vorhersage dieser accessible sites mit dem
Sampling-Teil des Algorithmus
Erstellen von Probability Profiles (Diagramme)
der Weite W (in Nukleotiden)
An Position i wird die Ws aufgetragen, dass die
Nukleotide i bis i(W-1) ungepaart sind(ergibt
sich aus Multiplikation der Einzelwahrscheinlichke
iten (aus Statistik))
Zum Vergleich ss-count Statistik, in wieviel
Prozent aller erzeugten Faltungen Base i
ungepaart war

40
Probability Profiling - Beispiel

mRNA Homo sapiens ?-Glutamyl-Hydrolase
Nukleotide 0 60

41
Probability Profiling - Beispiel

mRNA Homo sapiens ?-Glutamyl-Hydrolase
Nukleotide 1261 1322

42
Probability Profiling - Ergebnis

MFE-Struktur gibt für Vorhersage von accessible
sites keine Hinweise
Da nur 1 Struktur die MFE-Struktur ist
Binäre Entscheidung in 1 Struktur ist Base in
Basenpaar oder nicht
ss-count betrachtet nur Statistik eines
Nukleotids, keine Aussage über nachfolgende
Probability Profile verlässlichste Aussage der 3
Möglichkeiten
da Ws der nachfolgenden Paarungen berücksichtigt

43
Probability Profiling für Loops

Bisher nur berücksichtig ob gepaart oder
ungepaart
Sampling-Schritt gibt aber mit zurück, in welchem
Loop-Typ sie enthalten sind
? Probability Profiling für bestimmte Loops
möglich

44
Probability Profiling für Loops

Loop-Probability-Profiles für Escherichia coli
Alanin-tRNA

Hairpin
Bulge
External
Internal
Multi
Multi
dangling-3-Ende aus Nukleotiden
Kleeblattstruktur der tRNA
Enthält keine Bulges oder Internal Loops ? dort
keine Peaks
16 der gesampelten Strukturen haben einen
einzelsträngigen Bereich, der zwei gefaltete
Domänen vebrindet
45
Probability Profiling für Loops

Weitere Bedeutung des Hairpin-Loop-Profiles
Höchster Peak ? konserviertester Loop
HPlot-Ws der Basen des Anticodon-Loops
G34 0,968
G35 0,961
C36 0,962
? Selbst wenn sich die restliches Strukturnicht
zum Kleeblatt faltet, bleibt dieseaccessible
site erhalten
Untersuchung weiterer tRNAs interessant, aber
schwierig, da modifizierte Basen vorhanden

46
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

47
Probability Profiling für Accessibility Plots

Probability Profiles geben Differenzierung
zwischen gebunden / einzelsträngig
Nucleinsäuren müssen einzelsträngig sein, um zu
interagieren
Probability Profiles überlagern, um Interaktion
vorherzusagen

Target Homo sapiens ?-Glutamyl-Hydrolase mRNA
Antisense insgesamt 1233 nt
Gute Zugänglichkeit zwischen 730 und 750 (target)
Zugängliche Bereiche müssen nicht an gleichen
Stellen liegen
Sollten aber gleich lang sein

48
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

49
Sampelgröße

Standardgröße 1000 repräsentativ!
Beispiel Homo sapiens ?-Glutamyl-Hydrolase mRNA
1187 nt ? 10303 Sekundärstrukturen (Vergleich
1080 Atome im Universum)
2 Sammlungen von 1000 Samples erstellt
Für jede Sammlung ein Histogramm
erstelltHistogramme sind identisch
Probability Profiles erstelltnahezu
deckungsgleich
Aber keine einzige Struktur kommt doppelt vor

50
Samplegröße - Histogramme
51
Samplegröße - Probability Profiles
52
Übersicht

RNA falten
Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence
Grundidee
Vorgehen Schritt 1
Vorgehen Schritt 2
Beispiele
Leptomonas collosoma
Bakteriophage ?
Auswertung
Probability Profiling
Accessibility Plots
Samplegröße
Sfold
RNA finden

53
Sfold

Algorithmus integriert in Paket Sfold
Erhältlich z.B. über sfold.wadsworth.org
Laufzeit des Algo O(n³)
Vergleich Eddy/Rivas O(n6)
Reeder/Giegerich O(n4)
Aber dafür mit Pseudoknoten

Sequenz Länge (nt) Zeit (sek) Speicher (MB)
E. coli tRNAAla 76 1,48 14,6
H. sapiens BCRP mRNA 2418 3.505,86 149,2
H. sapiens ESR mRNA 6450 92.995,25 969,1
Vergleich von Rechenzeit und Speicherverbrauch
beim Berechnen der Zustandssummen und
anschließendem Sampeln von 1000 Strukturen
54
Übersicht

RNA falten
RNA finden
Motivation und Ansätze
Modelle
Prinzip
Parameterschätzung
Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen

55
Übersicht

RNA falten
RNA finden
Motivation und Ansätze
Modelle
Prinzip
Parameterschätzung
Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen

56
Motivation Ansätze

Gefaltete RNA funktionell bedeutsam
Steuerung der eigenen Translation
Funktion als tRNA
Ribozyme
Nicht alle RNA wird wie mRNA translatiert
Nicht alle Gene auf DNA codieren für Proteine
Einige kodieren auch für funktionelle nicht
kodierende RNA (ncRNA)
Ziel Gene auf DNA erkennen, die für ncRNA
kodieren
Problem entsprechende Gene bisher nicht
einheitlich charakterisierbar

57
Motivation Ansätze

Maizel 1988
Sekundärstruktur bestimmt Funktion
Funktionelle RNA muss also stabile
Sekundärstruktur haben
Stabil Minimum der freien Energie
Ergebnis Faltungsvorhersage weniger divers
Ergebnisse enttäuschend
Badger Olsen 1999
Anderes Gebiet Identifizierung von codierenden
Regionen in Bakterien
Arbeitet mit Alignments von Sequenzen
Nutzen BLASTN um Sequenzidentität zwischen 2
Species zu bestimmen
Programm CRITICA untersucht Mutationsmuster der
gaplosen Bereiche
Mutationen, die AS nicht verändern (synonym)
Score
Mutationen, die AS verändern - Score

58
Motivation Ansätze

Rivas Eddy 2001
Aufbauend auf Idee von Badger Olsen
Erweiterungen Probabilistisches Modell (Aussage
mit Ws)
dritter zusätzlicher Zustand (funktionelle
RNA)
Alignments mit Gaps zugelassen
Alignment nur teilweise relevant (irrelevante
Flanken möglich)
Ziel gegebene Sequenz klassifizieren in
Kodierend für Proteine
kodierend für ncRNA
Andere Bereiche
Ansatz findet ncRNA mit konservierter Struktur
Probleme
Manche bekannte ncRNA-Gene nicht konserviert
Manche konservierte Bereiche nicht ncRNA-Gene
ncRNA-Gen beschreibt Bereich mit konservierter
Struktur, Funktionalität muss untersucht werden

59
Motivation Ansätze

Eingabe eines Alignments zweier verwandter Genome
(DNA-Sequenzen)
Analyse der beobachteten Mutationen
Kodierend Synonyme Mutationen (gleiche AS
kodiert)
Funktionell kompensierend, Struktur erhalten
Keins zufällige Mutation
Analyse
Jeder Fall 1 Modell, das entsprechende Sequenzen
baut
Nachbau des Alignments mit den 3 Modellen
Ausgabe der Ws, dass Alignment einem Modell
enstpringt
Modell mit höchster Ws gewinnt

AGTGCTAGCT
GATGCTAGCT
ncRNA?
60
Übersicht

RNA falten
RNA finden
Motivation und Ansätze
Modelle
Prinzip
Parameterschätzung
Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen

61
Modelle - Prinzip

OTH (weder kodierend noch funktionell)
pair-HMM
16 verschiedene Parameter pOTH(a,b) Ws(a in
Seq X, b in Seq Y)
Wahrscheinlichkeit des Alignments Produkt der Ws
der alignierten Positionen

HMM
pair-HMM
GTTAACTGAGTAACG
x x x x
GTTAACTGAGTAACG
GCAAGCTGAGTTACG
62
Modelle - Prinzip

COD (Gen kodierend für Proteine)
pair-HMM
Alignierte Sequenzen sollten für gleiches Protein
kodieren
Synonyme Mutationen, AS-Sequenz unverändert
64 64 Parameter pCOD(a1a2a3, b1b2b3)
Emission erfolgt Codon für Codon
Gleichzeitig a1a2a3 in Sequenz X
b1b2b3 in Sequenz Y
Ws des Alignments für einen Reading-Frame
Produkt der Doppel-Codon-Ws
Richtiger Reading-Frame nicht bekannt
Ws des Alignments

1 Ereignis
Sequenz X
GGT
GGA
Sequenz Y
G
f Frame P(fCOD) 1/6
63
Modelle - Prinzip

RNA (Gen kodierend für ncRNA)
pair Stochastic Context Free Grammar (pSCFG)
Mutation ändert Sekundärstruktur nicht
Von gleichen Positionen zu gleichen Positionen
Watson-Crick-Paarung möglich
Abschnitte in Sek-Struktur 16 16
Parameter pRNA(aLaR, bLbR)
Ws (Emission eines Basenpaars in X, homologes
Basenpaar in Y)
Ungepaarte Abschnitte 4 4 Parameter pRNA(a,
b)
Analog zu OTH-Modell
Ws für ein Alignment mit Struktur s Produkt aus
pRNA(xixj, yiyj) für gepaarten Positionen i,j
pRNA(xk, yk) für einzelsträngige Positionen k
Richtige Struktur nicht bekannt
Ws des Alignments

p
u
v
TTGTTCGAAAGAACG
TTGACCGAAAGGTCG
s Sekundärstruktur
64
Modelle - Prinzip

Problem bei RNA-Modell
In COD-Modell alle Frames gleich wahrscheinlich
Gilt nicht für Sek-Strukturen in RNA-Modell
P(sRNA) muss für jedes s berechnet werden
Gelöst durch früheren Algorithmus von Rivas und
Eddy
Viertes Modell (IID)
Erzeugt unabhängige Sequenzen
8 Parameter pX(a) pY(b)
Klassifikation durch Likelihoods
Wahrscheinlichkeit des Modells gegeben die Daten
Bayessche-Posteriori-Ws berechnet a priori alle
3 Modelle gleich wahrscheinlich
Hohe RNA-posteriori-Ws Alignment Kandidat für
ncRNA-Gene
Beurteilung der Güte der Aussage durch
log-odds-Score

65
Übersicht

RNA falten
RNA finden
Motivation und Ansätze
Modelle
Prinzip
Parameterschätzung
Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen

66
Modelle - Parameterschätzung

4392 Emission-Ws zu bestimmen
Ideal Trainings-Sets aus Alignments von
Real existierenden RNAs
Kodierende Genomregionen
Konservierte nicht kodierende Regionen
Keine genügend großen Trainings-Sets verfügbar
Mit zufällig erzeugten Sequenzen
Sequenzen erzeugen
Mit Werten aus AS-Substitutionsmatrizen
(BLOSUM62) Codon-Ws errechnen (pCOD)
Daraus Nucleotid-Substitutions-Ws des OTH-Modells
errechnen
OTH-Ws mit Basenpaarhäufigkeiten kombinieren ?
RNA-Ws
48 Transitions-Ws
von Hand erzeugt Modelle generieren Sequenzen,
mit realen verglichen
Suboptimale Methode, bisher aber keine Alternative

67
Übersicht

RNA falten
RNA finden
Motivation und Ansätze
Modelle
Prinzip
Parameterschätzung
Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen

68
Modelle - Piktogramme

IID-Modell erzeugt 2 unabhängige Sequenzen

X
Emittiert in Seq. X
F
S
K
T
Y
Emittiert in Seq. Y
69
Modelle - Piktogramme

OTH-Modell erlaubt lokale Alignments zwischen 2
Sequenzen

X
X emittiert in X, Gap in Y XY emittiert in X
und Y Y emittiert in Y, Gap in X
FL
FR
B
XY
E
Y
F Flanking States
FJ
O
70
Modelle - Piktogramme

COD-Modell Alignment kodierender Bereiche
eingebettet in unabhängige Bereiche
Neuer Typ von Zuständen COD
Ermöglichen indels (Insertionen oder
Deletionen)
Kompensieren Verlust durch Shotgun-Sequenzierung
BLASTN (positions-unabhängig)
Emission von ungleichen (und überzähligen)
AS-Anzahlen
Exemplarische Angabe der entsprechenden Ws

C(3,3)
C(3,2) 3 verschiedene Zustände
C(3,4) 4 verschiedene Zustände
C(3,0)
Alle Möglichkeiten p?,?(a1a?,b1b?) ?,? ?
0,2,3,4 a,b ?A,C,G,U
71
Modelle - Piktogramme

COD-Modell Alignment kodierender Bereiche
eingebettet in unabhängige Bereiche

C(3,0)
OB
B
E
OE
C(0,3)
OJ
72
Modelle - Piktogramme

RNA-Modell erzeugt ncRNA-Gene eingebettet in
unabhängige Bereiche
Grammatik hat 3 verschiedene Zustände
(nicht-Terminale)
V Sequenzfragment, dessen Enden sicher gepaart
sind
W Sequenzfragment, dessen Enden eventuell
gepaart sind
WB wie W, wird nur benutzt, um Multi-Loops zu
starten

2 Arten von Emissionswahrscheinlichkeiten

aL.aR
bL.bR
WB identisch
Emission ja/nein
Emission von gepaarten Nukleotiden in beide
Sequenzen
Nukleotid-Vektor
Emission von ungepaarten Nukleotiden
Erzeugen Gaps im Alignment
73
Modelle - Piktogramme

RNA-Modell erzeugt ncRNA-Gene eingebettet in
unabhängige Bereiche

RNA
OB
OE
OJ
74
Übersicht

RNA falten
RNA finden
Motivation und Ansätze
Modelle
Prinzip
Parameterschätzung
Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen

75
Algorithmus - Vorgehen

Eingabe paarweises Sequenz-Alignment von L
alignierten Paaren
Scoring des Alignments
OTH, COD (HMM) Viterbi/Forward Speicher
O(L) Zeit O(L)
RNA (SCFG) CYK/Inside Speicher O(L²) Zeit
O(L³)
Für jedes Modell Ws, dass Alignment von Modell
generiert wurde
Alignment Klassifizieren (Bayessche-Posteriori-Ws
)
Annahme P(Modeli) sind gleich

Ws der Klasse bei gegebenem Alignment
Ws des Alignments bei verwendetem Modell
Ws des Modells
Ws des Alignments
76
Algorithmus - Ergebnis

Bilden von log-odds-Score zur Gütebeurteilung
ld ( beobachtet / erwartet )
Aussage darüber, wie nahe Erwartung an
beobachtetem Ereignis ist
Annahme weder für Proteine noch ncRNA kodierend
Log-odds-Score von COD und RNA zu OTH bilden
2 Werte, als Koordinaten in Diagramm
Diagramm-Repräsentation der Information(Phase
Diagram)
3 verschiedene Fälle
y gt x y gt 0 ? RNA
x gt y x gt 0 ? COD
x lt 0 y lt 0 ? OTH

77
Übersicht

RNA falten
RNA finden
Motivation und Ansätze
Modelle
Prinzip
Parameterschätzung
Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen

78
Tests und Ergebnisse

Tests mit simulierten Daten
Sinn Daten im Voraus eindeutig klassifiziert,
Leistungsfähigkeit beurteilbar
Jedes der 3 Modelle (OTH, RNA, COD) generiert
1000 200nt lange Alignments
Alle 300 Alignments durch Algorithmus bewertet
und klassifiziert
Klassifizierung soll auf Mutationsmuster beruhen,
nicht auf Sequenzidentität oder Gap-Häufigkeit
Spalten der Alignments zufällig neu
zusammengesetzt
Sequenzidentität und Anzahl der Gaps
beibehaltenMutationsmuster, das Veränderung
erklärt hat, zerstört
Darstellung in Phase-Diagrams

79
Tests und Ergebnisse

Phase-Diagram der durch COD-erzeugten Alignments

RNA
OTH
COD
blau Klassifizierung der original
Alignments rot Klassifizierung nach Shuffling
80
Tests und Ergebnisse

Phase-Diagramm der durch RNA erzeugten Alignments

RNA
OTH
COD
blau Klassifizierung der original
Alignments rot Klassifizierung nach Shuffling
81
Tests und Ergebnisse

Phase-Diagramm der durch OTH erzeugten Alignments

RNA
OTH
COD
blau Klassifizierung der original
Alignments rot Klassifizierung nach Shuffling
82
Tests und Ergebnisse

Tests an simulierten Genomen
Sinn Untersuchen der Tendenz zu false
Positives, wenn COD und OTH dominieren
Erzeugen von 2 Pseudobakteriengenomen ohne
funktionelle RNA
Länge 2 Megabasen
Länge kodierender Regionen normalverteilt um
900nt
Länge nichtkodierender Regionen normalverteilt
um 100nt
90 kodierend
GC-Gehalt 1) 38,90
2) 47,25
3) 57,70
Anzahl der false Positives
1) 8
2) 14
3) 21
Erneute Analyse von Genomsatz 3 mit neuem
Parametersatz 1 false Positive
Sensitivität sinkt mit steigendem GC-Gehalt, kann
angepasst werden

83
Tests und Ergebnisse

Tests an realen Genomen
Sinn Test unter realistischen Bedingungen
Analyse der Genome von Escherichia coli und
Salmonella typhi (eng verwandt)
Bekannt 115 RNA-Gene (22 rRNAs, 86 tRNAs, 7
andere) 4290 kodierende Gene
Genom aufgeteilt in 3 Bereiche 115 RNA-Features
(1 des Genoms) 4290 ORF-Features (88 des
Genoms) 2367 intergene Sequenzen (11 des
Genoms)
Jede der 3 Sammlungen gegen Salmonella typhi
aligniert, bewertet

84
Tests und Ergebnisse
ncRNAs ORFs
vorhanden 115 4290
In Alignments (gt50nt, E lt 0,01) 33 3181
erkannt als RNA 33 20
erkannt als COD - 2876
erkannt von alignierten 100 90,4
erkannt von gesamt 28,6 67

Problem Blast lieferte nicht ausreichend viele
signifikante Alignments
Von alignierten Sequenzen Großteil erkannt

85
Übersicht

RNA falten
RNA finden
Motivation und Ansätze
Modelle
Prinzip
Parameterschätzung
Piktogramme
Algorithmus
Tests und Ergebnisse
Einsatz und Verbesserung

86
Einsatz Verbesserung

Anwendungsgebiete
Erkennen von Kandidaten für ncRNA positiv
identifizierte Regionen weiter untersuchen
Erkennen von für Proteine kodierende Regionen
Fehlerquellen und Verbesserungen
Modelle für fixe evolutionäre Distanz (BLOSUM 62)
passt nicht auf alle eingegebenen Daten
BLASTN zum Alignieren von positionsunabhängig
evolvierten SequenzenAlignment mit
Sankoff-Algorithmus sehr teuer Zeit O(L6),
Speicher O(L4)
Training mit zufällig erzeugten Daten nicht
optimaltrainiertes System scheint RNA-Modell zu
favorisieren
Verfahren sucht nach konservierter
Sekundärstrukturkann keine ncRNA erkennen, die
nur sehr wenige Sekundärstrukturen ausbildet
Fehlklassifizierung von mRNA mit stark
ausgebildeter Sekundärstrukturz.B. zur
Translationskontrolle

87
Übersicht

RNA falten
RNA finden
Quellen

88
Quellen

A statistical sampling algorithm for RNA
secondary structure prediction Nucleic Acids
Research 31(24) S.7280-7301 Ding, Ye,Lawrence,
Charles E. 2003
Noncoding RNA gene detection using comparative
sequence analysis BMC Bioinformatics 2(8) Eddy,
Sean R.,Rivas, Elena 2001

89
?

Write a Comment

User Comments (0)

About PowerShow.com

R N A - PowerPoint PPT Presentation

R N A

Title: RNA Author: admin Last modified by: admin Created Date: 5/29/2005 8:18:43 PM Document presentation format: Bildschirmpr sentation Company: administration – PowerPoint PPT presentation