R N A - PowerPoint PPT Presentation

1 / 89
About This Presentation
Title:

R N A

Description:

Title: RNA Author: admin Last modified by: admin Created Date: 5/29/2005 8:18:43 PM Document presentation format: Bildschirmpr sentation Company: administration – PowerPoint PPT presentation

Number of Views:42
Avg rating:3.0/5.0
Slides: 90
Provided by: adm137
Category:
Tags: structure

less

Transcript and Presenter's Notes

Title: R N A


1
R N A
  • Falten Finden

2
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

3
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

4
Sekundärstrukturen und deren Funktion
  • Ständig wiederkehrende Motive in RNA-Struktur
    erkennbar
  • RNA besteht hauptsächlich aus Kombinationen
    dieser Motive
  • Achtung keine Pseudoknoten berücksichtigt

5
Sekundärstrukturen und deren Funktion
  • RNA-Sekundärstrukturen wichtig für
  • Katalyse (Ribozyme)
  • RNA-Splicing
  • Regulation der Translation
  • Interaktionen zwischen Nucleinsäuren
  • Sekundärstrukturen bestimmen auch die
    Tertiärstruktur
  • ? korrekte Sekundärstruktur wichtig für korrekte
    Tertiärstruktur
  • ? korrekte Sekundärstruktur wichtig für korrekte
    Funktion
  • Strukturbestimmung experimentell schwierig
  • Besonders für langkettige Nucleinsäuren
  • ? rechnergestützte Strukturvorhersage extrem
    wichtig

6
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

7
Algorithmus - Grundidee
  • Annahme Faltung nur in bestimmte
    Sekundärstrukturelemente
  • Ansatz verfolgt Minimierung der freien Energie
  • Energie (U)
  • Nimmt ab, wenn z.B. Bindungen ausgebildet werden
  • Entropie (S)
  • Maß für die Unordnung eines Systems
  • Nimmt nach 2. Hauptsatz der Thermodynamik zu
  • Freie Energie (Helmholtz Energie, F) F U TS
  • Setzt Entropie und Energie in Beziehung

8
Algorithmus - Grundidee
  • Algorithmus arbeitet in 2 Schritten
  • Schritt 1
  • Untersucht bildbare Sekundärstrukturen der
    Sequenz (und ihre freie Energie)
  • Errechnet Zustandssummen für Teilsequenzen
  • Schritt 2
  • Errechnet mit Zustandssummen Gibbs-Boltzmann-Verte
    ilung (Ws) der Strukturen
  • Wählt zufällige Kombination von
    Sekundärstrukturen aus

1)
2)

--______------_----_--_-_----
Teilergebnisse
Sammlung von Basenpaaren
Sekundärstruktur
9
Algorithmus - Grundidee - Probleme
  • freien Energie für Sekundärstrukturen nur
    approximiert
  • ? durch Änderungen andere Faltungen
    wahrscheinlicher
  • Tertiärstruktur (und Effekte) unberücksichtigt
  • Struktur mit minimaler freier Energie (MFE) muss
    nicht die reale sein
  • ? Realität suboptimal
  • Aber Algorithmus sucht nicht unbedingt die
    wahrscheinlichsten Teilstrukturen aus

10
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

11
Algorithmus Vorgehen (I)
  • Berechnen der Boltzmann-Statistik
    (Gibbs-Boltzmann-Verteilung) einer
  • Sekundärstruktur I
  • für eine gegebene Sequenz S
  • nach
  • E(S, I) freie Energie der Sekundärstruktur für
    diese Sequenz
  • R Gaskonstante
  • U Zustandssumme aller zulässigen
    Sekundärstrukturen für S
  • Bedeutung Wahrscheinlichkeit einer bestimmten
    Sekundärstruktur für eine gegebene Sequenz unter
    Berücksichtigung aller möglichen
    Sekundärstrukturen

12
Algorithmus Vorgehen (I) Defs.
Rij
3
5
.. ..
1 i
.. j n
  • n Anzahl an Ribonukleotiden
  • Rij Teilsequenz von Nukleotid i bis Nukleotid
    j 1 i,j n
  • rk Nukleotid an Position k, rk ?A, C, G, U
    i k j
  • Iij Sekundärstruktur für Rij, ri und rj paaren
    eventuell
  • IPij Sekundärstruktur für Rij, ri und rj paaren
    miteinander

13
Algorithmus Vorgehen (I)
Benötigt in
Erinnerung
Teilsequenz
  • Zustandssummen für Rij
  • mit Sekundärstruktur Iij
  • mit Sekundärstruktur IPij
  • (i und j gepaart)
  • E(Rij, x) freie Energie der Sekundärstruktur x
    für Rij
  • R Gaskonstante
  • T 310,15 K
  • Rekursive Berechnung durch Algo vom McCaskill

Sek.-Strt.
Sek.-Strt.
14
Algorithmus Vorgehen (I)
  • Berechnung der u(i, j) bzw. up(i, j)..
  • Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer
    I1n für R1n berechnet werden

Sek.-Strt.
S (Gesamtsequenz)
Genutzt in Schritt 2
15
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

16
Algorithmus Vorgehen (II)
Rij
3
5
.. ..
1 i
.. j n
  • Rij kann 5 verschiedene Zustände annehmen

17
Algorithmus Vorgehen (II) nötige Variablen(1)
  • Ws, eine dieser 5 Möglichkeiten zu wählen
    (unbekannt, ob ri und rj paaren)

Strafe für Paarung AC bzw. GU
freie Energie für dangling 5
freie Energie für dangling 3
Array mit zuvor berechneten Variablen
Zuerst h variieren, dann zu den Positionen von h
l verändern
18
Algorithmus Vorgehen (II) nötige Variablen(2)
  • Bekannt, dass ri und rj paaren ? Ws für die 5
    möglichen Strukturen

freie Energie eines Hairpin geschlossen von ri
und rj
freie Energie des Stacking-Bp ri und rj
freie Energie eines Bulge bzw. Interior Loop
Möglichkeiten, zwischen h und l einen Bulge bzw.
Interior Loop zu sampeln
19
Algorithmus Vorgehen (II)
  • Sampeln
  • berechne die Struktur-Ws für Rij (mit den u(i,j)
    aus Schritt 1)
  • wähle über eine Zufallsvariable gemäß den
    berechneten Wahrscheinlichkeiten eine Möglichkeit
  • Benutzt zwei Stacks
  • A verwaltet Tupel (i, j, I) (noch zu faltendes
    Teilstück)
  • Sequenz von Nukleotid i bis j
  • I 1 Nukeotid i und j bilden eine Bindung aus
    I 0 unbekannt, ob i und j paaren
  • B
  • Wird durch Algorithmus gefüllt
  • sammelt Basenpaare und ungepaarte Basen
  • ? enthält nötige Informationen für
    Sekundärstruktur
  • Startzustand
  • A enthält (1, n, 0)

0
1
20
Algorithmus Vorgehen (II)
Erinnerung
A ungefaltete Bereiche
B Bindungsbeziehungen
I 0
  • 1) Start mit R1n (also (1, n, 0) auf Stack A),
    Paarung nicht bekannt? bilde die P0, Pij,
    Phi, Pil, Ps1h für i 1, j n wähle eine
    Möglichkeit
  • Mögliche Ergebnisse

Keine Paarung, füge ungepaarte Basen von 1 bis n
in Stack B ein
(1, n, 1) in Stack A einfügen
(h, n, 1) in Stack A einfügen ungepaarte Basen 1
bis (h-1) in Stack B einfügen
(1, l, 1) (l1, n, 0) in Stack A einfügen
(h, l, 1) (l1, n, 0) in Stack A
einfügen Ungepaarte Basen von 1 bis (h-1) in
Stack B einfügen
21
Algorithmus Vorgehen (II)
Erinnerung
A ungefaltete Bereiche
B Bindungsbeziehungen
2) Nimm nächstes Tupel (i, j, I) für Rij von
Stack A a) I 0 verfahre wie im letzten
Schritt berechne die P-- b) I 1 i und j
paaren, betrachte die QijH, QijS, QijBI, QijM
Füge die ungepaarten Basen in Stack B ein Füge das schließende Basenpaar in Stack B ein Nimm neues Tupel von Stack A
Füge das Basenpaar ij in Stack B ein Füge (i1, j-1, 1) in Stack A ein Nimm neues Tupel von Stack A
Berechne die QhlBI, i lt h,l, lt j Füge Basenpaar ij und ungepaarte Basen des Loops in Stack B ein Füge (h, l, 1) in Stack A ein Nimm neues Tupel von Stack A
22
Algorithmus Vorgehen (II)
1) Sampel das erste innere Basenpaar (bilde
die P--, wähle Möglichkeit, verfahre entsprechend)
.. ..
2) Sampel das nächste Basenpaar
.. ..
3) Wiederhole 2, bis alle abgearbeitet Nimm neues
Tupel von Stack A
23
Algorithmus Vorgehen(II)
Stack A
Stack B
Für jedes Basenpaar innerhalb des MB-Loop
  • Sampling im Überblick

Schritt 1 nimm (i, j, I) von A
Stack A leer?
I 0
Sampel Basenpaar
Möglichkeiten der Paarbildung bestimmt
I 1
Sampel Loop
Struktur bestimmt, zu der Basenpaar zugehörig ist
24
Algorithmus Vorgehen(II)
  • Samling-Schritt arbeitet, bis Stack A leer ist
  • Stack B enthält Angaben über Paarungen der n
    Basen in R1n
  • ? 1 Sekundärstruktur
  • Wahrscheinlichkeit eines Struktur nimmt
    exponentiell mit wachsender freier Energie ab
    (bedingt durch Boltzmann-Verteilung)
  • Mit hoher Wahrscheinlichkeit optimale MFE
  • Mit relativ hoher Wahrscheinlichkeit gute
    (suboptimale) MFE
  • Mit geringer Wahrscheinlichkeit schlechte MFE
  • Sinnvoll Sampling-Schritt mehrfach ablaufen
    lassen
  • ? statistisch repräsentatives Ergebnis
  • Konsensus-Struktur

25
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

26
Beispiele Leptomonas collosoma
  • Faltung der spliced leader RNA (SL RNA) von L.
    collosoma
  • 56 nt lang
  • 2 Sekundärstrukturen identifiziert (Funktion
    unbekannt)
  • Vorgehen
  • Mit Schritt 1 die Ws der Substrukturen berechnet
  • 1000 mal gesampelt
  • Entstandene Sekundärstrukturen verglichen
  • Ergebnis
  • 2 generelle Klassen
  • Klasse 1 mit 3 Unterklassen (A, B, C)
  • Klasse 2 mit 2 Unterklassen (A, B)

27
Beispiele Leptomonas collosoma
  • Klasse 1 Alle Unterklassen mit 2 identischen
    Helices
  • 1
  • 2

Weitere 2 Helices gemeinsam
Unterschied in Hairpin
Quadratgröße Häufigkeit der Basenpaare in
Samples
mfold(3.1)-Struktur ? MFE-Struktur
28
Beispiele Leptomonas collosoma
  • Klasse 2 Unterklassen erneut mit 2 identischen
    Helices
  • Unterklasse B mit zusätzlichem Stem am 5-Ende

Quadratgröße Häufigkeit der Basenpaare in
Samples
29
Beispiele Leptomonas collosoma
  • Repräsentanten der Klasse 1

identisch
mfold(3.1)-Struktur ? MFE-Struktur
Bis auf Fehlen der kurzen Helix mit
mfold-Struktur identisch
Experimentell bestimmte Faltungsart 1
30
Beispiele Leptomonas collosoma
  • Repräsentanten der Klasse 2

identisch
Experimentell bestimmte Faltungsart 2
31
Beispiele Leptomonas collosoma
  • Gesamtübersicht Häufigkeiten der Klassen und
    deren Repräsentanten
  • Tatsächliche Faltungsart 1
  • mfold-Struktur (MFE)
  • Leicht veränderte mfold-Struktur (suboptimale
    MFE)
  • Tatsächliche Faltungsart 2

? Tatsächliche Strukturen mit geringer Ws
32
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

33
Beispiele Bakteriophage ?
  • Zwischen-Ergebnis aus Tests mit L.
    collosomaAlgo erzeugt viele alternative
    Strukturen
  • Weitere Untersuchung mit Vorhersage von
    mRNA-Strukturen
  • Charakteristische Bereiche der cIII-mRNA des
    Bakteriophagen ?
  • das Startcodon (AUG) (0 bis 3)
  • die Shine-Dalgarno-Sequenz (-13 bis -7) nötig
    zur Translationsinitiierung
  • Kommt in 2 Konformationen vor
  • Vorgehen
  • Sampling-Schritt 100 mal wiederholt
  • Die 100 erzeugten Strukturen von Hand betrachtet
    und charakterisiert

34
Beispiele Bakteriophage ?
  • Struktur A Shine-Dalgarno-Sequenz und Startcodon
    in Sekundärstrukturen keine Translation
  • Struktur B Shine-Dalgarno-Sequenz und Startcodon
    zugänglich Translation möglich

rightmost stem
leftmost stem
middle stem
35
Beispiele Bakteriophage ?
  • Ergebnis des Samplings
  • 89/100 Strukturen leichte Variationen von
    Struktur A
  • leftmost-Stem in 67/89 exakt vorhergesagt
  • rightmost-Stem in 72/89 nahezu exakt vorhergesagt
    (gelegentlich 2 zusätzliche Paare)
  • 3/100 Strukturen Variationen von Struktur B
  • zusätzliche Helix in SD-Sequenz enthalten
  • 8 Strukturen, die weder an A noch an B erinnern

rightmost stem
leftmost stem
middle stem
36
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

37
Beispiele - Auswertung
  • Algorithmus erzeugt leicht suboptimale Faltungen,
    die nahe der MFE liegen
  • ABER suboptimale Faltung ist nicht gleich
    tatsächlicher (suboptimaler) Faltung
  • Erklärung der Autoren unbekannte Einflüsse der
    Tertiärstruktur für verantwortlich für Stabilität
  • Besser geeignet zur Faltung von mRNA als für
    funktionelle RNA (z.B. spliced leader)

38
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

39
Probability Profiling
  • Einzelsträngige (ungepaarte) RNA-Regionen
    interagieren potentiell mit
  • DNA
  • RNA
  • Proteinen (z.B. in Translation)
  • Vorhersage dieser accessible sites mit dem
    Sampling-Teil des Algorithmus
  • Erstellen von Probability Profiles (Diagramme)
    der Weite W (in Nukleotiden)
  • An Position i wird die Ws aufgetragen, dass die
    Nukleotide i bis i(W-1) ungepaart sind(ergibt
    sich aus Multiplikation der Einzelwahrscheinlichke
    iten (aus Statistik))
  • Zum Vergleich ss-count Statistik, in wieviel
    Prozent aller erzeugten Faltungen Base i
    ungepaart war

40
Probability Profiling - Beispiel
  • mRNA Homo sapiens ?-Glutamyl-Hydrolase
  • Nukleotide 0 60

41
Probability Profiling - Beispiel
  • mRNA Homo sapiens ?-Glutamyl-Hydrolase
  • Nukleotide 1261 1322

42
Probability Profiling - Ergebnis
  • MFE-Struktur gibt für Vorhersage von accessible
    sites keine Hinweise
  • Da nur 1 Struktur die MFE-Struktur ist
  • Binäre Entscheidung in 1 Struktur ist Base in
    Basenpaar oder nicht
  • ss-count betrachtet nur Statistik eines
    Nukleotids, keine Aussage über nachfolgende
  • Probability Profile verlässlichste Aussage der 3
    Möglichkeiten
  • da Ws der nachfolgenden Paarungen berücksichtigt

43
Probability Profiling für Loops
  • Bisher nur berücksichtig ob gepaart oder
    ungepaart
  • Sampling-Schritt gibt aber mit zurück, in welchem
    Loop-Typ sie enthalten sind
  • ? Probability Profiling für bestimmte Loops
    möglich

44
Probability Profiling für Loops
  • Loop-Probability-Profiles für Escherichia coli
    Alanin-tRNA

Hairpin
Bulge
External
Internal
Multi
Multi
dangling-3-Ende aus Nukleotiden
Kleeblattstruktur der tRNA
Enthält keine Bulges oder Internal Loops ? dort
keine Peaks
16 der gesampelten Strukturen haben einen
einzelsträngigen Bereich, der zwei gefaltete
Domänen vebrindet
45
Probability Profiling für Loops
  • Weitere Bedeutung des Hairpin-Loop-Profiles
  • Höchster Peak ? konserviertester Loop
  • HPlot-Ws der Basen des Anticodon-Loops
  • G34 0,968
  • G35 0,961
  • C36 0,962
  • ? Selbst wenn sich die restliches Strukturnicht
    zum Kleeblatt faltet, bleibt dieseaccessible
    site erhalten
  • Untersuchung weiterer tRNAs interessant, aber
    schwierig, da modifizierte Basen vorhanden

46
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

47
Probability Profiling für Accessibility Plots
  • Probability Profiles geben Differenzierung
    zwischen gebunden / einzelsträngig
  • Nucleinsäuren müssen einzelsträngig sein, um zu
    interagieren
  • Probability Profiles überlagern, um Interaktion
    vorherzusagen
  • Target Homo sapiens ?-Glutamyl-Hydrolase mRNA
  • Antisense insgesamt 1233 nt
  • Gute Zugänglichkeit zwischen 730 und 750 (target)
  • Zugängliche Bereiche müssen nicht an gleichen
    Stellen liegen
  • Sollten aber gleich lang sein

48
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

49
Sampelgröße
  • Standardgröße 1000 repräsentativ!
  • Beispiel Homo sapiens ?-Glutamyl-Hydrolase mRNA
  • 1187 nt ? 10303 Sekundärstrukturen (Vergleich
    1080 Atome im Universum)
  • 2 Sammlungen von 1000 Samples erstellt
  • Für jede Sammlung ein Histogramm
    erstelltHistogramme sind identisch
  • Probability Profiles erstelltnahezu
    deckungsgleich
  • Aber keine einzige Struktur kommt doppelt vor

50
Samplegröße - Histogramme
51
Samplegröße - Probability Profiles
52
Übersicht
  • RNA falten
  • Sekundärstrukturen und Funktion
  • Algorithmus zur RNA-Faltung von Ding und Lawrence
  • Grundidee
  • Vorgehen Schritt 1
  • Vorgehen Schritt 2
  • Beispiele
  • Leptomonas collosoma
  • Bakteriophage ?
  • Auswertung
  • Probability Profiling
  • Accessibility Plots
  • Samplegröße
  • Sfold
  • RNA finden

53
Sfold
  • Algorithmus integriert in Paket Sfold
  • Erhältlich z.B. über sfold.wadsworth.org
  • Laufzeit des Algo O(n³)
  • Vergleich Eddy/Rivas O(n6)
  • Reeder/Giegerich O(n4)
  • Aber dafür mit Pseudoknoten

Sequenz Länge (nt) Zeit (sek) Speicher (MB)
E. coli tRNAAla 76 1,48 14,6
H. sapiens BCRP mRNA 2418 3.505,86 149,2
H. sapiens ESR mRNA 6450 92.995,25 969,1
Vergleich von Rechenzeit und Speicherverbrauch
beim Berechnen der Zustandssummen und
anschließendem Sampeln von 1000 Strukturen
54
Übersicht
  • RNA falten
  • RNA finden
  • Motivation und Ansätze
  • Modelle
  • Prinzip
  • Parameterschätzung
  • Piktogramme
  • Algorithmus
  • Tests und Ergebnisse
  • Verbesserungen

55
Übersicht
  • RNA falten
  • RNA finden
  • Motivation und Ansätze
  • Modelle
  • Prinzip
  • Parameterschätzung
  • Piktogramme
  • Algorithmus
  • Tests und Ergebnisse
  • Verbesserungen

56
Motivation Ansätze
  • Gefaltete RNA funktionell bedeutsam
  • Steuerung der eigenen Translation
  • Funktion als tRNA
  • Ribozyme
  • Nicht alle RNA wird wie mRNA translatiert
  • Nicht alle Gene auf DNA codieren für Proteine
  • Einige kodieren auch für funktionelle nicht
    kodierende RNA (ncRNA)
  • Ziel Gene auf DNA erkennen, die für ncRNA
    kodieren
  • Problem entsprechende Gene bisher nicht
    einheitlich charakterisierbar

57
Motivation Ansätze
  • Maizel 1988
  • Sekundärstruktur bestimmt Funktion
  • Funktionelle RNA muss also stabile
    Sekundärstruktur haben
  • Stabil Minimum der freien Energie
  • Ergebnis Faltungsvorhersage weniger divers
  • Ergebnisse enttäuschend
  • Badger Olsen 1999
  • Anderes Gebiet Identifizierung von codierenden
    Regionen in Bakterien
  • Arbeitet mit Alignments von Sequenzen
  • Nutzen BLASTN um Sequenzidentität zwischen 2
    Species zu bestimmen
  • Programm CRITICA untersucht Mutationsmuster der
    gaplosen Bereiche
  • Mutationen, die AS nicht verändern (synonym)
    Score
  • Mutationen, die AS verändern - Score

58
Motivation Ansätze
  • Rivas Eddy 2001
  • Aufbauend auf Idee von Badger Olsen
  • Erweiterungen Probabilistisches Modell (Aussage
    mit Ws)
  • dritter zusätzlicher Zustand (funktionelle
    RNA)
  • Alignments mit Gaps zugelassen
  • Alignment nur teilweise relevant (irrelevante
    Flanken möglich)
  • Ziel gegebene Sequenz klassifizieren in
  • Kodierend für Proteine
  • kodierend für ncRNA
  • Andere Bereiche
  • Ansatz findet ncRNA mit konservierter Struktur
    Probleme
  • Manche bekannte ncRNA-Gene nicht konserviert
  • Manche konservierte Bereiche nicht ncRNA-Gene
  • ncRNA-Gen beschreibt Bereich mit konservierter
    Struktur, Funktionalität muss untersucht werden

59
Motivation Ansätze
  • Eingabe eines Alignments zweier verwandter Genome
    (DNA-Sequenzen)
  • Analyse der beobachteten Mutationen
  • Kodierend Synonyme Mutationen (gleiche AS
    kodiert)
  • Funktionell kompensierend, Struktur erhalten
  • Keins zufällige Mutation
  • Analyse
  • Jeder Fall 1 Modell, das entsprechende Sequenzen
    baut
  • Nachbau des Alignments mit den 3 Modellen
  • Ausgabe der Ws, dass Alignment einem Modell
    enstpringt
  • Modell mit höchster Ws gewinnt

AGTGCTAGCT
GATGCTAGCT
ncRNA?
60
Übersicht
  • RNA falten
  • RNA finden
  • Motivation und Ansätze
  • Modelle
  • Prinzip
  • Parameterschätzung
  • Piktogramme
  • Algorithmus
  • Tests und Ergebnisse
  • Verbesserungen

61
Modelle - Prinzip
  • OTH (weder kodierend noch funktionell)
  • pair-HMM
  • 16 verschiedene Parameter pOTH(a,b) Ws(a in
    Seq X, b in Seq Y)
  • Wahrscheinlichkeit des Alignments Produkt der Ws
    der alignierten Positionen

HMM
pair-HMM
GTTAACTGAGTAACG
x x x x
GTTAACTGAGTAACG
GCAAGCTGAGTTACG
62
Modelle - Prinzip
  • COD (Gen kodierend für Proteine)
  • pair-HMM
  • Alignierte Sequenzen sollten für gleiches Protein
    kodieren
  • Synonyme Mutationen, AS-Sequenz unverändert
  • 64 64 Parameter pCOD(a1a2a3, b1b2b3)
  • Emission erfolgt Codon für Codon
  • Gleichzeitig a1a2a3 in Sequenz X
  • b1b2b3 in Sequenz Y
  • Ws des Alignments für einen Reading-Frame
    Produkt der Doppel-Codon-Ws
  • Richtiger Reading-Frame nicht bekannt
  • Ws des Alignments

1 Ereignis
Sequenz X
GGT
GGA
Sequenz Y
G
f Frame P(fCOD) 1/6
63
Modelle - Prinzip
  • RNA (Gen kodierend für ncRNA)
  • pair Stochastic Context Free Grammar (pSCFG)
  • Mutation ändert Sekundärstruktur nicht
  • Von gleichen Positionen zu gleichen Positionen
    Watson-Crick-Paarung möglich
  • Abschnitte in Sek-Struktur 16 16
    Parameter pRNA(aLaR, bLbR)
  • Ws (Emission eines Basenpaars in X, homologes
    Basenpaar in Y)
  • Ungepaarte Abschnitte 4 4 Parameter pRNA(a,
    b)
  • Analog zu OTH-Modell
  • Ws für ein Alignment mit Struktur s Produkt aus
  • pRNA(xixj, yiyj) für gepaarten Positionen i,j
  • pRNA(xk, yk) für einzelsträngige Positionen k
  • Richtige Struktur nicht bekannt
  • Ws des Alignments

p
u
v
TTGTTCGAAAGAACG
TTGACCGAAAGGTCG
s Sekundärstruktur
64
Modelle - Prinzip
  • Problem bei RNA-Modell
  • In COD-Modell alle Frames gleich wahrscheinlich
  • Gilt nicht für Sek-Strukturen in RNA-Modell
  • P(sRNA) muss für jedes s berechnet werden
  • Gelöst durch früheren Algorithmus von Rivas und
    Eddy
  • Viertes Modell (IID)
  • Erzeugt unabhängige Sequenzen
  • 8 Parameter pX(a) pY(b)
  • Klassifikation durch Likelihoods
  • Wahrscheinlichkeit des Modells gegeben die Daten
  • Bayessche-Posteriori-Ws berechnet a priori alle
    3 Modelle gleich wahrscheinlich
  • Hohe RNA-posteriori-Ws Alignment Kandidat für
    ncRNA-Gene
  • Beurteilung der Güte der Aussage durch
    log-odds-Score

65
Übersicht
  • RNA falten
  • RNA finden
  • Motivation und Ansätze
  • Modelle
  • Prinzip
  • Parameterschätzung
  • Piktogramme
  • Algorithmus
  • Tests und Ergebnisse
  • Verbesserungen

66
Modelle - Parameterschätzung
  • 4392 Emission-Ws zu bestimmen
  • Ideal Trainings-Sets aus Alignments von
  • Real existierenden RNAs
  • Kodierende Genomregionen
  • Konservierte nicht kodierende Regionen
  • Keine genügend großen Trainings-Sets verfügbar
  • Mit zufällig erzeugten Sequenzen
  • Sequenzen erzeugen
  • Mit Werten aus AS-Substitutionsmatrizen
    (BLOSUM62) Codon-Ws errechnen (pCOD)
  • Daraus Nucleotid-Substitutions-Ws des OTH-Modells
    errechnen
  • OTH-Ws mit Basenpaarhäufigkeiten kombinieren ?
    RNA-Ws
  • 48 Transitions-Ws
  • von Hand erzeugt Modelle generieren Sequenzen,
    mit realen verglichen
  • Suboptimale Methode, bisher aber keine Alternative

67
Übersicht
  • RNA falten
  • RNA finden
  • Motivation und Ansätze
  • Modelle
  • Prinzip
  • Parameterschätzung
  • Piktogramme
  • Algorithmus
  • Tests und Ergebnisse
  • Verbesserungen

68
Modelle - Piktogramme
  • IID-Modell erzeugt 2 unabhängige Sequenzen

X
Emittiert in Seq. X
F
S
K
T
Y
Emittiert in Seq. Y
69
Modelle - Piktogramme
  • OTH-Modell erlaubt lokale Alignments zwischen 2
    Sequenzen

X
X emittiert in X, Gap in Y XY emittiert in X
und Y Y emittiert in Y, Gap in X
FL
FR
B
XY
E
Y
F Flanking States
FJ
O
70
Modelle - Piktogramme
  • COD-Modell Alignment kodierender Bereiche
    eingebettet in unabhängige Bereiche
  • Neuer Typ von Zuständen COD
  • Ermöglichen indels (Insertionen oder
    Deletionen)
  • Kompensieren Verlust durch Shotgun-Sequenzierung
    BLASTN (positions-unabhängig)
  • Emission von ungleichen (und überzähligen)
    AS-Anzahlen
  • Exemplarische Angabe der entsprechenden Ws

C(3,3)
C(3,2) 3 verschiedene Zustände
C(3,4) 4 verschiedene Zustände
C(3,0)
Alle Möglichkeiten p?,?(a1a?,b1b?) ?,? ?
0,2,3,4 a,b ?A,C,G,U
71
Modelle - Piktogramme
  • COD-Modell Alignment kodierender Bereiche
    eingebettet in unabhängige Bereiche

C(3,0)
OB
B
E
OE
C(0,3)
OJ
72
Modelle - Piktogramme
  • RNA-Modell erzeugt ncRNA-Gene eingebettet in
    unabhängige Bereiche
  • Grammatik hat 3 verschiedene Zustände
    (nicht-Terminale)
  • V Sequenzfragment, dessen Enden sicher gepaart
    sind
  • W Sequenzfragment, dessen Enden eventuell
    gepaart sind
  • WB wie W, wird nur benutzt, um Multi-Loops zu
    starten
  • 2 Arten von Emissionswahrscheinlichkeiten

aL.aR
bL.bR
WB identisch
Emission ja/nein
Emission von gepaarten Nukleotiden in beide
Sequenzen
Nukleotid-Vektor
Emission von ungepaarten Nukleotiden
Erzeugen Gaps im Alignment
73
Modelle - Piktogramme
  • RNA-Modell erzeugt ncRNA-Gene eingebettet in
    unabhängige Bereiche

RNA
OB
OE
OJ
74
Übersicht
  • RNA falten
  • RNA finden
  • Motivation und Ansätze
  • Modelle
  • Prinzip
  • Parameterschätzung
  • Piktogramme
  • Algorithmus
  • Tests und Ergebnisse
  • Verbesserungen

75
Algorithmus - Vorgehen
  • Eingabe paarweises Sequenz-Alignment von L
    alignierten Paaren
  • Scoring des Alignments
  • OTH, COD (HMM) Viterbi/Forward Speicher
    O(L) Zeit O(L)
  • RNA (SCFG) CYK/Inside Speicher O(L²) Zeit
    O(L³)
  • Für jedes Modell Ws, dass Alignment von Modell
    generiert wurde
  • Alignment Klassifizieren (Bayessche-Posteriori-Ws
    )
  • Annahme P(Modeli) sind gleich

Ws der Klasse bei gegebenem Alignment
Ws des Alignments bei verwendetem Modell
Ws des Modells
Ws des Alignments
76
Algorithmus - Ergebnis
  • Bilden von log-odds-Score zur Gütebeurteilung
  • ld ( beobachtet / erwartet )
  • Aussage darüber, wie nahe Erwartung an
    beobachtetem Ereignis ist
  • Annahme weder für Proteine noch ncRNA kodierend
  • Log-odds-Score von COD und RNA zu OTH bilden
  • 2 Werte, als Koordinaten in Diagramm
  • Diagramm-Repräsentation der Information(Phase
    Diagram)
  • 3 verschiedene Fälle
  • y gt x y gt 0 ? RNA
  • x gt y x gt 0 ? COD
  • x lt 0 y lt 0 ? OTH

77
Übersicht
  • RNA falten
  • RNA finden
  • Motivation und Ansätze
  • Modelle
  • Prinzip
  • Parameterschätzung
  • Piktogramme
  • Algorithmus
  • Tests und Ergebnisse
  • Verbesserungen

78
Tests und Ergebnisse
  • Tests mit simulierten Daten
  • Sinn Daten im Voraus eindeutig klassifiziert,
    Leistungsfähigkeit beurteilbar
  • Jedes der 3 Modelle (OTH, RNA, COD) generiert
    1000 200nt lange Alignments
  • Alle 300 Alignments durch Algorithmus bewertet
    und klassifiziert
  • Klassifizierung soll auf Mutationsmuster beruhen,
    nicht auf Sequenzidentität oder Gap-Häufigkeit
  • Spalten der Alignments zufällig neu
    zusammengesetzt
  • Sequenzidentität und Anzahl der Gaps
    beibehaltenMutationsmuster, das Veränderung
    erklärt hat, zerstört
  • Darstellung in Phase-Diagrams

79
Tests und Ergebnisse
  • Phase-Diagram der durch COD-erzeugten Alignments

RNA
OTH
COD
blau Klassifizierung der original
Alignments rot Klassifizierung nach Shuffling
80
Tests und Ergebnisse
  • Phase-Diagramm der durch RNA erzeugten Alignments

RNA
OTH
COD
blau Klassifizierung der original
Alignments rot Klassifizierung nach Shuffling
81
Tests und Ergebnisse
  • Phase-Diagramm der durch OTH erzeugten Alignments

RNA
OTH
COD
blau Klassifizierung der original
Alignments rot Klassifizierung nach Shuffling
82
Tests und Ergebnisse
  • Tests an simulierten Genomen
  • Sinn Untersuchen der Tendenz zu false
    Positives, wenn COD und OTH dominieren
  • Erzeugen von 2 Pseudobakteriengenomen ohne
    funktionelle RNA
  • Länge 2 Megabasen
  • Länge kodierender Regionen normalverteilt um
    900nt
  • Länge nichtkodierender Regionen normalverteilt
    um 100nt
  • 90 kodierend
  • GC-Gehalt 1) 38,90
  • 2) 47,25
  • 3) 57,70
  • Anzahl der false Positives
  • 1) 8
  • 2) 14
  • 3) 21
  • Erneute Analyse von Genomsatz 3 mit neuem
    Parametersatz 1 false Positive
  • Sensitivität sinkt mit steigendem GC-Gehalt, kann
    angepasst werden

83
Tests und Ergebnisse
  • Tests an realen Genomen
  • Sinn Test unter realistischen Bedingungen
  • Analyse der Genome von Escherichia coli und
    Salmonella typhi (eng verwandt)
  • Bekannt 115 RNA-Gene (22 rRNAs, 86 tRNAs, 7
    andere) 4290 kodierende Gene
  • Genom aufgeteilt in 3 Bereiche 115 RNA-Features
    (1 des Genoms) 4290 ORF-Features (88 des
    Genoms) 2367 intergene Sequenzen (11 des
    Genoms)
  • Jede der 3 Sammlungen gegen Salmonella typhi
    aligniert, bewertet

84
Tests und Ergebnisse
ncRNAs ORFs
vorhanden 115 4290
In Alignments (gt50nt, E lt 0,01) 33 3181
erkannt als RNA 33 20
erkannt als COD - 2876
erkannt von alignierten 100 90,4
erkannt von gesamt 28,6 67
  • Problem Blast lieferte nicht ausreichend viele
    signifikante Alignments
  • Von alignierten Sequenzen Großteil erkannt

85
Übersicht
  • RNA falten
  • RNA finden
  • Motivation und Ansätze
  • Modelle
  • Prinzip
  • Parameterschätzung
  • Piktogramme
  • Algorithmus
  • Tests und Ergebnisse
  • Einsatz und Verbesserung

86
Einsatz Verbesserung
  • Anwendungsgebiete
  • Erkennen von Kandidaten für ncRNA positiv
    identifizierte Regionen weiter untersuchen
  • Erkennen von für Proteine kodierende Regionen
  • Fehlerquellen und Verbesserungen
  • Modelle für fixe evolutionäre Distanz (BLOSUM 62)
    passt nicht auf alle eingegebenen Daten
  • BLASTN zum Alignieren von positionsunabhängig
    evolvierten SequenzenAlignment mit
    Sankoff-Algorithmus sehr teuer Zeit O(L6),
    Speicher O(L4)
  • Training mit zufällig erzeugten Daten nicht
    optimaltrainiertes System scheint RNA-Modell zu
    favorisieren
  • Verfahren sucht nach konservierter
    Sekundärstrukturkann keine ncRNA erkennen, die
    nur sehr wenige Sekundärstrukturen ausbildet
  • Fehlklassifizierung von mRNA mit stark
    ausgebildeter Sekundärstrukturz.B. zur
    Translationskontrolle

87
Übersicht
  • RNA falten
  • RNA finden
  • Quellen

88
Quellen
  • A statistical sampling algorithm for RNA
    secondary structure prediction Nucleic Acids
    Research 31(24) S.7280-7301 Ding, Ye,Lawrence,
    Charles E. 2003
  • Noncoding RNA gene detection using comparative
    sequence analysis BMC Bioinformatics 2(8) Eddy,
    Sean R.,Rivas, Elena 2001

89
?
Write a Comment
User Comments (0)
About PowerShow.com