GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS - PowerPoint PPT Presentation

Loading...

PPT – GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS PowerPoint presentation | free to download - id: 279abb-ZTYxN



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS

Description:

Los algoritmos de an lisis de secuencias tratan al DNA, RNA y a ... La estructura secundaria del RNA pone constrains sobre la secuencia del RNA. tRNA en acci n! ... – PowerPoint PPT presentation

Number of Views:196
Avg rating:3.0/5.0
Slides: 40
Provided by: cuar
Learn more at: http://www-2.dc.uba.ar
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS


1
GRAMATICAS PARA EL ANALISIS DE SECUENCIAS
BIOLOGICAS
2
Secuencias y estructuras
  • Los algoritmos de análisis de secuencias tratan
    al DNA, RNA y a las proteínas como strings de
    nucleótidos o aminoácidos
  • La mayoría de estos algoritmos asume strings de
    elementos sin relación, donde el valor de un
    residuo en una posición no tiene efecto sobre el
    valor de otro residuo.
  • Þ Esta suposición se rompe dramáticamente
    para el RNA!

3
  • La estructura secundaria del RNA pone constrains
    sobre la secuencia del RNA.

4
tRNA en acción!
5
Se deben adoptar nuevos modelos que consideren
las correlaciones a larga distancia entre pares
de residuos
6
GRAMATICAS
  • Erase una vez un lenguaje...

7
Gramáticas transformacionales
  • Una gramática caracteriza un lenguaje
  • Una gramática consiste de
  • N Un conjunto de símbolos no terminales
  • V Un conjunto de símbolos terminales (son los
    que realmente aparecen en el string)
  • S Un símbolo no terminal de start S
  • P Un conjunto de producciones

8
Una gramática para codones stop
  • Lenguaje UAA, UAG, UGA
  • N s, c1, c2, c3, c4
  • S s
  • V A, C, G, U
  • P s c1 c1 Uc2 c2 Ac3 c3 A
  • c2 Gc4
    c3 G

  • c4 A

9
Árbol de parsing para UAG
10
Gramáticas probabilísticas
11
Jerarquía de Chomsky
12
  • Gramáticas regulares
  • uXv uX
  • Gramáticas libres de contexto
  • ub
  • Gramáticas sensitivas al contexto
  • a1 u a2 a1 b a2
  • Gramáticas irrestrictas
  • a1 u a2 g
  • donde u y v son no terminales, X es un terminal,
    a y g son cualquier secuencia de terminales / no
    terminales, excluyendo el string nulo, y b es
    cualquier secuencia de terminales / no terminales

13
Gramaticas y parsers
14
De las gramáticas regulares a las gramáticas
libres de contexto
15
RNA palindromos complementarios
16
Lo que necesitamos modelar para nuestro problema
del RNA es la simetría, como un palíndromo
17
Extensión
  • Para cubrir estas interacciones a larga distancia
    necesitamos hacer una extensión a nuestras reglas
    de escritura
  • Gramáticas regulares
  • NoTerminal TerminalNoTerminal
    Terminal
  • Gramáticas libres de contexto
  • NoTerminal string de simbolos

18
Principal ventaja
  • Las gramaticas regulares generan strings de
    izquierda a derecha, las gramaticas libres de
    contexto pueden generar strings de afuera hacia
    adentro.
  • Veamos
  • S aSa bSb bb aa .. (Context Free)
  • Versus S aS bS b a (Regular)

19
CFG y RNA
  • Aca vemos una gramatica context free que puede
    generar un stem de 3 bases, y un loop de GAAA o
    GCAA

20
De las gramáticas libres de contexto a las
gramáticas sensitivas al contexto
21
Pseudoknots
  • Las gramaticas sensitivas al contexto permiten
    modelar lenguajes Copy, que son los que se
    presentan en los pseudoknots.

22
Problema
  • No se conocen algoritmos generales en tiempo
    polinomial para
  • parsear gramaticas sensitivas al contexto

23
Tres problemas basicos
  • Scoring Cuan probable es una secuencia dado un
    SCFG parametrizado?
  • Algoritmo Inside
  • Training Dada un conjunto de secuencias, como
    estimamos los parametros de un SCFG?
  • Algoritmo Inside Outside
  • Alineamiento Cual es el parsing mas probable de
    una secuencia a un SCFG parametrizado?
  • Algoritmo CYK

24
Determinando la probabilidad de una secuencia El
Algoritmo Inside
  • a (i,j,v) la probabilidad suma de todos los
    subtrees de parsing de raiz v para la
    subsecuencia de i a j

25
El algoritmo Inside
26
El algoritmo Inside
  • Inicializacion ?(i,i,v) ev (xi )
  • Iteracion
  • Terminacion Pr(x) ?(1,L,1)

27
El algoritmo Outside b(i,j,v)
28
Algoritmo CYK
  • Dada una secuencia X encontrar el parsing mas
    probable.
  • A la probabilidad del parsing mas probable del
    substring Xi...Xj con raiz en V la llamamos g
    (i,j,V).
  • Empezamos con g (i,i,V) log P(VXi)
  • Para todo j gt i, buscamos todas las producciones
    VYZ y nos quedamos con la de maxima probabilidad.

29
Algoritmo CYK
  • g (i,i,V) log P(VXi), " no terminal V, " 1iN
  • for i1 to N-1
  • for ji1 to N
  • " no terminal V
  • g (i,j,V) maxx maxy maxikj log
    P(VXY) g (i,k,X) g (k1,j,Y)
  • endfor
  • endfor
  • return g (1,N,S)

30
  • Recordamos las elecciones hechas en CYK en cada
    paso para reconstruir el parser optimo!

31
Veamos una aplicación de la gramatica a la
estructura secundaria del RNA
  • .

32
Algoritmo Nussinov
  • Dada Una secuencia RNA
  • Objetivo Encontrar la estructura secundaria que
    maximice el numero de apareamiento de bases
  • Algoritmo recursivo Encuentra la mejor
    estructura para los inputs i...j intentando una
    de las siguientes 4 posibilidades
  • Agregar el par i, j sobre la mejor estructura
    i1...j-1
  • Agregar i sin aparear a la mejor estructura
    i1...j
  • Agregar j sin aparear a la mejor estructura
    i...j-1
  • Combinar las dos estructuras optimas i...k y
    k1...j

33
Casos en Nussinov
34
Algoritmo Nussinov
  • La secuencia a analizar tiene longitud L.
  • Es un algoritmo de programacion dinamica que
    llena una matriz de L x L, con la informacion del
    maximo apareamiento de las bases.
  • Hacemos la funcion ? (xi, xj) 1, si xi y xj se
    aparearian entre si, y ? (xi, xj) 0, en caso
    contrario.

35
Algoritmo Nussinov
  • Inicializacion
  • ? (i, i-1) 0, i 2...L
  • ? (i, i) 0, i 1...L
  • Recursion for i1...L-1, ji1...L
  • Terminacion maxima cantidad de apareamientos de
    bases ? (1, L)

36
Nussinov traceback
  • Inicializacion Push (1,L) en el stack
  • Recursion Repetir hasta que el stack este vacio
  • pop(i,j)
  • if i gt j continuar
  • else if ? (i1, j) ? (i, j) push (i1, j)
  • else if ? (i, j-1) ? (i, j) push (i, j-1)
  • else if ? (i1, j-1)?ij ? (i, j)
  • registrar i, j como apareamiento
  • push (i1, j-1)
  • else for k i1 to j-1 if ? (i,k)? (k1,j)?
    (i,j)
  • push (k1,j)
  • push (i,k)
  • break

37
Ejemplo
38
Version SCFG de Nussinov
  • S GSC 3 ½ CSG 3 ½ ASU 2½USA 2 ½GSU 1 ½
    USG 1
  • S SS 0 ½ e 0
  • S AS 0 ½ CS 0 ½ GS 0 ½ US 0
  • S SA 0 ½ SC 0 ½ SG 0 ½ SU 0

39
Para profundizar sobre el tema...
  • Biological sequence analysis (Capitulos 9 y 10).
    Durbin, R., Eddy, S., Krogh, A., Mitchison, G.,
    Cambridge University Press, 1998.
  • Bioinformatics, The Machine Learning Approach,
    2da. Edicion (Capitulo 11). Baldi, P. Brunak,
    S., MIT press, 2001.
  • Bioinformatics sequence and genome analysis
    (Capitulo 5). Mount, D., Cold Spring Harbor
    Laboratory Press, 2001.
  • The language of RNA a formal grammar that
    includes pseudoknots. Rivas E., Eddy, S.R.,
    Bioinformatics. 2000 Apr16(4)334-40.
About PowerShow.com