Por qu es til la comparacin de secuencias Parte II - PowerPoint PPT Presentation

1 / 32
About This Presentation
Title:

Por qu es til la comparacin de secuencias Parte II

Description:

Con el desarrollo de grandes bancos de datos de secuencias de prote nas y cidos ... Ancient Conserved Regions in New Gene Sequences and the Protein Databases. ... – PowerPoint PPT presentation

Number of Views:49
Avg rating:3.0/5.0
Slides: 33
Provided by: ncbi9
Category:

less

Transcript and Presenter's Notes

Title: Por qu es til la comparacin de secuencias Parte II


1
Por qué es útil la comparación de
secuencias?Parte II
Lipman, David (NIH/NLM/NCBI)
2
Casi 100 Trillones de comparaciones BLAST por
cuarto (10/01)
3
Búsqueda rápida de similitudes de banco de datos
de ácido nucleico y proteínas.Wilbur WJ, Lipman
DJ. Proc Natl Acad Sci U S A 1983
Feb80(3)726-30 Con el desarrollo de grandes
bancos de datos de secuencias de proteínas y
ácidos nucleicos, la necesidad de métodos
eficientes de búsqueda en tales bancos para
secuencias similares a una secuencia dada se ha
vuelto evidente. Presentamos un algoritmo para la
comparación global de secuencias basados en
k-tuples pareados de secuencia de elementos para
un k fijado. El método resulta en reducción
substancial del tiempo requerido para la búsqueda
en el banco de datos cuando se compara con
técnicas anteriores de análisis de similitud,
con mínima pérdida de sensibilidad. El algoritmo
también ha sido adaptado, en una implementación
separada, para producir alineación rigurosa de
secuencias. Actualmente, usando el sistema DEC
KL-10, podemos comparar todas las secuencias en
el Banco de datos de proteína de la Fundación de
Investigación Biomédica con una búsqueda de
secuencia 350-residuos en menos de 3 minutos y
efectuar un análisis similar con un búsqueda de
secuencia 500-base contra todas las secuencias
eucarióticas en la Báse de Datos de Ácido
Nucleico en los Álamos en menos de 2 minutos.
4
Gene del cáncer encuentra su parejaNY Times
Julio 3, 1983una búsqueda computarizada por
serendipia
Waterfield MD et al., Nature 1983 Jul
7304(5921)35-39 Doolittle RF et al., Science
1983 Jul 15221(4607)275-277
v-sis 6 QGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAE
LDLNMTRSHSGGELESLARGK 65
QGDPIPEELYMLS HSIRSFDDLQRLL GD
GEDGAELDLNMTRSHSGGELESLARG PDGF 10
QGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSG
GELESLARGR 69 v-sis 66 RSLGSLSVAEPAMIAECKTRTEVF
EISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 125
RSLGSLAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEV
QRCSGCCNNRNVQ PDGF 70 RSLGSLTIAEPAMIAECKTRTEVF
EISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 129 v-sis
126 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAA
RAVTRSPGTSQEQR 185 CRPTQVQLRPVQVRKIEIV
RKKPIFKKATVTLEDHLACKCE VAAAR VTRSPG SQEQR PDGF
130 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAA
RPVTRSPGGSQEQR 189 v-sis 186 AKTTQSRVTIRTVRVRRPP
KGKHRKCKHTHDKTALKETLGA 226 AKT
QRVTIRTVRVRRPPKGKHRK KHTHDKTALKETLGA PDGF 190
AKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA 230
V-sis y factor de crecimiento derivado de
plaquetas (PDGF)
5
Un temprano, más sutil descubrimiento
(para animación de la diapositiva, por favor de
click en el área de la diapositiva p en el botón
de mostrar la diapositiva).
Productos del gene viral src están relacionados a
la cadena catalítica de proteìn-kinasa
dependiente de cAMP de mamíferos Barker WC,
Dayhoff MO. PNAS 1982 Mayo79(9)2836-2839
Query 113 YAAQIVLTFEYLHSLDLIYRDLKPENLLIDQQGYIQVTD
FGFAKR---VKGRTWT---LC 166 Y V
LHS DLKP NLI Q DFG GR
Sbjct 125 YSLDVVNGLLFLHSQSILHLDLKPANILISEQDVCKIS
DFGCSQKLQDLRGRQASPPHIG 184 Query 167
GTPEYLAPEIILSKGYNKAVDWWALGVLIYEMAAGYPPFFADQPIQIYEK
IVSGKVR 223 GT APEI D
G M P P V R Sbjct 185
GTYTHQAPEILKGEIATPKADIYSFGITLWQMTTREVP-YSGEPQYVQYA
VVAYNLR 240
  • Biología no algoritmos
  • - Comparan proteínas, no DNA
  • deberá detectar aminoácidos similares no sólo
    identidades

6
Con qué frecuencia encontraremos similitudes?
(para animación de la diapositiva, por favor de
click en el área de la diapositiva p en el botón
de mostrar la diapositiva).
  • Cuántas familias de proteínas habrá?

Similitudes inesperadas deberán ser raras.
7
Estimando el número de familias de proteínas
(para animación de la diapositiva, por favor de
click en el área de la diapositiva p en el botón
de mostrar la diapositiva).
8
Estimaciones tempranas del número de familias de
proteínas- 1000
  • Zuckerkandl,E. (1974) Accomplissement et
    perspectives de la paleogenetique chimique. In
    Ecole de Roscoff 1974, p. 69. ParisCNRS.
  • La aparición de nuevas estructuras y
    funciones en proteínas durante evolución, J.
    Mol. Evol. 7, 1-57 (1975).
  • Dayhoff, M.O. (1974) Federation Proceedings 33,
    2314.
  • El origen y evolución de superfamilias de
    proteínas, Fed.Proc. 35, 2132-2138 (1976).

9
Margaret Dayhoff
10
Atlas de Secuencia y Estructura de Proteína, Vol.
5, Suplemento 3 (1978) pg. 10
  • Se ha estimado que en el humano hay 50,000
    proteínas de importancia funcional o médica.
    Un hito en la biología molecular ocurrirá cuando
    un miembro de cada superfamilia haya sido
    elucidado. A la tasa actual de 25 por año, tomará
    al menos 15 años.

11
Hubris, el Proyecto Genoma y familias de
proterínas
(Para animación de la diapositiva click en el
área de la diapositiva o el botón de mostrar
diapositiva)
  • Chothia, C. (1992). Mil familias para el biólogo
    molecular. Nature, 357, 543-544.

Green P, Lipman D, Hillier L, Waterson R,
States,D, and Claverie JM (1993). Ancient
Conserved Regions in New Gene Sequences and the
Protein Databases. Science, 259, 1711-1716.
ACR similitud detectada entre secuencias de
organismos remotamente relacionados
12
1992 Qué nuevas familias tenemos del proyecto
genoma?
(Para animación de la diapositiva click en el
área de la diapositiva o el botón de mostrar
diapositiva)
13
Crecimiento acumulado en número de proteínas y
número de dominios conservados (de Geer, L.,
Bryant, S., Ostell, J.)
(Para animación de la diapositiva click en el
área de la diapositiva o el botón de mostrar
diapositiva)
6
1.210
100
6
1.010
80
5
8.010
60
Familias con dominio conservado
5
6.010
Familias Hit
Número de proteínas
40
5
4.010
Secuencias de proteínas
20
5
2.010
0.0
0
1960
1965
1970
1975
1980
1985
1990
1995
2000
14
Por qué son pocas familias y por qué evolucionan
lentamente?
Típica
Muy rara
  • Vista estructural
  • Termodinámica Finkelstein, AV, Por qué aon
    las mismas proteínas usadas para realizar
    diferentes funciones? FEBS 325, pp. 23-28
    (1993)

15
Limitantes debido a función biológica pueden ser
más importantes
(para animación de la diapositiva click el área
de la diapositiva o click en Mostrar Diapositiva)
  • Compare pares de secuencias de clases
    relacionadas de proteínas
  • Todas las secuencias deberían al menos compartir
    similitudes en la estructura
  • Los tiempos de divergencia para todas las
    secuencias deben ser aproximadamente las mismas

procariotes
  • Secuencias dentro de una clase comparten función
    pero las secuencias entre clases tienen diferente
    función

eucariotes
Grado dentro de clases similares gt entre clases
similares indica importancia de limitantes debido
a función biológica
16
Ejemplo de la aminoacil-tRNA sintestasas (aaRS)
(de E. Koonin Y. Wolf) enzimas esenciales
responsables para la incorporación de aminoácidos
en proteínas
(para animación de la diapositiva click el área
de la diapositiva o click en Mostrar Diapositiva)
  • Dos clases no relacionadas de aaRS, cada una
    incluye 10 aaRS relacionadas entre sí
  • El último ancestro común universal (LUCA) de
    formas de vida moderna ya tenía al menos 17 aaRS
  • La duplicación que da lugar a aaRS de diferentes
    especificidades debió haber ocurrido durante un
    relativamente corto periodo de evolución temprana.
  • La evolución post-LUCA de aaRS tomó mucho más que
    la fase temprana cuando las especificidades
    fueron establecidas. Sin embargo, los cambios que
    ocurrieron después de aaRS fueron cerradas en sus
    especificidades son pequeños comparados a los
    cambios trazados en la fase temprana.

17
Orthologs (de S. Bryant)

18
Paralogs (de S. Bryant)

19
Ejemplo de las aminoacil-tRNA sintetasas (aaRS)
(de E. Koonin Y. Wolf)
Exepciones - glutamina/glutamato,asparagina/aspart
ato y triptofano/tirosina
20
Cuantos genes humanos?
(para animación de la diapositiva click el área
de la diapositiva o click en Mostrar Diapositiva)
  • 80,000 Antequera F Bird A, Number of CpG
    islands and genes in human and mouse, PNAS 90,
    11995-11999 (1993).

120,000 Liang F et al., Gene Index analysis of
the human genome estimates approximately 120,000
genes, Nat. Gen., 25, 239-240 (2000)
35,000 Ewing B Green P, Analysis of expressed
sequence tags indicates 35,000 human genes,
Nat. Gen. 25, 232-234 (2000)
28,000-34,000 Roest Crollius, H. et al.,
Estimate of human gene number Provided by
genome-wide analysis using Tetraodon nigroviridis
DNA Sequence, Nat. Gen. 25, 235-238 (2000).
41,000-45,000 Das M et al., Assessment of the
Total Number of Human Transcription Units,
Genomics 77, 71-78 (2001)
21
Cuantos genes humanos con ACRs? (de S.
Resenchuk, T.Tatusov, L. Wagner, A. Souverov)
(para animación de la diapositiva click el área
de la diapositiva o click en Mostrar Diapositiva)
12,245 mRNA caracterizados de RefSeq
78 tienen ACR, i.e., vertebrados en E lt10e-6 (
9,496/12,245)
90 de estos han correspondido a predicciones de
GenomeScan los cuales también tienen ACR
(8501/9496)
20,245 modelos GS para el genoma humano completo
tienen ACR
15,573 modelos GS después de corrección para
splitting (20,245/1.3)
17,300 genes humanos estimados con ACRs (
15,573/.9)
22
Cuantos genes tienen los humanos?
(para animación de la diapositiva click el área
de la diapositiva o click en Mostrar Diapositiva)
17,303 estimación de genes humanos con ACRs
Ahora use comparación de genomas
17,303/.55 31,500 Total de genes humanos
Más complicado que esto!
23
Conservación, nivel de expresión longitud de
proteína y número exon
(para animación de la diapositiva click el área
de la diapositiva o click en Mostrar Diapositiva)
23,600 estimación revisada de genes humanos con
ACRs (15,573/.66)
43,000 límite superior del estimado del total de
genes humanos (23,600/.55) 35,000 es un límite
más razonable con esta forma
24
La relación de conservación de proetína y
longitud de secuencia
  • Lipman DJ, Souvorov A, Koonin EV, Panchenko AR,
    Tatusova TA
  • BMC Evol Biol. 2002 220

25
4279 proteínas
Número
Set de Salmonella
Longitud
26
Archaeoglobus fulgidus
100
80
2420 proteínas
60
Número
40
20
0
0
200
400
600
800
1000
Longitud
27
conservada
No conservada
Dominios estructurales
28
conservada
No conservada
Dominios estructurales
Longitud
29
Humano
300
Conservada
250
No conservada
14538 proteínas
Dominios estructurales
200
Número
150
100
50
0
0
200
400
600
800
1000
Longitud
30
A
Conservada
No conservada
B
31
Archaeoglobus fulgidus Escherichia coli Densidad
de contacto
32
Reconocimientos
Y todos mis colegas en NCBI y NIH
Write a Comment
User Comments (0)
About PowerShow.com