Titulo titulo, titulo titulo - PowerPoint PPT Presentation

About This Presentation
Title:

Titulo titulo, titulo titulo

Description:

Muchos genes y prote nas son miembros de familias que tienen funciones ... 1- que tipo de alineamiento hay que ... Clusters are counted as a single sequence. ... – PowerPoint PPT presentation

Number of Views:52
Avg rating:3.0/5.0
Slides: 73
Provided by: osc397
Category:
Tags: counted | titulo

less

Transcript and Presenter's Notes

Title: Titulo titulo, titulo titulo


1
Alineamientos de secuencias
2
Para qué hace falta la compoaración de
secuencias?
  • Bases biológicas
  • Muchos genes y proteínas son miembros de familias
    que tienen funciones biológicas similares o un
    origen filogenético común.
  • Se usa para
  • Identificar relacciones evolutivas.
  • Identificar patrones conservados.
  • en caso de secuencias con funciones desconocidas
    encontrar dominios similares en otras proteinas
    implica una función similar.

3
Alineamiento de secuencias
  • Claves
  • 1- que tipo de alineamiento hay que considerar
  • 2- que sistema de puntuacion scoring hay que
    usar para clasificar los alineamientos
  • 3- que algoritmos hay que usar para encontrar la
    solución óptima (o buena)
  • 4- métodos estadisiticos necesarios para evaluar
    la significacion del score de los alineamientos

4
Tipos de comparación de secuencias
  • Pairwise Alignments
  • Alineamientos múltiples
  • Búsquedas en bases de datos

5
Pairwise Sequence Alignment
  • Principios de la comparación por pares de
    secuencias
  • alineamientos globales / locales
  • sistemas de puntuación scoring
  • penalizaciones por GAP
  • Métodos de pairwise sequence alignment
  • Basados en deslizamiento de ventanas
    window-based
  • programación dinámica

6
Pairwise Sequence Alignment
  • Alineamientos globales
  • Alineamientos locales

7
(Needleman Wunsch) crea alineamientos en toda
la longitud de la secuencia.
Alineamiento Global
Para secuencias que estan muy relaccionadas
8
Alineamiento Global
Dos secuencias con varias regiones de similaridad
1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAA
TTAAAGAGGAGGTAGACCG.... 67


1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAG
CACTAAAGCGTCAGCGAGACCG 70
Con un alineamiento local solo se obtendrá una
similaridad muy baja fragmento azul
9
Alineamiento Local
14 TCAGAAGCAGCTAAAGCGT 32
42 TCAGAAGCA.CTAAAGCGT 59 1
AGGATTGGAATGCT 14 1
AGGATTGGAATGCT 14 39 AGGATTGGAAT 49
1 AGGATTGGAAT 11 62 AGACCG 67
66 AGACCG 71
Alineamiento local encuentra la region que tiene
la mejor similaridad local.
10
Pairwise Sequence Alignment
alfa globina humana
beta-globina
leghemoglobina
Glutonina S-tranferasa nematodos
11
Parámetros a tener en cuenta en el alineamiento
de secuencias
  • Sistemas de puntuación
  • A cada par de símbolos se le asigna un valor
    numerico
  • basado en una tabla de comparación de síbolos.
  • Penalizaciones por Gap
  • apertura Costo de introducir un gap
  • Extensión Costo de extender el gap

12
Sistemas de puntuación de secuencias de
nucleótidos
Sequencia 1 Sequencia 2
A G C T A 1 0 0 0 G 0 1 0 0 C 0 0 1 0 T 0 0 0 1
Match 1 Mismatch 0 Score 5
13
Sistemas de puntuación de secuencias de
nucleótidos
Sequencia 1 Sequencia 2
Valores negativos que penalizen los mismatches
A T C G A 5 -4 -4 -4 T -4
5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5
Matches 5 Mismatches 19 Score 5 x 5 19
(-4) - 51
14
Sistemas de puntuación de secuencias de proteínas
Sequencia 1 Sequencia 2
PTHPLASKTQILPEDLASEDLTI
PTHPLAGERAIGLARLAEEDFGM
C S T P A G N D . . C 9 S -1 4 T -1 1
5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2
0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1
1 6 . .
C S T P A G N D . . C 9 S -1 4 T -1 1
5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2
0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1
1 6 . .
Scoring matrix
TG -2 TT 5 Score 48
210 valores
15
Protein Scoring Systems
  • Amino acidos tienen diferentes propiedades
    bioquímicas y físicas
  • que pueden influenciar su capacidad de ser
    reemplazados en la evolución

tiny
P
aliphatic
C
small
SS
G
G
I
A
S
V
C
N
SH
L
D
T
Y
hydrophobic
M
K
E
Q
F
W
H
R
positive
aromatic
polar
charged
16
Protein Scoring Systems
  • Las matrices reflejan
  • Probabilidades de substituciones mutuas
  • Probabilidad de ocurrencia de un aminoacido
  • Matrices mas usadas
  • PAM
  • BLOSUM

17
PAM (Percent Accepted Mutations) matrices
  • Derived from global alignments of protein
    families .
  • Family members share at least 85 identity
    (Dayhoff et al., 1978).
  • Construction of phylogenetic tree and ancestral
    sequences of each protein family
  • Computation of number of replacements for each
    pair of amino acids

18
PAM (Percent Accepted Mutations) matrices
  • The numbers of replacements were used to compute
    a so-called
  • PAM-1 matrix.
  • PAM 1 significa 1 de mutaciones aceptadas, es
    decir se utilizaría esta matriz cuando uno
    esperara un 1 de substituciones. PAM matrices
    para distancias evolucionarias mas grandes se
    pueden extrapolar a partir de esta matriz.
  • PAM250 250 mutaciones por cada 100 residuos.
  • A mayor número mayor distancia evolutiva.

PAM250 es muy común. a esta distancia evolutiva,
48 de los triptófanos, 41 de las cisteinas y
20 de las histidinas permanecen inalteradas pero
solo 7 de las serinas
19
PAM 250
El valor de un par de aa idénticos representa la
probabilidad de que este aa permanezca inalterado
(e.g. triptófano)
A R N D C Q E G H I L K M F P
S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1
-1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2
6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2
-4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2
-3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1
2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4
-2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6
-5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1
2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2
3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0
-2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1
-3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1
2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2
-2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2
-2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1
-1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4
2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1
0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2
M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2
-2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5
-2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P
1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0
-6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1
-1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1
-1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3
-5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3
-5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3
-4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3
0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4
2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1
4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2
0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1
2 0 -4 1 1 1 -4 -3 0 5 6
20
BLOSUM (Blocks Substitution Matrix)
  • Derivada de alineamientos de dominios
    pertenecientes aproteinas alejadas en la
    evolucion (Henikoff Henikoff,1992).
  • Contaron la presencia de cada
  • par de aa en cada columna de cada
  • bloque de alineamientos.
  • Los números obtenidos del
  • análisis de todos los bloques se usaron
  • para calcular las matrices
  • de tipo BLOSUM.

A A C E C
A A C E C
A - C 4 A - E 2 C - E 2 A - A 1 C - C
1
21
BLOSUM (Blocks Substitution Matrix)
  • Las secuencias se clusterizan dentro de un
    bloque de acuerdo a su grado de identidad.
    Clusters are counted as a single sequence.
  • Las matrices BLOSUM difieren en el porcentaje
    de identidad de secuencias usado para hacer el
    clustering
  • El número de la matriz (e.g. 62 en BLOSUM62) se
    refiere al porcentaje máximo de identidad entre
    las secuencias utilizado para crear la matriz
  • Mayores número significan distancias evolutivas
    menores.

22
Matrices de substitución Log-odds Ratio
Dado un par de secuencias alineadas queremos
asignar una score que mida el grado de
posibilidad likelihood, de que las secuencias
estan relaccionadas
x,y amino acids (A,C......Y) P likelyhood i
1....n (longitud de la secuencia n) q
probabilidad
P(x,yR) ?qx ?qy
Random model (unrelated)
i
i
i
i
P(x,yM) ?px y
Match model (related)
i
i
i
?px y
px y
P(x,yM)P(x,yR)
?
i
i
i
related unrelated
i
i


Odds ratio
?qx ?qy
qx qy
i
i
i
i
i
i
i
pab
?
where s(a,b) log
S s(xi,yi)
Log-odds ratio
qa qb
i
s(a,b) is the log likelyhood ratio of the residue
pair (a,b) occurring as an aligned pair, as
opposed to an unaligned pair.
23
Como escoger la matriz adecuada
  • Generally, BLOSUM matrices perform better than
    PAM matrices for local similarity searches
    (Henikoff Henikoff, 1993).
  • When comparing closely related proteins one
    should use lower PAM or higher BLOSUM matrices,
    for distantly related proteins higher PAM or
    lower BLOSUM matrices.
  • For database searching the commonly used matrix
    is BLOSUM62.

24
Como puntuar inserciones y delecciones
A T G T A A T G C A
T A T G T G G A A T G A
A T G T - - A A T G C A
T A T G T G G A A T G A
insertion / deletion
La creación de un gap se penaliza con un score
negativo.
25
Gap Penalties
  • Un alineamiento optimo
  • maximiza el numero de matches
  • minimiza el número de gaps
  • Permitir la inserción arbitraria de muchos gaps
    puede dar lugar a scores altos entre secuencias
    no homologas.
  • La penalización de los gaps fuerza a los
    alineamientos a alcanzar los criterios optimos

26
Gap Penalties
Linear gap penalty score ?(g) - gd Affine
gap penalty score ?(g) -d - (g -1)e
?(g) gap penalty score of a gap of lenght g
d gap opening penalty e gap extension
penalty g gap lenght
27
Scoring Insertions and Deletions
match 1 mismatch 0
Total Score 4
Total Score 8 - 3.2 4.8
A T G T - - - T A T A C
Gap parameters d 3 (gap opening) e 0.1 (gap
extension) g 3 (gap lenght) ?(g) -d - (g
-1)e ?(g) -3 - (3 -1) 0.1 -3.2
T A T G T G C G T A T A
insertion / deletion
28
Pairwise Sequence Alignment
  • Principios de la comparación por pares de
    secuencias
  • alineamientos globales / locales
  • sistemas de puntuación scoring
  • penalizaciones por GAP
  • Métodos de pairwise sequence alignment
  • Basados en deslizamiento de ventanas
    window-based
  • programación dinámica

29
Pairwise Sequence Alignment
A T T C A C A T A T A C A T T A
C G T A C
Sequence 2
Sequence 1
30
Dotplot
A dotplot da una visión general del alineamiento
A ? ? ? ? T ? ? ? ?
T ? ? ? ? C ? ? ? A ? ?
? ? C ? ? ? A ? ? ? ?
T ? ? ? ? A ? ? ? ?
T A C A T T A C G T A C
Sequence 2
Sequence 1
31
Dotplot
Cada diagonal en elgráfico corresponde a un
posible alineamiento sin gap entre las dos
secuencias
A ? ? ? ? T ? ? ? ?
T ? ? ? ? C ? ? ? A ? ?
? ? C ? ? ? A ? ? ? ?
T ? ? ? ? A ? ? ? ?
T A C A T T A C G T A C
Sequence 2
Sequence 1
T A C A T T A C G T A C A T A C A C T
T A
One possible alignment
32
Pairwise Sequence Alignment
  • Principios de la comparación por pares de
    secuencias
  • alineamientos globales / locales
  • sistemas de puntuación scoring
  • penalizaciones por GAP
  • Métodos de pairwise sequence alignment
  • Basados en deslizamiento de ventanas
    window-based
  • programación dinámica

33
Window-based Approaches
  • Word Size
  • Window / Stringency

34
Word Size Algorithm
T A C G G T A T G A C A G T A T C
Word Size 3
C T A T
? G A
C A T A C G G T A T G
T A C G G T A T G A C A G T A T C
T A C G G T A T G A C A G T A T C
T A C G G T A T G A C A G T A T C
?
35
Window / Stringency
Window 5 / Stringency 4
T A C G G T A T G T C A G T A T C
C T A ? T
? G ? A CA
T A C G G T A T G
T A C G G T A T G T C A G T A T C
?
T A C G G T A T G T C A G T A T C
?
T A C G G T A T G T C A G T A T C
?
36
Considerations
  • The window/stringency method is more sensitive
    than the wordsize
  • method (ambiguities are permitted).
  • The smaller the window, the larger the weight of
    statistical
  • (unspecific) matches.
  • With large windows the sensitivity for short
    sequences is reduced.
  • Insertions/deletions are not treated explicitly.

37
Insertions / Deletions in a Dotplot
T A C T G T C A T T A C T G T T C A T
Sequence 2
Sequence 1
T A C T G - T C A T T A C T G
T T C A T
38
Dotplot (Window 130 / Stringency 9)
Hemoglobin?-chain
Hemoglobin ?-chain
39
Dotplot (Window 18 / Stringency 10)
Hemoglobin?-chain
Hemoglobin ?-chain
40
Pairwise Sequence Alignment
  • Principles of pairwise sequence comparison
  • global / local alignments
  • scoring systems
  • gap penalties
  • Methods of pairwise sequence alignment
  • window-based approaches
  • dynamic programming approaches
  • Needleman and Wunsch
  • Smith and Waterman

41
Dynamic Programming
Procedimiento automático que encuentra el mejor
alineamiento con un score óptimo dependiendo de
los parámetros elegidos.
Soluciones recursivas. Los problemas pequeños
se solucionan primero y las soluciones se usan
para resolver problemas mayores despues. Las
soluciones intermedias se almacenan en matrices
tabulares.
42
Principios básicos de la programación dinámica
  • Initialization of alignment matrix the scoring
    model
  • - Stepwise calculation of score values
  • (creation of an alignment path matrix)
  • - Backtracking (evaluation of the optimal path)

43
Initialization of Matrix (BLOSUM 50)
H E A G A W G H E E
P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1 A
-2 -1 5 0 5 -3 0 -2 -1 -1 W -3 -3
-3 -3 -3 15 -3 -3 -3 -3 H 10 0 -2
-2 -2 -3 -2 10 0 0 E 0 6 -1 -3
-1 -3 -3 0 6 6 A -2 -1 5 0 5 -3
0 -2 -1 -1 E 0 6 -1 -3 -1 -3 -3
0 6 6
44
Needleman and Wunsch (global alignment)
Sequence 1 H E A G A W G H E E Sequence 2 P A
W H E A E Scoring parameters BLOSUM50
matrix Gap penalty Linear gap penalty of 8
45
Creation of an alignment path matrix
IdeaCrear un alineamiento global optimo usando
soluciones precias para alineamientos optimos de
subsecuencias más pequeñas.
  • Construct matrix F indexed by i and j (one index
    for each sequence)
  • F(i,j) es el score para el mejor alineamiento
    entre el segmento inicial x1...i de x hasta xi y
    el segmento inicial y1...j de y hasta yj
  • construir F(i,j) de forma recursiva empezando
    con F(0,0) 0

- A
E E
H H
G -
W W
A A
G -
A P
E -
H -
Optimal global alignment
46
Creation of an alignment path matrix
F(i, j) F(i-1, j-1) s(xi ,yj) F(i, j)
max F(i, j) F(i-1, j) - d F(i, j) F(i,
j-1) - d
F(i-1, j-1) F(i, j-1) F(i-1,j) F(i, j)
HEAGAWGHE-E --P-AW-HEAE
s(xi ,yj)
-d
-d
47
Creation of an alignment path matrix
  • If F(i-1,j-1), F(i-1,j) and F(i,j-1) are known we
    can calculate F(i,j)
  • Three possibilities
  • xi and yj are aligned, F(i,j) F(i-1,j-1)
    s(xi ,yj)
  • xi is aligned to a gap, F(i,j) F(i-1,j) - d
  • yj is aligned to a gap, F(i,j) F(i,j-1) - d
  • The best score up to (i,j) will be the largest of
    the three options

48
Creation of an alignment path matrix
H E A G A W G H
E E 0 P A W H E A E
-8 -16 -24 -32 -40 -48 -56 -64 -72 -80
-8 -16 -24 -32 -40 -48 -56
Boundary conditions F(i, 0) -i d
F(j, 0) -j d
49
Stepwise calculation of score values
H E A G A W G H
E E 0 -8 -16 -24 -32 -40 -48
-56 -64 -72 -80 P
-8 A -16 W -24 H -32 E -40 A -48
E -56
P-H-2 E-P-1 H-A-2 E-A-1
-2
-9
-10
-3
50
Backtracking
H E A G A W G H
E E 0 -8 -16 -24 -32 -40 -48
-56 -64 -72 -80 P
-8 -2 -9 -17 -25 -33 -42 -49 -57 -65
-73 A -16 -10 -3 -4 -12 -20 -28 -36
-44 -52 -60 W -24 -18 -11 -6 -7 -15
-5 -13 -21 -29 -37 H -32 -14 -18 -13
-8 -9 -13 -7 -3 -11 -19 E -40 -22
-8 -16 -16 -9 -12 -15 -7 3 -5 A -48
-30 -16 -3 -11 -11 -12 -12 -15 -5
2 E -56 -38 -24 -11 -6 -12 -14 -15
-12 -9 1
0
-8
-16
-25
-17
-20
-5
-13
-3
3
-5
1
- A
E E
H H
G -
W W
A A
G -
A P
E -
H -
Optimal global alignment
51
Smith and Waterman(local alignment)
Two differences 1. 2. An alignment can now
end anywhere in the matrix
0 F(i, j) F(i-1, j-1) s(xi ,yj) F(i,
j) F(i-1, j) - d F(i, j) F(i, j-1) - d
F(i, j) max
Example Sequence 1 H E A G A W G H E E Sequence
2 P A W H E A E Scoring parameters Log-odds
ratiosGap penalty Linear gap penalty of 8
52
Smith Waterman alignment
H E A G A W G H
E E 0 0 0 0 0 0 0 0
0 0 0 P 0
0 0 0 0 0 0 0 0 0 0 A
0 0 0 5 0 5 0 0 0 0
0 W 0 0 0 0 2 0 20 12
4 0 0 H 0 10 2 0 0 0 12
18 22 14 6 E 0 2 16 8 0
0 4 10 18 28 20 A 0 0 8
21 13 5 0 4 10 20 27 E 0 0
6 13 18 12 4 0 4 16 26
0
5
20
12
22
28
AA
G-
HH
WW
Optimal local alignment
53
Extended Smith Waterman
  • To get multiple local alignments
  • delete regions around best path
  • repeat backtracking

54
Extended Smith Waterman
H E A G A W G H
E E 0 0 0 0 0 0 0 0
0 0 0 P 0
0 0 0 0 0 0 0 0 A 0
0 0 5 0 0 0 0 0
0 W 0 0 0 0 2 0
0 0 H 0 10 2 0 0 0 E 0
2 16 8 0 0 A 0 0 8 21
13 5 0 E 0 0 6 13 18 12 4
0
55
Extended Smith Waterman
H E A G A W G H
E E 0 0 0 0 0 0 0 0
0 0 0 P 0
0 0 0 0 0 0 0 0 0 A
0 0 0 5 0 0 0 0 0
0 W 0 0 0 0 2 0
0 0 H 0 10 2 0 0 0 E 0
2 16 8 0 0 A 0 0 8 21
13 5 0 E 0 0 6 13 18 12 4
0
0
10
16
21
H H
EE
Second best local alignment
56
Further Extensions of Dynamic Programming
  • Overlap matches
  • Alignment with affine gap scores

57
Pairwise Sequence Alignment
  • Pairwise sequence comparison
  • global / local alignments
  • parameters
  • scoring systems
  • insertions / deletions
  • Methods of pairwise sequence alignment
  • dotplot
  • windows-based methods
  • dynamic programming
  • algorithm complexity

58
End.of.pa.irwise..sequence
align.ment.cours.e
59
Methods of Pairwise Comparison
Progressive Alignment step
Multiple Alignment
1.
Programs perform global alignments
  • Needleman Wunsch (Pileup, Tree, Clustal)
  • Word Size Method (Clustal)
  • X. Huang (MAlign)
  • (modified N-W)

60
Construction of a Guide Tree
Progressive Alignment step
Multiple Alignment
2.
1 2 3 4 5
Sequence
1 2 3 4 5
Similarity Matrix displays scores of all
sequence pairs.
The similarity matrix is transformed into
a distance matrix . . . . .
61
Construction of a Guide Tree
Progressive Alignment step
Multiple Alignment
2.
Guide Tree
1
5
Distance Matrix
2
3
4
Neighbour-Joining Method or UPGMA (unweighted
pair group method of arithmetic averages)
62
Multiple Alignment
Progressive Alignment step
Multiple Alignment
3.
Guide Tree
1
5
2
3
2
4
1
63
Columns - once aligned - are never changed
Progressive Alignment step
Multiple Alignment
3.
G T C C G - C A G G T T - C G C C - G G
G T C C G - - C A G G T T - C G C - C - G G
T T A C T T C C A G G
T T A C T T C C A G G
64
Columns - once aligned - are never changed
Progressive Alignment step
Multiple Alignment
3.
G T C C G - C A G G T T - C G C C - G G
G T C C G - - C A G G T T - C G C - C - G G
T T A C T T C C A G G
T T A C T T C C A G G
. . . . and new gaps are inserted.
65
Columns - once aligned - are never changed
Progressive Alignment step
Multiple Alignment
3.
G T C C G - - C A G G T T - C G C - C - G G
G T C C G - - C A G G T T - C G C - C - G G
T T A C T T C C A G G
T T A C T T C C A G G
A T C - T - - C A A T C T G - T C C C T A G
A T C T - - C A A T C T G T C C C T A G
66
Sub-sequence alignments
67
A K-means like clustering problem
68
Clustering resulting model
69
Clustering predictions
70
Assignments
  • Describe a pairwise alignment with a different
    gap penalization.
  • Provide an example and perform a multiple global
    alignment. Describe the recipe.
  • Provide an example and perform a multiple
    alignment of subsequences. Describe the recipe.
  • Algorithms Order (polynomial, exponential, NP)

71
Algorithmic Complexity
How does an algorithms performance in CPU time
and required memory storage scale with the size
of the problem?
  • Needleman Wunsch
  • Storing (n1)x(m1) numbers
  • Each number costs a constant number of
    calculations to compute (three sums and a max)
  • Algorithm takes O(nm) memory and O(nm) time
  • Since n and m are usually comparable O(n2)

72
Gracias porsu atención
http//www.m4m.es
Write a Comment
User Comments (0)
About PowerShow.com