Fisica Computazionale applicata alle Macromolecole - PowerPoint PPT Presentation

About This Presentation
Title:

Fisica Computazionale applicata alle Macromolecole

Description:

Fisica Computazionale applicata alle Macromolecole Reti Neurali per la predizione proteica Pier Luigi Martelli Universit di Bologna gigi_at_biocomp.unibo.it – PowerPoint PPT presentation

Number of Views:64
Avg rating:3.0/5.0
Slides: 78
Provided by: bio125
Category:

less

Transcript and Presenter's Notes

Title: Fisica Computazionale applicata alle Macromolecole


1
Fisica Computazionale applicata alle Macromolecole
Reti Neurali per la predizione proteica
  • Pier Luigi Martelli
  • Università di Bologna
  • gigi_at_biocomp.unibo.it
  • 051 2094005
  • 338 3991609

2
Secondary structure
Covalent structure TTCCPSIVARSNFNVCRLPGTPEAIC
ATYTGCIIIPGATCPGDYAN
3
Topology of membrane proteins
Topography
position of Trans Membrane Segments along the
sequence
ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK
ALALMLCMLTYRHKELKLKLKK
4
Metodi di prima generazione
  • Scale di propensità
  • Statistiche sulla presenza dei 20 amminoacidi
    nelle differenti strutture
  • Considerazioni fisico-chimiche
  • Ad ogni tipo di amminoacido viene attribuito un
    valore di propensità ad assumere una certa
    struttura

5
Struttura secondaria Metodo di Chou-Fasman
Dato un insieme di strutture note, si conta
quante volte ognuno degli amminoacidi è presente
in una data struttura e si determina il grado di
indipendenza tra lamminoacido e la
struttura Esempio ALAKSLAKPSDTLAKSDFREKWEWLKLL
KALACCKLSAAL hhhhhhhhccccccccccccchhhhhhhhhhhhhhh
hhhh N(A,h) 7, N(A,c) 1, N40,
N(A)8,N(h)27 P(A,h) 7/40, P(A) 8/40, P(h)
27/40 Se amminoacido e struttura sono
indipendenti P(A,h) P(A)P(h) Il rapporto
P(A,h)/P(A)P(h) è detto propensità
6
Struttura secondaria Metodo di Chou-Fasman
Dato un insieme AMPIO di esempi, si costruisce
una scala di propensità per ogni residuo e ogni
struttura
7
Struttura secondaria Metodo di Chou-Fasman
Data una nuova sequenza si graficano i valori di
propensità residuo per residuo e si ricava una
predizione di struttura secondaria Q3
50/60 (numero di risposte corrette su un
insieme di test scorrelato con linsieme su cui
si è condotta la statistica)
8
Struttura secondaria Metodo di Chou-Fasman
http//www.expasy.ch/cgi-bin/protscale.pl
9
Eliche transmembrana Scala di Kyte e Doolittle
Si considera il coefficiente di partizione
acqua-ottanolo dei singoli amminoacidi Si
considera la frequenza di occorrenza dei singoli
amminoacidi nelle eliche transmembrana Ala
1.800 Arg -4.500 Asn -3.500 Asp -3.500
Cys 2.500 Gln -3.500 Glu -3.500 Gly
-0.400 His -3.200 Ile 4.500 Leu 3.800
Lys -3.900 Met 1.900 Phe 2.800 Pro
-1.600 Ser -0.800 Thr -0.700 Trp -0.900
Tyr -1.300 Val 4.200
10
Metodi di seconda generazione GOR
La struttura assunta da un amminoacido non
dipende solo dallamminoacido stesso, ma anche da
quelli che lo affiancano Si possono estendere le
statistiche agli amminoacidi che affiancano
lamminoacido di cui si vuol predire la struttura
(tipicamente in una finestra -8 lt i lt 8 / -13 lt i
lt 13) Si ottengono dei coefficienti P(A,s,i) di
contributo dellamminoacido A, posto in posizione
i rispetto al residuo centrale, alla struttura s
per il residuo centrale
11
Struttura secondaria Metodo GOR
Q3 65 (numero di risposte corrette su un
insieme di test scorrelato con linsieme su cui
si è condotta la statistica) Le posizioni
dellintorno sono considerate scorrelate tra
loro, e portano contributi indipendenti
12
Un metodo più efficiente Reti neurali
Nuovo paradigma di calcolo analogia con sistema
nervoso 1) Il sistema nervoso è costituito da
neuroni 2) Il segnale elettrico fluisce nel
neurone in una direzione determinata (Principio
di polarizzazione dinamica) 3)Non esiste
continuità citoplasmatica tra le cellule ogni
cellula comunica con alcune cellule in modo
specifico attraverso le sinapsi (Principio di
specificità connettiva)
13
Computazione complessa Bande di Mach
Osservate le giunzioni tra le bande
14
Computazione complessa Bande di Mach
15
Computazione complessa Bande di Mach
Da R. Pierantoni, La trottola di Prometeo,
Laterza (1996)
Osservate le giunzioni tra le zone bianche e nere
16
Computazione complessa Bande di Mach
Stimolo ? Percetto
Intensità
Intensità
17
Semplice modello di neurone retinico
Potenziale (mV)
Luce
Potenziale
Intensità incidente (fotoni/s)
Trasduttore lineare Luce-Potenziale
18
Trasmissione senza connessioni
Fotoni/s
mV
19
Trasmissione con inibizione laterale
Fotoni/s
Ogni neurone inibisce i suoi vicini per il 10
del suo potenziale senza inibizioni
20
Computazione complessa Bande di Mach
Molte unità di calcolo uguali, ognuna delle
quali compie azioni semplici, ampiamente
interconnesse possono compiere computazioni molto
complesse. La conoscenza risiede nella
topologia delle connessioni e nella forza della
sinapsi
21
Modello di neurone di McCulloch e Pitts
w pesi sinaptici q soglia di attivazione
Unità computazionale che compie la somma pesata
dei segnali in ingresso (attivazione,a) trasform
a lattivazione secondo una funzione di
trasferimento g (output, z)
22
Funzioni di trasferimento
Si usano solitamente funzioni NON lineari
23
Reti neurali
Wij Pesi sinaptici
Neurone i
La soglia può essere considerata come ulteriore
neurone sempre attivo e collegato con peso
sinaptico pari a -q
-q
24
Reti neurali topologie
La topologia delle connessioni definisce il tipo
di rete. Ci occuperemo solo delle reti
feed-forward in cui i neuroni sono organizzati in
strati gerarchici e il segnale fluisce in una
unica direzione. Percettroni 2 soli strati
Input e Output
wij
25
Reti neurali e operatori logici
1
OR w13 0.5 w23 0.5 q3 0.25
3
2
a3 0.25 z3 1
a3 0.75 z3 1
a3 0.25 z3 1
a3 -0.25 z3 0
26
Reti neurali e operatori logici
1
AND w13 0.5 w23 0.5 q3 0.75
3
2
a3 -0.25 z3 0
a3 0.25 z3 1
a3 -0.25 z3 0
a3 -0.75 z3 0
27
Reti neurali e operatori logici
1
NOT (1) w13 -0.5 w23 0.1 q3 -0.25
3
2
a3 -0.25 z3 0
a3 -0.15 z3 0
a3 0.35 z3 1
a3 0.25 z3 1
28
Separabilità lineare
Data la funzione di trasferimento, il neurone
risulta attivato se
Lo spazio degli input è così diviso in due zone
da un iperpiano.
Se i mapping che vogliamo effettuare non sono
linearmente separabili, il percettrone è
insufficiente
29
Separabilità lineare
AND
OR
NOT(1)
Non linearmente separabile un percettrone non
può risolverlo
XOR
30
Reti neurali feed-forward a più strati
Neuroni organizzati a strati Ogni strato riceve
input da quello precedente e trasmette un segnale
a quello successivo
w1ij
w2ij
31
w111
1 (q11)
1
XOR w111 0.7 w121 0.7 q11 0. 5 w112 0.3
w122 0.3 q12 0. 5 w211 0.7 w221 -0.7
q12 0. 5
w211
w112
1 (q21)
w121
2 (q12)
2
w221
w122
x1 0 x2 0
a11 -0.5 z11 0 a12 -0.5 z12 0
a21 -0.5 z12 0
32
w111
1 (q11)
1
XOR w111 0.7 w121 0.7 q11 0. 5 w112 0.3
w122 0.3 q12 0. 5 w211 0.7 w221 -0.7
q12 0. 5
w211
w112
1 (q21)
w121
2 (q12)
2
w221
w122
x1 1 x2 0
a11 0.2 z11 1 a12 -0.2 z12 0 a21
0.2 z12 1
33
w111
1 (q11)
1
XOR w111 0.7 w121 0.7 q11 0. 5 w112 0.3
w122 0.3 q12 0. 5 w211 0.7 w221 -0.7
q12 0. 5
w211
w112
1 (q21)
w121
2 (q12)
2
w221
w122
x1 0 x2 1
a11 0.2 z11 1 a12 -0.2 z12 0 a21
0.2 z12 1
34
w111
1 (q11)
1
XOR w111 0.7 w121 0.7 q11 0. 5 w112 0.3
w122 0.3 q12 0. 5 w211 0.7 w221 -0.7
q12 0. 5
w211
w112
1 (q21)
w121
2 (q12)
2
w221
w122
x1 1 x2 1
a11 0.9 z11 1 a12 0.1 z12 1 a21
-0.5 z12 0
35
Gli strati nascosti mappano linput in una
rappresentazione linearmente separabile
Input Output Attivazione desiderato
neuroni hidden 0 0 0 0 0 1 0 1 0 1 0 1
1 0 1 1 1 0 1 1
36
Reti neurali supervisionate
Le reti neurali Feed-forward possono essere
addestrate a partire da esempi di cui sia nota la
soluzione. Funzione di errore Dato un insieme di
esempi xi il cui output desiderato di sia noto,
data una rete a parametri w, si può calcolare
lerrore quadratico sugli output della rete z (j
corre sugli output)
Addestrare la rete significa trovare i parametri
w che minimizzano tale errore algoritmi di
minimizzazione iterativi che NON garantiscono il
raggiungimento del minimo globale
37
Addestramento di un percettrone
Consideriamo come funzione di trasferimento una
funzione derivabile
Dati dei parametri iniziali w
z1
x1
z2
x2
38
Addestramento di un percettrone
Così
Scarto d ij
Si possono aggiornare i pesi per discesa del
gradiente
? è detta velocità di apprendimento troppo
piccola addestramento lento troppo grande si
superano i minimi Convergenza
39
Esempio OR
1
w13 0 w23 0 q3 0 ?2
3
2
Esempi presentati x1 x2 d a z E Dw13 Dw13
Dq3 1 0 1 0 0.5 0.125 -0.125 0 0.125 0 1 1 0 0.5
0.125 0 -0.125 0.125 0 0 0 0 0.5 0.125 0 0 -0.125
0 0 0 0 0.5 0.125 0 0 -0.125 0.5 -0.125 -0.
125 0
40
Esempio OR, Step 1
1
w13 0.25 w23 0.25 q3 0 ?2
3
2
Esempi presentati x1 x2 d a z E Dw13 Dw13
Dq3 1 0 1 0.25 0.56 0.096 -0.108 0 0.108 0 1 1 0.
25 0.56 0.096 0 -0.108 0.108 0 0 0 0 0.5 0.125 0 0
-0.125 0 0 0 0 0.5 0.125 0 0 -0.125 0.442 -
0.108 -0.108 -0.035
41
Esempio OR, Step 2
1
w13 0.466 w23 0.466 q3 0.069 ?2
3
2
Esempi presentati x1 x2 d a z E Dw13 Dw13
Dq3 1 0 1 0.397 0.598 0.081 -0.097 0 0.097 0 1 1
0.397 0.598 0.081 0 -0.097 0.097 0 0 0 -0.069 0.48
3 0.117 0 0 -0.121 0 0 0 -0.069 0.483 0.117 0 0 -0
.121 0.395 -0.097 -0.097 -0.048
42
Esempio OR, Step 3
1
w13 0.659 w23 0.659 q3 0.164 ?2
3
2
Esempi presentati x1 x2 d a z E Dw13 Dw13
Dq3 1 0 1 0.494 0.621 0.072 -0.089 0 0.089 0 1 1
0.494 0.621 0.072 0 -0.089 0.089 0 0 0 -0.164 0.45
9 0.105 0 0 -0.114 0 0 0 -0.164 0.459 0.105 0 0 -0
.114 0.354 -0.089 -0.089 -0.05
Continua Train
43
Generalizzazione
1
w13 0.659 w23 0.659 q3 0.164 ?2
3
2
Per lesempio non presentato (1,1)? x1 x2 d a z
1 1 1 1.153 0.760
La rete ha generalizzato le regole apprese ad un
esempio ignoto
44
Addestramento per reti a più stratiBack-propagati
on
Per lo strato 2, valgono le formule date per il
percettrone, con la sostituzione x ?z1,i
45
Addestramento per reti a più stratiBack-propagati
on
Per lo strato 1
Definisco d 1,ij
46
Addestramento per reti a più stratiBack-propagati
on
Output
Input
passo feed-forward per calcolare zl calcolo
dello scarto sugli output, ? 2l calcolo dello
scarto sui neuroni nascosti, ? j1 calcolo delle
derivate dellerrore rispetto ai pesi
47
Cosa apprende una rete?
Consideriamo il caso limite ideale in cui la rete
venga addestrata su un insieme continuo di
esempi, x, ciascuno presente con probabilità P(x)
e che le soluzioni desiderate t siano associate
ad ognuno degli esempi con probabilità P(t x)
Training, a convergenza
Derivata funzionale
Lo stato di attivazione del j-esimo neurone di
output è uguale alla media delle soluzioni
associate all'input x nell'insieme di
addestramento
48
Tools out of machine learning approaches
Neural Networks can learn the mapping from
sequence to secondary structure
Training
Data Base Subset
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
General rules
EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE
Known mapping
49
Reti neurali per la predizione della struttura
secondaria
Output
Input
M P I L K QK P I H Y H P N H G
E A K G
A 0 0 0 0 0 0 0 0 0 C 0 0 0 0 0 0 0 0 0 D 0
0 0 0 0 0 0 0 0 E 0 0 0 0 0 0 0 0 0 F 0 0
0 0 0 0 0 0 0G 0 0 0 0 0 0 0 0 0H 0 0 0 1 0
1 0 0 1 I 0 0 1 0 0 0 0 0 0 K 1 0 0 0 0 0 0 0
0 L 0 0 0 0 0 0 0 0 0 M 0 0 0 0 0 0 0 0 0 N
0 0 0 0 0 0 0 1 0 P 0 1 0 0 0 0 1 0 0 Q 0 0 0
0 0 0 0 0 0 R 0 0 0 0 0 0 0 0 0 S 0 0 0 0 0 0
0 0 0 T 0 0 0 0 0 0 0 0 0 V 0 0 0 0 0 0 0 0
0 W 0 0 0 0 0 0 0 0 0 Y 0 0 0 0 1 0 0 0 0
Tipicamente Input 17-23 residui Hidden neuron
4-15
50
(No Transcript)
51
Metodi di terza generazione linformazione
evolutiva
52
The Network Architecture for Secondary Structure
Prediction
The First Network (Sequence to Structure)
53
The Network Architecture for Secondary Structure
Prediction
The Second Network (Structure to Structure)
54
The Performance on the Task of Secondary
Structure Prediction
55
Combinando differenti reti Q3 76/78
56
Secondary Structure Prediction
Dalla sequenza
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
Alla struttura secondaria
E alla probabilità di corretta predizione
7997688899999988776886778999887679956889999999
57
SERVERS
PredictProtein Burkhard Rost (Columbia
Univ.) http//cubic.bioc.columbia.edu/predictprot
ein/ PsiPRED David Jones (UCL) http//bioinf.cs
.ucl.ac.uk/psipred/ JPred Geoff Barton (Dundee
Univ.) SecPRED http//www.biocomp.unibo.it
58
Segmenti Camaleonte
QEALEIA
59
We extract
from a set of 822 non-homologous
proteins (174,192 residues)
2,452 5-mer chameleons 107 6-mer chameleons
16 7-mer chameleons 1 8-mer chameleon
The total number of residues in chameleons is
26,044 out of 755 protein chains (15)
60
Prediction of the Secondary Structure of
Chameleon sequences with Neural Networks
61
The Prediction of Chameleons with Neural Networks
62
Altri predittori a reti neurali
  • Struttura secondaria
  • Siti di iniziazione del folding
  • Topologia delle proteine di membrana
  • Stato di legame delle cisteine
  • Mappe di contatto delle proteine
  • Superfici di contatto di strutture proteiche

63
Predizione dello stato di legame delle cisteine
Tryparedoxin-I from Crithidia fasciculata (1QK8)
MSGLDKYLPGIEKLRRGDGEVEVKSLAGKLVFFYFSASWCPPCRGFTPQL
IEFYDKFHES KNFEVVFCTWDEEEDGFAGYFAKMPWLAVPFAQSEAVQK
LSKHFNVESIPTLIGVDADSG DVVTTRARATLVKDPEGEQFPWKDAP
Free cysteines
Cys68
Disulphide bonded cysteines
Cys40
Cys43
64
Percettrone (con input a profilo di sequenza)
Legata
Non Legata
NGDQLGIKSKQEALCIAARRNLDLVLVAP
65
Cosa è memorizzato nei pesi sinaptici?
66
Struttura sintattica
Free states
Bonded states
67
Un possibile cammino
68
Un possibile cammino
P(seq) P(1 Begin) ? P(C40 1) ? ...
69
Un possibile cammino
P(seq) P(1 Begin) ? P(C40 1) ? ...
? P(2 1) ? P(C43 2) ? ..
70
Un possibile cammino
P(seq) P(1 Begin) ? P(C40 1) ? ...
? P(2 1) ? P(C43 2) ? ..
? P(4 2) ? P(C68 4) ? ..
71
Un possibile cammino
Begin
1
2
3
4
P(seq) P(1 Begin) ? P(C40 1) ? ...
? P(2 1) ? P(C43 2) ? ..
? P(4 2) ? P(C68 4) ? .. ?
P(End 4)
End
72
I 4 possibili cammini
73
(No Transcript)
74
Predizione della Triparedoxina
75
Predizione della Triparedoxina
76
Predizione della Triparedoxina
77
Performance del predittore
Neural Network
Hybrid system
B cysteine bonding state, Fcysteine free state.
WD whole database (969 proteins, 4136
cysteines) RD Reduced database, in which the
chains containing only one cysteine are removed
(782 proteins, 3949 cysteines).
  • Martelli PL, Fariselli P, Malaguti L, Casadio R.
    -Prediction of the disulfide bonding state of
    cysteines in proteins with hidden neural
    networks- Protein Eng. 15951-953 (2002)
Write a Comment
User Comments (0)
About PowerShow.com