RETI NEURALI - PowerPoint PPT Presentation

1 / 23

About This Presentation

Title:

RETI NEURALI

Description:

RETI NEURALI Corso di Circuiti e Algoritmi per il Trattamento dei Segnali SISTEMI ADATTATIVI RETI NEURALI Corso di Circuiti e Algoritmi per il Trattamento dei Segnali ... – PowerPoint PPT presentation

Number of Views:404

Avg rating:3.0/5.0

Slides: 24

Provided by: AugustoM

Category:

more less

Transcript and Presenter's Notes

Title: RETI NEURALI

1
RETI NEURALI

Corso di
Circuiti e Algoritmi per il Trattamento dei
Segnali

2
SISTEMI ADATTATIVI
3
SA-1
INTRODUCONO UN MODO INNOVATIVO DI CONCEPIRE IL
PROGETTO
piuttosto che costruire il sistema con specifiche
stabilite a priori, i dati esterni al sistema
vengono utilizzati per settare i parametri
TRA I DIVERSI SISTEMI ADATTATIVI VI SONO LE RETI
NEURALI
nelle reti neurali supervisionate laddestramento
è condotto utilizzando un training set spesso
costituito dalle coppie di valori dingresso e di
uscita desiderata
4
PROGETTO DI UN SISTEMA ADATTATIVO
SA-2

Scelta della topologia
Scelta del training set
Scelta di un criterio per
misurare le prestazioni
del sistema

Si conoscono topologie in grado
di creare mappatori universali
Si sanno implementare algoritmi
di training

IL CORSO È MIRATO AL TRATTAMENTO DEI SEGNALI CHE
STA ALLA BASE DI MOLTE APPLICAZIONI
INGEGNERISTICHE

Modelli lineari
Modelli non-lineari
Modelli alternativi (es. neurali )

5
MODELLI LINEARI
SA-3
Unalternativa consiste nel fittare i dati con
un modello lineare ?REGRESSIONE LINEARE

Raccolta dati
devono essere sufficienti
devono contenere le informazioni principali
devono essere liberi da rumore (tanto più
quanto è possibile)

6
SA-4
Problema ricavare w, b affinché la linea di
fittaggio passi il più vicino possibile a tutti i
punti
PROGETTO TRADIZIONALE Metodo dei minimi
quadrati minimizzare la somma dei quadrati degli
scostamenti
CRITERIO DI OTTIMALITÀ errore quadratico medio
(MSE)
N numero dosservazioni
Minimizzazione per via analitica
7
Dimostrazione
SA-5
Si può dimostrare che la linea di regressione
passa per il punto
CENTROIDE DELLE OSSERVAZIONI
8
SA-6
SVANTAGGIO TIME CONSUMING per grossi insiemi
di dati

CALCOLO DELLE PRESTAZIONI DEL MODELLO
LMSE ha problemi di scala
se scaliamo i dati lMSE cambia senza che cambi
il modo con cui la retta fitta i dati
COEFFICIENTE DI CORRELAZIONE r

Allora il numeratore di r è la covarianza delle
due variabili e il denominatore è il prodotto
delle corrispondenti deviazioni standard
? È UNA PROPRIETÀ INSITA NEI DATI
9
SA-7
r 1 correlazione perfetta lineare positiva (x
e d covariano) r -1 correlazione perfetta
lineare negativa r 0 x e d sono scorrelate
r2 rappresenta la quantità di
varianza presente nei dati e catturata da una
regressione lineare ottima
10
PROGETTO ADATTATIVO
SA-8
UN SISTEMA ADATTATIVO ALLENATO SUL TRAINING SET
POSSIEDE CAPACITÀ DI GENERALIZZARE

Il progetto di un sistema adattativo
supervisionato si basa su
un sistema con parametri adattativi
una risposta desiderata
un criterio di ottimalità da minimizzare
un metodo per calcolare i parametri ottimi

Nel caso in esame il sistema è lineare con
parametri w,b il criterio di ottimalità è il
MSE. Occorre trovare una procedura sistematica
per la modifica dei parametri. Tale procedura è
una procedura di ricerca del minimo di una
funzione
11
SA-9
Hp b 0 (rimuoviamo le medie di x e d )
La funzione obiettivo o costo è
Nel piano J-w è una parabola e viene chiamata
SUPERFICIE DI PRESTAZIONE
Il gradiente di J è un vettore che punta verso la
direzione di massimo cambiamento e con ampiezza
pari al coefficiente angolare della tangente alla
curva J nel punto considerato
12
METODI DEL GRADIENTE
SA-10

Fanno uso delle informazioni relative al
gradiente.Vantaggi
Il gradiente può essere calcolato localmente
Il gradiente punta nella direzione di massimo
cambiamento

METODO DELLA DISCESA PIÙ RIPIDA
La ricerca è condotta nella direzione opposta al
gradiente 1. Calcolare J in un punto iniziale
w(0) 2. Modificare w(0) proporzionalmente al
gradiente negativo 3. Iterare la procedura
precedente
(h piccola costante)

Se h è piccolo la procedura converge a w
Spesso il gradiente non è noto esplicitamente
Metodi di stima del gradiente
Widrow (1960) propone un algoritmo basato
sulluso del valore istantaneo

13
SA-11
METODO LEAST MEAN SQUARE (LMS)
poiché
Cioè si assume di rimuovere la sommatoria e
definire la stima del gradiente al passo k come
il suo valore istantaneo. Il metodo della
discesa più ripida diventa
h STEPSIZE o LEARNING RATE

Questo algoritmo effettua laggiornamento del
peso w campione dopo campione
TRADING ON LINE (o sequenziale)
EPOCA presentazione dellintero campione degli
ingressi

14
SA-12
TRAINING BATCH
Si calcolano i valori degli aggiornamenti durante
unepoca, si sommano questi valori e si apporta
la modifica
Vantaggi si segue meglio il gradiente evitando
traiettorie a zig-zag. Facilità di
implementazione in parallelo NOTA è buona norma
rendere random lordine di presentazione del
trainig set da unepoca allaltra Svantaggi
maggior immagazzinamento di dati facilità di
intrappolamento in minimi locali (se esistenti)
VALIDAZIONE / TESTING

VALIDATION SET
Se il decadimento delle prestazioni è
inaccettabile è segno che la quantità e qualità
dei dati nel trainig set è inadeguata

15
SA-13
Coefficiente di correlazione nei sistemi
adattativi
Approssima r anche durante la procedura di
adattamento
CURVA DI LEARNING
h tasso di learning (scelto dal progettista)

Se h è troppo piccolo?convergenza lenta
Se h è troppo grande ?può divergere
Si può cercare un modo per calcolare il massimo
valore di h che garantisce la convergenza

16
SA-14
WEIGHT TRACK
17
SA-15

Nel caso dei metodi steepest-descent, per h
costante, si ha la convergenza asintotica

Si può dimostrare che

Nel learning batch si deve usare un valore di
normalizzato h /N

Nel learning on-line (N1) si usa la stima
istantanea del gradiente che è, quindi, affetta
da errore. Si deve introdurre un fattore di
sicurezza. Es h lt h/N

Costante di tempo della procedura di adattamento
(pendenza dellesponenziale decrescente nella
weight-track)

dopo 4 ? 5 costanti di tempo la procedura di
adattamento può considerarsi conclusa

Fenomeno del rattling

Non si arriva a stabilizzare la soluzione ( h
troppo alto)
18
SA-16
Soluzione di compromesso h alto allinizio del
processo iterativo e via via decrescente. Es
( b piccola costante)
Possono essere usati schemi alternativi (regole
geometriche, logaritmiche, etc.)
REGRESSIONE PER VARIABILI MULTIPLE
Sia d funzione di x1 , x2 , . . . , xd
La migliore regressione lineare sarà un
iperpiano di dimensione D. Es D2
In generale
Lobiettivo della regressione è quello di trovare
i pesi w1 , w2 , . . . wd cioè w w1 , w2
, . . . wd che minimizzi lo scarto quadratico
medio (MSE) su tutti gli N punti.

19
PROCESSORE ELEMENTARE
SA-17
Il PE che realizza la regressione lineare è
Analiticamente
con
ADALINE
da cui
Sistema di D1 equazioni normali nelle D1
incognite wk Sono equazioni facilmente risolvibili
20
MATRICE DI AUTO CORRELAZIONE
SA-18
Cross-correlazione dellingresso per lindice j e
la risposta desiderata
Autocorrelazione tra i campioni k e j
Matrice di auocorrelazione
COEFF. DI CORRELAZIONE MULTIPLO rm
Sostituendo nelle equazioni normali
Si ottiene
matrice dei dati di input
con
Soluzione ottima
21
Si può dimostrare che la funzione costo può
essere espressa come
SA-19
Imponendo
già ricavata
Sostituendo w nella J
22
SA-20
METODI DELLA DISCESA PIÙ RIPIDA
METODO LEAST MEAN SQUARE (LMS)
e (k) è lerrore corrente

NOTA
possono essere utilizzati differenti algoritmi di
ricerca del minimo quali
Newton
Quasi-Newton
etc.

23
SISTEMA ADATTATIVO
SA-21

Non conosciamo la regola per generare d noto x ma
siamo in grado di misurarli sperimentalmente.
Vogliamo generare un modello che approssimi bene
anche in fase di generalizzazione. Per fare ciò
I dati del training devono coprire bene tutta la
casistica
Ci devono essere sufficienti dati nel training
set
Il coefficiente rm deve essere prossimo allunità

Write a Comment

User Comments (0)