UNIVERSITA

About This Presentation

Title:

UNIVERSITA

Description:

Title: Bioinformatics Course Notes (Ming Li) Subject: Bioinformatics Author: Ming Li Last modified by: Giancarlo Mauri Created Date: 4/26/2000 11:14:13 PM – PowerPoint PPT presentation

Number of Views:84

Avg rating:3.0/5.0

Slides: 44

Provided by: Ming155

Category:

Tags: universita

more less

Transcript and Presenter's Notes

Title: UNIVERSITA

1
UNIVERSITA DI MILANO-BICOCCALAUREA MAGISTRALE
IN BIOINFORMATICA

Corso di
BIOINFORMATICA TECNICHE DI BASE
Prof. Giancarlo Mauri
Lezione 13
Clustering di dati da microarrays

2
Sommario

Introduzione
La tecnologia dei DNA microarrays
Algoritmi di Clustering
algoritmi gerarchici
metodo del centroide
K-Means
Metodi evoluti (CLICK)

3
Cosa si intende per clustering

Il clustering è un procedimento che si pone come
obiettivo la suddivisione di un insieme di
elementi in sottoinsiemi
Gli elementi di ogni sottoinsieme sono accomunati
da caratteristiche simili

4
Dati necessari per il clustering

Insieme di elementi da classificare
Ogni elemento è specificato da un vettore
caratteristico
Misura di similarità (o dissimilarità) tra gli
elementi
Criteri da rispettare
OMOGENEITA elementi dello stesso cluster hanno
alto livello di similarità
SEPARAZIONE elementi di cluster diversi hanno
basso livello di similarità

5
Cenni matematici (1)

Sia N e1, , en un insieme di n elementi, e
sia C C1, , Cn una partizione di N in
sottoinsiemi. Ogni sottoinsieme è chiamato
cluster e C è detto clustering di N
Due elementi e1 e e2 sono chiamati mates rispetto
a C se sono membri dello stesso cluster in C

6
Il clustering in biologia

Elementi ? geni
Vettore caratteristico ? vettore con i livelli di
espressione di ogni gene, sotto le diverse
condizioni
Misura di similarità ? distanza tra vettori

7
Espressione genica

Uno dei principali meccanismi di regolazione
cellulare è il controllo dellespressione genica
che permette alla cellula di coordinare
operazioni complesse adattando la concentrazione
di proteine alle variazioni dellambiente
E possibile identificare gruppi di geni
coinvolti in un particolare evento (es. shock
termico) sperimentalmente (es. riscaldando la
colonia cellulare).
Vengono misurati i livelli di mRNA di ogni gene
nelle ore successive. Confrontando i dati con i
livelli di mRNA tipici di ogni gene, è possibile
individuare geni sovra o sottoespressi.

8
Espressione genica

Tecniche principali per la generazione di livelli
di espressione
Microarray cDNA
Microarray oligonucleotidici
Fingerprint oligonucletidici
Si basano tutte su un alto numero di esperimenti
Differiscono
per natura indagini e obiettivi
per le tecnologie usate

9
Microarray cDNA

Un insieme di probe univoci (sequenze di DNA a
elica singola) vengono immobilizzati su una
superificie solida (vetro, nylon, etc.)
LmRNA estratto da campioni cellulari viene
trattato in modo da generare un campione di cDNA
etichettato con una particolare tintura
(fluorescente o radioattiva)
Il campione viene poi incubato con larray così
che ogni probe ibridizza con la molecola di cDNA
campione complementare (se presente)
Esperimenti con mRNA da diversi campioni possono
essere realizzati contemporaneamente, usando
tinture diverse o diversi array. I risultati
vengono poi confrontati per dare una stima
qualitativa dellabbondanza relativa dellmRNA
nella popolazione cellulare in esame

10
Microarray cDNA
11
Microarray cDNA

Libridizzazione non dà una misura quantitativa
dellespressione genica lefficienza
nellestrazione di DNA, la sintesi del campione,
letichettatura del campione e le reazioni di
ibridizzazione variano da campione a campione e
tra un gene e laltro. Si può avere solo una
stima relativa del tasso di cambiamento della
concentrazione di mRNA tra due campioni

Matrice dellEspressione Genica
12
Microarray cDNA
13
Algoritmi di clustering - Classificazione

Organizzazione dei cluster
GERARCHICI
NON GERARCHICI
Uso di informazioni note, per guidare lalgoritmo
SUPERVISIONATI
NON SUPERVISIONATI
Costruzione della soluzione di clustering
AGGLOMERATIVI (si parte dal singolo gene)
DIVISIVI (si parte dalla totalità dei geni)

14
Clustering Gerarchico

Questo approccio prova a collocare gli elementi
in input in una struttura gerarchica ad albero,
in cui le distanze allinterno dellalbero
riflettono le similarità degli elementi. Gli
elementi sono localizzati sulle foglie
dellalbero
Vantaggi
Una figura singola, coerente e globale
Intuitivo per i biologi
Svantaggi
Non ci sono esplicite partizioni nel cluster
Anche per un biologo esperto potrebbe risultare
impossibile fare intuizioni semplicemente
guardando il grafo ad albero, a causa della
dimensione dei dati, e del numero di errori

15
Clustering Gerarchico
Viene impiegata una struttura ad albero
Una particolare rappresentazione è il dendrogramma
16
Clustering Gerarchico
Lalgoritmo di clustering gerarchico fonde
cluster simili, e calcola la nuova distanza per i
cluster fusi.
Se i è clusterizzato con j ed entrambi non sono
simili ad r allora D(i,r)D(j,r) anche se
D(i,j)gt0. (ricordiamo che D(n,m) è la funzione
distanza)
17
Algoritmi presentati

Clustering gerarchico
Neighbor joining
Metodo del centroide
Clustering non gerarchico
K-means
Basati sulla teoria dei grafi
Highly Connected Subgraph (HCS)
CLustering Identification via Connectivity
Kernels (CLICK)
Euristica per un algoritmo polinomiale
Clustering Affinity Search Technique (CAST)
Self-Organizing Maps (SOM)

18
Clustering gerarchico

Può essere supervisionato è agglomerativo e
gerarchico
Le soluzioni individuate vengono tipicamente
rappresentate con un dendogramma
Si procede da una partizione iniziale in cluster
singoli ad un merging dei cluster fino a che
tutti gli elementi appartengono allo stesso
cluster
Ogni passo di merge corrisponde allunione di due
cluster

19
Neighbor Joining Algorithm

Input la matrice delle distanze Dij
Trovare gli elementi r,s tali che Drs
minij(Dij)
Fondere i cluster r,s
Eliminare gli elementi r,s, e aggiungere un nuovo
elemento t con
Ripetere, finché non rimane un solo elemento.

20
Metodo del Centroide

Si tratta di un metodo gerarchico aggregativo nel
quale la misura di vicinanza tra due cluster
viene valutata sulla base della distanza dei
relativi centroidi
Il centroide di un cluster è il vettore la cui
j-esima coordinata è la media aritmetica delle
j-esime variabili di tutti gli elementi del
cluster in questione

21
Esempio

Si supponga di avere la matrice X di 5 elementi
di dimensione 3

0 2 5 x1 2 4 0 x2 X 1 1 4
x3 0 0 2 x4 5 11 0 x5
Presi i cluster A x1, x2 e B x3, x4, x5,
i loro centroidi sono rispettivamente c(A) (1,
3, 2.5) e c(B) (2, 4, 2) e la loro distanza
(Manhattan) è d(A,B) 1-23-42.5-2 2.5
22
Metodo del Centroide
23
Neighbor Joining Algorithm
Quindi inizialmente ogni gene rappresenta un
cluster contenente solo sé stesso. Si cercano i 2
cluster r e s con la minima distanza tra loro in
modo da fonderli insieme. r viene rimpiazzato con
il nuovo cluster mentre s viene eliminato. Le
distanze che sono state interessate dalla fusione
vengono ricalcolate con la formula mostrata. Si
ripetono le fasi 2, 3 e 4 finché il numero totale
dei cluster non diviene 1, cioè finché non sono
stati presi in considerazione tutti i
geni. Vediamo ora un semplicissimo esempio di
esecuzione dellalgoritmo, partendo dalla
seguente matrice delle distanze
24
Neighbor Joining Algorithm
Alla 1 iterazione
per cui si devono fondere i cluster 1 e 2
Alla 2 iterazione
per cui si devono fondere i cluster 3 e 4
Alla 3 iterazione fondiamo i due cluster così
ottenuti e otteniamo per cui una matrice con un
unico elemento. Lesecuzione quindi termina.
25
Neighbor Joining Algorithm
Vediamo come avviene la generazione dellalbero
(ricordando che i pesi degli archi sono
determinati tramite )
26
Clustering gerarchico (3)

Varianti
si basano sul differente Linkage Method usato.
Questo metodo è quello utilizzato per calcolare
le distanze tra due cluster quando si costruisce
il dendrogramma
Single Linkage le distanze sono misurate da ogni
membro di un cluster ad ogni membro dellaltro
cluster. Si considera come distanza tra i cluster
quella minima
Average Linkage la misura della distanza tra due
cluster è calcolata come media della distanza di
ogni membro del cluster da ogni membro dellaltro
Complete Linkage le distanze sono misurate da
ogni membro di un cluster ad ogni membro
dellaltro cluster. Si considera come distanza
tra i cluster quella massima

27
Average Linkage
LAverage Linkage è una variante del Neighbor
Joining algorithm. Lidea è la stessa ma nel
momento in cui calcoliamo le nuove distanze dei
cluster creati, vengono prese in considerazione
le dimensioni dei cluster che sono stati fusi
insieme.

Input La matrice distanza Dij, dimensione del
cluster iniziale nr
iterazione k come nel Neighbor Joining algorithm
con la differenza che la distanza da un nuovo
elemento t è definita attraverso

La misura della distanza tra due cluster è
considerata la media della distanza di ogni
membro del cluster da ogni membro dellaltro
28
Average Linkage
Esistono 2 metodi alternativi
Single Linkage
Complete Linkage
29
Average Linkage
Data la seguente matrice delle distanze vediamo
un esempio pratico di tutti e tre i metodi sopra
citati
30
Average Linkage
Il seguente è il dendrogramma relativo al Single
Linkage dellesempio riportato sopra. Gli altri
due sono differenti ma si ricavano esattamente
nello stesso modo.
31
Una struttura generale
Riportiamo la struttura generale del clustering
gerarchico
Nellalgoritmo dellAverage Linkage avremo che i
parametri assumeranno i seguenti valori
32
Metodi non gerarchici

I metodi non gerarchici mirano a ripartire le n
unità della popolazione in k gruppi, fornendo una
sola partizione anziché una successione di
partizioni tipica dei metodi gerarchici
Es. metodo di Forgy o delle K-Medie o delle
aggregazioni dinamiche

33
K-means (1)

È divisivo e generalmente non supervisionato
La soluzione non è visualizzabile attraverso
dendogrammi
Lalgoritmo K-means assume che il numero k di
cluster sia noto
Si propone di minimizzare le distanze tra
elementi e i centroidi dei cluster loro assegnati

34
K-means (2)

Algoritmo
Si inizia fissando k centroidi iniziali di
altrettanti cluster
Per ogni gene si calcola la distanza da ciascun
centroide e lo si assegna al più vicino
Per la partizione provvisoria così ottenuta si
ricalcolano i centroidi di ogni cluster (media
aritmetica)
Per ogni gene si ricalcola la distanza dai
centroidi e si effettuano gli eventuali
spostamenti tra cluster
Si ripetono le operazioni 3 e 4 finché si
raggiunge il numero massimo di iterazioni
impostate o non si verificano altri spostamenti

35
HCS e CLICK

I dati di input vengono rappresentati come un
grafo di similarità
OBIETTIVO costruzione dei kernel
Lalgoritmo partiziona ricorsivamente linsieme
corrente di elementi in due sottoinsiemi
Prima di una partizione, si considera il
sottografo indotto dal corrente sottoinsieme di
elementi
Se il sottografo soddisfa un criterio di arresto
allora viene dichiarato un kernel
Altrimenti viene eseguito un taglio minimo pesato
su quel sottografo e linsieme viene diviso in
due sottoinsiemi separati dal taglio, su cui
verrà ripetuta la procedura di costruzione dei
kernel
Loutput è una lista di kernel che serve come
base per gli eventuali cluster

36
HCS (1)

Costruisce un grafo di similarità non pesato (gli
archi in realtà hanno peso 1 o 0) in cui esiste
un arco tra due vertici sse la similarità tra i
loro corrispondenti elementi supera una soglia
predefinita
Un HCS è un sottografo indotto H di G il cui
valore di taglio minimo eccede V(H)/2
Lalgoritmo identifica gli HCS come kernel
Possiede due buone proprietà per il clustering
il diametro di ogni cluster che produce è al
massimo due
ogni cluster è denso almeno la metà di una cricca

37
HCS (2)

Varianti
Iterated-HCS quando il minimo valore di taglio
viene ottenuto da diversi tagli distinti,
lalgoritmo HCS ne sceglie uno arbitrariamente.
Questo processo potrebbe suddividere piccoli
cluster in singoletti. Per superare questo
inconveniente, è possibile eseguire diverse (1-5)
iterazioni di HCS fino a che nessun nuovo cluster
viene trovato
Singletons Adoption i singoletti possono essere
adottati dai cluster. Per ogni elemento singolo
x si calcola il numero dei vicini presenti in
ogni cluster e nellinsieme dei singoletti S. Se
il massimo numero di vicini è sufficientemente
grande ed è ottenuto da uno dei cluster
(piuttosto che da S) allora x viene aggiunto a
quel cluster. Questo processo viene ripetuto
diverse volte

38
HCS (3)

Removing Low Degree Vertices quando il grafo di
similarità contiene vertici con grado basso,
uniterazione dellalgoritmo di taglio minimo
potrebbe semplicemente separare i vertici di
grado basso dal resto del grafo. Eliminare i
vertici di grado basso da G elimina queste
iterazioni e riduce in modo significativo il
tempo di esecuzione. Il processo è ripetuto con
diverse soglie sul grado

39
CLICK

Linformazione iniziale è rappresentata dalla
matrice nxp dellEspressione Genica M.
Ogni riga i di M rappresenta limpronta digitale
del gene i-esimo. Lobiettivo dellalgoritmo è
quello di determinare cluster di geni tali che i
geni in ogni cluster siano altamente simili
nellespressione mentre geni in cluster diversi
siano dissimili nellespressione.
Sulla base di M si costruisce un grafo i cui
vertici sono i geni mentre gli archi
rappresentano la probabilità che i due vertici
dellarco stiano in uno stesso cluster. Ad essa
si assegna il valore

40
CLICK lalgoritmo

Lidea dellalgoritmo è la seguente dato un
grafo G si vorrebbe decidere se i suoi vertici
rappresentano geni appartenenti ad un solo
cluster oppure no. Nel primo caso di dice che
G è puro. Per decidere questo si determinano
tutti i tagli del grafo G e si valutano le
seguenti
ipotesi per ogni taglio C del grafo
H0C il taglio contiene solo geni di uno stesso
cluster
H1C il taglio contiene almeno due geni di
cluster diversi
Se PH0CgtPH1C per ogni taglio C di G allora si
dice che G è un kernel

41
Analisi Componenti Principali (PCA)

La PCA è una tecnica per la riduzione del numero
di variabili casuali che descrivono un fenomeno.
Lobiettivo e quello di identificare un
sottoinsieme di variabili casuali dalle quali
dipende la maggiore varianza (variabilità) del
fenomeno

y descrive meglio di x la variabilità del fenomeno
42
PCA i dati
x
Il sottospazio generato da r(1), , r(M), (Mltd),
è chiamato sottospazio PCA
43
Trasformazione di Karhunen-Loéve
Obiettivo mappare vettori x (x1,, xd) in
vettori z (z1,, zM) con Mltd.
Errore
ui sono d vettori ortonormali
Somma dei quadrati degli errori
Lerrore minimo è ottenuto scegliendo i più
piccoli d-M autovalori ogni autovettore ui è
chiamato componente principale

Write a Comment

User Comments (0)