Folie 1 - PowerPoint PPT Presentation

1 / 50
About This Presentation
Title:

Folie 1

Description:

... we have seen a sea bass, is it more likely that future fish with this data is a salmon? ... a sea bass. Example: Probabilistic Models. L(fish=?) = p(length, ... – PowerPoint PPT presentation

Number of Views:58
Avg rating:3.0/5.0
Slides: 51
Provided by: tre70
Category:
Tags: bass | fishing | folie

less

Transcript and Presenter's Notes

Title: Folie 1


1
Graphical Models and Biological Networks
Lecture room A 0.01
2
Organisational Issues
Lectures Tue 14hct 16h Exercises Tue 16h -
16.45h 1 Exercise sheet per week participation
obligatory submission of solutions highly
recommended Credit Points 3 ECTS Location
Seminar Room 0.4 Gene Center
Feodor-Lynen-Str.25 81377 Munich
Time Date OK? Other preferences? Final exam
Written or oral? Online materials
http//www.lmb.uni-muenchen.de/tresch/graphicalmod
els.html
3
Schedule
  • Introduction to statistics (probability
    distributions, conditional probability, maximum
    likelihood, Bayes' Theorem, priors and
    posteriors)
  • Bayesian networks, Markov Random fields and their
    applications
  • Factor graphs I Definitions and examples in
    computational biology
  • Factor graphs II Sum-product and max-sum
    algorithms
  • Applications to regulatory networks, gene
    prediction, and data clustering
  • Introduction to hidden Markov models and
    applications in sequence searching
  • Conditional random fields
  • Applications in protein structure prediction and
    sequence searching

4
References
  • Theory
  • Theory Duda, Hart, Storck (2000), "Pattern
    Classification", chapter 3
  • Bishop (2006), "Pattern recognition and Machine
    learning", chapters 1,8
  • Kschischang, Frey, Loeliger (1998) Factor graphs
    and sum-product algorithm, IEEE Transactions
    Information Theory
  • Kschischang, Frey, Loeliger (2001) Factor graphs
    and sum-product algorithm, IEEE Transactions
    Info Theory
  • Durbin, Eddy, Krogh, Mitchison, (1998)
    "Biological sequence analysis", chapters 3,5
    Sutton,
  • McCallum (2006) "An introduction to conditional
    random fields for relational learning",
    Introduction to Statistical Relational Learning.
    MIT Press, 2006.

5
References
  • Applications
  • Heckermann (1996) A Tutorial on Learning with
    Bayesian Networks, Microsoft Technical Report,
    MSR TR 95-06
  • Friedman (1998) The Bayesian structural EM
    algorithm, Proc. 14th Conf. UAI Huang,
  • Bystroff (2006) "Improved pairwise alignments of
    proteins in the Twilight Zone using local
    structure predictions", Bioinformatics
  • Zhao, Li, Sterner, Xu (2008) "Discriminative
    learning for protein conformation sampling",
    Proteins
  • Vaske et al. (2009) "A factor graph nested
    effects model to identify networks from genetic
    perturbations", PLoS Comput Biol
  • Gat-Viks, Tanay, Raijman, Shamir, (2006) "A
    Probabilistic Methodology for Integrating
    Knowledge and Experiments on Biological
    Networks", Journal of Computational Biology
  • Yeang et al. (2005) "Validation and refinement of
    gene-regulatory pathways on a network of physical
    interactions", Genome Biology
  • Frey a al. (2005) "Genome-wide analysis of mouse
    transcripts using exon microarrays and factor
    graphs", Nature Genetics

6
Introduction
Experiment
design
measure,evaluate
formalize
interpret
Graphical Models
predict
Biological Networks
(e.g. Markov random fields)
(e.g. protein-protein interaction map)
observe, hypothesize
observe
Nature
7
Introduction
Definition of Graphical Models Jordan99
Short Graphical models are a class of
probabilistic models that provide a compact
encoding of a joint probability distribution in
terms of a graph strucure and a set of local
distributions.
8
Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
Task Sorting two kinds of fish species using
optical sensing
Taken from Duda, Hart, Stork
9
Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
Idea Classify according to length(-distributions)
Choose a threshold x above which we classify an
object as sea bass, and below which we classify
as salmon.
10
Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
Similarly, classify according to
lightness(-distributions)
11
Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
Combine length and lightness(-distributions)
length
12
Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
How to find a good decision boundary (
prediction algorithm, classifier)?
13
Beispiel Unterscheidung von Lachs und Seebarsch
Task Find a (two) model(s) that describe(s) the
probability distribution (/density) of length and
lightness, given a salmon resp. a sea bass.
For a given observation (length, lightness),
define the likelihood
L(fish?) p(length,lightness ?)
The likelihood is a function of the
model(-parameters), not of the data!
14
Bayessche Entscheidungstheorie
Use a model to construct a good decision rule (in
one dimension) Consider the lightness density
for salmon resp. sea bass.
P(x ?salmon)
P(x ?sea bass)
How would you decide when observing a new fish of
lightness 10.5 ?
Without additional information on the overall
frequency of salmon and sea bass, it is sensible
to decide for the maximum likelihood (ML)
estimate, ?ML argmax ? L(?)
15
Bayessche Entscheidungstheorie
Assume that we exclusively catch salmon and sea
bass. Picking a fish at random, there is a prior
probability (prior for short) for grabbing a
salmon resp. sea bass, P(?salmon), P(?sea
bass) This means that we regard ? as a random
variable.
NB. In the absence of any prior knowledge, one
usually assumes a uniform prior over the possible
outcomes of a variable. In our case, this would
mean P(?salmon)
P(?sea bass) 0.5
For given lightness x, we want to decide
whether P( ?salmon x) gt P( ?sea bass x)
(then decide for salmon) Question What does
this expression mean? How can we calculate it?
16
Bayessche Entscheidungstheorie
Recall the (informal) definition of conditional
probability p( x , ? ) p( x ? ) P(?)
P( ? x) p(x)
Bayes Theorem
Bayes Essay Towards Solving a Problem in the
Doctrine of Chances, which contains the above
formula, was published only three years after his
death.
Reverend Thomas Bayes, 1702, 1761English
mathematician and Presbyterian minister.
17
Bayessche Entscheidungstheorie
Bayes Theorem
Likelihood
Prior
Posterior
The decision rule can be formulated without
knowing p(x) salmon, if P( x ? salmon)
P(? salmon) gt P( x ?bass) P(?bass) sea
bass, if P( x ? salmon) P(? salmon) P(
x ?bass) P(?bass)
This maximum a posteriori (MAP) decision rule is
also called the Bayes classifier, ?MAP
argmax ? P(?x)
It can be shown that the Bayes classifier is
optimal in the sense that it minimizes the risk
of misclassification Exercise.
18
Bayessche Entscheidungstheorie
P(?sea bass x)
P(?salmon x)
19
Beispiel The O.J. Simpson Trial
O.J. SimpsonIn 1995, Simpson was accused of the
murder of Nicole Simpson and Ronald Goldman.
Traces of blood were found at the murder scene
which could be attributed to O.J. Simpson with a
1 in 170 million chance . In spite of this
evidence, he was acquitted of the murder after a
lengthy, highly publicized criminal trial.
preemption of the Jury, factors from prior
knowledge
20
Bayes-Entscheidungn bei normalverteiltem Posterior
Exkurs Die Normalverteilung
21
Bayes-Entscheidungn bei normalverteiltem Posterior
22
Bayes-Entscheidungn bei normalverteiltem Posterior
p(x) p((x1,x2))
x2
x1
23
Bayes-Entscheidungn bei normalverteiltem Posterior
Geometrische Interpretation der multivariaten
Normalverteilung
Sei ej die Standardnormalbasis,
?
?
Lemma Es existiert eine Orthonormalbasis vj
(bzgl. des euklid. Skalarprodukts) von
Eigenvektoren von G
?
mit nicht-negativen reellen Eigenwerten ?j
?
?
?
mit
24
Bayes-Entscheidungn bei normalverteiltem Posterior
25
Bayes-Entscheidungn bei normalverteiltem Posterior
26
MAP- und ML-Schätzung. Beispiel
Wie konstruiert man aus gegebenen Daten geeignete
Priors und Likelihoods?
1. Versuch Benutze die empirischen Häufigkeiten
PEmp(?j) als Annäherung an die wahren Priors
P(?j) Benutze die empirischen Verteilungen
PEmp(x?j) als Annäherung an die wahre Likelihood
P(x?j).
Daten (Beobachtungen)
Empirische Verteilung(en)
PEmp(x Lachs)
PEmp(x Barsch)
Das Auszählen der Klassenhäufigkeiten liefert
meist eine gute Approximation der wahren Priors.
Problem Die empirische Verteilung ist meist
eine schlechte Approximation der Likelihood. Es
existieren zu wenige Beobachtungen, um
insbesondere hochdimensionale Verteilungen genau
zu schätzen.
27
MAP- und ML-Schätzung. Beispiel
Lösungsmöglichkeit Lasse Wissen über die Art des
Problems, d.h. über die Form der Likelihood,
einfließen. ? Mache zusätzliche Modellannahmen.
Beispiel Daten D x1 , ... ,xk , xj
Größe von Barsch j in mm D.h. die gesuchte
Verteilung die der Zufallsvariable X Länge
eines Barsches.
tatsächliche Dichte von X
empirische Dichtefunktion
Modellannahme X ist eine normalverteilte
Zufallsvariable N(µ,s2)
28
MAP- und ML-Schätzung
Modellannahmen können helfen, eine
Zufallsvariable (bzw. deren Verteilung) besser zu
approximieren. Modellannahmen fließen meist durch
die Wahl einer Modellklasse ein. Eine
Modellklasse ist eine Menge von Zufallsvariablen,
von denen jedes Element durch eine feste, kleine
Zahl von Parametern beschrieben werden kann.
  • Beispiele
  • Die Modellklasse aller eindimensionalen
    Normalverteilungen N(µ,s2) µ?R , s2gt0
  • Die Modellklasse aller multivariaten
    (n-dimensionalen) Normalverteilungen N(µ,S)
    µ?Rn , S positiv definite n x n Matrix
  • Die Klasse der Bayesnetze BN(V, L) V
    gerichteter azyklischer Graph, L Menge von
    lokalen bedingten Wahrscheinlichkeitsverteilungen
  • Die Klasse der Hidden Markov Modelle
    HMM(S,A,B,p,V) , Zustandsmenge S, Übergangsmatrix
    A, Menge Emissionswahrscheinlichkeitsverteilungen
    B, Anfangsverteilung p, Merkmalsraum V
  • u.v.m.

Problem (Modellselektion) Welches ist die
richtige Modellklasse? Welches ist eine
vernünftige Modellklasse?
29
MAP- und ML-Schätzung
Sei eine Modellklasse P?(x) ??O gegeben.
D.h. jedes konkrete Modell ist eine
Wahrscheinlichkeitsverteilung P?(x), welche durch
einen Satz von Parametern ??O definiert wird.
Es soll nun das bestpassende Modell P?(x)
gefunden werden, d.h. der Parametersatz ??O ,
welcher die beste Approximation der wahren
Verteilung P(X) der Daten liefern.
? Problem (Parameteridentifikation) Wie finde
ich die richtigen Parameter? Gesucht Ein
Verfahren, das aus den beobachteten Daten
Dx1,,xn die Parameter O eines möglichst gut
passenden Modells schätzt.
1. Möglichkeit Maximum Likelihood Schätzung
(ML). Finde das (ein) ?O (den ML-Schätzer),
für welches die Beobachtung der Daten D am
wahrscheinlichsten ist. Anm. Fast immer nimmt
man die Unabhängigkeit der Daten an. D.h. die
Daten sind i.i.d. (independent, identically
distributed) Realisierungen der Zufallsvariablen
X. Somit entsteht jedes xj durch unabhängiges
Ziehen aus der gleichen Verteilung P?(x). Dann ist
und
30
MAP- und ML-Schätzung
2. Möglichkeit Maximum A Posteriori Schätzung
(MAP). Nimm an, der Parameterraum O sei ein
Wahrscheinlichkeitsraum mit Dichte P(?). Dann ist
Likelihood
Modellrior
Posterior
Unabhängigkeit der Einzelbeobachtugnen
angenommen, ergibt sich
und
Formal unterscheiden sich MAP- und ML-Schätzer
nur durch den Modellprior P(?). Ist der Prior
uniform ( P(?) const. ), so sind MAP- und
ML-Schätzer identisch. Konzeptionell sind beide
Verfahren verschieden ML betrachtet die Daten
als Realisierungen eines festen Modells P?(x),
MAP betrachtet die Daten als fest und die Modelle
als Realisierungen einer Zufallsvariablen mit der
Dichte P(?Daten).
31
Maximum Likelihood bei Normalverteilungen
Die eingezeichneten Werte (schwarze Punkte)
wurden aus einer Normalverteilung N(?,s2) mit
bekannter Standardabweichung s, aber unbekanntem
Erwartungswert ? gezogen.
?2
?3
?4
?1
Verschiedene Dichten P(x ?j)
Likelihoodfunktion P(D?). Dies ist i.d.R. keine
Wahrscheinlichkeitsdichte!
log-Likelihoodfunktion l(?) ln
P(D?) (Oft ist es leichter, die log-Likelihood
zu maximieren)
32
Maximum Likelihood bei Normalverteilungen
33
Maximum Likelihood bei Normalverteilungen
(Beweis Übung)
34
Maximum a posteriori bei Normalverteilungen
n
Wir wollen P(µD) ? P(D µ) P(µ) maximieren.
Spezifikation des Priors P(µ) N(µ0,s02) , µ0
und s02 sind festgelegt
35
Maximum a posteriori bei Normalverteilungen
Somit hat p(µD) die Gestalt
Koeffizientenvergleich ergibt
und
, wobei
36
Maximum a posteriori bei Normalverteilungen
Auflösen nach µn, sn ergibt (mit
)
Der Posterior versammelt seine Masse mit n?8
immer enger um µn. Mit zunehmendem n wird der
Einfluss des Priors (µ0,s0) auf den Posterior
bzw. den MAP-Schätzer immer geringer.
37
Maximum a posteriori bei Normalverteilungen
Während der ML-Schätzer ein Punktschätzer ist (es
wird nur ein Satz Parameter ermittelt), liefert
der MAP-Ansatz neben einem Punktschätzer eine
Wahrscheinlichkeitsverteilung der Parameter,
p(µD).
38
Maximum a posteriori bei Binomialverteilungen
Einmaliger Münzwurf mit Kopfwahrscheinlichkeit ?
n-faches Werfen derselben Münze (Dx1,,xn,
davon nK Mal Kopf und nZ Mal Zahl)
Die Betaverteilung
Wir suchen den Posterior P(?D), gegeben ein
geeigneter Prior. Es gibt eine geschickte
Priorwahl
39
Konjugierte Prior
Der Posterior kann nämlich in geschlossener Form
ausgerechnet werden, und hat wieder eine
Beta-Verteilung, stammt also aus der gleichen
Verteilungsfamilie wie der Prior
Sei eine Likelihoodfunktion gegeben. Ein Prior,
bezüglich dessen der Posterior aus der gleichen
Familie von Wahrscheinlichkeitsverteilungen wie
der Prior stammt, heißt konjugierter
Prior.Vorteil konjugierter Prior Die Berechnung
des Posteriors ist besonders leicht, da nur die
Parameter der Verteilung geupdated werden
müssen, wie in obigem Beispiel Likelihood
Binomialvert. Parameter des Priors (a,ß)
Parameter des Posteriors (anK,ßnZ)
40
Konjugierte Prior
True parameter ? 0.3
samples
Posterior P(?Data)
Uniform Prior P(?)Beta(1,1)
41
Konjugierte Prior
from Wikipedia, conjugate prior
42
Was ist R ?
  • Framework for statistical data analysis
  • Open source, largely compatible with Splus
    (commercial software)
  • Active community, easy integration of new
    functionality (packages)
  • Most widespread statistics tool in science
    (together with SAS and SPSS)
  • The standard for Computational Biology

43
Installation von R/Bioconductor
http//cran.r-project.org/
44
Installation von R/Bioconductor
http//www.bioconductor.org/docs/install/
45
Installation von R/Bioconductor
46
R-Syntax, elementare Rechenoperationen
gt x 020 gt y xx gt plot(x,y)
47
R-Syntax, elementare Rechenoperationen
gt x 14 gt y x2 gt z xc(0,1)
48
R-Syntax, elementare Rechenoperationen
gt x rnorm(100,mean0,sd1) gt hist(x) gt
density(x)
49
R-Syntax, elementare Rechenoperationen
  • gt x rnorm(6,mean0,sd1)
  • gt x
  • 1 -1.08095279 -1.32442492 -0.77553316
    -0.44245375 0.03208035 0.03687350
  • gt likelihood function(mu0,sigma1,datax)
    prod(dnorm(data,meanmu,sdsigma))
  • gt theta seq(from-5,to5,length100)
  • gt plot(theta,sapply(theta,likelihood))
  • gt optimize(likelihood,interval
    c(-5,5),maximumTRUE)
  • maximum
  • 1 -0.5924009
  • objective
  • 1 0.001796537

50
Konjugierte Prior
R-Code for the calculation of the posterior for
the coin flip experiment
gt theta0.3 gt alpha 1 beta 1 gt x
seq(0,1,length200) gt plot(x,dbeta(x,alpha,beta),t
ype"l",lwd2,ylab"Density",
xlab"",ylimc(0,5.5)) gt abline(vtheta) gt n10 gt
for (j in 25) nk rbinom(1,sizen,probth
eta) nz n-nk alpha alpha nk beta
beta nz points(x,dbeta(x,alpha,beta),type"l",
lwd2,colj) gt legend(0.6,5,legendpaste("n",
(04)n),col15,lty1)
Write a Comment
User Comments (0)
About PowerShow.com