QSAR, QSPR, Statistik, Korrelation, Similarit - PowerPoint PPT Presentation

1 / 44
About This Presentation
Title:

QSAR, QSPR, Statistik, Korrelation, Similarit

Description:

Title: Modern Methods in Drug Discovery Subject: QSAR, Statistik, Korrelation, Similarit t, Deskriptoren Author: Michael Hutter Last modified by – PowerPoint PPT presentation

Number of Views:181
Avg rating:3.0/5.0
Slides: 45
Provided by: Michael3893
Category:

less

Transcript and Presenter's Notes

Title: QSAR, QSPR, Statistik, Korrelation, Similarit


1
QSAR, QSPR, Statistik, Korrelation, Similarität
Deskriptoren
Das Handwerkszeug des rational drug designs am
Computer, vor allem dann, wenn keine
Strukturinformation über das target (Enzym)
vorhanden ist.
QSAR-Gleichungen stellen einen quantitativen
Zusammenhang zwischen chemischer Struktur und
(biologischer) Aktivität her.
Erfordert das Vorhandensein von experimentellen
Meßdaten für eine Reihe von bekannten
Verbindungen, z.B. aus High Throughput Screening
2
Begriffsdefinitionen
QSAR quantitative structure-activity
relationsship QSRP quantitative
structure-property relationship Activity und
Property sind z.B log(1/Ki) Bindungskonstante
log(1/IC50) Konzentration bei der 50 Wirkung
eintritt Physikalische Größen, wie Siedepunkt,
Löslichkeit,
Ziel Voraussage von Moleküleigenschaften anhand
ihrer Struktur, ohne eine expt. Meßung
durchführen zu müßen. ? in silico anstatt in
vitro oder in vivo Vorteil Einsparung von Zeit
und Resourcen
3
Zeitliche Entwicklung von QSAR Methoden (I)
1868 A.C.Brown, T.Fraser Physiologische
Aktivität ist eine Funktion der chemischen
Konstitution (Zusammensetzung) Aber Eine
direkte Beziehung ist nicht gegeben, sodern
immer nur über die Unterschiede. Zur
Erinnerung1865 Strukturvorschlag für Benzol von
A. KekuléDie chemische Struktur der meisten
organischen Verbindungen ist noch unbekannt
! 1893 H.H.Meyer, C.E.Overton Toxizität von
organischen Verbindungen steht im Verhältnis zu
deren Verteilung zwischen wäßrigem und
lipophilen biologischem Medium
4
Zeitliche Entwicklung von QSAR Methoden (II)
1868 E.Fischer Schlüssel-Schloß Prinzip bei
EnzymenWiderum keinerlei strukturelle
Information über Enzyme vorhanden ! 1930-40
Hammet Gleichung Reaktivität physikalisch,
organische, theoretische Chemie1964 C.Hansch,
J.W.Wilson, S.M.Free, F.Fujita Geburtsstunde der
modernen QSAR-Methoden Hansch-Analyse bzw.
Free-Wilson-Analyse linear free
energy-related approach
Koeffizienten (konstant)
Deskriptoren oder Variablen
5
Deskriptoren
Ansätze eine mathematische Beziehung zwischen
numerischen Eigenschaften (Deskriptoren Pi) und
physikochemischen Eigenschaften der Verbindung
(z.B. biologische Aktivität log(1/C) )
herzustellen, werden als QSAR, bzw QSPR
bezeichnet.
Daneben werden Deskriptoren auch zur Beschreibung
von Molekülen in der Diversitäts Analyse und in
Kombinatorischen Bibliotheken eingesetzt.
Prinzipiell kann jede molekulare Eigenschaft als
Deskriptor verwendet werden.
Mehr zu Deskriptoren unter http//www.chemcomp.co
m/Journal_of_CCG/Features/descrip.html
6
Informationsfluß in einer drug discovery pipeline
7
Komponentenauswahl
Wieviel Information ist über das target vorhanden
?
X-Ray mit Wirkstoff
Docking
HTS
X-Ray des Proteins
active site
Reihe von wirksamen Verbindungen
QSAR, Pharmacophor erstellen
Zunehmende Information
Wenige hits aus HTS
eADME Filter
Kenntnis der Enzymfunktion (z.B. Kinase, GPCR)
combi chem
Erstellen einer virtuellen Bibliothek
8
Molekülbasierte Deskriptoren zurVoraussage der
ADME Eigenschaften
logP Wasser/Octanol Verteilungskoeffizient Lipins
kis rule Topologische Indices Polar surface
area Similarität / Dissimilarität QSAR
quantitative structure activity relationship QSPR
quantitative structure property rel.
9
1D Deskriptoren (I)
Für einige Deskriptoren benötigt man nur
Kenntnisse die sich bereits aus der Summenformel
der Verbindung erhält. Bsp. Molmasse,
Gesamtladung, Anzahl von Halogenatomen
Weitere solcher eindimensionaler Deskriptoren
ergeben sich additiv aus atomaren Beiträgen.
Bsp. Summe der atomaren Polarisierbarkeiten Refra
ktivität (Brechungsindex n, molar refractivity,
MR)
MR (n2 1) MW / (n2 2) d mit Dichte d,
Molekülgewicht MW Ist abhängig von der
Polarisierbarkeit und enthält außerdem das
Molekülvolumen (MW / d)
10
logP (I)
Der Wasser/n-Octanol Verteilungskoeffizient bzw.
der logaritmierte Wert wird als logP
bezeichnet. Wird oft zur Abschätzung der
Membrangängigkeit und der Bioverfügbarkeit einer
Verbindung eingesetzt, da ein oral applizierter
Wirkstoff lipophil genug sein muß um durch die
Lipidschicht der Membrane zu gelangen,
andererseits wasserlöslich sein muß um in Blut
und Lymphe transportiert zu werden
hydrophil 4.0 lt logP lt 8.0 lipophil Zitronensä
ure 1.72 Iodbenzol 3.25 Typische Wirkstoffe lt
5.0
11
logP (II)
Zur Vorhersage des logP wurde eine Reihe von
Methoden entwickelt
basierend auf Molekülfragmenten (Gruppen und
Reste) ClogP Leo, Hansch et al. J.Med.Chem. 18
(1975) 865. Problem Aufreten von nicht
parametrisierten Fragmenten (bis zu 25 in
Substanzbibliotheken)
basierend auf Atomtypen SlogP S.A. Wildman
G.M.Crippen J.Chem.Inf.Comput.Sci. 39 (1999)
868. AlogP, MlogP, XlogP...
Jeweils mittels einer mathematischen Fitprozedur
(Regressionanalyse, Neuronales Netz) erstellt.
12
logP (III)
Neuere Methoden zur Vorhersage des logP verwenden
zunehmend Eigenschaften des kompletten Moleküls,
wie etwa Moleküloberfläche (polare/unpolare,
bzw.deren elektrostatische Eigenschaften) Dipolm
oment und Polarisierbarkeit Volumen / Oberfläche
(Globularität)
Bsp mit Hilfe quantenmechanischer Daten
trainiertes Neuronales Netz logP T. Clark et al.
J.Mol.Model. 3 (1997) 142.
13
1D Deskriptoren (II)
Weitere atomare Deskriptoren benutzen Information
basierend auf empirischen Atomtypen wie in einem
Kraftfeld. Bsp. Anzahl von Halogenen Anzahl
von sp3 substituierten Kohlenstoffatomen Anzahl
von H-Brücken Akzeptoren (N, O, S) Anzahl von
H-Brücken Donoren (OH, NH, SH) Anzahl
aromatischer Ringe Anzahl von COOH
Gruppen ... Anzahl frei drehbarer Bindungen
14
fingerprints
Binärer fingerprint eines Moleküls
15
Lipinskis Rule of 5
Kombination von Deskriptoren zur Abschätzung der
intestinalen Absorption. Schlechte Aufnahme der
Verbindung, wenn
Molekülmasse gt 500 logP gt 5.0 gt 5 H-Brücken
Donoren (OH und NH) gt10 H-Brücken Akzeptoren (N
und O)
Schlechte Diffusion Zu lipophil Zuviele
H-Brücken mit den Kopfgruppen der Membran
C.A. Lipinski et al. Adv. Drug. Delivery Reviews
23 (1997) 3.
16
2D Deskriptoren (I)
Bei Deskriptoren die sich aus der Molekülkonfigura
tion (kovalente Verknüpfung der Atome)
ableiten, spricht man von 2D Deskriptoren. Da
keine Atomkoordinaten verwendet werden sind 2D
Deskriptoren generell konformationsunabhängig obw
ohl sie topologische Information über das Molekül
enthalten. Vgl. Darstellung mittels SMILES
17
2D Deskriptoren (II)
Die wesentlichsten topologischen Eigenschaften
eines Moleküls sind der Verzeigungsgrad und die
molekulare Form.
Für Kohlenstoff stehen 4 Valenzen zur Verfügung.
Das Verhältnis der tatsächlichen Verzweigung zur
theoretisch möglichen Verzeigung läßt sich
deshalb als Deskriptor verwenden.
18
2D Deskriptoren (III)
Allgemeine Definitionen Zi Ordnungszahl (H1,
C6, LP0) hi Anzahl H-Atome die an Atom i
gebunden sind di Anzahl schwerer Atome die an
Atom i gebunden sind
Deskriptoren für den Verzweigungsgrad und die
Flexibilität eines Moleküls
Kier Hall Connectivity Indices pi Anzahl der s
und p Valenzelektronen an Atom i vi (pi hi )
/ (Zi pi 1) für alle schweren Atome
19
Kier und Hall Connectivity Indices
Zi Ordnungszahl (H1, C6, LP0) di Anzahl
schwerer Atome die an Atom i gebunden sind pi
Anzahl der s und p Valenzelektronen an Atom i vi
(pi hi ) / (Zi pi 1) für alle schweren
Atome
Chi0 0. Ordnung
Chi1 1. Ordnung
Chi0v Valenzindex
20
Kier und Hall Shape Indices (I)
n Anzahl schwerer Atome (Nicht-Wasserstoffatome) m
Anzahl aller Bindungen zwischen den schweren
Atomen
p2 Anzahl der Pfade mit Länge 2 p3 Anzahl der
Pfade mit Länge 3 aus der Distanzmatrix D
Kappa1
Kappa2
Kappa3
Kappa3
21
Kier und Hall Shape Indices (II)
Setzt man die Atome in Relation zu
sp3-hybridisierten C-Atomen so erhält man die
Kappa alpha Indices
Element Hybridi-sierung ?
C sp3 0
C sp2 -0.13
C sp -0.22
N sp3 -0.04
N sp2 -0.20
N sp -0.29
O sp3 -0.04
P sp3 0.43
S sp3 0.35
Cl 0.29
ri Kovalenzradius von Atom i rc Kovalenzradius
eines sp3 Kohlenstoffatoms
KappaA1
22
Balaban, Wiener und Zagreb Indices
n Anzahl schwerer Atome (Nicht-Wasserstoffatome) m
Anzahl aller Bindungen zwischen den schweren
Atomen di Anzahl schwerer Atome die an Atom i
gebunden sind
Summe der nichtdiagonalen Matrixelemente von Atom
i in der Distanzmatrix D
BalabanJ
Korreliert mit den Siedepunkten von Alkanen
WienerJ (Pfad Nummer)
WienerPolarität
Zagreb
23
Was sagen die topologischen Indices aus ?
Topologische Indices sind assoziert mit
Verzweigunsgrad des Moleküls Größe und räumliche
Ausdehnung des Moleküls Strukturelle Flexibilität
In der Regel läßt sich eine chemische Eigenschaft
nicht direkt mit einem einzigen Index
korrellieren.
Topologische Indices kodieren prinzipiell
dieselben Eigenschaften wie fingerprints,
jedoch weniger einleuchtend aber numerisch
einfacher aufzustellen
24
3D Deskriptoren
Bei Deskriptoren die Atomkoordinaten des
Moleküls verwenden spricht man von 3D
Deskriptoren. Diese sind deshalb in der Regel
konformationsabhängig.
Beispiele Van der Waals Volumen, Molekulare
Oberfläche, Polare Oberfläche, Elektrostatisches
Potential (ESP)
25
Quantenmechanische Deskriptoren (Auswahl)
Atomladungen (partial atomic charges) Keine
Observablen ! Mulliken Populationsanalyse Electr
ostatic potential (ESP) derived charges
Dipolmoment
Polarisierbarkeit
HOMO / LUMO Energien (eV) der Grenzorbitale
WienerJ (Pfad Nummer)
Covalent hydrogen bond acidity/basicity Differenz
der HOMO/LUMO Energien zu Wasser
Lit M. Karelson et al. Chem.Rev. 96 (1996) 1027
26
DRAGON
Programm zur Erzeugung von gt1400 Deskriptoren
BalabanJ
WienerJ (Pfad Nummer)
WienerPolarität
Roberto Todeschini Siehe http//www.disat.unimib.
it/chm/Dragon.htm
Zagreb
27
Weiterführende Information zu Deskriptoren
Roberto Todeschini, Viviana Consonni Handbook of
Molecular Descriptors, Wiley-VCH, (2000) 667
Seiten(ca. 270 )
BalabanJ
WienerJ (Pfad Nummer)
CODESSA Alan R. Katritzky, Mati Karelson et
al. http//www.codessa-pro.com MOLGEN C.
Rücker et al. http//www.mathe2.uni-bayreuth.de/mo
lgenqspr/index.html
WienerPolarität
Zagreb
28
Smilaritätsdeskriptoren und Indices (I)
cA erfüllte Eigenschaft von Molekül A cA ? cB
Schnittmenge gemeinsamer Eigenschaften von A und
B cA ? cB Vereinigunsmenge der Eigenschaften
von A und B
Euklidische Distanz
Manhattan Distanz
Formel Definition Bereich Andere Namen
8 bis 0 8 bis 0
- City-Block, Hamming
29
Smilaritätsdeskriptoren und Indices (II)
Soergel Distanz
Tanimoto Index
1 bis 0 -0.333 bis 1
(kontinuierliche Werte) 0 bis 1
(binäre on/off Werte)
- Jaccard Koeffizient
Bei binären (dichotomen) Werten sind Soergel
Distanz und Tanimoto Index zueinander komplementär
30
Smilaritätsdeskriptoren und Indices (III)
Dice Koeffizient
Cosinus Koeffizient
-1 bis 1 0 bis 1
(kontinuierliche Werte) 0 bis 1 0 bis 1
(binäre on/off Werte)
Hodgkin Index Carbo Index
Czekanowski Koeffizient Ochiai Koeffizient
Sørensen Koeffizient
Monoton mit dem Tanimoto Index
Hoch korreliert mit dem Tanimoto Index
31
Korrelation der Deskriptoren (I)
Ebenso wie konkrete Moleküleigenschaften sind
auch die Deskriptoren oft miteinander korreliert.
Korrelation nach Pearson
Auftragung zweier Variablen x und y im Craig-Plot
Um aus der Vielzahl der Deskriptoren eine
möglichst aussage-kräftige Kombination zu
erhalten, müssen multivariante Methoden der
Statistik angewandt werden.
32
Korrelation der Deskriptoren (II)
Im allgemeinen hat steht man vor dem Problem aus
der Vielzahl vorhandener Deskriptoren die
statistisch relevanten (und damit die
aussagekräftigsten) für die jeweilige
QSAR-Gleichung zu finden. Pro Deskriptor sollten
5 Moleküle (Datenpunkte) vorhanden sein, sonst
ist die Gefahr einer zufälligen Korrelation zu
hoch
Lösungsansatz Ermittlung der unkorrelierten
Variablen mittels einer principal component
analysis (PCA) siehe unten oder Anwendung
der partial least square (PLS) Technik
33
Partial least square (PLS)
Die Aktivität y wird als spezielle
Linearkombination der Variablen bzw.
Moleküleigenschaften xi ausgedrückt
wobei
Die latenten Variablen ti werden so konstruiert,
daß sie zueinander orthogonal, also unkorreliert
sind. ? Statistikprogramme D.h. durch
Kombination der ursprünglichen Moleküleigen-schaft
en werden neue Komponenten erzeugt, die
unkorreliert zueinander sind.
34
Principal Component Analysis PCA (I)
Problem Welche sind die entscheidenden
Deskriptoren im Datensatz ?
Die Hauptkomponentenanalyse erzeugt eine Serie
unkorrelierter Variablen aus einem Satz
korrelierter Variablen. Dazu wird eine
Koordinatentransformation der Datenmatrix
durchgeführt, sodaß die erste Hauptachse (pc1)
die größte Streuung (Varianz) der Datenpunkte
aufweist. Die zweite (pc2) und folgende
Hauptachsen stehen orthogonal zueinander und
deren Komponenten sind unkorreliert zueinander.
Lit E.C. Pielou The Interpretation of
Ecological Data, Wiley, New York, 1984
35
Principal Component Analysis PCA (II)
Die erste Hauptachse (pc1) weißt die größte
Streuung (Varianz) der Datenpunkte auf, während
die zweite (pc2) und folgende Hauptachsen
orthogonal dazu stehen.
36
Principal Component Analysis PCA (III)
Die signifikanten Hauptkomponenten haben meistens
einen Eigenwert gt1 (Kaiser-Guttman Kriterium).
Zusätzlich tritt meistens ein Knick zu den
weniger relevanten auf (Scree-Test)
37
Principal Component Analysis PCA (IV)
Durch die so ermittelten relevanten
Hauptkomponenten sollte sich mehr als 80 der
gesamten Varianz erfassen lassen
38
Principal Component Analysis (V)
Bsp Durch welche Deskriptoren wird der logP
bestimmt ?
Eigenschaft pc1 pc2 pc3 Dipolmoment
0.353 Polarisierbarkeit 0.504 Mittel des
ESP 0.397 -0.175 0.151 Mittel des
ESP -0.389 0.104 0.160 Variance des ESP
0.403 -0.244 Minimales ESP -0.239 -0.149
0.548 Maximales ESP 0.422 0.170 Molekülvolumen
0.506 0.106 Oberfläche 0.519 0.115 Anteil
an derGesamtvariance 28 22 10
Lit T.Clark et al. J.Mol.Model. 3 (1997) 142
39
QSAR-Gleichungen (I)
Hat man nun möglichst viele unkorrelierte
Eigenschaften, müßen nun noch die Koeffizienten
ki bestimmt werden. Dies geschieht durch multiple
lineare Regressionsanalyse (least square fit der
besten Kombination der Koeffizienten) ?
Statistikprogramme
Meistens kann man nicht die beste Kombination
aller möglichen Kombinationen von Deskriptoren
berechnen. (exponentielle Laufzeit) In der Regel
fängt man deshalb mit dem Deskriptor an der die
höchste Einzelkorrelation zeigt und nimmt
schrittweise weitere Deskriptoren hinzu (forward
regression). Oder man fängt mit allen
Deskriptoren an und entfernt sukzessive
diejenigen die die Korrelation am wenigsten
verschlechtern (backward regression).
40
QSAR-Gleichungen (II)
Die wichtigsten Statistischen Größen zur
Beurteilung einer QSAR-Gleichung
sind Korrelationskoeffizient (quadriert als
r2) Standartabweichung (standard deviation, se,
möglichst klein, selt0.4 Einheiten) Fisher value F
(Maß für die Übertragbarkeit der QSAR-Gleichung
auf einen anderen Datensatz, sollte möglichst
hoch sein, wird aber mit zunehmender Anzahl der
Variablen kleiner) Probability value p einer
einzelner Variablen (Maß für zufällige
Korrelation, plt0.05 95 Sicherheit)
41
QSAR-Gleichungen (III)
Zur Überprüfung der Aussagekraft der
QSAR-Gleichung werden vor allem zwei
gebräuchliche Möglichkeiten verwendet a)
willkürliche Vertauschung der tatsächlichen
Aktivitäten (falscher Datensatz) sollte die
Voraussagefähigkeit (Standardabweichung) der
Gleichung zusammenbrechen lassen.
b) Cross-validation Es werden verschiedene
Gleichungen aufgestellt, wobei jeweils eine
Klasse von Eigenschaften (Physicochemisch,
biologisch, elektronisch, sterisch) weggelassen
wird (leave-one-out) und das Ergebnis mit dem
vollständigen Modell verglichen wird. Die
erhaltene Standardabweichung wird als PRESS
(predictive residual sum of squares) bezeichnet.
42
QSAR-Gleichungen (IV)
Cross-validation
Der Korrelationskoeffizient q2 der aus der
cross-validation erhalten wird ist kleiner als
der ursprüngliche Wert r2, aber entsprechend
aussage-kräftiger.
Einer der besten Tests ist jedoch die Überprüfung
mit einem externen Datensatz.
43
Interpretation von QSAR-Gleichungen (I)
Die Art der enthaltenden Variablen bzw.
Deskriptoren sollte Rückschlüße auf die zugrunde
liegenden physiko-chemischen Vorgänge zulassen
und so das Design neuer Moleküle durch
Interpolation ermöglichen
Die mathematische Form der QSAR-Gleichung kann
Aufschluß über den biologischen
Wirkungsmechanismus geben Eine Abhängigkeit der
Aktivität von (log P)2 deutet auf einen
Transportvorgang des Wirkstoffes zum Rezeptor hin.
Vorsicht ist bei der Extrapolation über die
Grenzen des erfaßten Datenbereiches angebracht.
Hier können keine zuverlässigen Vorhersagen
gemacht werden.
44
Interpretation von QSAR-Gleichungen (II)
Zwischen den verwendeten Deskriptoren und der
Meßgröße sollte ein schlüssiger Zusammenhang
stehen. Hierzu ein Gegenbeispiel H. Sies Nature
332 (1988) 495. Wissenschaftlicher Beweis, daß
der Storch die Babies bringt
Die Daten hierzu finden sie unter
/home/stud/mihu004/qsar/storks.spc
Write a Comment
User Comments (0)
About PowerShow.com