Estad - PowerPoint PPT Presentation

1 / 38
About This Presentation
Title:

Estad

Description:

Title: Tema 0: Presentaci n del curso Author: Fco. Javier Bar n L pez Keywords: Bioestad stica, estad stica descriptiva Last modified by: Francisco Javier Bar n ... – PowerPoint PPT presentation

Number of Views:110
Avg rating:3.0/5.0
Slides: 39
Provided by: Fco60
Category:

less

Transcript and Presenter's Notes

Title: Estad


1
Estadísticamultivariada
  • Programa de doctorado Calidad de vida,
    Bienestar Social y Salud Pública

2
Notas previas Leyendo modelos estadísticos
  • Altura 170
  • La altura media en la población es de 170 cm
  • Cada individuo introduce además un término de
    error aleatorio
  • 170 5
  • 170 3
  • Los términos de error tienen algún tipo de
    distribución conocida
  • Normal,
  • Igualmente distribuidos en grupos
  • Independientes
  • Incorrelados temporalmente,

3
Modelos con variables dicotómicas
Código 0 Grupo de control, caso base
Código 1 Grupo de tratamiento,
  • Altura 160 10 Sexo
  • Codificación de los grupos por sexo
  • 0 mujeres
  • 1 hombres
  • Interpretación
  • La altura media en las mujeres es de 160 cm
  • La altura media en los hombres es de 170 cm
  • El sexo influye en la altura. El sexo hombre
    tiene un efecto no nulo de 10 cm sobre la altura
    media.

Promedio delcaso base
Efecto de sexo 1
160 0
160 10
4
Modelos con variables numéricas
  • Precio casa 100.000 10.000 Habitación
  • Interpretación
  • El precio de una casa con cero habitaciones es
    100.000
  • Extraño!
  • En realidad es mejor interpretarlo como lo que
    habría que añadir a una casa con un numero medio
    de habitaciones para que tuviese un precio medio.
  • Las casas aumentan de precio en función del
    número de habitaciones.
  • El efecto de añadir una habitación es aumentar el
    precio de la casa en 10.000.

Intercepción, Intersección,
Pendiente.Aumento de valor de una casa por cada
habitación.
5
Modelos con variables dicotómicas y numéricas
  • Precio casa 100.000 10.000 Habitación
    30.000 Barrio
  • Codificación del barrio
  • 0 Bajo
  • 1 Alto

6
y con variables cualitativas en general
  • Precio casa 100.000 10.000 Habitación
    10.000 Barrio1 20.000 Barrio2
  • Codificación del barrio

Variables indicadoras, mudasNos ayudarán a
comprender mejorlos efectos, interacciones,
Barrio1 Barrio2
Bajo 0 0
Medio 1 0
Alto 0 1
Grupo de control
Tratamiento 1
Tratamiento 2
Variable cualitativa inicial
7
esperad, aún hay más
  • Precio casa
  • 100.000 10.000 Habitación
  • 10.000 Barrio1 20.000 Barrio2
  • 6.000 Aparcamiento
  • Codificación del aparcamiento
  • 0 Sin aparcamiento
  • 1 Con aparcamiento

8
y faltan las interacciones.
  • Precio casa
  • 100.000 10.000 Habitación
  • 10.000 Barrio1 20.000 Barrio2
  • 6.000 Aparcamiento
  • 2.000 Aparcamiento Barrio1
  • 4.000 Aparcamiento Barrio2

9
El modelo no debe quedarse corto ni pasarse
  • Un modelo muy simple no explicará bien la
    variabilidad presente en los datos.
  • Precio 100.000
  • Un modelo muy complicado será difícil de
    comprender.
  • Además podemos encontrarnos sorpresas
    correlaciones entre variables explicativas (falta
    de ortogonalidad), inestabilidad numérica,
  • Precio 100.000 10.000 Hab 30.000 Barrio
    6.000 Aparcamiento

10
Complicar el modelo lo justito
  • Elegir modelo que explique lo observado y que sea
    tan simple como sea posible.
  • Precio 100.000
  • Bondad de ajuste corregida 1. Significación
    0,0001
  • Muy simple. No explica la variabilidad.
    Compliquémoslo.
  • Precio 100.000 10.000 Hab.
  • Bondad de ajuste corregida 10. Significación
    0,01
  • Mejor. Pero hay mucha variabilidad por explicar.
    Compliquémoslo.
  • Precio 100.000 10.000 Hab 30.000 Barrio
  • Bondad de ajuste corregida 41. Significación
    0,12
  • Tal vez no valga la pena complicarlo más.
  • Precio 100.000 10.000 Hab 30.000 Barrio
    6.000 Aparcamiento
  • Bondad de ajuste corregida 40. Significación
    0,15
  • No ha merecido la pena la complicación.

OJO! SPSS sólo enseñadirectamente
lasignificación del modelo mínimofrente al que
nosotrospropongamos. Raroserá que no
seasignificativo un modelotan simple. Un
cálculo manual nospermitirá comparar
unosmodelos con otros.
11
Dos técnicas para abordar problemas multivariados
  • En función del tipo de la variable respuesta
    vamos a considerar dos técnicas que son casos
    particulares del modelo lineal generalizado. Este
    abarca buena parte de las técnicas estadísticas
    que se aplican en Medicina
  • Modelo lineal generalizado
  • Respuesta numérica (Regresión lineal)
  • T-student en 2 muestras
  • ANOVA de 1 vía
  • ANOVA de 2 vias con/sin interaccciones
  • Modelos factoriales
  • Respuesta dicotómica (Regresión Logística)
  • Vivo/Muerto
  • Enfermo/Sano

12
Marco general
  • Tenemos una serie de variables explicativas,
    X1,,Xp
  • Numéricas
  • Ordinales
  • Dicotómicas
  • Cualitativas codificadas en forma de múltiples
    dicotómicas
  • Interacciones,
  • Tenemos una sola variable explicada (univariante)
  • Numérica Modelo lineal de regresión
  • Y b0 S bi xi
  • Dicotómica Regresión logística
  • Ln (Odds) b0 S bi xi

13
1
0
14
Un contraste de igualdad de medias (t-student)
  • Hipótesis nula
  • Es el salario medio inicial igual para hombres y
    mujeres
  • Salario b0
  • Hipótesis alternativa
  • El Género tiene un efecto no nulo sobre el
    salario
  • Salario b0 b1 Genero
  • Este problema puede formularse en términos de un
    análisis de regresión
  • Salario b0 b1 Genero

La hipótesis nula afirma quees cero. Si signif.
pequeña la rechazamos.
Valor medio del grupo controlGENERO0 (mujer)
Efecto del tratamientoGENERO1 (hombre)
15
Se rechaza elmodelo simple
Salario promedio del grupo control (mujeres)
Se rechaza elmodelo simple
Efecto del genero 1 en el salario medio
16
Sin embargo el modelo alternativo no es bueno
Los modelos con muchos parámetros tienden a
exagerarla bondad del modelo. Corrección de
honestidad sobre la bondad. Si al introducir
variables vemos que no aumenta o que baja,
deberíamos reconsiderar la complejidad del
modelo.
Sólo un 21 de la variabilidad presente Puede ser
explicada por un modelo que contenga Al género
como variable explicativa. Debe haber más razones
para esa variabilidad
17
Y si consideramos el nivel de estudios?
  • Hipótesis nula
  • Es el salario medio inicial igual para hombres y
    mujeres y para cualquier nivel de estudios
  • Increíblemente simple!
  • Salario b0
  • Hipótesis alternativa
  • El Género y los años de estudios tienen un efecto
    no nulo sobre el salario
  • Salario b0 b1 Genero b2 Estudios

18
Por supuesto, seguimos teniendoevidencia contra
la hipótesis nula (modelo simple)Desde ahora lo
ignoramos.
La nueva variable aumenta notablemente la
variabilidad explicada.Podremos mejorarlo
introduciendo otra variable?
Aparentemente estas variables tienen algo que
decir, pero habrá variables confusoras?
19
Y si añadimos la categoría laboral?
  • Hipótesis nula
  • Es el salario medio inicial igual para hombres y
    mujeres y para cualquier nivel de estudios y
    categoría laboral
  • No me lo puedo creer!
  • Salario b0
  • Hipótesis alternativa
  • El Género, los años de estudios y la categoría
    laboral directivo tienen un efecto no nulo sobre
    el salario
  • Salario b0 b1 Genero b2 Estudios b3 SEGUR
    b4 DIRECT

SEGUR DIRECT.
Admin 0 0
Seguridad 1 0
Directivo 0 1
20
El nuevo modelo mejora claramente al anterior
pero parece que parte del modelo no era
necesario. El término que mide el efecto de ser
empleado de seguridad no tiene un efecto muy
diferente del caso base.
21
Simplifiquemos el modelo
  • Hipótesis nula
  • Es el salario medio inicial igual para hombres y
    mujeres y para cualquier nivel de estudios,
    aunque sea directivo
  • Salario b0
  • Hipótesis alternativa
  • El Género, los años de estudios y ser directivo
    tienen un efecto no nulo sobre el salario
  • Salario b0 b1 Genero b2 Estudios b3 SEGUR
    b4 DIRECT

El modelo es más simple, pero no disminuye La
variabilidad explicada Lo preferimos así!
22
Habrá interacciones?
  • Hipótesis nula
  • Es el salario medio inicial igual para hombres y
    mujeres y para cualquier nivel de estudios,
    aunque sea directivo
  • Salario b0
  • Hipótesis alternativa
  • El género, los años de estudios y ser directivo
    tienen un efecto no nulo sobre el salario, y
    también tiene un premio especial ser hombre
    directivo (interacción).
  • Salario b0 b1 Genero b2 Estudios b3
    DIRECT b4 GeneroDIRECT

Coeficiente de la interacción Si positivo
sinérgias Si negativo efectos antagónicos Si
nulo No hay interacción
En SPSS podemos introducir interacciones con otro
modelo. Para seguir con el modelo de regresión
introducimos otra variable.
23
(No Transcript)
24
Sube ligeramente la variabilidad explicada. Vale
la pena considerarlael efecto de la interacción?
Tenemos evidenciaen contra de que ninguno de
los coeficientes es nulo. Deberíamos considerar
más variables? Más interacciones?
25
Marco general (recordatorio)
  • Tenemos una serie de variables explicativas,
    X1,,Xp
  • Numéricas
  • Ordinales
  • Dicotómicas
  • Cualitativas codificadas en forma de múltiples
    dicotómicas
  • Interacciones,
  • Tenemos una sola variable explicada (univariante)
  • Numérica Modelo lineal de regresión
  • Y b0 S bi xi
  • Dicotómica Regresión logística
  • Ln (Odds) b0 S bi xi

26
Regresión Logística
  • La variable respuesta (explicada) es dicotómica)
  • Vivo/Muerto
  • Sano/Enfermo
  • Claramente el modelo lineal tal cual no es
    adecuado.
  • En epidemiología es frecuente usar modelos
    multiplicativos en lugar de aditivos
  • Fumar multiplica por 10 las odds de enfermedad.
  • Usar el casco disminuye por 20 la odds de
    lesión grave.

27
  • Es decir, preferimos un modelo del tipo
  • Odds(fumar,beber,..) Odds(base) OR(fumar)
    OR(beber)

28
Fumadores Odds1/12 44/12
Factor Riesgo Fumar Odds Ratio 4
Los individuos de control Ni fuman ni
beben Odds1/12
Factor Riesgo Beber Odds Ratio 3
Bebedores Odds1/12 33/12
Fumadores bebedores Odds1/12 4 312/12
Factor Riesgo Fumar y Beber Odds Ratio 3412
29
  • El modelo de regresion logística es equivalente
    a

Variación de oddsdebido a x2 Odds Ratio
Variación de oddsdebido a x1 Odds Ratio
Odds caso base
30
Caso simple Una variable explicativa dicotómica
  • X10 No está presente el factor de riesgo
  • X11 Sí hay factor de riesgo

Odds del caso base
Odds Ratio De X1
Odds del caso base
31
  • Si b1 es el coeficiente de la variable x1
  • Si b10 entonces OR1
  • No es realmente un factor de riesgo
  • Si b1gt0 entoces ORgt1
  • Aumenta el riesgo
  • Si b1lt0 entonces ORlt1
  • Disminuye el riesgo

32
Un ejemplo Condenas a pena de muerte en Florida
  • Variables explicativas
  • Raza de la víctima
  • 1Blanco (factor de riesgo, con perdón)
  • Raza del acusado
  • 1Negro (intuitivamente, factor de riesgo,
    glubs!)
  • Variable explicada
  • 1Condena a pena de muerte

33
Será la raza negra del acusado un factor de
riesgo?
En principio un simple estudio descriptivo parece
modtrar que no.Incluso parece que reduce el
riesgo.
34
Será la raza negra del acusado un factor de
riesgo?
  • Veamos que dice el modelo de regresión logística

35
Será la raza negra del acusado un factor de
riesgo?
La prueba es no significativa
El intervalo de confianza para OddsRatio
incluye al valor1 No tenemos evidenciaen contra
de que laraza no sea factorde riesgo.
El coeficiente es negativo.Más bien debe reducir
el riesgo ser Acusado de raza negra. Para
encontrar la Odds Ratio hay que mirar la columna
Exp(B)
Odds Ratio
36
Y si incluimos en el modelo la raza de la
víctima?
Aparentemente, al tener en cuenta la raza de la
víctima, parece ser que si la víctima es blanca,
la probabilidad de ser condenado a muerte es
mayor. Veamos que dice el modelo logístico.
37
(No Transcript)
38
Odds Ratios de cada factor de riesgo
Con la confianza habitual 1 no forma parte de
ningún intervalo de confianza.
Ambos coeficientes son positivos.Parecen ser
factores de riesgo.
Significativos
Write a Comment
User Comments (0)
About PowerShow.com