Correlaci - PowerPoint PPT Presentation

About This Presentation
Title:

Correlaci

Description:

X suele ser la variable independiente e Y la dependiente (Y 'depende' de X) ... el recuento de n de art culos, n de revistas, n de autores, etc tera. ... – PowerPoint PPT presentation

Number of Views:117
Avg rating:3.0/5.0
Slides: 26
Provided by: rafaelbai
Category:

less

Transcript and Presenter's Notes

Title: Correlaci


1
Correlación
Decimos que dos variables, X e Y, están
correlacionadas cuando hay una relación
cuantitativa entre ellas. X suele ser la variable
independiente e Y la dependiente (Y depende de
X).
  • Altura y peso de niños. Peso f(Altura)
  • Velocidad máxima que alcanza un coche y potencia
    de su motor. Velocidad f(Potencia)
  • Presupuesto para adquisiciones y número de
    libros que puede adquirir una biblioteca. Libros
    f(Presupuesto)
  • Si se hace una lista ordenando las palabras
    según su frecuencia de aparición en un texto
    extenso, se encuentra que hay una correlación
    entre frecuencia y posición o rango en esa lista.
    Frecuencia f(Rango) gt(Ley de Zipf)

La relación puede ser claramente causal o no.
  • La potencia del motor de un coche es la causa de
    que alcance una mayor velocidad, así como un
    mayor presupuesto el que se puedan comprar más
    libros. (X es la causa de Y)
  • En cambio, el rango de una distribución tipo
    Zipf no es la causa de la frecuencia en todo
    caso, la frecuencia es la causa del rango. (Y es
    la causa de X)
  • La relación altura peso tiene parte de
    causalidad, pero también existen otros factores.
    (X y otros factores son la causa de Y)

Cuando se hacen correlaciones hay que analizar
bien el fenómeno para no caer en errores
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
2
Correlaciones espúreas
Hay que evitar las denominadas correlaciones
espúreas o espurias, es decir, que llevan a
conclusiones erróneas. Ocurren cuando dos
variables, X e Y, son realmente independientes
entre sí, pero dependientes ambas de una misma
causa común, Z.
Ejemplo de correlación espúrea Cierto biólogo
inglés publicó un estudio en el que se comprueba
que en los pueblos y ciudades con más cigüeñas en
los campanarios, X, nacen más niños, Y. Llegó a
la conclusión de que los niños los trae la
cigüeña. Lo cierto es que tanto el número de
cigüeñas, X, como el de niños, Y, dependen de la
causa común, Z, que es el tamaño del pueblo o
ciudad. En las poblaciones grandes hay siempre
más cigüeñas y más niños. Tanto cigüeñas como
niños están correlacionados con el tamaño de la
población, pero no entre ellos mismos.
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
3
Nubes de Puntos
Sea un conjunto de pares de valores de las
variables X e Y. Si los representamos en un
diagrama de dispersión obtendremos una nube de
puntos que nos dará una idea gráfica de la
posible correlación entre ambas variables.
Y
Y
Y
X
X
X
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
4
Algunos tipos de correlaciones
Modelo Lineal
Correlación lineal positiva
Correlación lineal negativa
  • Potencial
  • Logarítmica
  • Otros tipos
  • Potencial inversa
  • Exponencial negativa
  • Otros tipos
  • Potencial
  • Exponencial positiva
  • Otros tipos

(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
5
Modelos Lineales
Ecuación Explícita de la Recta
y a bx
y
Los valores de y se calculan multiplicando x
por la pendiente, b, y sumándole la ordenada en
el origen, a
b
a
x
a .- Ordenada en el orígen. Punto de corte con el
eje de ordenadas o eje y. En este punto x está
en el origen es decir x0
b .- Pendiente. Grado de inclinación de la recta.
Si es positiva, la recta es creciente. Si es
negativa es decreciente. Es el cociente entre el
incremento que se produce en la variable
dependiente, Y, cuando se incrementa la variable
independiente, X.
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
6
Ejemplos de Rectas
  • Recta decreciente, ya que la pendiente es
    negativa
  • La recta decrece una unidad de y por cada unidad
    de x, es decir b-1
  • Cuando x0, y4. La ordenada en el origen, a,
    vale 4
  • Recta creciente, ya que la pendiente es positiva
  • La recta crece dos unidades de y por cada unidad
    de x, es decir b2
  • Cuando x0, y1. La ordenada en el origen, a,
    vale 1

(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
7
Recta de Regresión Mínimo-Cuadrática
  • La recta de regresión es la que se obtiene a
    partir de la nube de puntos y es la que
    representa mejor la distribución de esos puntos
    como modelo lineal.
  • Se suele emplear el método de los Mínimos
    Cuadrados, que consiste en encontrar aquella
    recta tal que la suma de los cuadrados de las
    distancias, di, de los puntos a la recta sea la
    mínima posible.

y
  • Bajo esta condición se puede demostrar que la
    pendiente, b, y la ordenada en el origen, a, se
    determinan mediante

x
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
8
Ejemplo 1. Regresión Lineal
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
9
Covarianza
Recordemos que...
Media aritmética Suma de los valores que toma
una variable dividida entre el número total, n,
de valores sumados.
Varianza Es una medida de lo que se dispersan
los valores de una muestra respecto de su media.
Se determina con cualquiera de las formulas
equivalentes siguientes
La varianza, V, es también el cuadrado de la
desviación típica, S.
Cuando se trata de una distribución
bidimensional...
Covarianza Es una medida de lo que se dispersan
los valores de una muestra bidimensional tanto
del valor medio de la x como del valor medio de
la y. Se determina mediante la expresión
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
10
Coeficiente de Correlación de Pearson, r
Bondad de los ajustes
  • El coeficiente de correlación de Pearson, r, nos
    permite saber si el ajuste de la nube de puntos a
    la recta de regresión obtenida es satisfactorio.
  • Se define como el cociente entre la covarianza y
    el producto de las desviaciones típicas (raiz
    cuadrada de las varianzas)
  • Teniendo en cuenta el valor de la covarianza y
    las varianzas, se puede evaluar mediante
    cualquiera de las dos expresiones siguientes

(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
11
Grado de Correlación
  • El coeficiente de correlación, r, presenta
    valores entre 1 y 1.
  • Cuando r es próximo a 0, no hay correlación
    lineal entre las variables. La nube de puntos
    está muy dispersa o bien no forma una línea
    recta. No se puede trazar una recta de regresión.
  • Cuando r es cercano a 1, hay una buena
    correlación positiva entre las variables según un
    modelo lineal y la recta de regresión que se
    determine tendrá pendiente positiva, será
    creciente.
  • Cuando r es cercano a -1, hay una buena
    correlación negativa entre las variables según un
    modelo lineal y la recta de regresión que se
    determine tendrá pendiente negativa es
    decreciente.

(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
12
Coeficiente de Determinación, R2
  • Para estimar la bondad de un ajuste
    frecuentemente se prefiere utilizar el
    Coeficiente de Determinación, R2, que es el
    Coeficiente de Correlación elevado al cuadrado.
  • Se determina mediante cualquiera de las dos
    expresiones siguientes
  • Su valor oscila entre 0 y 1.
  • Cuando hay una buena correlación lineal, R2 es
    muy cercano a 1. Normalmente se acepta para
    valores de R2 gt 099.
  • Cuando no hay correlación o bien ésta no es
    lineal, R2 es bajo e incluso cercano a cero

(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
13
Ejemplo 2 Regresión lineal
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
14
Ejemplo 3 Citroën Saxo
Correlación Potencia - Velocidad
Conclusiones
  • Potencia y velocidad son dos variables
    correlacionadas según un modelo lineal, cuya
    ecuación es
  • El ajuste es excelente.
  • La correlación es positiva, ya que la pendiente
    también lo es.
  • Por cada CV de potencia, la velocidad máxima se
    incrementa en 075 Km/h
  • Es posible predecir qué velocidad se podría
    alcanzar a partir de una potencia determinada o
    bien a la inversa, determinar qué potencia se
    necesita para alcanzar una velocidad.
  • Estas predicciones se pueden realizar sin
    restricciones dentro del rango analizado
    (Interpolación). En cambio, fuera del rango sólo
    son posibles si no nos alejamos excesivamente de
    él (Extrapolación)

1.6i 16V VTS
V 075 P 117 R2 09915
1.6i VTS
1,4i SX
1.1i SX
1.5D SX Furio
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
15
Interpolación y Extrapolación
Ecuación
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
Modelo Citroën Saxo P (CV) V (Km/h) V (Km/h) calculada Error
1.5D SX Furio 58 158 58x075117 160 (160-158)/158100 13
1.1i SX 60 162 162 0
1.4i SX 75 175 173 -11
1.6i VTS 100 193 192 -0.5
1.6i 16V VTS 120 205 207 1
Nuevo Modelo Intermedio 90 ------ 184 Este caso es una interpolación y como el ajuste es muy bueno, el resultado es correcto.
Nuevo Modelo muy Potente 150 ------ 229 Resultado razonable. La extrapolación es también razonable.
Nuevo Modelo poco Potente 10 ------ 124 ? Demasiada velocidad para tan poca potencia. Se ha hecho una extrapolación excesiva
16
Ejemplo 4 Relación Profesores/Alumnosen las
Universidades Españolas
  1. Trazar la gráfica de la distribución
  2. Calcular parámetros de la distribución
  3. Cuál es la Universidad con mejor proporción
    profesor/alumno?
  1. Qué Universidad tiene la peor ratio y cuántos
    profesores necesitaría para equilibrarla?
  2. Calcular los valores teóricos de profesores de la
    Universidad de Granada si ésta tenía 55123
    alumnos en el curso 1994-95.
  3. Calcular los valores de la FBD si ésta tenía 1100
    alumnos

(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
R20.998 b0.0515 a-17
17
Ejemplo 4 Gráfica de distribuciónRelación
Profesores/Alumnos en Universidades
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
18
Modelos No Lineales
Antes de proceder a la regresión, hay que
transformar la ecuación no lineal, y f(x), en
otra del tipo Y A BX, donde Y, X, A y B son
funciones de y, x, a y b respectivamente.
Modelo Potencial Exponencial Logarítmico
Ecuación
Ecuación Linealizada ----------
Gráfica
Y Log y Ln y y
X Log x x Log x
A Log a Ln a a
B b b b
a A
b B B B
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
19
Ejemplo 5 El Péndulo de Galileo
Una de las principales aportaciones de Galileo
Galilei (1564-1642), fue encontrar la relación
entre el tiempo o periodo de oscilación de un
péndulo y su longitud. Esto permitió construir
por primera vez en la historia relojes de gran
precisión basados en péndulos. Dicen que la idea
de correlacionar estas variables se le ocurrió en
la iglesia de su ciudad natal, Pisa, mientras,
absorto, observaba cómo oscilaban las lámparas
del techo...
Estos datos podrían corresponder a un hipotético
experimento realizado por Galileo...
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
20
Las deducciones de Galileo
Para encontrar el modelo que relaciona periodo de
oscilación, T, con la longitud del péndulo, L,
Galileo bien pudo hacer las siguientes
deducciones...
No es lineal
No es exponencial
Tampoco es logarítmica
Es potencial
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
21
Cálculos de la Regresión Potencial para el
Péndulo de Galileo
Como vamos a ajustar a un modelo potencial,
hacemos el cambio de variables X log x e Y
log y. Por lo demás se procede exactamente igual
a una regresión lineal, ajustando a una expresión
del tipo Y A BX. Por último, de B y A
calculados se despejan b y a respectivamente.
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
22
Ley del Péndulo
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
Generalizando...
Se deduce que...
El periodo de oscilación de un péndulo es
proporcional a la raíz cuadrada de su longitud
23
Ejemplo 6 Regresión Exponencial. Método del C14
para datación arqueológica
  • A partir de los datos adjuntos en los que se dan
    valores de carbono 14 residual respecto del
    tiempo transcurrido, determina
  • Parámetros de la distribución de C14-Tiempo,
    sabiendo que es exponencial negativa
  • Cuánto C14 quedará en el hueso que llevo en la
    mano si ambos tenemos 12.000 años.

Se observa que la nube de puntos se alinea cuando
se toman logaritmos en la y. Por tanto, el
modelo es exponencial, y como decrece, es
exponencial negativo.
Solución
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
24
Cálculo de la Regresión Exponencial para el C14
Como se está ajustando un MODELO EXPONENCIAL
hacemos el cambio de variable Y LN(y), quedando
x igual (X x). En este caso A Ln(a) y B b.
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
25
LOS MODELOS EN BIBLIOMETRÍA
La Bibliometría está fundamentada en un conjunto
de leyes empíricas. Estas leyes se han
establecido gracias a estudios cuantitativos en
los que interviene el recuento de nº de
artículos, nº de revistas, nº de autores,
etcétera. Las distribuciones que correlacionan
estas variables se ajustan mediante regresión
lineal por el método de los mínimos
cuadrados. Las principales leyes y el tipo de
modelo al que corresponden son las siguientes
Ley Bibliométrica Ecuación Modelo Gráfico
Ley de Price del crecimiento exponencial de la Ciencia Exponencial positivo
Ley de Lotka de la productividad de los autores Potencial inverso
Ley de Bradford de las revistas y su dispersión Logarítmico (En la zona periférica al núcleo)
Ley de Zipf de la distribución de palabras en los textos Potencial inverso
Ley de Brookes del envejecimiento de la información Exponencial negativo
(c) Rosario Ruiz Baños. Departamento de
Biblioteconomía y Documentación. Universidad de
Granada (España)
Write a Comment
User Comments (0)
About PowerShow.com