Cap - PowerPoint PPT Presentation

About This Presentation
Title:

Cap

Description:

Cap tulo 1. Estad stica Descriptiva 1.3: Medidas de Localizaci n 1.4: Medidas de Dispersi n Par metros y estad sticos Par metro: Es una cantidad ... – PowerPoint PPT presentation

Number of Views:381
Avg rating:3.0/5.0
Slides: 97
Provided by: m461cFile
Category:

less

Transcript and Presenter's Notes

Title: Cap


1
Capítulo 1.
Estadística Descriptiva
1.3 Medidas de Localización 1.4 Medidas de
Dispersión
2
Parámetros y estadísticos
  • Parámetro Es una cantidad numérica calculada
    sobre una población
  • La altura media de los individuos de un país
  • La idea es resumir toda la información que hay en
    la población en unos pocos números (parámetros).
  • Estadístico Ídem (cambiar población por
    muestra)
  • La altura media de los que estamos en este sala.
  • Somos una muestra (representativa?) de la
    población.
  • Si un estadístico se usa para aproximar un
    parámetro también se le suele llamar estimador.
  • Normalmente nos interesa conocer un
    parámetro, pero por la dificultad que conlleva
    estudiar a TODA la población, calculamos un
    estimador sobre una muestra y confiamos en que
    sean próximos. Más adelante veremos como elegir
    muestras para que el error sea confiablemente
    pequeño.

3
La media
El promedio (media) de n números
es
Media poblacional
4
Distintos Estadísticos Descriptivos
5
Un brevísimo resumen sobre estadísticos
  • Posición
  • Dividen un conjunto ordenado de datos en grupos
    con la misma cantidad de individuos.
  • Cuantiles, percentiles, cuartiles, deciles,...
  • Centralización
  • Indican valores con respecto a los que los datos
    parecen agruparse.
  • Media, mediana y moda
  • Dispersión
  • Indican la mayor o menor concentración de los
    datos con respecto a las medidas de
    centralización.
  • Desviación típica, coeficiente de variación,
    rango, varianza
  • Forma
  • Asimetría
  • Apuntamiento o curtosis

6
Estadísticos de posición
  • Se define el cuantil de orden a como un valor de
    la variable por debajo del cual se encuentra una
    frecuencia acumulada a.
  • Casos particulares son los percentiles,
    cuartiles, deciles, quintiles,...

7
Estadísticos de posición
  • Percentil de orden k cuantil de orden k/100
  • La mediana es el percentil 50
  • El percentil de orden 15 deja por debajo al 15
    de las observaciones. Por encima queda el 85
  • Cuartiles Dividen a la muestra en 4 grupos con
    frecuencias similares.
  • Primer cuartil Percentil 25 Cuantil 0,25
  • Segundo cuartil Percentil 50 Cuantil 0,5
    mediana
  • Tercer cuartil Percentil 75 cuantil 0,75

8
  • Ejemplos
  • El 5 de los recién nacidos tiene un peso
    demasiado bajo. Qué peso se considera demasiado
    bajo?
  • Percentil 5 o cuantil 0,05
  • Qué peso es superado sólo por el 25 de los
    individuos?
  • Percentil 75
  • El colesterol se distribuye simétricamente en la
    población. Se considera patológico los valores
    extremos. El 90 de los individuos son normales
    Entre qué valores se encuentran los individuos
    normales?
  • Entre el percentil 5 y el 95
  • Entre qué valores se encuentran la mitad de los
    individuos más normales de una población?
  • Entre el cuartil 1º y 3º

9
Ejemplo
  • Qué peso no llega a alcanzar el 25 de los
    individuos?
  • Primer cuartil percentil 25 60 Kg.
  • Qué peso es superado por el 25 de los
    individuos?
  • Tercer cuartil percentil 75 80 kg.
  • Entre qué valores se encuentra el 50 de los
    individuos con un peso más normal?
  • Entre el primer y tercer cuartil entre 60 y 80
    kg.
  • Obsérvar que indica cómo de dispersos están los
    individuos que ocupan la parte central de la
    muestra. Ver más adelante rango intercuartílico.
  • Los diagramas de caja (boxplot) sintetizan esta
    información (y algo más).

50
25
25
25
25
10
Ejemplo
20?
90?
11
Centralización
  • Añaden unos cuantos casos particulares a las
    medidas de posición. En este caso son medidas que
    buscan posiciones (valores) con respecto a los
    cuales los datos muestran tendencia a agruparse.
  • Media (mean) Es la media aritmética (promedio)
    de los valores de una variable. Suma de los
    valores dividido por el tamaño muestral.
  • Media de 2,2,3,7 es (2237)/43,5
  • Conveniente cuando los datos se concentran
    simétricamente con respecto a ese valor. Muy
    sensible a valores extremos.
  • Centro de gravedad de los datos
  • Mediana (median) Es un valor que divide a las
    observaciones en dos grupos con el mismo número
    de individuos (percentil 50). Si el número de
    datos es par, se elige la media de los dos datos
    centrales.
  • Mediana de 1,2,4,5,6,6,8 es 5
  • Mediana de 1,2,4,5,6,6,8,9 es (56)/25,5
  • Es conveniente cuando los datos son asimétricos.
    No es sensible a valores extremos.
  • Mediana de 1,2,4,5,6,6,800 es 5. La media es
    117,7!
  • Moda (mode) Es el/los valor/es donde la
    distribución de frecuencia alcanza un máximo.

12
Algunas fórmulas
  • Datos sin agrupar x1, x2, ..., xn
  • Media
  • Datos organizados en tabla
  • si está en intervalos usar como xi las marcas de
    clase. Si no ignorar la columna de intervalos.
  • Media
  • Cuantil de orden a
  • i es el menor intervalo que tiene frecuencia
    acumulada superior a a n
  • a0,5 es mediana

Variable Variable fr. fr. ac.
L0 L1 x1 n1 N1
L1 L2 x2 n2 N2
...
Lk-1 Lk xk nk Nk
n n n n
13
Altura mediana
14
Ejemplo con variables continuas
Peso M. Clase frec Fr. acum.
40 50 45 5 5
50 60 55 10 15
60 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 130 115 3 58
En el histograma se identifica unidad de área
con individuo. Para calcular la media es
necesario elegir un punto representante del
intervalo La marca de clase. La media se
desplaza hacia los valores extremos. No coincide
con la mediana. Es un punto donde el histograma
estaría en equilibrio si tuviese masa.
15
Ejemplo (continuación)
Peso M. Clase Fr. Fr. ac.
40 50 45 5 5
50 60 55 10 15
60 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 130 115 3 58
58 58 58 58
  • Moda marca de clase de (60,70 65
  • Cada libro ofrece una fórmula diferente para la
    moda (difícil estar al día.)

16
(No Transcript)
17
En el caso de los pesos los alumnos de ingeniería
18
Media de un conjunto de números
  • Para un conjunto dado de números x1, x2 ,...
    xn,la medida más conocida es la media o promedio
    aritmético del conjunto. Como muy a menudo se
    piensa a los xi como constituyentes de una
    muestra, el promedio aritmético también se
    denomina media muestral y se denota como .

Definición La media muestral de un conjunto de
números está dada por
( , se lee x raya)
La suma de los valores de la variable bajo
estudio dividida por el número total de objetos
de la población, se denota ? y está definida
por22
( , se lee mu)
19
NOTA
  • El símbolo , indica que se han promediado
    observaciones de un conjunto de tamaño n de una
    población, es fundamentalmente distinto de
    ya que las muestras de una población pueden tener
    valores diferentes entre ellas dentro de la
    población. Mientras que la media poblacional es
    una sola (constante). Sin embargo si tomamos la
    media de todas las medias muestrales posibles
    se esperaría obtener el valor de la media
    poblacional . Esta propiedad de hace de
    este sea un estimador insesgado de

Esta propiedad es muy importante, pues rara vez
de conoce la media de la población
20
Observación práctica
  • Al escribir se recomienda usar un dígito
    decimal más que el correspondiente a la exactitud
    de los xi .así si las distancias de frenado a 120
    km son x1 125 y x2 131m, podría ser
    127.3 m.

Es claro que en este caso, que el tamaño
poblacional N, es desconocido y que, en
consecuencia, también.
21
Agrietamiento por corrosión
Ej. 1.3
  • En un estudio sobre el agrietamiento por
    corrosión cáustica bajo tensiones del hierro y
    acero, debido a que suelen presentar fallas en
    torno de los remaches en calderas de acero y en
    rotores de máquinas de vapor.
  • Si x longitud de la grieta (?m)

0H 96 89 1L 27 03 40 46 18 1H 61 85
2L 49 04 12 33 42 2H 58 53 71 85 3L
02 24 3H 4L 4H 50
Tallo dígito de las decenas Hoja dígitos de
las unidades y de las décimas
Y como , la media muestral es
22
Geometría de la media
10
20
30
40
Media corresponde geométricamente al punto de
equilibrio de los datos pensando como un sistema
de pesas
23
Efecto de punto alejado
attach(ej0113) dotchart(lgrieta,col6)
abline(v mean(lgrieta,trim0.00), col 4, lty
4) abline(v mean(lgrieta,trim0.05), col
3, lty 3) legend(35, 10,c("media","media
recortada al 5"),col34,lty34)
  • ej0113lt-read.table("ej01.13.txt",hT)
  • stem(ej0113lgrieta,2)
  • The decimal point is 1 digit(s) to the right of
    the
  • 0 9
  • 1 00234
  • 1 569
  • 2 0134
  • 2 55679
  • 3 02
  • 3
  • 4
  • 4 5

24
Propiedades de la media (como operador)
  • Si , entonces
  • Luego,
  • Resumiendo
  • es decir, el operador raya (media) es
    lineal
  • En general

25
Mediana
La mediana muestral, es el valor medio en un
conjunto de datos arreglado en orden ascendente.
Para un número par de datos la mediana es el
promedio de los dos del medio.
Mediana poblacional
26
(No Transcript)
27
Mediana (Fórmula de cálculo)
La mediana muestral se obtiene al ordenar las
n observaciones (incluyendo los valores
repetidos) de menor a mayor magnitud. Entonces se
calcula
La mediana poblacional, por su parte, se denota
28
Cuantificación de hierro en la sangre
  • Concentración de globulina receptora de hierro,
    para una muestra de mujeres con pruebas de
    laboratorio de evidente anemia por deficiencias
    de hierro

Lista de valores ordenados 7.6 8.3 9.3
9.4 9.4 9.7 10.4 11.5 11.9 15.2 16.2
20.4
Como n 12 es par, se promedia n/2 6 valor
con el 7 valor ordenado
29
Mediana Poblacional
  • Análogo a como valor muestral, hay un valor de
    media poblacional, hay un valor poblacional de la
    mediana muestral, el que se denota por . Y del
    mismo modo es estimador de .
  • Las relaciones entre y depende de la forma
    de la distribución de una población.

30
Ejemplo de mediana
  • En un curso de 85 notas de una prueba la
    mediana, es el 43avo número si las notas son
    listadas en orden ascendente. (Nota En este
    caso existen 42 arriba de la mediana y 42 abajo
    de la mediana).

40 41 42 43 44 45 46 57.5 57.5 60.0
60.0 60.0 62.5 62.5
31
Ejemplo de Media y Mediana
Para encontrar la mediana, primero se ordenan los
valores
32
Relaciones entre Medias y medianas poblacionales
  • Distribución poblacional
  • Sensitividad a la observaciones extremas
    (outliers)

33
(No Transcript)
34
Tres diferentes formas de población
35
Asimetría positivaEx 1.14, Concentración, Pág 31
36
Sensitividad a los Valores Extremos
  • Un conjunto de datos contiene 19 familias, con
    8 familias que ganan US30,000 por año, 10 ganan
    US35,000 por año, y que 1 gana 1 millones por
    año.

Si la distribución es altamente asimétrica, la
mediana es la mejor elección
37
Modo
El modo, Mo de una serie estadística es el valor
de la característica más frecuente o dominante en
la muestra. El modo corresponde a la clase se
frecuencia máxima en la distribución de
frecuencias.
38
Ventajas Inconvenientes
Media (aritmética) Fácil de calcular, Responde al principio de mínimos cuadrados Fuertemente influenciada por los valores extremos, Representa mal una población heterogénea (polimodal).
Mediana No influenciado por valores extremos, Poco sensible a las variaciones de amplitud de las clases, Calculable sobre caracterís-ticas cíclicas (estaciones, etc) donde la media tiene poca significación. Se presta mal a los cálculos estadísticos, Supone datos igualmente repartidos Representa sólo el valor que separa las muestras en dos partes iguales.
Modo No influenciado por la exis-tencia de valores extremos, Calculable sobre caracterís-ticas cíclicas (estaciones, etc) donde la media tiene poca significación. Buen indicador de la hetero-geneidad de la población. No se preta mucho a los cálculos estadísticos Muy sensible a las variacio-nes de amplitud de las clases, Su cálculo toma en cuenta sólo los individuos cuyos valores se reportan en la clase modal.
39
Medias recortadas
40
Robustez Medias Recortadas
  • Las medias y medianas están influidas por los
    valores atípicos de manera diferente, la media en
    gran medida y la mediana nada en absoluto. Las
    medidas a las cuales son o muy poco o nada
    afectadas por las observaciones atípicas se
    llaman robustas. Una familia de medidas robustas
    tienen sus valores entre la media y la mediana.
    Se consiguen recortando los extremos de la
    distribución previo el cálculo de la media, y por
    este motivos se llaman medias recortadas.
  • Una media recortada al 10 se obtiene recortando
    el 10 de los datos de las valores más grandes y
    el 10 de los más pequeños.

41
Ejemplo de Media recortada (Trimmed mean)
  • Duración (en horas) de las lámpara incandescentes
  • Se registró las duración en horas de 20 horas de
    cierto tubo incandescente

42
(No Transcript)
43
Otras medidas de localización
  • La mediana (poblacional o muestral) divide el
    conjunto (ordenado) de datos en dos partes
    iguales. Si se dividen los datos en más de dos
    partes se pueden obtener medidas de localización
    más finas.

4 Cuartiles (partes)
Quintiles división de cinco partes
Decíles división de diez partes
Percentiles división de 100 partes
44
Datos categóricos y proporción muestral
  • Dada una muestra aleatoria de tamaño n de una
    variable de valores x la proporción muestral se
    define como

Donde x se enciende como la suma de los valores
de presencia, al codificar los elementos de
alguna clase con 1 ó 0 según tengan o no alguna
característica distintiva.
La proporción poblacional se denota por p
45
Tareas
  • Ejercicios (sección 1.3 (pares(33-43)))

46
1.4 Medidas de
Variabilidad
47
Medidas de variabilidad
  • Las medidas de localización da sólo información
    parcial sobre un conjunto de datos o su
    distribución. Las distintas muestras o
    poblaciones pueden tener medidas idénticas de
    centralidad pero diferentes entre sí en otros
    aspectos característicos importares. En seguida
    se presentan los diagramas de puntos de tres
    muestras con la misma media y mediana, pero que
    difieren completamente en la cantidad de
    variabilidad.

48
Medidas de Variabilidad
1
2
3
30
40
50
50
50
Muestras de medidas con centralidad idénticas,
pero distintas variabilidades
(tienen la misma media y mediana pero distinta
variabilidad)
La variabilidad es distinta en las tres
muestras Rango muestra 1 ? Rango muestra 2 gt
Rango muestra 3
Ojo! es en realidad
49
Medidas de Variabilidad para Datos Muestrales
  • Rango Valor máximo valor mínimo
  • (también llamado Intervalo o recorrido)
  • En el caso de la figura anterior el rango de
    la muestra 1 es la de mayor variabilidad y la
    muestra 3 es la de menor variabilidad.
  • Rango muestra 1 Rango muestra 2,
  • pero claramente hay menos dispersión en la
    segunda que en la primera muestra.
  • El rango depende mucho de los valores
    extremos!

50
Desviaciones de la Media
  • Se llaman desviaciones respecto de la media
    (transformación de centramiento) al resultado de
    restar media de cada una de las n observaciones
    de la muestra
  • Una desviación positiva si la observación es
    mayor (está a la derecha de la media en el eje de
    medición) que la media y es negativa si es menor
    que la media

Media
51
Propiedades de las desviaciones de la media
  • Si las magnitud de todas las desviaciones
    pequeña, entonces las xi estarán cerca de la
    media y hay poca variabilidad. Si algunas de las
    desviaciones son grandes entonces alguna se las
    xi quedan lejos de , lo que indica una mayor
    variabilidad

52
Variabilidad o dispersión
  • Los estudiantes de Estadística reciben
    diferentes calificaciones en la asignatura
    (variabilidad). A qué puede deberse?
  • Diferencias individuales en el conocimiento de la
    materia.
  • Podría haber otras razones (fuentes de
    variabilidad)?
  • Por ejemplo supongamos que todos los alumnos
    poseen el mismo nivel de conocimiento. Las notas
    serían las mismas en todos? Seguramente No.
  • Dormir poco el día del examen, el croissant
    estaba envenenado...
  • Diferencias individuales en la habilidad para
    hacer un examen.
  • El examen no es una medida perfecta del
    conocimiento.
  • Variabilidad por error de medida.
  • En alguna pregunta difícil, se duda entre varias
    opciones, y al azar se elige la mala
  • Variabilidad por azar, aleatoriedad.

53
Variabilidad o dispersión
  • Los estudiantes de estadística reciben
    diferentes calificaciones en la asignatura
    (variabilidad). A qué puede deberse?
  • Diferencias individuales en el conocimiento de la
    materia.
  • Podría haber otras razones (fuentes de
    variabilidad)?
  • Por ejemplo supongamos que todos los alumnos
    poseen el mismo nivel de conocimiento. Las notas
    serían las mismas en todos? Seguramente No.
  • Dormir poco el día del examen, el croissant
    estaba malo...
  • Diferencias individuales en la habilidad para
    hacer un examen.
  • El examen no es una medida perfecta del
    conocimiento.
  • Variabilidad por error de medida.
  • En alguna pregunta difícil, se duda entre varias
    opciones, y al azar se elige la mala
  • Variabilidad por azar, aleatoriedad.

54
Medidas de dispersión
  • Miden el grado de dispersión (variabilidad)
    de losdatos, independientemente de su causa.
  • Amplitud o Rango (range) La diferencia entre
    las observaciónes extremas.
  • 2,1,4,3,8,4. El rango es 8-17
  • Es muy sensible a los valores extremos.
  • Rango intercuartílico (interquartile range)
  • Es la distancia entre el primer y tercer cuartil.
  • Rango intercuartílico P75 - P25
  • Parecida al rango, pero eliminando las
    observaciones más extremas inferiores y
    superiores.
  • No es tan sensible a valores extremos.

25
25
25
25
55
  • Varianza S2 (Variance) Mide el promedio delas
    desviaciones (al cuadrado) de lasobservaciones
    con respecto a la media.
  • Es sensible a valores extremos (alejados de la
    media).
  • Sus unidades son el cuadrado de las de la
    variable.
  • Si habéis oído hablar en física de porqué un
    patinador gira a diferente velocidad cuando tiene
    los brazos recogidos (menor dispersión), puede
    que os suene el coeficiente de inercia

56
  • Desviación típica (standard deviation)Es la
    raíz cuadrada de la varianza
  • Tiene las misma dimensionalidad (unidades) que la
    variable.
  • Cierta distribución que veremos más adelante
    (normal o gaussiana) quedará completamente
    determinada por la media y la desviación típica.
  • A una distancia de una desv. típica de la media
    tendremos 68 observaciones.
  • A una distancia de dos desv. típica de la media
    tendremos 95 observaciones.

57
  • Centrado en la media y a una desviación típica de
    distancia tenemos más de la mitad de las
    observaciones (izq.)
  • A dos desviaciones típicas las tenemos a casi
    todas (dcha.)

58
  • Coeficiente de variación
  • Es la razón entre la desviación típica y la
    media.
  • Mide la desviación típica en forma de qué
    tamaño tiene con respecto a la media
  • También se la denomina variabilidad relativa.
  • Es frecuente mostrarla en porcentajes
  • Si la media es 80 y la desviación típica 20
    entonces CV20/800,2525 (variabilidad
    relativa)
  • Es una cantidad adimensional. Interesante para
    comparar la variabilidad de diferentes variables.
  • Si el peso tiene CV30 y la altura tiene CV10,
    los individuos presentan más dispersión en peso
    que en altura.
  • No debe usarse cuando la variable presenta
    valores negativos o donde el valor 0 sea una
    cantidad fijada arbitrariamente
  • Por ejemplo 0ºC ? 0ºF
  • Los ingenieros electrónicos hablan de la razón
    señal/ruido (su inverso).

59
Dispersión en cuartos (Cuartiles)
  • La dispersión cuartílica fs
  • (Rango inter cuartílico IQR)
  • fs cuarto superior cuarto inferior
  • IQR 3er cuartil 1er cuartil.

60
Cuartiles superior e inferior
Una vez ordenada las n observaciones del conjunto
de datos de menor a mayor, el cuartil inferior
(superior) es la mediana de la mitad inferior
(superior) de los datos (largest), donde la
mediana se incluye en ambas mitades de n es
impar. Una medida de dispersión que es resistente
a los outliers es la dispersión cuartílica fs
cuartil superior cuartil inferior
61
El tercer y primer cuartil
Después de ordenadas n observaciones de un
conjunto de datos en orden creciente, el primer
(tercer) cuartil es la mediana de de la mitad de
los datos más pequeños (mayores), donde la
mediana se incluye en ambas mitades si n es
impar. Una medida de dispersión resistente a las
observaciones extremas es el rango
intercuartílico IQR fs 3er cuartil
1er cuartil.
62
Observaciones atípicas (outlier)
Cualquier observación más allá 1.5fs del cuartil
más cercano es outlier. Una observación atípica
es extrema si está más acá de 3fs del cuartil más
cercano, y es extraña de cualquier otro modo.
63
Ejemplo de gráfico de cajasAislantes de alto
voltaje n 25, pág 42

5.3 8.2 13.8 74.1 85.3 88.0
90.2 91.5 92.4 92.9 93.6 94.3 94.8
94.9 95.5 95.8 95.9 96.6 96.7
98.1 99.0 101.4 103.7 106.0 113.5
94.8, fs 90.2
fs 96.7 q 6.5 1.5q9.75 3q
19.50
64
Rango
  • Diferencia entre los valores muestrales mayor y
    menor.

Muy sensible a los outliers
65
Varianza muestral
La Variance es una medida de dispersión de los
datos.
La varianza muestral de la muestra x1, x2, xn de
n valores de X está dada por
La varianza poblacional
66
Ejemplo de varianza muestral
  • Primero, encuentre la varianza muestral
  • En seguida, sume los cuadrados de las
    desviaciones de la media
  • Divida por n - 1, donde n es el número de
    observaciones (en este caso, 85)

67
Desviación estándar
La Desviación estándar es una medida de
dispersión de los datos en las mismas unidades de
los datos originales.
La desviación estándar muestral es la raíz
cuadrada positiva de la varianza muestral
68
Ejemplo de desviación estándar
69
Fórmula para s2
Una expresión alternativa para el numerador de s2
es
70
Fórmula para s2 Ejemplo abreviado
  • Primero, sume los valores
  • En seguida, sume los cuadrados
  • El numerador de la varianza muestral es igual a
    85

71
Propiedades de s2
Sean x1, x2,,xn cualquier muestra y c una
constante no nula
donde es la varianza muestral de las xs y
es la varianza muestral de los ys.
72
Ejemplo
40 52 55 60 70 75 85 90 90 92 94 95
98 100 115 125 125
X(max) 125
X(min) 40
Q2 40
Q2 72.5
Q3 90
73
Boxplots
Cuartil superior
Cuartil inferior
mediana
Outlier extremo
Valores adyacentes
74
Ejemplo 1.18 Exploración por ultrasonido de la
corrosión de fondos de estanques contenedores de
petróleo (por borras)
75
Ejemplo de Boxplot magnitud de pulso n 25, pág
42

5.3 8.2 13.8 74.1 85.3 88.0
90.2 91.5 92.4 92.9 93.6 94.3 94.8
94.9 95.5 95.8 95.9 96.6 96.7
98.1 99.0 101.4 103.7 106.0 113.5
94.8, Cuartil
inferior 90.2 Cuartil superior 96.7 fs
6.5 1.5fs 9.75 3fs 19.50
76
Ejemplo 1.19 Degradación de cavidades aisladoras
de cerámica con el alto voltaje
  • 0 58
  • 1 3
  • 7 4
  • Outside Values
  • 8 5
  • 8
  • 8 8
  • 9 H 01
  • 9 223
  • 9 M 444555
  • 9 H 66
  • 9 89
  • 10 1
  • 10 3
  • 10
  • 10 6
  • Outside Values
  • 11 3

Ancho de impulso
77
Boxplot del ejemplo 19
Ancho de impulso
78
Boxplots lado a lado (Side-By-Side)
Peso
Sexo
79
Ejercicios Sec 1.4 (44-61)
80
Asimetría o Sesgo
  • Una distribución es simétrica si la mitad
    izquierda de su distribución es la imagen
    especular de su mitad derecha.
  • En las distribuciones simétricas media y mediana
    coinciden. Si sólo hay una moda también coincide
  • La asimetría es positiva o negativa en función de
    a qué lado se encuentra la cola de la
    distribución.
  • La media tiende a desplazarse hacia las valores
    extremos (colas).
  • Las discrepancias entre las medidas de
    centralización son indicación de asimetría.

81
Estadísticos para detectar asimetría
  • Hay diferentes estadísticos que sirven para
    detectar asimetría.
  • Basado en diferencia entre estadísticos de
    tendencia central.
  • Basado en la diferencia entre el 1º y 2º
    cuartiles y 2º y 3º.
  • Basados en desviaciones con signo respecto a la
    media.
  • En este se basa SPSS. No lo calcularemos
    manualmente en este curso.
  • En función del signo del estadístico diremos que
    la asimetría es positiva o negativa.
  • Distribución simétrica ? asimetría nula.
  • La asimetría es adimensional.

82
Apuntamiento o curtosis
  • La curtosis nos indica el grado de apuntamiento
    (aplastamiento) de una distribución con respecto
    a la distribución normal o gaussiana. Es
    adimensional.
  • Platicúrtica curtosis lt 0
  • Mesocúrtica curtosis 0
  • Leptocúrtica curtosis gt 0

Los gráficos que veis poseen la misma media y
desviación típica, pero con diferente grado de
apuntamiento. En el curso serán de especial
interés las mesocúrticas y simétricas (parecidas
a la normal).
83
Ejercicio descriptiva con SPSS
  • Está sombreado lo que sabemos interpretar hasta
    ahora. Verifica que comprendes todo. Qué
    unidades tiene cada estadístico? Variabilidad
    relativa?
  • Calcula los estadísticos que puedas basándote
    sólo en el gráfico de barras.

84
Utilidad de los Boxplot lado a lado?
85
Utilidad de los Boxplot lado a lado?
86
Utilidad de los Boxplot lado a lado?
87
(No Transcript)
88
(No Transcript)
89
(No Transcript)
90
Cifras significativas y propagación del Error
Bevington y Robinson, pág 4
DATA REDUCTION AND ERROR ANALYSIS FOR
THE PHYSICAL SCIENCES
  • El dígito no nulo del extremo izquierdo es el más
    significativo.
  • Si no existe punto decimal, el dígito no nulo del
    extremo derecho es el menos significativos.
  • Si existe un punto decimal, el dígito del extremo
    derecho es el menos significativo.
  • Todos los dígitos entre el extremo derecho y el
    izquierdo cuentan como significativos.

Philip R. Bevington D. Keith Robinson SECOND
EDITION 1992
Philip R. Bevington D. Keith Robinson SECOND
EDITION 1992
91
Cifras significativas
  • Cuántas cifras significativas se deben informar?
  • Todos los números que siguen tienen cuatro
    dígitos significativos
  • (o cifras) 1234, 1234000. 123.4, 1001, 1000.,
    10.10, 0.0001010, 100.0
  • Es mejor escribir en notación científica con el
    número apropiado
  • de dígitos 1.010x10-4
  • Para los cálculos, conservar un dígito más que
    el número de cifras
  • significativas.
  • La incerteza define el número de dígitos
    significativos
  • Es inadecuado informar 9.979 5.1015
  • Debido a la propagación del error, el número de
    cifras significativas
  • puede que no aumente con los cálculos.
  • En los cálculos, se puede arrastrar una
    cifra significativa
  • adicional para justificar certeza de los
    cálculos.

92
Salarios de Ingreso a la Administración por Sexo
Histograma de frecuencias de salarios de ingreso
a la administración por sexo.
Salarios de Ingreso por sexo (en miles de US )
93
Diagramas de Cajas
94
Gráficos de Cajas(Con SPSS)
SPSS permite identificación de los outliers
(observaciones inusuales)
95
Tarea Aguzar la vista
Ejercicios Cap I, Sec II Prob 10, 12,
22,24 Sec III Los ya dados Sec IV Nos 44, 54,
56, 58, 62 Además de los planteados
Tareas
96
Viene Probabilidad
Write a Comment
User Comments (0)
About PowerShow.com