Estad

About This Presentation

Transcript and Presenter's Notes

Title: Estad

1
Estadística

Elementos Introductorios

2
Definición

La Estadística es la tecnología de la
Sistematización, recogida, ordenación y
presentación de los datos referentes a un
fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con
objeto de
deducir las leyes que rigen esos fenómenos,
y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener conclusiones.

Descriptiva
Probabilidad
Inferencia
3
Población y muestra

Población (population) es el conjunto sobre el
que estamos interesados en obtener conclusiones
(hacer inferencia).
Normalmente es demasiado grande para poder
abarcarlo.
Muestra (sample) es un subconjunto suyo al que
tenemos acceso y sobre el que realmente hacemos
las observaciones (mediciones)
Debería ser representativo
Esta formado por miembros seleccionados de la
población (individuos, unidades experimentales).

4
Variables

Una variable es una característica observable que
varía entre los diferentes individuos de una
población. La información que disponemos de cada
individuo es resumida en variables.

En los individuos de la población colombiana, de
uno a otro es variable
El grupo sanguíneo
A, B, AB, O ? Var. Cualitativa
Su nivel de felicidad declarado
Deprimido, Ni fu ni fa, Muy Feliz ? Var.
Ordinal
El número de hijos
0,1,2,3,... ? Var. Numérica discreta
La altura
162 174 ... ? Var. Numérica continua

5
Tipos de variables

CualitativasSi sus valores (modalidades) no se
pueden asociar naturalmente a un número (no se
pueden hacer operaciones algebraicas con ellos)
Nominales Si sus valores no se pueden ordenar
Sexo, Grupo Sanguíneo, Religión, Nacionalidad,
Fumar (Sí/No)
Ordinales Si sus valores se pueden ordenar
NBI, Grado de satisfacción, Intensidad del dolor
Cuantitativas o NuméricasSi sus valores son
numéricos (tiene sentido hacer operaciones
algebraicas con ellos)
Discretas Si toma valores enteros
Número de hijos, Número de cigarrillos, Num. de
cumpleaños
Continuas Si entre dos valores, son posibles
infinitos valores intermedios.
Altura, Presión intraocular, Dosis de medicamento
administrado, edad

Los posibles valores de una variable suelen
denominarse modalidades.
Las modalidades pueden agruparse en clases
(intervalos)
Edades
Menos de 20 años, de 20 a 50 años, más de 50
años
Hijos
Menos de 3 hijos, De 3 a 5, 6 o más hijos
Las modalidades/clases deben forman un sistema
exhaustivo y excluyente
Exhaustivo No podemos olvidar ningún posible
valor de la variable
Mal Cuál es su color del pelo (Rubio, Moreno)?
Bien Cuál es su grupo sanguíneo?
Excluyente Nadie puede presentar dos valores
simultáneos de la variable
Estudio sobre el ocio
Mal De los siguientes, qué le gusta (deporte,
cine)
Bien Le gusta el deporte (Sí, No)
Bien Le gusta el cine (Sí, No)
Mal Cuántos hijos tiene (Ninguno, Menos de 5,
Más de 2)

7
Presentación ordenada de datos
Género Frec.
Hombre 4
Mujer 6

Las tablas de frecuencias y las representaciones
gráficas son dos maneras equivalentes de
presentar la información. Las dos exponen
ordenadamente la información recogida en una
muestra.

8
Tablas de frecuencia

Exponen la información recogida en la muestra, de
forma que no se pierda nada de información (o
poca).
Frecuencias absolutas Contabilizan el número de
individuos de cada modalidad
Frecuencias relativas (porcentajes) Idem, pero
dividido por el total
Frecuencias acumuladas Sólo tienen sentido para
variables ordinales y numéricas
Muy útiles para calcular cuantiles (ver más
adelante)
Qué porcentaje de individuos tiene menos de 3
hijos? Sol 83,8
Entre 4 y 6 hijos? Soluc 1ª 8,43,61,6
13,6. Soluc 2ª 97,3 - 83,8 13,5

9
Gráficos para v. cualitativas

Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o
rel.)
Se pueden aplicar también a variables discretas
Diagramas de sectores (tortas, polares)
No usarlo con variables ordinales.
El área de cada sector es proporcional a su
frecuencia (abs. o rel.)
Pictogramas
Fáciles de entender.
El área de cada modalidad debe ser proporcional a
la frecuencia. De los dos, cuál es incorrecto?.

10
Parámetros y estadísticos

Parámetro Es una cantidad numérica calculada
sobre una población
La altura media de los individuos de un país
La idea es resumir toda la información que hay en
la población en unos pocos números (parámetros).
Estadístico Ídem (cambiar población por
muestra)
La altura media de los que estamos en este aula.
Somos una muestra (representativa?) de la
población.
Si un estadístico se usa para aproximar un
parámetro también se le suele llamar estimador.

11
(No Transcript)
12
En resumen

Posición
Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles,...
Centralización
Indican valores con respecto a los que los datos
parecen agruparse.
Media, mediana y moda
Dispersión
Indican la mayor o menor concentración de los
datos con respecto a las medidas de
centralización.
Desviación típica, coeficiente de variación,
rango, varianza
Forma
Asimetría
Apuntamiento o curtosis

13
Estadísticos de posición

Se define el cuantil de orden a como un valor de
la variable por debajo del cual se encuentra una
frecuencia acumulada a.
Casos particulares son los percentiles,
cuartiles, deciles, quintiles,...

14
Centralización

Añaden unos cuantos casos particulares a las
medidas de posición. En este caso son medidas que
buscan posiciones (valores) con respecto a los
cuales los datos muestran tendencia a agruparse.
Media (mean) Es la media aritmética (promedio)
de los valores de una variable. Suma de los
valores dividido por el tamaño muestral.
Media de 2,2,3,7 es (2237)/43,5
Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor. Muy
sensible a valores extremos.
Centro de gravedad de los datos
Mediana (median) Es un valor que divide a las
observaciones en dos grupos con el mismo número
de individuos (percentil 50). Si el número de
datos es par, se elige la media de los dos datos
centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (56)/25,5
Es conveniente cuando los datos son asimétricos.
No es sensible a valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es
117,7!
Moda (mode) Es el/los valor/es donde la
distribución de frecuencia alcanza un máximo.

15
Variabilidad o dispersión

Los estudiantes de Métodos de investigación
reciben diferentes calificaciones en la
asignatura (variabilidad). A qué puede deberse?
Diferencias individuales en el conocimiento de la
materia.
Podría haber otras razones (fuentes de
variabilidad)?
Por ejemplo supongamos que todos los alumnos
poseen el mismo nivel de conocimiento. Las notas
serían las mismas en todos? Seguramente No.
Dormir poco el día del examen, el croissant
estaba envenenado...
Diferencias individuales en la habilidad para
hacer un examen.
El examen no es una medida perfecta del
conocimiento.
Variabilidad por error de medida.
En alguna pregunta difícil, se duda entre varias
opciones, y al azar se elige la mala
Variabilidad por azar, aleatoriedad.

Desviación típica (standard deviation)Es la
raíz cuadrada de la varianza
Tiene las misma dimensionalidad (unidades) que la
variable.
Cierta distribución que veremos más adelante
(normal o gaussiana) quedará completamente
determinada por la media y la desviación típica.
A una distancia de una desv. típica de la media
tendremos 68 observaciones.
A una distancia de dos desv. típica de la media
tendremos 95 observaciones.

Centrado en la media y a una desviación típica de
distancia tenemos más de la mitad de las
observaciones (izq.)
A dos desviaciones típicas las tenemos a casi
todas (dcha.)

18
Muestreo

Las poblaciones están formadas por individuos,
pero sería mejor denominarlas unidades de
muestreo o unidades de estudio
Personas, células, familias, hospitales, países
La población ideal que se pretende estudiar se
denomina población objetivo.
No es fácil estudiarla por completo. Aproximamos
mediante muestras que den idealmente la misma
probabilidad a cada individuo de ser elegido.
Tampoco es fácil elegir muestras de la población
objetivo
Si llamamos por teléfono excluimos a los que no
tienen.
Si elegimos indiv. en la calle, olvidamos los que
están trabajando...
El grupo que en realidad podemos estudiar (v.g.
los que tienen teléfono) se denomina población de
estudio.

19
Fuentes de sesgo

Las poblaciones objetivo y de estudio pueden
diferir en cuanto a las variables que estudiamos.
El nivel económico en la población de estudio es
mayor que en la objetivo,...
Los individuos que se eligen en la calle pueden
ser de mayor edad (mayor frecuencia de jubilados
p.ej.)
En este caso, diremos que las muestras que se
elijan estarán sesgadas. Al tipo de sesgo debido
a diferencias sistemáticas entre población
objetivo y población de estudio se denomina sesgo
de selección.
Hay otras fuentes de error/sesgo
No respuesta a encuestas embarazosas
Consumo de drogas, violencia doméstica, prácticas
poco éticas,
Mentir en las preguntas delicadas.
Para evitar este tipo de sesgo se utilizan la
técnica de respuesta aleatorizada.

20
Técnicas de respuesta aleatorizada

Reducen la motivación para mentir (o no
responder) a las encuestas.
Si digo la verdad, mostraré el cobre?
Cómo se hace? Pídele que lance una moneda antes
de responder y
Si sale cara que diga la opción comprometedora
(no tiene por qué avergonzarse, la culpa es de la
moneda)
Si sale sello que diga la verdad
(no tiene por qué avergonzarse, el encuestador
no sabe si ha salido cara o sello)
Aunque no podamos saber cuál es la verdad en cada
individuo, podemos hacernos una idea porcentual
sobre la población, viendo en cuánto se alejan
las respuestas del 50.

21
Ejemplo Ha tomado drogas alguna vez?
Insinceros!!
Sin respuesta aleatorizada
100 No
Con respuesa aleatorizada
Diferencia entre los que han dicho sí y los que
debían hacerlopor que así lo indicaba la moneda
40 No 60 Sí
No son mitad y mitad! El porcentaje estimado de
ind. que tomó drogas es
Los que deben decir la verdad
22
Técnicas de muestreo

Cuando elegimos individuo de una población de
estudio para formar muestras podemos encontrarnos
en las siguientes situaciones
Muestreos probabilistas
Conocemos la probabilidad de que un individuo sea
elegido para la muestra.
Interesantes para usar estadística matemática con
ellos.
Muestreos no probabilistas
No se conoce la probabilidad.
Son muestreos que seguramente esconden sesgos.
En principio no se pueden extrapolar los
resultados a la población.
A pesar de ello una buena parte de los estudios
que se publican usan esta técnica. Buff!
En adelante vamos a tratar exclusivamente con
muestreos con la menor posibilidad de sesgo
(probabilistas) aleatorio simple, sistemático,
estratificado y por grupos.

23
Muestreo aleatorio simple (m.a.s.)

Se eligen individuos de la población de estudio,
de manera que todos tienen la misma probabilidad
de aparecer, hasta alcanzar el tamaño muestral
deseado.
Se puede realizar partiendo de listas de
individuos de la población, y eligiendo
individuos aleatoriamente con un ordenador.
Normalmente tiene un coste bastante alto su
aplicación.
En general, las técnicas de inferencia
estadística suponen que la muestra ha sido
elegida usando m.a.s., aunque en realidad se use
alguna de las que veremos a continuación.

24
Muestreo sistemático

Se tiene una lista de los individuos de la
población de estudio. Si queremos una muestra de
un tamaño dado, elegimos individuos igualmente
espaciados de la lista, donde el primero ha sido
elegido al azar.
CUIDADO Si en la lista existen periodicidades,
obtendremos una muestra sesgada.
Un caso real Se eligió una de cada cinco casas
para un estudio de salud pública en una ciudad
donde las casas se distribuyen en manzanas de
cinco casas. Salieron con mucha frecuencia las de
las esquinas, que reciben más sol, están mejor
ventiladas,

25
Muestreo estratificado

Se aplica cuando sabemos que hay ciertos factores
(variables, subpoblaciones o estratos) que pueden
influir en el estudio y queremos asegurarnos de
tener cierta cantidad mínima de individuos de
cada tipo
Hombres y mujeres,
Jovenes, adultos y ancianos
Se realiza entonces una m.a.s. de los individuos
de cada uno de los estratos.
Al extrapolar los resultados a la población hay
que tener en cuenta el tamaño relativo del
estrato con respecto al total de la población.

26
Muestreo por grupos o conglomerados

Se aplica cuando es difícil tener una lista de
todos los individuos que forman parte de la
población de estudio, pero sin embargo sabemos
que se encuentran agrupados naturalmente en
grupos.
Se realiza eligiendo varios de esos grupos al
azar, y ya elegidos algunos podemos estudiar a
todos los individuos de los grupos elegidos o
bien seguir aplicando dentro de ellos más
muestreos por grupos, por estratos, aleatorios
simples,
Para conocer la opinión de los médicos del
sistema nacional de salud, podemos elegir a
varias regiones de Colombia, dentro de ellas
varios departamentos, y dentro de ellas varios
centros de salud, y
Al igual que en el muestreo estratificado, al
extrapolar los resultados a la población hay que
tener en cuenta el tamaño relativo de unos grupos
con respecto a otros.
Regiones con diferente población pueden tener
probabilidades diferentes de ser elegidas,
comarcas, hospitales grandes frente a pequeños,

Write a Comment

User Comments (0)

About PowerShow.com

Estad PowerPoint PPT Presentation