REGRESION LINEAL MULTIPLE: Introduccin - PowerPoint PPT Presentation

Loading...

PPT – REGRESION LINEAL MULTIPLE: Introduccin PowerPoint presentation | free to download - id: 27b4fd-YjUxY



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

REGRESION LINEAL MULTIPLE: Introduccin

Description:

Forward stepwise: escoje los subconjuntos de modelos agregando una ... en Forward selection puede hacerse irrelevante m s. adelante, a agregar otras variables o bien, ... – PowerPoint PPT presentation

Number of Views:1741
Avg rating:3.0/5.0
Slides: 23
Provided by: mariob9
Learn more at: http://www2.udec.cl
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: REGRESION LINEAL MULTIPLE: Introduccin


1
REGRESION LINEAL MULTIPLE Introducción
  • Mario Briones L.
  • MV, MSc
  • 2005

2
(No Transcript)
3
DESARROLLO DEL MODELO
Búsqueda de las variables a incluir en el
modelo. Se asume que hay un conjunto de
variables candidatas o disponibles, el cual
presumiblemente incluye todas las variables
relevantes, a partir del cual un subconjunto de r
variables debe elegirse para la ecuación de
regresión. Las variables candidatas pueden
incluir diferentes formas de la misma variable
básica, tales como X y X2 y el proceso de
selección puede incluir restriciones acerca de
las variables que pueden ser incluidas. Por
ejemplo, X puede ser forzada a incluirse en el
modelo si X2 está en el subconjunto seleccionado.
4
Hay 3 áreas problema relacionadas con esto 1.
Los efectos teóricos de la selección de variables
sobre la regresión resultante. 2. Los métodos
de cálculo para encontrar el mejor subconjunto
de variables para cada tamaño de subconjunto. 3.
La elección del tamaño del subconjunto (para
el modelo final), o regla de detención
5
Usos de la ecuación de regresión 1.
Proporcionar una buena descripción de la conducta
en la variable de respuesta. 2. Predicción de
respuesta futura y estimación de respuestas
promedio. 3. Extrapolación o predicción de
respuestas fuera del rango de los datos. 4.
Estimación de parámetros. 5. Control de un
proceso por variación de los nivele de input. 6.
Desarrollo de modelos realísticos del proceso.
6
Cada objetivo tiene implicancias diferentes en el
modo como se coloca el énfasis en la eliminación
de variables desde el modelo, o en cuan
importante es que las variables retenidas estén
causalmente relacionadas con la variable de
respuesta. Las decisiones acerca de causalidad y
realismo deben depender de información ajena al
conjunto de datos. Por ej., modalidad de
recolección de los datos y conocimiento
fundamental acerca de la operación del sistema.
7
Objetivo descripción de la conducta de la
variable respuesta en un conjunto particular de
datos. No tiene importancia la eliminación de
variables, las posibles relaciones causales o el
realismo del modelo. La mejor descripción de la
variable respuesta, en términos de mínima suma de
cuadrados residuales, estará dada por el modelo
completo.
8
DEP VAR BIO N 45 MULTIPLE R
0.823 SQUARED MULTIPLE R 0.677 ADJUSTED
SQUARED MULTIPLE R .636 STANDARD ERROR OF
ESTIMATE 398.267 VARIABLE
COEFFICIENT STD ERROR STD COEF TOLERANCE
T P(2 TAIL) CONSTANT 1252.575
1234.717 0.000 . 1.014
0.317 SAL -30.288 24.030
-0.171 0.451 -1.260 0.215 PH
305.483 87.882 0.577 0.300
3.476 0.001 K -0.285
0.348 -0.129 0.335 -0.819 0.418
NA -0.009 0.016
-0.090 0.300 -0.544 0.590 ZN
-20.678 15.054 -0.259 0.232
-1.374 0.177
ANALYSIS OF VARIANCE SOURCE
SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO
P REGRESSION .129849E08 5
2596984.192 16.373 0.000 RESIDUAL
6186042.238 39 158616.468
9
Las ecuaciones de regresión con pocas variables
Tienen el atractivo de la simplicidad. Son
económicas por baja información
necesaria. Eliminan variables irrelevantes. Elim
inan variables con bajo aporte a la explicación
de la variable dependiente.
10
Los usos de PREDICCION y ESTIMACION de respuestas
promedio son los más tolerantes a la eliminación
de variables. Al mismo tiempo, no es importante
si las variables están causalmente relacionadas o
el modelo es realístico. Se asume que la
predicción y la estimación van a estar en el
espacio de X de los datos y que el
sistema continua operando como cuando se
recogieron los datos. Cualquier variable que
contenga información predictiva acerca de la
variable dependiente y para la cual se
pueda obtener información a bajo costo, es una
variable de utilidad.
11
La extrapolación requiere más cuidado en
la elección de las variables. Las variables
retenidas deben describir de la manera más
completa posible la conducta del sistema. Las
extrapolaciones más allá del ámbito de X
son siempre peligrosas. Debe re analizarse y
agregarse continuamente información.
12
Estimación de parámetros Se debe tener
precaución al sacar variables del modelo, para
evitar sesgo. Como ventaja, la eliminación
de variables realmente no relacionadas reduce la
varianza de las estimaciones. Control de un
sistema Implica una relación de causa efecto
entre las variables independientes y la variable
de respuesta. Si se eliminan las variables
incorrectas conduce a una falta de efecto de la
intervención sobre el sistema.
13
El objetivo de la investigación básica es
con frecuencia la construcción de modelos
realísticos La meta final es la comprensión del
proceso. Existe siempre un interés en identificar
las variables importantes por su relación de
causa sobre el modelo. La selección no puede
basarse sólo sobre la estructura correlacional.
Este análisis sirve para identificar clases de
variables que promuevan investigación posterior
del tipo causa efecto. En la medida que se
necesita mayor conocimiento del proceso, hay
mayor interés en desarrollar modelos cuya forma
funcional refleje realísticamente la conducta del
sistema.
14
Cuando las variables independientes en el
conjunto de datos son ortogonales, el resultado
de mínimo cuadrado para cada variable es el mismo
independientemente de cual otra variable se
incorpore al modelo. Entonces, el resultado de
un solo análisis puede ser utilizado para escoger
las variables independientes que permanecen en el
modelo. En datos observacionales y por pérdida
en experimentos, se produce falta de
ortogonalidad y el resultado de mínimos cuadrados
de cada una es dependiente de las otrad variables
incluidas en el modelo.
15
Conceptualmente, la única manera de asegurar que
se escoge el mejor modelo para cada subconjunto,
es calcular todas las posibles regresiones. Se
puede cuando el número de variables
es relativamente pequeño, pero si hay 10
variables independientes hay 210-1 1023
posibles modelos a evaluar.
16
PROCEDIMIENTO DE REGRESION STEPWISE
Este procedimiento identifica los modelos de
los subconjuntos agregando o borrando, según
la alternativa, la variable que tenga un mayor
impacto sobre la suma de cuadrados residuales.
17
Forward stepwise escoje los subconjuntos de
modelos agregando una variable a la vez al
conjunto previamente elegido. Este procedimiento
comienza eligiendo como subconjunto de una
variable a aquella variable independiente que
explica la mayor parte de la variación en la
variable dependiente. Esta es la con mayor
correlación lineal con Y. En cada paso sucesivo,
se agrega al subconjunto aquella variable QUE NO
ESTABA en el modelo previo y que produce la mayor
reducción en la suma de cuadrados residuales.
18
En la práctica, es la variable que tiene la
mayor correlación con los residuales del modelo
actual. Sin una regla de término, la selección
continúa hasta incluir todas las variables en el
promedio.
19
Backward elimination Escoge el modelo
comenzando con todas las variables y eliminando
en cada paso la variable cuya eliminación cause
el mínimo incremento en la suma de cuadrados
residuales. Esta es la variable dependiente que
en el modelo actual tenga la más pequeña suma de
cuadrados parciales. Sin una regla de término,
la selección continúa hasta que el modelo incluye
una sola variable.
20
Ninguno de los dos procedimientos toma en cuenta
el efecto que la adición o eliminación de una
variable puede tener en la contribución de las
otras variables del modelo. Una variable agregada
tempranamente al modelo en Forward selection
puede hacerse irrelevante más adelante, a agregar
otras variables o bien, variables eliminadas
tempranamente pueden hacerse importantes después
que otras se han eliminado del modelo. El método
llamado stepwise es una selección hacia delante
que rechequea en cada paso la importancia de las
variables ya incluidas.
21
Si la suma de cuadrados parciales para
cualquiera de las variables incluidas previamente
no satisface un criterio mínimo para permanecer
en el modelo, el procedimiento cambia a
eliminación hacia atrás y las variables son
eliminadas una a la vez hasta que todas las
variables satisfacen el criterio. Después de esto
se reanuda la selección hacia adelante.
22
CRITERIOS DE TERMINO DE SELECCION
SELECCIÓN HACIA ADELANTE Tasa de reducción en
la suma de cuadrados residuales producto de la
incorporación de la siguiente variable Nivel
crítico de F para entrar o nivel de
significancia El proceso termina cuando ninguna
de las variables fuera del modelo satisface el
criterio para entrar. SELECCIÓN HACIA
ATRÁS Test de F para la mayor suma de cuadrados
residuales de las variables que permanecen en el
modelo.
About PowerShow.com