You are on page 1of 49

Mtodos de Regresin Lineal, aplicados en el

proceso de fundicin de un tanque muerto de


aluminio 356

TESIS

Mtodos de Regresin Lineal aplicado en el proceso de fundicin de un tanque muerto


de aluminio 356

PRESENTA POR:
Oswaldo Neave Urea
Ante el Honorable Comit de Sinodales de Evaluacin de tesis de la
Universidad Autnoma de Coahuila.
Como requisito para obtener el grado de Maestro en Ingeniera Aplicada.

Asesores: Dr. Rolando Javier Praga Alejo


Dr. David Salvador Gonzlez Gonzlez

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Saltillo, Coahuila

Mayo 2016

RESUMEN
Lo que se pretende con esta investigacin es aportar conocimientos para poder controlar
eficazmente el proceso de fundicin ya bien sea utilizando el mtodo de regresin Ridge
o el mtodo de Componente Principales, para generar modelos predictores del proceso
de fundicin.
La regresin Ridge es un mtodo estadstico que elimina la multicolinealidad y ayuda a
encontrar los estimadores del modelo, ste en comparacin con el de mnimos cuadrados
hace uso de una estimacin sesgada1, lo que le da la ventaja de ser ms preciso en sus
estimaciones.
El mtodo de Componentes Principales al igual que el de mnimos cuadrados elimina la
multicolinealidad pero este sin embargo no realiza estimacin sesgada. Si no que elige un
conjunto de componentes que resultan ser significativos para el proceso de fundicin.
Una forma que se usa para solucionar el problema de la multicolinealidad y la prediccin
del proceso de fundicin, es eliminar el requisito de que sea insesgado en el caso de
regresin Ridge.Si se permite una pequea cantidad de sesgo en

^
, la varianza de

puede ser pequea, lo que hace que su prediccin sea ms estable, por lo que

beneficiara a nuestro proceso. Los estimados Ridge se calculan como:

^ =( X ' X )1 X ' y
R
A
A
A
A

1Estimacin sesgada: se refiere a este tipo de estimacin, cuando el estimador


del parmetro no est centrado, es decir, que su valor esperado no es igual al
parmetro que se desea estimar.
2

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Donde

En donde

XA

X A=

[ ] []
X
y
y A=
0p
k IP

yA

es la matriz aumentada y

es el vector necesario para calcular la

solucin Ridge (Montgomery et al. 2001).


Se aplicar el mtodo de regresin Ridge al proceso de fundicin, se recopilar una
muestra de piezas fundidas, despus se har una comparacin con el mtodo de mnimos
cuadrados para verificar si el mtodo de regresin Ridge es ms preciso en sus
estimaciones.
Una vez recopilados los datos se tiene que realizar una prueba que me permita
diagnosticar si existe multicolinealidad en los datos. El mtodo que utilizaremos aqu es el
anlisis delos Factores de Inflacin de Varianza (VIF), donde si hay uno o ms VIF
grandes (mayores que 10), entonces existe multicolinealidad en los datos. Este mtodo
adems de detectar multicolinealidad en los datos, ayuda a identificar cules factores
intervienen en la multicolinealidad. Una vez hecho este diagnstico se procede al anlisis
Ridge y de Componentes Principales, para poder obtener los valores adecuados del
modelo que prediga el proceso de fundicin.

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

Contenido
RESUMEN2
INDICE DE FIGURAS......................................................................................................... 5
INDICE DE TABLAS............................................................................................................ 6
Captulo 1............................................................................................................................ 7
INTRODUCCION................................................................................................................ 7
1.1Estudio retrospectivo....................................................................................... 8
1.2 Estudio Observacional.................................................................................... 8
1.3Experimento Diseado.................................................................................... 9
Usos de la Regresin:...................................................................................... 9
Captulo II.......................................................................................................................... 10
PLANTAMIENTO DEL PROBLEMA.....................................................................10
2.2 Objetivo General.......................................................................................... 11
2.3 Objetivos Especficos................................................................................... 11
2.4 Preguntas de Investigacin........................................................................... 12
2.5 Hiptesis General........................................................................................ 13
2.6 Hiptesis Especficas................................................................................... 13
2.7 Justificacin................................................................................................ 14
2.8 Variables.................................................................................................... 14
Captulo III......................................................................................................................... 15
4

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
MARCO DE REFERENCIA...............................................................................................15
Captulo IV........................................................................................................................ 18
MARCO TEORICO............................................................................................................18
4.1 Regresin Lineal.......................................................................................... 18
4.2 Regresin y Formacin de Modelos................................................................18
4.3 Recoleccin de Datos................................................................................... 21
4.3.1 Estudio Retrospectivo............................................................................. 21
4.3.2 Estudio Observacional............................................................................ 22
4.3.3 Experimento Diseado............................................................................22
4.4 Estimacin de los Parmetros por Mnimos Cuadrados.....................................23
4.4.1 Estimacin de

1 .................................................................23

4.5 Regresion Lineal Mltiple.............................................................................. 24


4.5.1 Modelo de Regresin Mltiple..................................................................24
4.5.2 Estimacin de los Parmetros del Modelo..................................................25
4.5.3 Propiedades de los Estimadores de Mnimos Cuadrados.............................27
4.5.4 Estimacin de

2 .............................................................................. 27

4.5.5 Prueba de la Significancia de la Regresin................................................28


4.5.6 Estadsticos

R 2 y R 2 aj y Coeficiente de Correlacin r.........................30

4.5.7 Prueba t para los coeficientes de Regresin............................................31


4.5.8 Error de Prediccin Promedio Cuadrado....................................................31
4.5.9 Intervalos de Confianza en Regresin Mltiple...........................................32
4.5.10 Coeficientes Normalizados de Regresin................................................33
4.5.11 Escalamiento normal unitario.................................................................33
4.5.12 Escalamiento de Longitud Unitaria..........................................................34
4.5.11 Modelo de Segundo Orden....................................................................35
4.6 Multicolinealidad.......................................................................................... 36
4.6.1 Fuentes de Multicolinealidad....................................................................37
4.6.3 Diagnstico de la Multicolinealidad...........................................................38
4.6.4 Factores de Inflacin de la Varianza (VIF)..................................................38
5

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
4.6.5 Anlisis del Eigensistema........................................................................39
4.6.6 Mtodos para Manejar la Multicolinealidad.................................................39
4.6.7 Recoleccin de Datos Adicionales............................................................39
4.6.8 Re-especificacin del Modelo..................................................................40
4.7 Regresin Ridge.......................................................................................... 40
4.7.1 Mtodos para seleccionar k.....................................................................43
4.7.2 Regresin Ridge y la Seleccin de Variables..............................................45
4.8 Regresin por componentes principales..................................................45
Captulo V......................................................................................................................... 47
METODOLOGIA................................................................................................................47
En esta seccin se pretende dar a conocer las diferentes etapas para la elaboracin de
este proyecto de aplicacin, como se muestra en la Figura 5.1 es necesario realizar con
detalla la elaboracin de los siguientes pasos:..................................................................47
Captulo VI........................................................................................................................ 49
EXPERIMENTACION Y APLICACION..............................................................................49
6.1

Descripcin de la experimentacin.............................................................49

6.2 Obtencin de los Datos................................................................................. 49


6.3Anlisis de datos.......................................................................................... 50
6.5 Modelacin................................................................................................. 53
6.5.1 Regresin Mltiple................................................................................. 53
6.5.2 Regresin Ridge.................................................................................... 53
6.5.2 Regresin por Componentes Principales...................................................54
6.6 Validacin................................................................................................... 54
Captulo VII....................................................................................................................... 55
CONCLUSIONES............................................................................................. 55
Bibliografa........................................................................................................................ 57

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

INDICE DE FIGURAS
Figura 4.1 Grafica de Entrega y Tiempo........20
Figura 4.2 Lnea Recta de los Datos de Entrega y Tiempo.21
Figura 4.3 Distribucin de Muestreo de Estimadores insesgado de

...

42
Figura 4.4 Coeficientes sesgados de

..43
Figura 5.1 Metodologa propuesta...49
Figura 6.1 Efectos principales para la respuesta..52
Figura 6.2 Respuesta de Regresin Mltiple vs Real..55
Figura 6.3 Respuesta de Regresin Ridge vs Real..55
Figura 6.4 Respuesta por Componentes Principales vs Real.56

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

INDICE DE TABLAS
Tabla 4.1 Anlisis de Varianza31
Tabla 6.1 Matriz de datos recolectados de proceso de fundicin.51
Tabla 6.2 Efectos del coeficiente de regresin.52
Tabla 6.3 Anlisis de Varianza por Regresion Mltiple Ordinario. ...53
Tabla 6.4 Anlisis de Varianza por Regresin Ridge...53
Tabla 6.5 Anlisis de Varianza por Componentes Principales..53
Tabla 6.6 Calculo de VIF de los estimadores por Regresion Mltiple Ordinario54
Tabla 6.7 Calculo de VIF de los estimadores por Regresion Ridge..54

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Tabla 6.8 Calculo de VIF de los estimadores por Regresion MPC54
Tabla 6.9 Comparacin de mtodos de Regresion Lineal..56

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Captulo 1
INTRODUCCION
Este trabajo describe mtodos de regresin lineal para poder predecir el comportamiento
del proceso de fundicin de un tanque muerto (aluminio 356), mediante una serie de
pasos mencionados posteriormente, as como una interpretacin de los resultados
obtenidos, se utilizara el que prediga mejor los datos para poder modelar el proceso de
soldadura en cuestin.
En la industria podra tener cambios buenos, ya que normalmente existen problemas de
calidad relacionados con fundicin, muchas piezas resultan estar fuera de especificacin,
lo que podra ocasionar que ensambles no se solidifique en el tiempo apropiado, el
producto no funcion de manera apropiada. En la recoleccin de los datos se puede
presentar el caso, tambin se puede dar el caso donde exista multicolinealidad en los
datos, es decir que exista una dependencia lineal en los regresores por lo que es
necesario utilizar mtodos estadsticos sesgados, en este caso utilizaremos el mtodo de
regresin Ridge y el mtodo de componentes principales. Para la deteccin de la
multicolinealidad de los datos se emplean varios mtodos; anlisis de la matriz de
correlaciones XX, en el cual si un determinantes es muy cercano a cero, indica que tiene
problemas de multicolinealidad.
El anlisis de regresin es una tcnica estadstica para investigar y modelar la relacin
entre variables, la relacin de una recta que relaciona esas dos variables es

y= 0 + 1 x

Donde

es la ordenada al origen y

es la pendiente. Los datos no caen

exactamente sobre una recta. Sea la diferencia entre el valor observado de

10

y el de la

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
lnea recta

( 0+ 1 x )

un error de

, un modelo ms plausible para los datos del

tiempo de entrega es

y= 0 + 1 x +

La ecuacin se llama modelo de regresin lineal, donde x es la variable predictora y

la variable respuesta, se llama modelo de regresin lineal simple.


La respuesta media en cualquier valor de la variable regresora es

E( yx )= yx =E ( 0 + 1+ ) =0 + 1 x
y

La varianza de

para cualquier valor dado de

es

Var ( y x )=Var ( 0+ 1 + )= 2

La altura de la lnea de regresin en cualquier valor de


esperado de

para esa

no es ms que el valor

x .

Recoleccin de Datos:
Hay tres mtodos bsicos:
1.1Estudio retrospectivo
Ofrecen con frecuencia cantidades limitadas de informacin til, sus principales
desventajas son:

Faltan algunos datos importantes


La Fiabilidad y la calidad de los datos suelen ser muy dudosos
Pueden no permitir atacar el problema de mano
Pueden no explicar fenmenos interesantes que identifica el anlisis de datos

11

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Los datos histricos suelen sufrir errores de transcripcin y otros problemas con la calidad
de datos, tambin no permiten al analista incluir el factor de anlisis de los datos, aunque
tenga cierta importancia, por consiguiente tienen menos calidad, menos exactitud y
fiabilidad mnima, la memoria comienza a fallar con el tiempo.
1.2 Estudio Observacional
Solo se observa el proceso o la poblacin y se interacciona o perturba el proceso lo
necesario para obtener datos relevantes, pueden asegurar datos exactos, complejos y
fiables, reduce al mnimo las probabilidades de observar un dato atpico relacionado con
algn error en los datos, presentan a tener problemas de linealidad.

1.3Experimento Diseado
La mejor estrategia resulta ser hacer un experimento diseado (Diseo de experimentos)
Usos de la Regresin:
Se usan con varios fines: Descripcin de datos, Estimacin de parmetros, Control,
Prediccin y estimacin.

12

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

Captulo II
PLANTAMIENTO DEL PROBLEMA
El presente proyecto consiste en investigar el comportamiento de los factores

bajo

estudio (Temperatura de metal, temperatura del molde, basculamiento, iteracin de


temperaturas) en el modelo matemtico. Ser mediante la regresin Ridge y
Componentes principales y dependiendo de los resultados que arroja se generara el
modelo predictor y elegir el mejor, el proyecto buscar reducir el nmero de defectos en
la fundicin de un tanque muerto una vez enfriado, ya que este es un factor muy
importante en la consideracin de costos de un proyecto. Disminuyendo en lo posible los
costos de produccin, al eliminar problemas de calidad en el producto.
Los parmetros como temperatura del metal, temperatura del molde, basculamiento,
resultan ser los parmetros crticos para el estudio de los experimentos, en donde la
combinacin de estos logre un modelo que sea el ptimo, para el cual es necesario la
recoleccin de estos datos estadsticos de la mquina para poder introducirlos a los
modelos matemticos y poder expresar la factibilidad mediante el modelo propuesto.

13

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Sin embargo en la recoleccin de los datos existe el problema de la multicolinealidad, es
decir que existe una dependencia lineal en los regresoras, por lo que es necesario utilizar
un mtodo alternativo para la modelacin de la trayectoria de soldadura. El mtodo de
mnimos cuadrados no resuelve este problema, por lo que en la fase de experimentacin
se establecer un modelo que estime los parmetros que influyen en el proceso de
soldadura y que a su vez elimine el problema de la multicolinealidad.

2.2 Objetivo General.


Utilizar mtodos de regresin lineal para predecir el comportamiento en el proceso de
fundicin de aluminio de un tanque muerto de aluminio 356.
2.3 Objetivos Especficos.
1. Verificar que existe multicolinealidad en los datos.
2. Eliminar la multicolinealidad entre las variables regresoras del modelo.
3. Determinar si la ecuacin del modelo es adecuado mediante los estadsticos R 2 y

CM Res para cada uno de los mtodos de regresin lineal.


4. Determinar cul es el modelo ms apropiado para llevar a cabo la optimizacin del
proceso de fundicin de aluminio 356.

14

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

2.4 Preguntas de Investigacin


El mtodo de regresin Ridge genera

resultados

ptimos en prediccin del

comportamiento del proceso de fundicin de aluminio?


El mtodo de componentes principales genera resultados ptimos en prediccin del
comportamiento del proceso de fundicin de aluminio?
Se puede disminuir el nmero de defectos modificando los parmetros de temperatura
de metal, temperatura del molde, basculamiento, en el proceso de fundicin de aluminio
356 con respecto los valores iniciales?
Es necesario utilizar el mtodo de regresin Ridge?
El modelo de regresin Ridge es adecuado?
Es mejor el mtodo de regresin Ridge en comparacin con el mtodo de componentes
principales?

15

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

2.5 Hiptesis General


Se puede predecir el comportamiento de manufactura de fundicin de aluminio 356,
mediante la utilizacin del mtodo de regresin Ridge y Componentes Principales.
2.6 Hiptesis Especficas
1 El modelo de Regresin con valores dentro de un rango establecido de parmetros
como temperatura de metal, temperatura del molde, basculamiento, basado en los
resultados obtenidos de

CM Res pueden disminuir el tiempo de puesta en

marcha.
2 Se puede eliminar la multicolinealidad presente entre las variables regresoras del
modelo.

16

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

2.7 Justificacin
Investigar la factibilidad de la optimizacin del proceso de fundicin de aluminio mediante
el mtodo de regresin Ridge, componentes principales, mnimos cuadrados y realizar
una comparativa para verificar cual es mejor.
Es necesario obtener un modelo estadstico de prediccin, que me permita describir el
proceso de fundicin de aluminio, sin embargo, es muy difcil obtener el modelo
estadstico con modelos de regresin convencionales (mtodo de mnimos cuadrados), ya
que existe el riesgo de que exista mucha variabilidad en las pruebas debido a la
multicolinealidad, es decir existe una regresin lineal entre los regresores o variables del
proceso, lo que ocasionara errores de varianza e imprecisin en el modelo.
La regresin Ridge resulta ser una solucin a este tipo de problemas; no solo se puede
obtener un modelo preciso; si no que se elimina sustancialmente el efecto de la
multicolinealidad en los datos y el nivel de confianza del modelo ser mayor.
2.8 Variables
Las variables han sido establecidas bsicamente de acuerdo a los planteamientos de los
objetivos especficos y del anlisis del proceso, las cuales son:

17

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Temperatura de metal, Temperatura del molde, Basculamiento, como variables de entrada
y como variable de salida: total de defectos por porosidad.

Captulo III
MARCO DE REFERENCIA
Existen trabajos anteriores, en los cuales se ha realizado con la modelacin de procesos
de fundicin. El de regresin por mnimos cuadrados trabaja con datos los cuales existe
dependencia lineal entre las variables. Cuando existe multicolinealidad los datos no son
de utilidad ya que existe dependencia en los datos, la cual est mal condicionada y esto
trae como resultado estimadores errneos de

^
.

Al parecer el mtodo de componentes principales tiene una infinidad de aplicaciones, uno


es el caso de reduccin de sensores para el monitoreo de condiciones de un sistema de
turbinas de aire. En donde utilizan un gran nmero de sensores para monitorear este
sistema, y el propsito de esta investigacin por (Yifei Wang, Xiadong Ma, Malcolm J.
Joyce 2016) es el de reducir el nmero de sensores, para poder procesar la informacin
en tiempo real, seleccionando solo los ms importantes de tal manera que la informacin
vital no se pierda, haciendo uso de este mtodo. La tcnica propuesta fue reducir en un
18

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
tamao de 51.7% y 45.4% el tamao de los datos, midiendo varianza acumulada,
promedio de correlacin y entropa de la informacin.
Otro trabajo en donde hacen uso del mtodo de Regresion Ridge es el de (Ryo Uemukai,
2010) en donde estudia las propiedades de los estimadores del mtodo de regresin
Ridge cuando se omiten variables en el modelo que resultan ser significativas. En este
trabajo se estudian las propiedades del mtodo en diferentes aspectos:
1)
2)
3)
4)

Cuando el modelo es derivado con respecto a un coeficiente en particular.


La explicacin del modelo simple.
Cuando el modelo no est especificado.
Se derivan las formulas exactas del modelo de Regresion. Cuando existen

variables omitidas.
5) Se derivan las condiciones necesarias bajo las cuales el MSE del mtodo Ridge es
menor que el de OLS.
6) Se hace un comparativo evaluando numricamente la formula exacta de los
momentos.
Con todo esto se concluye que el modelo cuando est completo (no existen variables
omitidas) es mejor que cuando se omiten variables; ya que los resultados obtenidos del
MSE y del bias resultan ser menores.
Otro artculo de relevancia es el de Iono, Tanvir y Hendry (2000) en donde utilizan el
mtodo de componentes principales para analizar informacin sobre las estrellas. Indican
que el mtodo de Fourier es una manera efectiva para analizar la estructura no lineal de la
informacin de la luz que irradian estas, as como la velocidad, sin embargo no se logra
analizarla de forma completa. Con el mtodo de componentes principales lo que hace es
analizar los datos de forma completa (Luz y velocidad), de forma simultnea, en donde
con tan solo seis parmetros la informacin puede ser predicha, ya que con el mtodo de
Fourier se necesitan seis o ms.
Otro trabajo es el de Junyong Park (2016) en donde menciona de que existen casos en
donde las covariables exhiben multicolinealidad, en donde lo que se propone es usar los
estimadores Ridge. En este trabajo explica cmo estimar los intervalos de las tolerancias.
Se explica cmo obtener los lmites para el caso que se requiere solamente el superior y
de dos lados. Tambin se habla el caso cuando se tiene base de datos que tienen ms
variables que observaciones en el que mencionan que an no est disponible una
19

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
solucin posible. Otro es el caso cuando la escasez es asumida (pocas variables o pocos
datos), cuando esto sucede, uno debe de seleccionar un subconjunto de variables
significantes y aplicar el mtodo. Se hace tambin un estudio numrico para comparar el
desempeo

del OLS y el estimador Ridge, en donde lo que hacen es generan la

informacin de la forma

{( y i , xi ) , 1 i n }

y se calcula la tolerancia de un lado (superior)

o de dos lados (superior e inferior).Se repite este procedimiento 1000 veces de tal forma
que se tiene 1000 tolerancias y se calcula la probabilidad para cada tolerancia

( p ,1) . En donde

es igual a 0.95 y

es igual a 0.90. Se realizan tres

enfoques el bootstrap, el OLS y el Ridge. Se muestra que el bootstrap no funciona ya que


tiene una probabilidad del lmite muy superior en comparacin con el OLS y el Ridge, por
lo que solo se comparan OLS y Ridge. Se muestra que las probabilidades empricas para
los lmites del OLS son casi iguales al nominal (0.90) por lo que se concluye elegir mejor
los calculados por los del OLS.
Se realiza un scatter plot obtenida a partir de la Regresion Ridge y del OLS en donde se
muestra que los lmites superiores del OLSE son

ms grandes que aquellos por

Regresion Ridge, lo que puede ocasionar mayor varianza en las estimaciones. Se


muestran 6 Figuras, en donde se tienen 3 casos en cada figura. La primera en donde

es el primer eigenvector de

eigenvector de

( X ' X ) , la segunda donde

( X ' X ) , y la tercera en donde

es decimo

es el veinteavo eigenvector de

( X ' X ) , todas con una probabilidad emprica determinadas.


Tambin se realiza un estudio numrico para la tolerancia de dos lados, en donde los
resultados obtenidos son similares a los de un solo lado, sin embargo las probabilidades
del OLS tienden a ser un poco menores ahora que el nominal (0.90), por lo que se
concluye que los intervalos con el regresin Ridge son ms cortos que el OLSE cuando
una nueva covariable x est cerca de los eigenvectores correspondientes a los pequeos
eigenvalor.
20

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Se muestran los resultados con un ejemplo real, en donde lo que se muestra es de que
los lmites de tolerancia de los estimadores Ridge, tienen intervalos ms ajustados en
comparacin que los del OLSE.
Manjunath Patel (2016) hace un estudio estadstico del proceso de fundicin, para poder
predecir las propiedades mecnicas. Establece una relacin no lineal entre las entradas y
salidas, observa el comportamiento fsico del proceso utilizando diseo de experimentos y
superficies de respuesta. En donde utilizo dos modelos de regresin Box-Benhnken y el
diseo central compuesto. Lo que se observo fue que ambos modelos de regresin no
lineales fueron adecuados para establecer la relacin entre las entradas y las salidas.

Captulo IV
MARCO TEORICO
4.1 Regresin Lineal
El anlisis de Regresin es una tcnica estadstica para investigar y modelar la relacin
entre variables. Existe un sinfn de aplicaciones para esta metodologa incluyendo las
reas de ingeniera, ciencias fsicas y qumicas, economa, administracin, ciencias
biolgicas as como ciencias de la vida y sociales. De hecho esta es la tcnica estadstica
ms utilizada (Montgomery, 2006).
4.2 Regresin y Formacin de Modelos
Como ejemplo para ver la relacin entre variables y un modelo de dicha relacin se
utilizar el problema propuesto por Montgomery (2006), un ingeniero industrial analiza las

21

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
operaciones de entrega y servicio de producto en mquinas tragamonedas. Cree que el
tiempo en cargar y dar servicio a una mquina se relaciona con la cantidad de cajas de un
producto entregadas. Visita 25 tiendas de menudeo al azar con mquinas tragamonedas y
anota el tiempo de entrega en la tienda (minutos) y el volumen del producto entregado
(cajas) para cada una. Se muestran en la siguiente grfica:
90
80
70
60
Tiempo De
Entrega

50
40
30
20
10
0
0

10

15

20

25

30

35

Volumen

Figura 4.1 Grfica de Datos de Entrega y Tiempo

Con claridad parece indicar que hay una relacin entre el tiempo de entrega y el volumen
en este caso ya que da la impresin de que los datos caen en una lnea recta, no
exactamente pero se puede apreciar esa tendencia.
Si y representa el tiempo de entrega y x el volumen entregado, la ecuacin de la recta
que relaciona esas 2 variables es:

y= 0 + 1 x

Donde

es la ordenada al origen y

(4.1)

es la pendiente. Como los datos no caen

exactamente en una lnea recta, hay que modificar la ecuacin (4.1) para tomar en cuenta

22

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
esto. Sea la diferencia entre el valor observado de y y el de la lnea recta
un error

. Conviene establecer que

( 0+ 1 x )

es un error estadstico, considerando una

variable aleatoria que explica que el modelo no ajusta exactamente los datos. Este error
puede formarse por defectos de las otras variables sobre el tiempo, medicin, etc. Un
modelo ms adecuado es como sigue:

y= 0 + 1 x + (4.2)

90
80
70
Tiempo De
Entrega

60
50
40
30
20
10
0
0

10

15

20

25

30

35

Volumen
Figura 4.2 Lnea Recta de los Datos de Entrega y Tiempo

La ecuacin (4.2) se llama modelo de Regresin lineal (Montgomery, 2006). Cmo la


ecuacin slo tiene una variable regresora, se llama modelo de Regresin lineal simple.
Para comprender mejor el modelo de Regresin lineal, supongamos que se pueden fijar el
valor de la variable regresora x para observar el valor correspondiente de la respuesta
y. Ahora, si x est fija, el componente aleatorio

23

determina las propiedades de y.

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Supongamos que el promedio y la varianza de

son 0 y

, respectivamente.

Entonces, la respuesta media en cualquier valor de la variable regresora es:

E ( y|x )= y|x 2=Var ( 0+ 1 x+ ) = 2


As el modelo verdadero de Regresin

y|x = 0+ 1 x

(4.3)

es una lnea recta de valores

promedios, esto es, la altura de la lnea de Regresin en cualquier valor de x no es ms


que el valor esperado de y para que sea x.
En casi todas las aplicaciones de Regresin, la ecuacin de Regresin slo es una
aproximacin a la verdadera relacin funcional entre las variables de inters. Esas
relaciones funcionales se basan en una teora fsica, qumica o de otra disciplina cientfica
o tcnica.
En general, las ecuaciones de Regresin slo son vlidas dentro del rango de las
variables regresoras contenidas en los datos observados. La variable de respuesta y se
puede relacionar con k regresores

x1 , x2 , x3 , xk

y= 0 + 1 x 1 + 2 x 2 + k x k +

de modo que:

(4.4)

A esto se le llama modelo de Regresin lineal mltiple, ya que implica ms de una


variable regresora (Montgomery, 2006).
Un objetivo importante del anlisis de Regresin es estimar los parmetros desconocidos
en el modelo de Regresin. Tambin se le llama a este proceso ajuste del modelo a los
datos. La siguiente fase del anlisis de Regresin se llama comprobacin de la
adecuacin del modelo en donde se estudia lo apropiado del modelo y la calidad del
ajuste determinado. Mediante esos anlisis se puede determinar la utilidad del modelo de
Regresin. El resultado de la comprobacin de la adecuacin puede indicar que el modelo
es razonable, o que debe modificarse el original. Por lo anterior, el anlisis de Regresin
es un procedimiento iterativo en el que los datos conducen a un modelo, y se produce un
ajuste del modelo a los datos.
24

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
4.3 Recoleccin de Datos
Un aspecto importante y esencial de un anlisis de Regresin es la recoleccin de datos.
Todo anlisis es tan bueno como lo son los datos sobre los que se basa. Hay 3 mtodos
bsicos para la recoleccin de datos:
-

Estudio Retrospectivo basado en datos histricos


Estudio Observacional
Experimento Diseado.

4.3.1 Estudio Retrospectivo

Se puede hacer utilizando todos los datos histricos del proceso o una muestra de ellos,
dentro de algn periodo, para determinar las relaciones entre las variables tanto
regresoras como de respuesta. Al hacerlo se aprovecha la ventaja de contar con datos
previamente reunidos y minimizar el costo del estudio. Sin embargo, se debe hacer notar
que hay varios problemas:
1- No se puede ver el efecto de la relacin porque se debe suponer que no vari
mucho durante el periodo histrico.
2- Como varan tan poco a travs del tiempo, dificultar poder apreciar su impacto
real.
3- Dentro de los lmites estrechos entre los que vara, habr dificultad para separar
los efectos individuales. Esto conduce al problema de Multicolinealidad
Los estudios retrospectivos ofrecen cantidades limitadas de informacin til. En general,
sus principales desventajas son:
-

Con frecuencia faltan algunos de los datos importantes.


La fiabilidad y la calidad de los datos suelen ser muy dudosas.
La naturaleza de los datos con frecuencia pueden no permitir atacar el problema a

la mano.
El analista trata, con frecuencia, de usar los datos en formas que nunca se

pretendi que se usarn.


Los registros, cuadernos y memorias pueden no explicar fenmenos interesantes
que identifica el anlisis de datos.

El uso de datos histricos siempre corre riesgo el de que, por cualquier razn, algunos de
los datos se perdieron o no se anotaron.

25

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

4.3.2 Estudio Observacional

Slo se observa el proceso o la poblacin y se interacciona o perturba el proceso lo


necesario para obtener datos relevantes. Plantendolo adecuadamente, estos estudios
pueden asegurar datos exactos, completos y fiables, a la vez que suelen proporcionar
informacin muy limitada acerca de las relaciones especficas entre los datos. ste
mtodo tambin reduce al mnimo las probabilidades de observar un dato atpico
relacionado con algn error en los datos.

4.3.3 Experimento Diseado

Esta estrategia debe asegurar que se puedan separar los efectos de cada factor. Los
valores especificados de los factores que se ajustan en el experimento, se llaman niveles.
Comnmente se usa una pequea cantidad (dos o tres) de niveles para cada factor.

4.4 Estimacin de los Parmetros por Mnimos Cuadrados

Los parmetros

son desconocidos y se deben calcular con los datos de la

muestra.

26

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
4.4.1 Estimacin de

0 y

1
, se utiliza el mtodo de los

Para obtener los valores del vector de parmetros

mnimos cuadrados. Segn la ecuacin (4.2), se puede escribir de la siguiente manera:

y= 0 + i x i + i ,

i=1,2, , n

(4.5)

El criterio de mnimos cuadrados es:


n

S ( 0 , 1 )= ( yi 0 i x i )

(4.6)

i=1

0 y

Los estimadores, por mnimos cuadrados, de

1 , que se designarn por

^ 0

^ 1
, deben satisfacer:

S
0

0 , 1

S
1

=2 ( y i ^ 0 ^ i xi ) =0
i=1

0 , 1

=2 ( y i ^ 0 ^ i x i ) x i=0
i=1

Se simplifican estas dos ecuaciones y se obtiene:


n

i=1

i=1

n ^ 0+ ^1 x i= y i
n

i=1

i=1

i=1

^ 0 x i + ^ 1 x 2i= y i x i

(4.7)

Las ecuaciones (4.7) son llamadas ecuaciones normales de mnimos cuadrados. Su


solucin es la siguiente:

^ 0= y ^ 1 x

27

(4.8)

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
n

i=1

i=1

( )( )
yi

y i x i

^ 1= i=1

n
2

x i

( )
i=1

i=1

xi

xi

S xx
S xy

(4.9)

En donde:
n

y =

1
y
n i =1 i
n

x =

Son los promedios de

yi

1
x
n i=1 i

x i , respectivamente. Por consiguiente,

(4.10)

son los estimadores por mnimos cuadrados (Montgomery 2006).

4.5 Regresion Lineal Mltiple


Como ya se mencion, un modelo de Regresin donde interviene ms de una variable
regresora se llama modelo de Regresin mltiple.
4.5.1 Modelo de Regresin Mltiple

Un modelo de Regresin mltiple que puede describir el comportamiento de la


observacin de datos con ms de una variable independiente, es:

y= 0 + 1 x 1 + 2 x 2+

28

(4.11)

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
El parmetro

0 es la ordenada al origen del plano de Regresin. Si en el intervalo de

datos se incluyen

x 1=x 2=0 , entonces

x 1=x 2=0 . Si no es as,

es el promedio de

no tiene interpretacin fsica. El parmetro

el cambio esperado de la respuesta y por cambio unitario en


mantiene constante. De igual modo,
cambio de

cuando

1 indica

x 1 , cuando

x2

se

mide el cambio esperado de y por unidad de

x 2 cuando se mantiene constante

x 1 . En general, se puede relacionar la

respuesta y con k regresores o variables de prediccin el cual se conoce como modelo de


Regresin mltiple con k regresores:

0+ 1 x 1+ 2 x2 ++ k x k +

Los parmetros

j ,

j=0,1 ,k

se llaman coeficientes de Regresin. El parmetro

representa el cambio esperado en la respuesta y por cambio unitario en

cuando todas las dems variables regresoras


esta razn, a los parmetros

(4.12)

j , j=1,2 k

x j (i j )

xj

se mantienen constantes. Por

se les llama con frecuencia coeficientes de

Regresin parcial. Los modelos de Regresin parcial mltiple se usan con frecuencia
como modelos empricos o como funciones de aproximacin, ya que se desconoce la
relacin funcional real entre

y y

x 1 , x 2 , x k , pero dentro de ciertos mrgenes de las

variables regresoras, el modelo de Regresin lineal es una aproximacin adecuada a la


funcin verdadera desconocida. En general, todo modelo de Regresin es lineal en los

29

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
parmetros (

j ) es un modelo de Regresin lineal, independientemente de la

superficie que genera (Montgomery 2006).


4.5.2 Estimacin de los Parmetros del Modelo.

Estimacin de los coeficientes de Regresin por Mnimos Cuadrados de la ecuacin


(4.12). La funcin de mnimos cuadrados es:
n

S ( 0 , 1 , , k )= 2 i
i =1

y i 0 j x ij (4.13)
i=1

j=1

Una forma mucho ms cmoda de manejar modelos de Regresin mltiple cuando se


expresan en notacin matricial. Permite mostrar una forma muy compacta del modelo, los
datos y los resultados. En notacin matricial el modelo expresado por la ecuacin (4.12)
es:

y= X+ (4.14)
Dnde:

[] [

y1
y= y 2
yn

x11 x 12 x1 k
X = x 21 x 22 x2 k
x n 1 x n2 x nk

[] []

1
1
= 2 = 2
n
n

30

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Y es un vector de

nx 1

de las obervaciones,

niveles de las variables regresoras,

Regresin y

es un vector de

determinar el vector
n

nx 1

es una matriz de

es un vector de

px 1

nxp

de los

de los coeficientes de

de errores aleatorios. Por lo tanto, se desea

que minimice:

S ( ) = i= =( y X ) ' ( y X )
2

'

i=1

Puede expresarse tambin de la siguiente manera:


'

S ( ) = y ' y ' X y y ' X+ ' X ' X= y ' y 2 ' X ' y + ' X ' X
' X' y

Ya que

es una matriz de

'

( ' X ' y ) = y ' X

1 x 1 , es decir, un escalar, y que su transpuesta

es el mismo escalar. Los estimadores de mnimos cuadrados deben

satisfacer:

S
^
=2 X ' y +2 X ' X =0
0 ^
Que se simplifica a:

X X ^=X y( 4.15)
'

'

Las ecuaciones (4.15) son las ecuaciones normales de mnimos cuadrados. Estas
ecuaciones son la forma matricial de la representacin escalar. Para resolver las

31

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
ecuaciones normales, ambos lados de (4.15) se multiplican por la inversa de
el estimador de

'

X X . As,

por mnimos cuadrados es:

^=( X ' X )1 X ' y (4.17)

Siempre y cuando exista la inversa de la matriz

X ' X , ya que existe si los regresores

son linealmente independientes, esto es, si ninguna columna de la matriz X es una


combinacin lineal de las dems columnas (Montgomery 2006).

4.5.3 Propiedades de los Estimadores de Mnimos Cuadrados

Como

es un estimador insesgado de

, su matriz de covarianza es:

Cov ( ^ )=E {[ ^E( ^) ] [ ^E( ^ ) ] ' }

Que es una matriz simtrica de

^ j

pxp , cuyo j-simo elemento diagonal es la varianza de

y cuyo (ij)-simo elemento fuera de la diagonal es la covarianza entre

covarianza de la matriz de

es:

Cov ( ^ )= 2 ( X ' X )1 (4.18)

32

^ i y ^ j
. La

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

4.5.4 Estimacin de

Para estimar la varianza

, se puede desarrollar un estimador a partir de la suma de

cuadrados de residuales:
n

SS Res = ( y i ^yi ) = e i2=e ' e


2

i=1

Se sustituye

i=1

e= y X ^

y se obtiene:

SS Res =( y X ^ ) ' ( y X ^ )
'
'
'
'
SS Res = y y ^ X y y X ^ + ^ ' X ' X ^

SS Res = y ' y 2 ^ ' X ' y + ^ ' X ' X ^

Como

X ' X ^=X ' y , la ltima ecuacin se transforma en:

SS Res = y ' y ^ X ' y (4.19)


Por lo tanto, el cuadrado medio residual es:

MS Res=

SS Res
(4.20)
n p

Por consiguiente, un estimador insesgado de


2
^ =MS Res (4.21)

33

es:

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Sin embargo, el valor del estimador de

depende del modelo (Montgomery 2004).

4.5.5 Prueba de la Significancia de la Regresin

Esta prueba se realiza para determinar si hay una relacin lineal entre la respuesta y
cualquiera de las variables regresoras. Este procedimiento suele considerarse como una
prueba general o global de la adecuacin del modelo, la cual se realiza mediante la
siguiente hiptesis:

H 0 : 1= 2== k =0
H 0 : 1 0 almenos para una j.
El rechazo de la hiptesis nula implica que al menos uno de los regresores contribuye al
modelo en forma significativa. De acuerdo con la definicin de un estadstico F:

SS R
MS R
k
Fo =
=
( 4.22)
SS Res
MS s
( nk 1 )
SS R
MS R
k
Fo =
=
(4.23)
SS Res
MS Res
( nk 1 )

El parmetro de no centralidad indica que el valor observado


que

al

menos

una

j 0 .

Por

consiguiente,

para

H 0 : 1= 2== k =0 , se calcula el estadstico de prueba


si:

34

Fo

debe ser grande para


probar

Fo

la

hiptesis

y se rechaza

H0

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Fo > F ,k , nk1 (4.24)
El procedimiento de prueba se resume normalmente en la tabla de un anlisis de varianza
(Montgomery, 2004).

Tabla 4.1 Anlisis de Varianza

Fuente de Variacin

Suma de

Grados de

Cuadrado

Cuadrados

Libertad

Medio

Regresin

SS R

MS R

Residuales (Error)

SS Res

N-K-1

MS Res

Total

SS T

N-1

Para calcular

SS R , partimos de la ecuacin (4.18):

'
SS Res = y y ^ X ' y

Y ya que:

35

Fo
MS R
MS Res

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

( )
yi

SS T = y i
2

i=1

( )
yi

^ X y

i=1

'

'

i=1

Se puede escribir de la forma:

( )
yi

'

SS Res = y y

i=1

^' X ' y

( )
yi

i=1

( 4.25)

O bien:

SS Res =SS T SS R

Por consiguiente, la suma de cuadrados de Regresin y la suma de cuadrados total


sern:

SS R = ^ X y
'

'

( )
yi

i=1

(4.26)

( )
yi

SS T = y ' y

(4.27)

i=1

36

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
4.5.6 Estadsticos
Los estadsticos

R2

modelo,

R yR
2

R yR

2
aj

2
aj

y Coeficiente de Correlacin r
son otras maneras de evaluar la adecuacin general del

aumenta cuando se agrega un regresor al modelo, independientemente

del valor de la contribucin de esa variable. En consecuencia, es difcil juzgar si un


aumento de

R2=

R2 dice algo importante; la

R2 se define como sigue:

SS R
SST

(4.28)

R2 es una estimacin sesgada del coeficiente de determinacin de la poblacin y


R2aj

es insesgada (Montgomery 2006). Algunas personas prefieren utilizar el

estadstico

R2aj , definido de la siguiente manera:

SS Res
(n p)
R2aj =1
SST
(n1)

(4.29)

R2aj Slo aumentar si al agregar una variable al modelo reduce el cuadrado medio
residual. El coeficiente de correlacin es una asociacin entre 2 o ms variables y se
representa como:

R= R2

(4.30)

37

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
4.5.7 Prueba t para los coeficientes de Regresin
Si no es rechazada la hiptesis nula, quiere decir que se debe eliminar el regresor del
modelo. El estadstico de prueba utilizado para probar esta hiptesis es:

t 0=

^ j

Donde

C jj

(4.31)

C jj

es el elemento diagonal de

rechaza la hiptesis nula

H o : j=0

si

(X X )1

|t o|>t , nk1
2

que corresponde a

. Ntese que sta es en realidad

una prueba parcial o marginal, porque el coeficiente de Regresin


todas las dems variables regresoras
una prueba de la contribucin de

j . Se

depende de

x j (i j ) , que hay en el modelo. As, se trata de

x j dados los dems regresores.

4.5.8 Error de Prediccin Promedio Cuadrado


Este estadstico indica que el modelo ser o no un buen predictor, y se obtiene mediante
la siguiente ecuacin:
n

PREMSS=

1
i2

n i=1

(4.32)

Note que el valor PREMSS calculado debe ser menor que el Error Cuadrtico Medio
(MSE). La Suma Cuadrada de Prediccin se obtiene mediante la ecuacin que sigue:
n

PRESS=
i=1

i
1hii

( )

(4.33)

38

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
i

Representa cada error de prediccin comparado con el valor real y

hii

son los

elementos diagonales de la matriz gorro que es una matriz idempotente y simtrica


obtenida a travs de

X ( X ' X )1 X '

que mapea el vector de los valores ajustados.

Coeficiente de Determinacin de la Prediccin

Este estadstico da cierta indicacin de la capacidad predictiva del modelo de Regresin.


La ecuacin es la siguiente:

RPRESS 2=1

PRESS
SS T

(4.34)

4.5.9 Intervalos de Confianza en Regresin Mltiple

Los intervalos de confianza de los coeficientes de Regresin individuales, y los intervalos


de confianza de la respuesta media, para niveles especficos de los regresores, juegan el
mismo papel importante que en la Regresin lineal simple.
Para los regresores individuales, la ecuacin de los intervalos de confianza para los
coeficientes son los siguientes:

^ jt
2

^ C
2

,n p

jj

j ^ j +t
2

, n p

C jj

(4.35)

Recurdese que:

se ( ^ j ) = ^ 2 C jj

(4.36)

Lo cual representa el error estndar del coeficiente de Regresin

39

^ j
.

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Por otro lado, los intervalos de confianza para la respuesta media en un determinado
punto, como

x 01 , x02 , , x 0 k

se realiza de la siguiente manera; defnase el vector

x0

como sigue:

[]

1
x 01
x 0= x 02
.
x0k

El valor ajustado en este punto es:

^y 0=x ' 0 ^

(4.37)

Y por lo tanto el intervalo de confianza de prediccin ser:

^y 0t
2

^ (1+ x
2

,n p

( X ' X ) x0 ) E ( y| x 0 ) ^y 0 +t ,n p ^ 2 (1+ x' 0 ( X ' X ) x 0 )


1

'
0

(4.38)

4.5.10 Coeficientes Normalizados de Regresin

En general, es difcil comparar en forma directa coeficientes de Regresin, porque la


magnitud de

^ j
refleja las unidades de medida del regresor

unidades del coeficiente de Regresin

^ j
son unidades de

x j . Por lo general, las

^ j
.

Por esta razn a veces ayuda trabajar con regresores y variables de respuesta escalados,
que produzcan coeficientes de Regresin a dimensionales. A esos coeficientes a
dimensionales se les suele llamar coeficientes estandarizados de Regresin (Montgomery
2006).
40

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

4.5.11 Escalamiento normal unitario

El primer mtodo para obtener los coeficientes estandarizados emplea el escalamiento


normal unitario para los regresores y la variable de respuesta esto es:

z ij=

x ij x j
, i=1, 2, ,n , j=1,2, , k
Sj

y i=

(4.39)

y i y
,i=1,2, , n
Sy

(4.40)

x j es:

En donde la varianza muestral del regresor


n

( x ijx j )2

s j2= i=1

(4.41)

n1

Y la varianza muestral de la respuesta es:


n

( y i y ) 2

s y 2= i=1

(4.42)

n1

Con estas nuevas variables, el modelo de Regresin se transforma en:

y i=b1 z i 1 +b2 zi 2 ++ bk zik + i , i=1, 2, , n


41

(4.43)

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356

Al centrar las variables regresoras y la de respuesta, se elimina la ordenada al origen. Por


lo tanto, el estimador de b por mnimos cuadrados es:

^ Z ' Z)1 Z ' y


b=(

(4.44)

4.5.12 Escalamiento de Longitud Unitaria

Es el segundo escalamiento que se usa con frecuencia est representado con la siguiente
ecuacin:

w ij=

x ij x j
S jj

y i0=

1
2

y i y
SS T

1
2

, i=1, 2, ,n , j=1,2, , k

(4.45)

, i=1, 2, , n

(4.46)

En donde la suma de cuadrados corregida para el regresor

x j es:

s jj = ( xij x j )2

(4.47)

i =1

En funcin de esas variables, el modelo de Regresin es:


0

y i =b 1 w i 1+b 2 wi 2+ +b k wik + i ,i=1, 2, , n

(4.48)

El vector de los coeficientes de Regresin por mnimos cuadrados es:

^
b=(W
' W )1 W ' y 0

(4.49)

42

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
Los coeficientes obtenidos de estos escalamientos se llaman coeficientes estandarizados
de Regresin. La relacin entre los coeficientes originales y los estandarizados de
Regresin es:

^ j= b^ j ( SST ) 2 , j=1,2, , k
S jj

(4.50)

^ 0= y ^ j x j

(4.51)

j=1

Estas ecuaciones nos sirven para obtener los valores sin el escalamiento antes realizado
para su correcto y ms cmodo manejo en los clculos (Montgomery 2006).
4.5.11 Modelo de Segundo Orden

Los diseos de segundo orden son aquellos que permiten estudiar los efectos de
interaccin y efectos cuadrticos, aparte de los efectos lineales. Se utilizan ante la
necesidad de explorar la relacin o interaccin entre variables de proceso, as como una
superficie ms compleja.
La seleccin de estos diseos depende de las caractersticas del problema, pero deben
en general cumplir ciertos requerimientos como capacidad para realizar estimaciones
eficientes de los coeficientes del modelo y medir tanto el error experimental como la
posible presencia de falta de ajuste. Un modelo de segundo orden podemos representarlo
como:
k

j1

Y = 0 + i x i + ij x i x j+ ii x ii +
i=1

j=2 i=1

i=1

(4.52)

Es fcil observar que las interacciones entre variables de proceso y los cuadrados de las
mismas, dependen completamente de las variables lineales, por lo que al considerar
dichas interacciones se tiene dependencia lineal entre las variables de la matriz de
diseo. Debido a esto, la inversa de la matriz utilizada en la estimacin est mal
condicionada, lo que induce al problema llamado Multicolinealidad.

43

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
4.6 Multicolinealidad
El uso y la interpretacin de un modelo de Regresin mltiple dependen, con frecuencia,
en forma explcita o implcita, de los estimados de los coeficientes individuales de
Regresin. Cuando hay dependencias casi lineales entre los regresores, se dice que
existe el problema de Multicolinealidad.
La Multicolinealidad, es la existencia de relaciones casi lineales entre las variables
independientes, lo cual crea estimaciones inexactas e infla los errores estndar de los
coeficientes del modelo, error tipo 1 de las pruebas t, falsos valores significativos y
degrada la previsibilidad del modelo. Estos problemas pueden detectarse de la siguiente
manera:
1- Los Factores de inflacin de la Varianza (VIF) por parte del modelo de Mnimos
Cuadrados que se definen en la ecuacin, son medidas tiles para la deteccin.
Estos valores representan una medida importante de la Multicolinealidad ya que
sta ser mayor mientras ms grande sea el valor de dichos elementos.
2- Si la prueba F para la significacin del modelo es significativa, pero las pruebas
individuales de los coeficientes del modelo no son significativos, hay presencia de
Multicolinealidad.
Si la eleccin del modelo lineal increment la Multicolinealidad, es necesario simplificar el
modelo mediante el uso de tcnicas de seleccin de variables. Si una o 2 observaciones
indujeron la Multicolinealidad, es preferible que se eliminen. Hay que tener cuidado con la
eleccin de variables; cuando no es posible esto, se utiliza el mtodo Ridge.
Para generar el modelo de Ridge, es esencial estimar la llamada Constante de
Proporcionalidad k (Lawless and Wang, 1976). Existe un valor de k distinto de cero para
el cual el MSE de

^ r

es menor que la varianza del estimador

cuadrados, siempre y cuando


funcin de k para

por mnimos

' sea acotado (Hoerl y Kennard, 1970; a,b). Como

k ( 0 , 1 ) , tiene las condiciones necesarias para que

^ r

sea un

estimador de error cuadrtico medio ms pequeo que el del modelo propuesto por
mnimos cuadrados (Theobald, 1974).
44

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
A medida que la Multicolinealidad crece entre las variables regresoras que determinan el
comportamiento de una variable de respuesta, los coeficientes estimados por MC del
modelo polinomial que modela ese comportamiento, se vuelven errticos e impredecibles,
debido a los efectos desastrosos que la Multicolinealidad tiene sobre su varianza,
afortunadamente la RR minimiza este problema al contraer los coeficientes

^ j

de MC,

logrando coeficientes ajustados con menor varianza, dando estabilidad a la prediccin del
modelo (R. Pia et al, 2005).
La Multicolinealidad de las variables independientes afectan la eficiencia de los
parmetros estimados mediante Mnimos Cuadrados, MRR es una de las principales
tcnicas propuestas para corregir este problema una vez detectada la Multicolinealidad y
as obtener parmetros sesgados pero con un error estndar menor (Garca A. et al,
2006).
Se utiliza la Regresin Ridge como un ajuste del polinomio completo de segundo orden,
dndole estabilidad a sus coeficientes estimados y como consecuencia confiabilidad al
modelo cannico y al punto estacionario de las Xs que determinan las condiciones
operacionales del proceso o sistema bajo estudio (R. Pia et al, 2006).

4.6.1 Fuentes de Multicolinealidad


Hay cuatro fuentes de Multicolinealidad principales:
1- El mtodo de recoleccin de datos empleado puede originar problemas de
Multicolinealidad cuando el analista slo muestra el sub espacio de la regin de los
regresores.
2- Restricciones en el modelo o en la poblacin que se muestra. Alguna restriccin
fsica puede causar este fenmeno ya que cuando hay restricciones como esta,
habr Multicolinealidad independientemente del mtodo de recoleccin que se
emplee.
3- En la eleccin del modelo al agregar trminos polinomiales al modelo de
Regresin se produce un deterioramiento en la matriz

45

X ' X , adems si el

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
rango de

x es muy pequeo, el agregar un trmino

puede producir

Multicolinealidad. En estos casos, es preferible un subconjunto de regresores para


evitar esto.
4- Modelo Sobre definido: Tiene ms variables regresoras que observaciones. Lo
ms comn es eliminar algunas de estas variables y tomar las importantes.
4.6.3 Diagnstico de la Multicolinealidad
Una medida muy sencilla de la Multicolinealidad, es la inspeccin de los elementos

dependientes

xi y x j

X ' X . Si los regresores

no diagonales en

r ij

son casi linealmente

r ij ser prximo a la unidad.

4.6.4 Factores de Inflacin de la Varianza (VIF)

C jj es el j-simo elemento diagonal de


C jj =(1R j2 )1 , siendo
hace la Regresin de

xj

R j2

el coeficiente de determinacin obtenido cuando se

respecto a los dems

ortogonal a los regresores restantes,


mientras que si

xj

regresores restantes,

C=( X ' X )1 , puede escribirse de la forma

R j2

p1

es pequeo y

C jj

regresores. Si

xj

es

es cercano a la unidad,

es casi linealmente dependiente en algn subconjunto de los

R j2

es casi lineal y

simos coeficientes de Regresin es


en el que aumenta la varianza de

C jj

es grande. Como la varianza de los j-

C jj 2 se puede considerar que C jj es el factor


j

debido a dependencias casi lineales entre los

regresores. El clculo de los factores de inflacin de la varianza se realiza como sigue


(Marquardt 1970):
46

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
2 1

(4.53)

VIF=C jj =(1R j )

Para cada trmino del modelo mide el efecto combinado que tienen las dependencias
entre los regresores sobre la varianza de ese trmino. Si hay uno o ms VIF grandes, hay
Multicolinealidad. Por la experiencia, si los VIFS son mayores que 5 o 10, es indicio de
que los coeficientes asociados de Regresin estn mal estimados debido a la
Multicolinealidad (Montgomery 2006).

4.6.5 Anlisis del Eigensistema


Los valores propios pueden utilizarse para medir la Multicolinealidad. Si hay una o ms
dependencias lineales en los datos, uno o ms valores propios sern pequeos e implican
que hay dependencias casi lineales entre las columnas de X. Algunos analistas prefieren
utilizar el nmero de condicin de XX definido como:

k=

max
min

(4.54)

Nmero de condicin menor que 100, no hay problema grave de Multicolinealidad, de 100
a 1000 hay Multicolinealidad moderada a fuerte; mayor a 1000 es indicio de una fuerte
Multicolinealidad. Los ndices de condicin de la matriz XX son:

k=

max
, j=1, 2, , p
j

(4.55)

La cantidad de ndices de condicin que son grandes es una medida til de la cantidad de
dependencias casi lineales en la matriz XX.

4.6.6 Mtodos para Manejar la Multicolinealidad

Se han propuesto varias tcnicas para mejorar los problemas causados por la
Multicolinealidad. Entre los mtodos generales estn el reunir ms datos, la re

47

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
especificacin del modelo y el uso de mtodos de estimacin distintos de mnimos
cuadrados, diseados especficamente para combatir este problema.

4.6.7 Recoleccin de Datos Adicionales

Se ha sugerido la recoleccin de datos adicionales como el mejor mtodo para combatir la


Multicolinealidad (Farrar y Glauber 1967; Silvey 1969). Los datos adicionales se deben
reunir en una forma diseada para eliminar la Multicolinealidad. Desafortunadamente no
siempre es posible coleccionar ms datos, por restricciones econmicas o porque el
proceso estudiado ya no est disponible para muestreo. Aunque a veces est disponible
el proceso, puede ser inadecuado utilizarlos si amplan el recorrido de las variables
regresoras mucho ms all de la regin de inters del analista.
4.6.8 Re-especificacin del Modelo

Con frecuencia, la Multicolinealidad se debe a la eleccin del modelo, como cuando dos
regresores muy correlacionados se utilizan en la ecuacin de Regresin, la reespecificacin en este caso puede aminorar el impacto de la Multicolinealidad. Un mtodo
es redefinir los regresores pero que se preserve el contenido de informacin de los
regresores originales, pero que reduzca el deteriora miento.
Otro mtodo es la eliminacin de las variables, esto es que si alguna de las variables
regresoras es casi linealmente dependientes, la eliminacin de uno de los regresores,
puede ayudar a combatir la Multicolinealidad. Frecuentemente es una tcnica muy
efectiva, sin embargo, podr no producir una solucin satisfactoria si se elimina uno de los
regresores con gran poder de explicacin en la respuesta, por lo que puede daar el nivel
predictivo del modelo (Montgomery 2006).

4.7 Regresin Ridge


Cuando se aplica el mtodo de mnimos cuadrados a datos no ortogonales, se pueden
obtener estimaciones muy malas de los coeficientes de Regresin. La varianza de los
estimadores por mnimos cuadrados, de los coeficientes de Regresin, puede estar muy
inflada. Eso implica que el valor absoluto de los estimados por mnimos cuadrados es

48

Mtodos de Regresin Lineal, aplicados en el


proceso de fundicin de un tanque muerto de
aluminio 356
demasiado grande y que son muy inestables, indicando con esto que sus magnitudes y
signos pueden cambiar mucho con una muestra distinta.

49

You might also like