Professional Documents
Culture Documents
TESIS
PRESENTA POR:
Oswaldo Neave Urea
Ante el Honorable Comit de Sinodales de Evaluacin de tesis de la
Universidad Autnoma de Coahuila.
Como requisito para obtener el grado de Maestro en Ingeniera Aplicada.
Mayo 2016
RESUMEN
Lo que se pretende con esta investigacin es aportar conocimientos para poder controlar
eficazmente el proceso de fundicin ya bien sea utilizando el mtodo de regresin Ridge
o el mtodo de Componente Principales, para generar modelos predictores del proceso
de fundicin.
La regresin Ridge es un mtodo estadstico que elimina la multicolinealidad y ayuda a
encontrar los estimadores del modelo, ste en comparacin con el de mnimos cuadrados
hace uso de una estimacin sesgada1, lo que le da la ventaja de ser ms preciso en sus
estimaciones.
El mtodo de Componentes Principales al igual que el de mnimos cuadrados elimina la
multicolinealidad pero este sin embargo no realiza estimacin sesgada. Si no que elige un
conjunto de componentes que resultan ser significativos para el proceso de fundicin.
Una forma que se usa para solucionar el problema de la multicolinealidad y la prediccin
del proceso de fundicin, es eliminar el requisito de que sea insesgado en el caso de
regresin Ridge.Si se permite una pequea cantidad de sesgo en
^
, la varianza de
puede ser pequea, lo que hace que su prediccin sea ms estable, por lo que
^ =( X ' X )1 X ' y
R
A
A
A
A
En donde
XA
X A=
[ ] []
X
y
y A=
0p
k IP
yA
es la matriz aumentada y
Contenido
RESUMEN2
INDICE DE FIGURAS......................................................................................................... 5
INDICE DE TABLAS............................................................................................................ 6
Captulo 1............................................................................................................................ 7
INTRODUCCION................................................................................................................ 7
1.1Estudio retrospectivo....................................................................................... 8
1.2 Estudio Observacional.................................................................................... 8
1.3Experimento Diseado.................................................................................... 9
Usos de la Regresin:...................................................................................... 9
Captulo II.......................................................................................................................... 10
PLANTAMIENTO DEL PROBLEMA.....................................................................10
2.2 Objetivo General.......................................................................................... 11
2.3 Objetivos Especficos................................................................................... 11
2.4 Preguntas de Investigacin........................................................................... 12
2.5 Hiptesis General........................................................................................ 13
2.6 Hiptesis Especficas................................................................................... 13
2.7 Justificacin................................................................................................ 14
2.8 Variables.................................................................................................... 14
Captulo III......................................................................................................................... 15
4
1 .................................................................23
2 .............................................................................. 27
Descripcin de la experimentacin.............................................................49
INDICE DE FIGURAS
Figura 4.1 Grafica de Entrega y Tiempo........20
Figura 4.2 Lnea Recta de los Datos de Entrega y Tiempo.21
Figura 4.3 Distribucin de Muestreo de Estimadores insesgado de
...
42
Figura 4.4 Coeficientes sesgados de
..43
Figura 5.1 Metodologa propuesta...49
Figura 6.1 Efectos principales para la respuesta..52
Figura 6.2 Respuesta de Regresin Mltiple vs Real..55
Figura 6.3 Respuesta de Regresin Ridge vs Real..55
Figura 6.4 Respuesta por Componentes Principales vs Real.56
INDICE DE TABLAS
Tabla 4.1 Anlisis de Varianza31
Tabla 6.1 Matriz de datos recolectados de proceso de fundicin.51
Tabla 6.2 Efectos del coeficiente de regresin.52
Tabla 6.3 Anlisis de Varianza por Regresion Mltiple Ordinario. ...53
Tabla 6.4 Anlisis de Varianza por Regresin Ridge...53
Tabla 6.5 Anlisis de Varianza por Componentes Principales..53
Tabla 6.6 Calculo de VIF de los estimadores por Regresion Mltiple Ordinario54
Tabla 6.7 Calculo de VIF de los estimadores por Regresion Ridge..54
y= 0 + 1 x
Donde
es la ordenada al origen y
10
y el de la
( 0+ 1 x )
un error de
tiempo de entrega es
y= 0 + 1 x +
E( yx )= yx =E ( 0 + 1+ ) =0 + 1 x
y
La varianza de
es
Var ( y x )=Var ( 0+ 1 + )= 2
para esa
no es ms que el valor
x .
Recoleccin de Datos:
Hay tres mtodos bsicos:
1.1Estudio retrospectivo
Ofrecen con frecuencia cantidades limitadas de informacin til, sus principales
desventajas son:
11
1.3Experimento Diseado
La mejor estrategia resulta ser hacer un experimento diseado (Diseo de experimentos)
Usos de la Regresin:
Se usan con varios fines: Descripcin de datos, Estimacin de parmetros, Control,
Prediccin y estimacin.
12
Captulo II
PLANTAMIENTO DEL PROBLEMA
El presente proyecto consiste en investigar el comportamiento de los factores
bajo
13
14
resultados
15
marcha.
2 Se puede eliminar la multicolinealidad presente entre las variables regresoras del
modelo.
16
2.7 Justificacin
Investigar la factibilidad de la optimizacin del proceso de fundicin de aluminio mediante
el mtodo de regresin Ridge, componentes principales, mnimos cuadrados y realizar
una comparativa para verificar cual es mejor.
Es necesario obtener un modelo estadstico de prediccin, que me permita describir el
proceso de fundicin de aluminio, sin embargo, es muy difcil obtener el modelo
estadstico con modelos de regresin convencionales (mtodo de mnimos cuadrados), ya
que existe el riesgo de que exista mucha variabilidad en las pruebas debido a la
multicolinealidad, es decir existe una regresin lineal entre los regresores o variables del
proceso, lo que ocasionara errores de varianza e imprecisin en el modelo.
La regresin Ridge resulta ser una solucin a este tipo de problemas; no solo se puede
obtener un modelo preciso; si no que se elimina sustancialmente el efecto de la
multicolinealidad en los datos y el nivel de confianza del modelo ser mayor.
2.8 Variables
Las variables han sido establecidas bsicamente de acuerdo a los planteamientos de los
objetivos especficos y del anlisis del proceso, las cuales son:
17
Captulo III
MARCO DE REFERENCIA
Existen trabajos anteriores, en los cuales se ha realizado con la modelacin de procesos
de fundicin. El de regresin por mnimos cuadrados trabaja con datos los cuales existe
dependencia lineal entre las variables. Cuando existe multicolinealidad los datos no son
de utilidad ya que existe dependencia en los datos, la cual est mal condicionada y esto
trae como resultado estimadores errneos de
^
.
variables omitidas.
5) Se derivan las condiciones necesarias bajo las cuales el MSE del mtodo Ridge es
menor que el de OLS.
6) Se hace un comparativo evaluando numricamente la formula exacta de los
momentos.
Con todo esto se concluye que el modelo cuando est completo (no existen variables
omitidas) es mejor que cuando se omiten variables; ya que los resultados obtenidos del
MSE y del bias resultan ser menores.
Otro artculo de relevancia es el de Iono, Tanvir y Hendry (2000) en donde utilizan el
mtodo de componentes principales para analizar informacin sobre las estrellas. Indican
que el mtodo de Fourier es una manera efectiva para analizar la estructura no lineal de la
informacin de la luz que irradian estas, as como la velocidad, sin embargo no se logra
analizarla de forma completa. Con el mtodo de componentes principales lo que hace es
analizar los datos de forma completa (Luz y velocidad), de forma simultnea, en donde
con tan solo seis parmetros la informacin puede ser predicha, ya que con el mtodo de
Fourier se necesitan seis o ms.
Otro trabajo es el de Junyong Park (2016) en donde menciona de que existen casos en
donde las covariables exhiben multicolinealidad, en donde lo que se propone es usar los
estimadores Ridge. En este trabajo explica cmo estimar los intervalos de las tolerancias.
Se explica cmo obtener los lmites para el caso que se requiere solamente el superior y
de dos lados. Tambin se habla el caso cuando se tiene base de datos que tienen ms
variables que observaciones en el que mencionan que an no est disponible una
19
informacin de la forma
{( y i , xi ) , 1 i n }
o de dos lados (superior e inferior).Se repite este procedimiento 1000 veces de tal forma
que se tiene 1000 tolerancias y se calcula la probabilidad para cada tolerancia
( p ,1) . En donde
es igual a 0.95 y
es el primer eigenvector de
eigenvector de
es decimo
es el veinteavo eigenvector de
Captulo IV
MARCO TEORICO
4.1 Regresin Lineal
El anlisis de Regresin es una tcnica estadstica para investigar y modelar la relacin
entre variables. Existe un sinfn de aplicaciones para esta metodologa incluyendo las
reas de ingeniera, ciencias fsicas y qumicas, economa, administracin, ciencias
biolgicas as como ciencias de la vida y sociales. De hecho esta es la tcnica estadstica
ms utilizada (Montgomery, 2006).
4.2 Regresin y Formacin de Modelos
Como ejemplo para ver la relacin entre variables y un modelo de dicha relacin se
utilizar el problema propuesto por Montgomery (2006), un ingeniero industrial analiza las
21
50
40
30
20
10
0
0
10
15
20
25
30
35
Volumen
Con claridad parece indicar que hay una relacin entre el tiempo de entrega y el volumen
en este caso ya que da la impresin de que los datos caen en una lnea recta, no
exactamente pero se puede apreciar esa tendencia.
Si y representa el tiempo de entrega y x el volumen entregado, la ecuacin de la recta
que relaciona esas 2 variables es:
y= 0 + 1 x
Donde
es la ordenada al origen y
(4.1)
exactamente en una lnea recta, hay que modificar la ecuacin (4.1) para tomar en cuenta
22
( 0+ 1 x )
variable aleatoria que explica que el modelo no ajusta exactamente los datos. Este error
puede formarse por defectos de las otras variables sobre el tiempo, medicin, etc. Un
modelo ms adecuado es como sigue:
y= 0 + 1 x + (4.2)
90
80
70
Tiempo De
Entrega
60
50
40
30
20
10
0
0
10
15
20
25
30
35
Volumen
Figura 4.2 Lnea Recta de los Datos de Entrega y Tiempo
23
son 0 y
, respectivamente.
y|x = 0+ 1 x
(4.3)
x1 , x2 , x3 , xk
y= 0 + 1 x 1 + 2 x 2 + k x k +
de modo que:
(4.4)
Se puede hacer utilizando todos los datos histricos del proceso o una muestra de ellos,
dentro de algn periodo, para determinar las relaciones entre las variables tanto
regresoras como de respuesta. Al hacerlo se aprovecha la ventaja de contar con datos
previamente reunidos y minimizar el costo del estudio. Sin embargo, se debe hacer notar
que hay varios problemas:
1- No se puede ver el efecto de la relacin porque se debe suponer que no vari
mucho durante el periodo histrico.
2- Como varan tan poco a travs del tiempo, dificultar poder apreciar su impacto
real.
3- Dentro de los lmites estrechos entre los que vara, habr dificultad para separar
los efectos individuales. Esto conduce al problema de Multicolinealidad
Los estudios retrospectivos ofrecen cantidades limitadas de informacin til. En general,
sus principales desventajas son:
-
la mano.
El analista trata, con frecuencia, de usar los datos en formas que nunca se
El uso de datos histricos siempre corre riesgo el de que, por cualquier razn, algunos de
los datos se perdieron o no se anotaron.
25
Esta estrategia debe asegurar que se puedan separar los efectos de cada factor. Los
valores especificados de los factores que se ajustan en el experimento, se llaman niveles.
Comnmente se usa una pequea cantidad (dos o tres) de niveles para cada factor.
Los parmetros
muestra.
26
0 y
1
, se utiliza el mtodo de los
y= 0 + i x i + i ,
i=1,2, , n
(4.5)
S ( 0 , 1 )= ( yi 0 i x i )
(4.6)
i=1
0 y
^ 0
^ 1
, deben satisfacer:
S
0
0 , 1
S
1
=2 ( y i ^ 0 ^ i xi ) =0
i=1
0 , 1
=2 ( y i ^ 0 ^ i x i ) x i=0
i=1
i=1
i=1
n ^ 0+ ^1 x i= y i
n
i=1
i=1
i=1
^ 0 x i + ^ 1 x 2i= y i x i
(4.7)
^ 0= y ^ 1 x
27
(4.8)
i=1
i=1
( )( )
yi
y i x i
^ 1= i=1
n
2
x i
( )
i=1
i=1
xi
xi
S xx
S xy
(4.9)
En donde:
n
y =
1
y
n i =1 i
n
x =
yi
1
x
n i=1 i
(4.10)
y= 0 + 1 x 1 + 2 x 2+
28
(4.11)
datos se incluyen
es el promedio de
cuando
1 indica
x 1 , cuando
x2
se
0+ 1 x 1+ 2 x2 ++ k x k +
Los parmetros
j ,
j=0,1 ,k
(4.12)
j , j=1,2 k
x j (i j )
xj
Regresin parcial. Los modelos de Regresin parcial mltiple se usan con frecuencia
como modelos empricos o como funciones de aproximacin, ya que se desconoce la
relacin funcional real entre
y y
29
S ( 0 , 1 , , k )= 2 i
i =1
y i 0 j x ij (4.13)
i=1
j=1
y= X+ (4.14)
Dnde:
[] [
y1
y= y 2
yn
x11 x 12 x1 k
X = x 21 x 22 x2 k
x n 1 x n2 x nk
[] []
1
1
= 2 = 2
n
n
30
nx 1
de las obervaciones,
Regresin y
es un vector de
determinar el vector
n
nx 1
es una matriz de
es un vector de
px 1
nxp
de los
de los coeficientes de
que minimice:
S ( ) = i= =( y X ) ' ( y X )
2
'
i=1
S ( ) = y ' y ' X y y ' X+ ' X ' X= y ' y 2 ' X ' y + ' X ' X
' X' y
Ya que
es una matriz de
'
satisfacer:
S
^
=2 X ' y +2 X ' X =0
0 ^
Que se simplifica a:
X X ^=X y( 4.15)
'
'
Las ecuaciones (4.15) son las ecuaciones normales de mnimos cuadrados. Estas
ecuaciones son la forma matricial de la representacin escalar. Para resolver las
31
'
X X . As,
Como
es un estimador insesgado de
^ j
covarianza de la matriz de
es:
32
^ i y ^ j
. La
4.5.4 Estimacin de
cuadrados de residuales:
n
i=1
Se sustituye
i=1
e= y X ^
y se obtiene:
SS Res =( y X ^ ) ' ( y X ^ )
'
'
'
'
SS Res = y y ^ X y y X ^ + ^ ' X ' X ^
Como
MS Res=
SS Res
(4.20)
n p
33
es:
Esta prueba se realiza para determinar si hay una relacin lineal entre la respuesta y
cualquiera de las variables regresoras. Este procedimiento suele considerarse como una
prueba general o global de la adecuacin del modelo, la cual se realiza mediante la
siguiente hiptesis:
H 0 : 1= 2== k =0
H 0 : 1 0 almenos para una j.
El rechazo de la hiptesis nula implica que al menos uno de los regresores contribuye al
modelo en forma significativa. De acuerdo con la definicin de un estadstico F:
SS R
MS R
k
Fo =
=
( 4.22)
SS Res
MS s
( nk 1 )
SS R
MS R
k
Fo =
=
(4.23)
SS Res
MS Res
( nk 1 )
al
menos
una
j 0 .
Por
consiguiente,
para
34
Fo
Fo
la
hiptesis
y se rechaza
H0
Fuente de Variacin
Suma de
Grados de
Cuadrado
Cuadrados
Libertad
Medio
Regresin
SS R
MS R
Residuales (Error)
SS Res
N-K-1
MS Res
Total
SS T
N-1
Para calcular
'
SS Res = y y ^ X ' y
Y ya que:
35
Fo
MS R
MS Res
( )
yi
SS T = y i
2
i=1
( )
yi
^ X y
i=1
'
'
i=1
( )
yi
'
SS Res = y y
i=1
^' X ' y
( )
yi
i=1
( 4.25)
O bien:
SS Res =SS T SS R
SS R = ^ X y
'
'
( )
yi
i=1
(4.26)
( )
yi
SS T = y ' y
(4.27)
i=1
36
R2
modelo,
R yR
2
R yR
2
aj
2
aj
y Coeficiente de Correlacin r
son otras maneras de evaluar la adecuacin general del
R2=
SS R
SST
(4.28)
estadstico
SS Res
(n p)
R2aj =1
SST
(n1)
(4.29)
R2aj Slo aumentar si al agregar una variable al modelo reduce el cuadrado medio
residual. El coeficiente de correlacin es una asociacin entre 2 o ms variables y se
representa como:
R= R2
(4.30)
37
t 0=
^ j
Donde
C jj
(4.31)
C jj
es el elemento diagonal de
H o : j=0
si
(X X )1
|t o|>t , nk1
2
que corresponde a
j . Se
depende de
PREMSS=
1
i2
n i=1
(4.32)
Note que el valor PREMSS calculado debe ser menor que el Error Cuadrtico Medio
(MSE). La Suma Cuadrada de Prediccin se obtiene mediante la ecuacin que sigue:
n
PRESS=
i=1
i
1hii
( )
(4.33)
38
hii
son los
X ( X ' X )1 X '
RPRESS 2=1
PRESS
SS T
(4.34)
^ jt
2
^ C
2
,n p
jj
j ^ j +t
2
, n p
C jj
(4.35)
Recurdese que:
se ( ^ j ) = ^ 2 C jj
(4.36)
39
^ j
.
x 01 , x02 , , x 0 k
x0
como sigue:
[]
1
x 01
x 0= x 02
.
x0k
^y 0=x ' 0 ^
(4.37)
^y 0t
2
^ (1+ x
2
,n p
'
0
(4.38)
^ j
refleja las unidades de medida del regresor
^ j
son unidades de
^ j
.
Por esta razn a veces ayuda trabajar con regresores y variables de respuesta escalados,
que produzcan coeficientes de Regresin a dimensionales. A esos coeficientes a
dimensionales se les suele llamar coeficientes estandarizados de Regresin (Montgomery
2006).
40
z ij=
x ij x j
, i=1, 2, ,n , j=1,2, , k
Sj
y i=
(4.39)
y i y
,i=1,2, , n
Sy
(4.40)
x j es:
( x ijx j )2
s j2= i=1
(4.41)
n1
( y i y ) 2
s y 2= i=1
(4.42)
n1
(4.43)
(4.44)
Es el segundo escalamiento que se usa con frecuencia est representado con la siguiente
ecuacin:
w ij=
x ij x j
S jj
y i0=
1
2
y i y
SS T
1
2
, i=1, 2, ,n , j=1,2, , k
(4.45)
, i=1, 2, , n
(4.46)
x j es:
s jj = ( xij x j )2
(4.47)
i =1
(4.48)
^
b=(W
' W )1 W ' y 0
(4.49)
42
^ j= b^ j ( SST ) 2 , j=1,2, , k
S jj
(4.50)
^ 0= y ^ j x j
(4.51)
j=1
Estas ecuaciones nos sirven para obtener los valores sin el escalamiento antes realizado
para su correcto y ms cmodo manejo en los clculos (Montgomery 2006).
4.5.11 Modelo de Segundo Orden
Los diseos de segundo orden son aquellos que permiten estudiar los efectos de
interaccin y efectos cuadrticos, aparte de los efectos lineales. Se utilizan ante la
necesidad de explorar la relacin o interaccin entre variables de proceso, as como una
superficie ms compleja.
La seleccin de estos diseos depende de las caractersticas del problema, pero deben
en general cumplir ciertos requerimientos como capacidad para realizar estimaciones
eficientes de los coeficientes del modelo y medir tanto el error experimental como la
posible presencia de falta de ajuste. Un modelo de segundo orden podemos representarlo
como:
k
j1
Y = 0 + i x i + ij x i x j+ ii x ii +
i=1
j=2 i=1
i=1
(4.52)
Es fcil observar que las interacciones entre variables de proceso y los cuadrados de las
mismas, dependen completamente de las variables lineales, por lo que al considerar
dichas interacciones se tiene dependencia lineal entre las variables de la matriz de
diseo. Debido a esto, la inversa de la matriz utilizada en la estimacin est mal
condicionada, lo que induce al problema llamado Multicolinealidad.
43
^ r
por mnimos
^ r
sea un
estimador de error cuadrtico medio ms pequeo que el del modelo propuesto por
mnimos cuadrados (Theobald, 1974).
44
^ j
de MC,
logrando coeficientes ajustados con menor varianza, dando estabilidad a la prediccin del
modelo (R. Pia et al, 2005).
La Multicolinealidad de las variables independientes afectan la eficiencia de los
parmetros estimados mediante Mnimos Cuadrados, MRR es una de las principales
tcnicas propuestas para corregir este problema una vez detectada la Multicolinealidad y
as obtener parmetros sesgados pero con un error estndar menor (Garca A. et al,
2006).
Se utiliza la Regresin Ridge como un ajuste del polinomio completo de segundo orden,
dndole estabilidad a sus coeficientes estimados y como consecuencia confiabilidad al
modelo cannico y al punto estacionario de las Xs que determinan las condiciones
operacionales del proceso o sistema bajo estudio (R. Pia et al, 2006).
45
X ' X , adems si el
puede producir
dependientes
xi y x j
no diagonales en
r ij
xj
R j2
xj
regresores restantes,
R j2
p1
es pequeo y
C jj
regresores. Si
xj
es
es cercano a la unidad,
R j2
es casi lineal y
C jj
(4.53)
VIF=C jj =(1R j )
Para cada trmino del modelo mide el efecto combinado que tienen las dependencias
entre los regresores sobre la varianza de ese trmino. Si hay uno o ms VIF grandes, hay
Multicolinealidad. Por la experiencia, si los VIFS son mayores que 5 o 10, es indicio de
que los coeficientes asociados de Regresin estn mal estimados debido a la
Multicolinealidad (Montgomery 2006).
k=
max
min
(4.54)
Nmero de condicin menor que 100, no hay problema grave de Multicolinealidad, de 100
a 1000 hay Multicolinealidad moderada a fuerte; mayor a 1000 es indicio de una fuerte
Multicolinealidad. Los ndices de condicin de la matriz XX son:
k=
max
, j=1, 2, , p
j
(4.55)
La cantidad de ndices de condicin que son grandes es una medida til de la cantidad de
dependencias casi lineales en la matriz XX.
Se han propuesto varias tcnicas para mejorar los problemas causados por la
Multicolinealidad. Entre los mtodos generales estn el reunir ms datos, la re
47
Con frecuencia, la Multicolinealidad se debe a la eleccin del modelo, como cuando dos
regresores muy correlacionados se utilizan en la ecuacin de Regresin, la reespecificacin en este caso puede aminorar el impacto de la Multicolinealidad. Un mtodo
es redefinir los regresores pero que se preserve el contenido de informacin de los
regresores originales, pero que reduzca el deteriora miento.
Otro mtodo es la eliminacin de las variables, esto es que si alguna de las variables
regresoras es casi linealmente dependientes, la eliminacin de uno de los regresores,
puede ayudar a combatir la Multicolinealidad. Frecuentemente es una tcnica muy
efectiva, sin embargo, podr no producir una solucin satisfactoria si se elimina uno de los
regresores con gran poder de explicacin en la respuesta, por lo que puede daar el nivel
predictivo del modelo (Montgomery 2006).
48
49