Professional Documents
Culture Documents
Mtodos numricos
Manual de regresiones
Profesor: Alejandro Vega Granillo. Estudiantes: Mara Jess Quijada Frisby. Jess Manuel Banda Bojrquez. Grupo: Ingeniera Industrial 2-5.
05 de diciembre de 2011
Contenido
INTRODUCCION .................................................................................................... 1 REGRESION LINEAL SIMPLE ............................................................................... 5 Ejemplo de regresin lineal simple. ..................................................................... 7 Regresin Polinmica............................................................................................ 22 Ejemplo de regresin Polinmica. ..................................................................... 23 RECESIN EXPONENCIAL ................................................................................. 42 Ejemplo de regresin exponencial ..................................................................... 44 REGRESIN LINEAL MLTIPLE ......................................................................... 52 Ejemplo de regresin lineal mltiple .................................................................. 54 CONCLUSIN ...................................................................................................... 66
INTRODUCCION
El objetivo de un anlisis de Regresin es investigar la relacin estadstica que existe entre una variable dependiente (Y) y una o ms variables independientes (X1, X2, X3,. Xn). Para poder realizar esta investigacin, se debe postular una relacin funcional entre las variables. Debido a su simplicidad analtica, la forma funcional que ms se utiliza en la prctica es la Regresin Lineal. Consideremos datos que relacionen dos variables; por ejemplo en economa, el precio constatado del metro cuadrado de la nueva vivienda en distintas fechas, o en fsica la medida simultanea de la intensidad y del potencial en un circuito elctrico. La dependencia a la que hacemos referencia es relacionar matemticas y no necesariamente de causalidad. As, para un mismo nmero de unidades producidas para existir niveles de costo, que varan de empresa a empresa. Este Manual est enfocado a realizar los diferentes tipos de Regresiones como son: Regresin Lineal Simple Regresin Polinmica Regresin Exponencial Regresin Lineal Mltiple
Mediante las tcnicas de regresin de una variable Y sobre una variable X, buscamos una funcin que sea una buena aproximacin de una nube de puntos (Xi, Yi), mediante una curva del tipo para ello hemos de asegurarnos de que la diferencia entre los valores
Mediante las tcnicas de regresin inventamos una variable como funcin de otra variable X (o viceversa),
Esto es lo que denominamos relacin funcional. El criterio para construir , tal como mencionamos anteriormente, es que la diferencia entre Y e , sea pequea. Esta frmula es utilizada para obtener el margen de error, el cual agregamos en la tabla de datos, que se mostrar en las pginas posteriores. El trmino que hemos denominado error debe ser tan pequeo como sea posible. El objetivo ser buscar la funcin (tambin denominada modelo de regresin) que lo minimice. Figura: Diferentes nubes de puntos y modelos de regresin para ellas.
La interpretacin del coeficiente de correlacin puede ilustrarse mediante los siguientes grficos.
X 5 9 12 15 17
Y 8 15 22 28 33
X dependiente Y independiente.
Diagrama de Dispersin
35 Costo en miles de $ (Y) 30 25 20 15 10
5
0
10 12 # de trabajadores (X)
14
16
18
Debido a su simplicidad analtica, la forma funcional que ms se utiliza en la prctica es relacin lineal. Cuando solo existe una variable independiente, esto se
reduce a una lnea recta, tomando en cuenta la nube de puntos que arroja el diagrama de dispersin, este tiene que tener una similitud a un alinea recta:
= a + bXi +
Dnde: Los coeficientes a y b son los parmetros que definen la posicin e inclinacin de la recta, donde representa el valor Y calculado por recta. El parmetro a es conocido como el origen, indicando la posicin el Y cuando X es igual 0.El parmetro b es conocido como la pendiente, nos indica cuanto aumenta Y por cada unidad de X. Objetivo: Su principal propsito de la regresin lineal es: Determinar la relacin de dependencia que tiene una variable respecto a otra. Ajustar la distribucin de frecuencia de una lnea, es decir, determinar la forma de la lnea de regresin. Hacer un pronstico deseado. Hacer interpolaciones. Tener control sobre las variables. Establecer causas y efectos. En este captulo nos centraremos en encontrar los parmetro (a y b) para poderlos sustituir en la funcin .
Obtencin de datos.
Operador 1 2 3 4 5 X 5 9 12 15 17 Y 8 15 22 28 33
Realizar el diagrama de dispersin para verificar que tipo de regresin utilizremos. Primero seleccionas los datos de X y Y despus vas a la pestaa de insertar y donde este el cono de dispersin como el que se muestra en la figura das clic.
Es muy importante que selecciones la correcta y siempre tomaremos la opcin que se te marca
Te posicionas sobre cualquiera de los ejes y le das clic secundario y te vas a la opcin que dice dar formato a eje.
Posteriormente te saldr una ventana como la que se te muestra a continuacin en la que puedes cambiar donde dice fija a una cantidad donde queden dentro los puntos de la grfica y la haga ms grande como lo vas a ver.
Puedes hacerle ms cambios, agregarle ttulo al grfico y hasta cambiarle los colores y todo lo que quieras hacerle para que est bonita lo encontraras en tu barra de diseo, presentacin y formato-
Diagrama de Dispersin
35 Costo en miles de $ (Y)
30
25 20 15 10 5 0 4 6 8 10 12 # de trabajadores (X) 14 16 18
Realizar la corrida numrica para la obtencin de los datos que nos piden las formulas.
Con ayuda del mouse colocamos en posicion indicada y arrastrar hacia abajo para colocar las formulas correspondientes al resto de las filas.
10
En el ultimo renglo se le agregara lo que es la sumatoria de todos los datos por columnas.
Calculando (b)
11
Calculando (a)
Nota: No olvides nombrar las celdas de a y b para facilitar de esta manera la introduccin en la formula.
12
Con el mouse arrastrando as abajo obtendremos los resultados. 6 Calculo del error y error2.
13
Nota: No se te olvide nombrar la celda como SSE porque es muy utilizado. SSE es igual a la sumatoria de todos los errores elevado al cuadrado.
14
Para completar la primera parte de regresion lineal simple debemos realizar otros calculosque son los siguientes e interpretar R2:
Otros clculos Syy R2 Sxy Sxx
Syy
SSE
15
Sxy
Sxx
16
Agregar la lnea de tendencia. Como ya sabemos cmo insertar un diagrama de dispersin seguiremos con lo que es agregar la lnea de tendencia. Primeramente daremos clic derecho en cualquier punto de dispersin apareciendo el siguiente recuadro.
Selecciona la opcin de
Esto es para si quieres comprobar los clculos que hemos hecho anteriormente.
17
Pronsticos.
Algunos Valores X Si contrato Con una cantidad de $100 mil se puede cont. 49 trabajadores. 8 13.6842105 Y Es el costo de contratar a tal # trabajadores Si tengo $100 mil cuanto puedo contratar
49.34453782
100
2.0877
+ 3.0175 2.0877
3.0175
18
F Calc.
DISTRIBUCION F DE FISCHER
Decisin: Como la FCalc cay en la RR aceptamos H1 lo cual significa que el R.L.S si es significativo.
Regin de aceptacin
10.12
918.55
19
Para el anlisis de ANOVA, la tabla se calcula, con el motivo de saber si alguno de los valores que obtuvimos es estadsticamente significativo.
Ftabla
El resultado obtenido al realizar la TABLA (FCalc y Ftabla) es para hacer una comprobacin de a y b. Si cae la Fcalc en la regin de rechaz quiere decir el modelo si es conveniente y es exactamente lo que queremos cuando planteamos las pruebas de hiptesis. Si cae la Fcalc en la regin de aceptacin lo cual no es conveniente, probablemente los datos no se ajusten al modelo o son muy pocos datos asiendo la Ftabla muy grande los cual se recomienda tomar ms datos.
DISTRIBUCION F DE FISCHER
Decisin: Como la FCalc cay en la RR aceptamos H1 lo cual significa que el R.L.S si es significativo.
Regin de aceptacin
10.12
918.55
20
21
Regresin Polinmica
Algunos fenmenos resultan ser mejor representados por un polinomio y aunque a veces puede no ser particularmente "natural", es decir, aquella que expresa una relacin de causa y efecto entre las variables; sin embargo, es tan flexible y tan fcilmente manejable en
900 850
800
750 700 650 600 550
280
285
290
295
300
305
310
315
320
Los puntos suspensivos sugieren la posibilidad de expandir las formulas siguiendo el mismo patrn.
22
Obtencin de datos.
Temperatura de curado (F) x 280 284 292 295 298 305 308 315
CORTE DE UN COMPUESTO DE HULE
DATOS 1 2 3 4 5 6 7 8 n= k= 8 3
Diagrama de dispersin
900 850
800
750 700 650 600 550 280 285 290 295 300 305 310 315 320 temperatura de curado
23
Si observamos los puntos del diagrama podemos identificar un patrn en forma curva. Recordando el curso de matemticas uno se puede deducir que es una funcin cubica. 3 Utilizando las ecuaciones normales realizaremos las siguientes operaciones.
Este
es
el
y
grado
para
del
saber
polinomio
+ + 2 + 3 + + 2 + 3 + 4 + 2 + 3 + 4 + 5 + 3 + 4 + 5 + 6 + 2 3
Primeramente elevamos las X a las potencias del 2 al 6 con sus respectivas sumatorias. Se elevan hasta 6 porque
Despus multiplicamos cada una de las X elevadas con la Y, tambin elevamos al 5 cuadrado a Y y le realizamos sus respectivas sumatorias.
Seleccionamos
y con el mouse
El siguiente paso es realizar todas las sumatorias de la corrida numrica para posteriormente usarlas en las ecuaciones normales.
Seleccionamos y con el mouse arrastramos en la direccin de la flecha con la finalidad de colocar las formulas en las dems celdas.
25
Introducir los datos en la matriz A de coeficientes que se obtiene con la tabla de las ecuaciones normales, para poder complementar la tabla de equivalencias y sumatorias:
+ + + 2 + 2 + 3 + 3 + 4 +
2 +
3 +
3 +
4 +
4 +
5 +
5 +
6 +
2
3
MATRIZ (A) DE COEFICIENTE. 2377 707263 210737971 707263 210737971 62879830819 210737971 62879830819 1.87881E+13 62879830819 1.87881E+13 5.62148E+15
MINVERSA
26
Da
clic
en
este icono
MATRIZ (A) DE COEFICIENTE. 2377 707263 210737971 707263 210737971 62879830819 210737971 62879830819 1.87881E+13 62879830819 1.87881E+13 5.62148E+15
27
Para obtener los dems valores de la matriz inversa se selecciona de qu tamao es la matriz.
Una vez ya seleccionada se usa la combinacin de las teclas F2, Shift+Ctrl+Enter simultneamente para obtener los dems valores de esta matriz.
Introducir los datos en la matriz B de coeficientes que se obtiene con los 9 resultados de la tabla de las ecuaciones normales (Ys), para poder complementar la tabla de equivalencias y sumatorias:
28
10
Despus se procede a hacer la matriz de B resultados, tambin llamada matriz x de incgnitas con los siguientes pasos:
Le damos clic para obtener las diferentes frmulas Excel que tiene
Nos
aparecer
29
Seleccionamos la matriz B
que vamos a multiplicar por la Matriz A y nos aparecer el rango
-1
Para obtener los dems valores de la matriz inversa se selecciona de qu tamao es la matriz. Una vez ya seleccionada se usa la combinacin de las teclas F2+Ctrl+Enter simultneamente para obtener los dems valores matriz de Resultado, la cual nos proporciona los valores de a, b, c y d.
Ya obtenida la matriz de incgnitas se prosigue a completar la tabla principal obteniendo la , los errores y los errores al cuadrado .
30
11
12
31
El Diagrama de Dispersin Polinmica revela que estos datos pueden ser modelados mediante un polinomio de tercer grado + + + Se realiza diagrama de Dispersin con los valores X (das de inoculacin) e Y (cantidad de bacterias). Pasos a seguir:
Seleccionamos el
Rango de X e Y.
32
Aparece el siguiente recuadro ya con la lnea de puntos formados, donde se le puede dar formato a como mejor le parezca con respecto a los datos.
33
Seguidamente se agrega la lnea de tendencia con clic secundario del mouse como aparece en la imagen.
En este apartado se escoge la funcin Polinmica para que la lnea de tendencia aparezca en el diagrama de dispersin como se muestra.
34
El formato aparecer de la siguiente manera con la lnea de tendencia, y se puede dar color al gusto en la parte superior de la hoja de clculo de la pestaa inicio en el siguiente apartado.
800
750
700
650
600
550 280 285 290 295 300 305 310 315 320 temperatura de curado
INTERPRETACIN DEL GRAFICO POLINOMIAL En este diagrama podemos observar que todos los puntos estn sobre la lnea Polinmica, esto significa que sta Regresin es la ms confiable.
35
Realice los siguientes pronsticos del modelo: pronostique la resistencia para una temperatura de 350 F.
Para poder obtener Y, necesitamos de darle valores a X para tabular y poder obtener una aproximacin de Y. Una vez tabulados estos valores se procede lo siguiente: Le damos los
siguientes
valores a
la
=a+b*350+cc*350^2+d*350^3
del polinomio
+ + 2 + 3
y= 3580.769743
36
requerida para tener una resistencia al corte de solo 250 psi hacemos lo siguiente: Seleccionamos pestaa de Datos la 1
37
6
Seleccionas la celda donde quieras resultado. Aqu tenemos el resultado que aparezca el
Se prosigue a calcular el SYY y el que nos servirn para los prximos clculos y para determinar que tanto porcentaje nos indica la variable regresora X a la variable de respuesta Y, y se interpreta .
1
R2= 0.979440037
syy= 80496.875
38
Despus calcula el anlisis de Varianza (ANOVA) para la polinomial siguiendo las frmulas que se tienen en la tabla ANOVA.
grados de libertad 3 4 7
F. calculada. 63.51762519
Para la F tablas se usa la frmula: =INV.F.CD(0.05,3,4) la cual indica el nivel de confianza, los grados de libertad y n-k-1 que tambin son grados de libertad. Seguidamente se realiza la grfica F de Fisher donde ilustre donde caen los valores de F calculada y de F tablas y las zonas de aceptacin y de rechazo.
Esta es F.CAL
ESTA ES F.TABLA.
39
Y por ltimo se toma la decisin con respecto al anlisis de ANOVA. Decisin: Debido a que la F
calculada
tablas,
cae en la
Hiptesis.
H0 H
Interpretacin: Como rechazamos H0, concluimos que el Modelo de Regresin Polinmica es Conveniente.
40
41
RECESIN EXPONENCIAL
El anlisis de regresin exponencial permite conocer la relacin de dos variables entre las cuales se presume una relacin exponencial. Es decir, una relacin que puede representarse con la ecuacin de la lnea recta Y = be mx. Se requiere conocer un conjunto de daos pareados (valores de X y Y) que son datos empricos de las dos variables X y Y. En el modelo de regresin exponencial x (t)=cemt, donde c y m son los parmetros, podemos tomar logaritmo natural en ambos lados para obtener:
+ + Sustituyendo ln x (t) = y (t) y ln = b, obtenemos el modelo lineal para el cual ya sealamos los optimizadores de los parmetros: + El modelo exponencial: x (t) = c1ec2t+c3, introduce el parmetro c3 para considerar asntotas diferentes a cero (c30). Este parmetro no permite convertir el modelo en uno lineal ni en uno cuadrtico. Podemos hallar ecuaciones con c1, c2 y c3 por medio del mtodo de cuadrados mnimos pero no es posible hallar frmulas explcitas para estos parmetros a partir de estas ecuaciones. El objetivo de la regresin exponencial es explicar (o predecir) la variable Y a travs de 1 covariable X: +
42
Para ajustar el modelo se puede reducir a una simple regresin lineal: Si la relacin (X, Y) es exponencial, entonces (X, Ln (Y)) es lineal: + Dnde: Obtenemos los estimadores mnimo-cuadrticos de Entonces. . +
43
Realizaremos el diagrama de dispersin para verificar si se trata de un crecimiento exponencial, aunque sabemos de antemano que cualquier crecimiento biolgico es muy bien representado por este tipo de regresin.
Diagrama De Dispersin
700 600 500 400 300 200 100 0 0 1 2 3 Das de inoculacin 4 5 Cantidad de Bacterias
En esta seccin omitiremos el paso de cmo se realiza por el motivo de que en los casos
Como podemos observar se puede representar como una funcin exponencial y cuadrtica pero por lo antes mencionado es mucho ms seguro que su R se mas grande, se recomienda realizar los dos modelos y determinar cul es el mejor.
2
ya los
lo
vimos
conocimientos
44
Las variables X y Y, en cuyo caso interesa ajustar a la nube de puntos obtenido del diagrama su funcin es de tipo:
De manera que se tiene que hacer una transformacin lineal para facilitar los clculos, tomando logaritmos neperianos, se convierte el polinomio en una cuestin de regresin lineal. Es decir tomando la forma: + Para poder realizar los clculos en las frmulas que tenemos para a y b para el caso lineal tenemos que hacer unas pequeas modificaciones.
2 2
Dnde:
Dnde:
45
Corrida numrica
Despus de haber hecho los clculos indicados en los recuadros azules arrastramos con el mouse las formulas.
Calculada la primer sumatoria arrastramos para calcular las dems para poder realizar los clculos.
46
47
=EXP(a)
formulas
clculos
lo
que
sigue
es
calcular R2, es igual que para cualquier modelo de regresin as como su interpretacin. SSE 2 R2=0.9934 1
48
Agregar la lnea de tendencia Este procedimiento es igual para cualquier modelo de regresin (los que puede manejar Excel) y es una forma de comprobar los clculos que realizamos.
Diagrama De Dispersin
700 Cantidad de Bacterias
600
500 400 300 200 100 0 0 1 2 3 Das de inoculacin 4 5 6 y = 54.373e0.4945x R = 0.9924
Como se puede observar la line de tendencia se ajusta muy bien a la nube de puntos lo cual indica que es muy buena regresin. Si checamos nuestros valores de alfa y beta con muy parecidos a los que arroja Excel pero donde si hay una ligera variacin es en la R2. De igual forma como en las anteriores regresiones los pronsticos para y es cuestin de sustituir el dato y para x es hacer un despeje simple como el en caso lineal o con el anlisis y si como en el caso de la regresin Polinmica. ( )
49
DISTRIBUCION F DE FISCHER
Decisin: Como la FCalc cay en la RR aceptamos H1 lo cual significa que el R.L.S si es significativo.
Regin de aceptacin
10.12
455.04
Como pudo observar en el anlisis de los clculos y las hiptesis han sido igual a la excepcin de los grados de libertad solamente con el caso de regresin Polinmica.
50
51
2 2
++
. . . .
. . . .)
Dnde: ( . ) son los datos de cada X. El recuadro negro es aadido un 1 en cada fila por que representa a 0. 52
Pasos para hacer el desarrollo de la frmula a pasos. 1.- Multiplicar 2.- Invertir la matriz arrojada por la operacin 1 (Matriz de covarianza) 3.- Multiplicar 4.- Multiplicar la matriz de covarianza por esta ltima. Es muy recomendable utilizar estos pasos en ese orden para facilitar la prueba de Hiptesis, adems Excel no puede hacer todos los clculos al mismo tiempo. Anteriormente no haba sido necesario hacer una prueba de hiptesis en las otras regresiones porque tan solo bastaba con el analizas de ANOVA.
53
54
Seleccionamos la matriz X le damos copiar, te posicionas en donde quieres colocar la matriz XT que quiere decir que vamos a transponer todos los valores y (Excel tiene una opcin que lo hace automticamente) das clic derecho pegado especial y seleccionamos transponer tal como lo mostramos a continuacin.
Es la opcin de transponer
55
El siguiente paso es multiplicar la matriz XT por la matriz X hay que tener mucho cuidado con el orden de las matrices, la forma de multiplicarlo es de la siguiente forma: 2 Consiste en colocarse en la
Nos va a aparecer el siguiente recuadro en el cual daremos clic la pestaa para seleccionar la opcin de Matemticas y
aceptar.
Despus de esto aparecer el siguiente recuadro:
56
Hay
que
seleccionar
los
57
De igual forma como en los pasos anteriores hay que posicionarse donde queremos insertar la matriz de covarianza, para insertar la funcin de hacemos los mismos pasos pero en esta ocasin vamos a buscar MINVERSA, lo siguiente que hay que hacer es dar en aceptar y nos arrojara el siguiente recuadro.
58
As nos arrojara el resultado que estamos buscando y para aparecer los dems trminos tenemos que hacer lo mismo que anteriormente tenemos que presionar F2, Shift + Control + Enter ya con las celdas seleccionadas.
Para tener una mejor perspectiva de esta matriz ya que los datos de esta sern utilizados ms adelante aconsejamos hacer lo siguiente:
Marcamos la columna de la matriz identidad y los nombramos para facilitar los clculos. Lo que asemos a continuacin es multiplicar X T * y de la misma forma como lo hicimos por primera vez.
59
Por ultimo tenemos que multiplicar las ltimas dos matices y de esta forma encontraremos todas las NOTA: NO SE TE OLVIDE NOMBRAR LOS PARMETROS.
Una vez ya hecho esto ya estamos listos para terminar la corrida numrica.
Hacemos
las
sumatorias
muestran
enseguida.
60
Como podemos notar el clculo es fcil pero lo que nos debe intrigar es si este es estadsticamente confiable. Como unos expertos en regresiones no nos quedamos con un solo el R2 y procedemos a realizar el anlisis de ANOVA. El anlisis de ANOVA en este caso nos indica que alguna de las que obtuvimos es estadsticamente diferente pero no nos dice cuales, por esta razn le presentaremos una forma de saber cules no son significativa y por lo tanto su X correspondiente tambin, esto quiere decir que en el modelo no influye.
61
F Calc.
Ftab=
4.120311727
DISTRIBUCION F DE FISCHER
Decisin: Como la FCalc cay en la RR aceptamos H1 lo cual significa que el R.L.S si es significativo.
Regin de aceptacin
4.1203
5.1508
62
Probabilidad
Grados de libertad
63
64
Se entiende Intervalo de confianza a una manera ms fcil e igual de confiable que una prueba de hiptesis, ya que te arroja cual beta se puede considerar, o se debe de eliminar en este proceso.
65
CONCLUSIN
Despus de analizar los diferentes tipos de regresiones, nos damos cuenta que son de gran utilidad, para poder obtener resultados confiables que sern de gran utilidad, para formular modelos que nos ayudaran a comprender procesos de cualquier tipo de tal forma que tengamos un control sobre l. El resultado de lo que se obtiene en las diferentes regresiones sobre las variables no garantizan seguir este patrn durante mucho tiempo, dado a que no conocemos cuantas variables influyen en realidad en el problema o proceso. Llegando a la conclusin de que si se recoge informacin con frecuencia y se monitorea esos son una buena arma para una empresa en la cual la permitir hacer las cosas oportunamente.
66