You are on page 1of 80

ESTADISTICA

Prologo
Parafraseando a Joan Robinson:  El propsito de estudiar estadstica no es adquirir un conjunto de respuestas de receta a las preguntas propias de esta ciencia, sino aprender la manera de evitar que los estadsticos nos engaen.
2

Temario
1. 2.

3. 4. 5.

Conocimientos bsicos Correlacin y regresin lineal con dos variables Regresin lineal mltiple Anlisis multivariante Software y bibliografa recomendada
3

1. Conocimientos bsicos
1. 1 Plano cartesiano y lnea recta 1.2 La media 1.3 La desviacin estndar y la varianza

Una ancdota antes de iniciar el curso .


Enseanza de matemticas en 1950: Un cortador de lea vende un carro de lea en $100. El costo de produccin de ese carro es igual a 4/5 del precio de la venta. Cul es la ganancia? Enseanza de matemticas en 1970: Un cortador de lea vende un carro de lea en $100. El costo de produccin de ese carro es igual al 80% del precio de la venta. Cul es la ganancia? Enseanza de matemticas en 1980: Un cortador de lea vende un carro de lea en $100. El costo de produccin de ese carro es de $80. Cul es la ganancia?
5

Una ancdota antes de iniciar el curso .


Enseanza de matemticas en 1990: Un cortador de lea vende un carro de lea en $100. El costo de produccin de ese carro es de $80. Escoja la respuesta correcta, que indica la ganancia: ( ) $ 20.00 ( ) $40.00 ( ) $60.00 ( ) $80.00 ( ) $100.00

Enseanza de matemticas en 2000:

Enseanza de matemticas en 2008:

Un cortador de lea vende un carro de lea en $100. El costo de produccin de ese carro es de $80. La ganancia es de $20. Es correcto? ( ) Si ( ) No Un cortador de lea vende un carro de lea en $100. El costo de produccin de ese carro de lea es de $80. Si Ud. sabe leer coloque una X en los $20 que representan la ganancia. ( ) $ 20 ( ) $40 ( ) $60 ( ) $80 ( ) $100 6

1.1 Plano cartesiano


  

Emplea el sistema de coordenadas rectangulares; Entre otros, permite construir la grfica de una funcin; Los valores del dominio se ubican en el eje horizontal (eje x ) y los valores del contradominio se ubican el eje vertical (eje y ). En tal contexto, la grfica es el conjunto de puntos cuyas coordenadas son valores correspondientes a la variable independiente (dominio) y la variable dependiente (contradominio); o los pares ordenados (x,y ) o (x,f(x)). Para graficar una funcin se puede construir una tabla y asignarle valores a la variable independiente x. Ejemplo: Graficar la funcin y = f(x) = 2X -1
7

1.1 Plano cartesiano


 Estos datos al representarlos en el sistema de coordenadas rectangulares nos arrojan lo siguiente
x y = f(x)= 2x-1 -3 -7 -2 -5 -1 -3 0 -1 1 1 2 3 3 5
Grafica y = 2x -1
6 4 2 Y 0 -4 -2 -2 0 -4 -6 -8 X 2 4 Grafica

1.1 Lnea recta




Es una sucesin o trayectoria de puntos que no cambian de direccin, o bien, en trminos del espacio, es la interseccin de dos planos. Otros conceptos lo complementan: Pendiente de una recta: Uno de los elementos ms importantes de la lnea recta es la pendiente, la cual se define como la tangente del ngulo de inclinacin (aquel que forma la recta con el eje positivo de las X). Dados dos puntos por los cuales pasa la recta, su pendiente se calcula as: m = (y2 y1) / (x2 x1) m = Tg U
9

 

1.1 Concepto de lnea recta

 

Ecuacin de la recta:

Forma intercepcin-pendiente: y = mx + b  Donde (b es la intercepcin con el eje Y). Cfr y = 2x -1 Conocida la pendiente m y un punto cualquiera (x1, y1), la ecuacin es: y y1 = m(x x1) Conocidos dos puntos la ecuacin (x1, y1) y (x2, y2) la ecuacin es: y y1 = [ (y2 y1) / (x2 x1) ] (x x1) 10

1.1 Frmula general de la lnea recta




Forma general de la ecuacin de la recta: La encontramos haciendo operaciones con cualquiera de las formas antes mencionadas, su representacin es: ax + by + c = 0. Se dice que dos puntos son colineales si estn sobre la misma recta. Se dice que dos rectas son perpendiculares si el producto de sus pendientes es 1. Se dice que dos rectas son paralelas si ambas tienen la misma pendiente.

11

1.2 La Media
 

La media aritmtica poblacional se denota como . La media aritmtica muestral es el promedio de los datos.
n

X
X=


i!1

En Excel puede usarse la funcin PROMEDIO

12

1.3 La desviacin estndar y la varianza


 

La varianza poblacional se denota como es el promedio de los cuadrados de las distancias de los datos a su media aritmtica.

W =


X X
i i !1

En Excel puede usarse la funcin VARP

13

1.3 La desviacin estndar y la varianza


 

La varianza muestral se denota como s s se calcula igual que la varianza poblacional, pero dividiendo entre n-1. n

s2 =

X X
i i !1

n -1

s es un estimador insesgado, funciona para cualquier tamao de muestra. En Excel puede usarse la funcin VAR
14

1.3 La desviacin estndar y la varianza





Por otra parte, la desviacin estndar mide la variacin de los datos en trminos absolutos. Se interpreta como la distancia promedio de los datos a su media aritmtica. Se expresa en las mismas unidades que las empleadas en los datos. Se calcula como la raz cuadrada positiva de la varianza. Desviacin Estndar Poblacional:

En Excel se puede usar la funcin DESVESTP

W! W

15

1.3 La desviacin estndar y la varianza




Desviacin Estndar Muestral:

s= s


En Excel puede usarse la funcin DESVEST

16

2. Correlacin y regresin lineal con dos variables


2.1 Introduccin 2.2 Correlacin lineal 2.3 Regresin lineal 2.4 Comentarios 2.5 Ejercicios
17

2.1 Introduccin
 

Muchos problemas del trabajo estadstico involucran dos o mas variables. Ambos temas, correlacin y regresin lineal, son dos de las tcnicas usadas al considerar datos asociados con varias variables. Para fines de presentacin, el mtodo se aplicar al caso de dos variables, pero puede generalizarse. En algunos problemas, las variables se estudian simultneamente para ver la forma en que se encuentran interrelacionadas: Correlacin En otros, hay una variable de inters particular y las restantes se estudian por la posibilidad de que aclaren aspectos de la primera: Regresin lineal
18

2.2 Correlacin lineal




Un problema de correlacin se presenta cuando el individuo se pregunta si hay alguna relacin entre un par de variables que le interesan. Considere los datos de la tabla 1, donde X = promedio de calificaciones de la escuela; Y = promedio de calificaciones del 1er ao de la universidad
Tabla 1 x 3.0 2.4 3.7 3.6 3.8 2.9 3.5 3.0 2.3 3.0 y 2.4 2.6 3.0 3.9 3.6 3.0 3.1 2.8 2.2 2.9 x 2.9 2.7 3.7 2.7 3.3 2.3 3.1 2.8 3.0 2.2 y 1.9 2.2 3.1 2.6 2.8 2.7 2.4 3.0 3.3 1.8 x 3.1 3.3 2.7 3.5 2.9 2.7 2.9 3.2 3.4 2.5 y 2.8 3.2 1.8 2.7 2.1 1.7 1.7 2.3 2.6 2.7

19

2.2 Correlacin lineal




En un intento de descubrir la forma apropiada de la relacin, marcamos los puntos en el plano X,Y mediante un diagrama de dispersin , el cual es un grfico donde la variable X se coloca en el eje de las abcisas, la otra Y en el de las ordenadas y los pares (xi,yi) se representan como una nube de puntos, cuya forma nos informa sobre el tipo de relacin existente entre las variables. En nuestro ejemplo, el diagrama de dispersin muestra que hay una tendencia de los valores bajos de x a asociarse con los valores bajos de y. Tambin, los valores altos de ambas variables tienden a asociarse entre si. Aunque vago, el aspecto general del diagrama de dispersin es el de una lnea recta

20

2.2 Correlacin lineal


Distribucin de calificaciones
Calificaciones del 1er ao universitario
4.1 3.6

3.1

2.6

2.1

1.6 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0

Calificaciones de la Preparatoria

Para calcular en alguna forma el grado de la relacin lineal se sugiere una medida que sea ciertamente independiente de la eleccin del origen de las variables e independiente de la escala de medidas empleada. Considrese el proceso de normalizar , medir en unidades estndar de muestra los datos originales.

21

2.2 Correlacin lineal


 

Constryanse las nuevas variables U y V, donde: Ui = (xi Prom X) / Sx ; Vi = (yi prom Y) / Sy para i = 1,
Paso 3: Normalizacin U V
(x - prom_x) / sx (y - prom_y) / sy

., 30

Diagrama de dispersin de unidades estandard


2.50 2.00

-0.01 -1.38 1.59 1.36 1.82 -0.24 1.14 -0.01 -1.61 -0.01 -0.24 -0.69 1.59 -0.69 0.68 -1.61 0.22 -0.46 -0.01 -1.84 0.22 0.68 -0.69 1.14 -0.24 -0.69 -0.24 0.45 0.91 -1.15

-0.42 -0.05 0.67 2.30 1.75 0.67 0.85 0.31 -0.78 0.49 -1.32 -0.78 0.85 -0.05 0.31 0.13 -0.42 0.67 1.21 -1.50 0.31 1.03 -1.50 0.13 -0.96 -1.68 -1.68 -0.60 -0.05 0.13

Unidades estandarizadas Y

1.50 1.00 0.50 0.00 -2.00 -1.00 -0.50 -1.00 -1.50 -2.00 0.00 1.00 2.00 3.00

-3.00

Unidades estandarizadas X

22

2.2 Correlacin lineal




Despus de normalizar, la mayora de los puntos estn en CI y CIII. Tales puntos tienden a tener coordenadas mayores en magnitud, que los de CII y CIV. La sumatoria del producto de los trminos ui y vi resultantes de la normalizacin, dividido entre el numero de puntos menos uno, n-1, son la clave para encontrar la medida deseada S i ui vi / (n-1) El ndice se llama coeficiente de correlacin (Pearson) y se designa con la letra r, r se define por la formula siguiente: r = ________________ ; o equivalente (n 1) s x s y Si se calcula r a partir de la tabla I se obtiene: r = 0.60.
23

Paso 5: Calculo de r x 3.0 2.4 3.7 3.6 3.8 2.9 3.5 3.0 2.3 3.0 2.9 2.7 3.7 2.7 3.3 2.3 3.1 2.8 3.0 2.2 3.1 3.3 2.7 3.5 2.9 2.7 2.9 3.2 3.4 2.5 del paso 2 prom S = desv est x 3.0 0.4 y 2.4 2.6 3.0 3.9 3.6 3.0 3.1 2.8 2.2 2.9 1.9 2.2 3.1 2.6 2.8 2.7 2.4 3.0 3.3 1.8 2.8 3.2 1.8 2.7 2.1 1.7 1.7 2.3 2.6 2.7 y 2.6 0.6
(x - prom_x)

r=
(n-1) s X s Y

(y - prom_y)

(x - prom_x) (y - prom_y)

0.00 -0.60 0.70 0.60 0.80 -0.10 0.50 0.00 -0.70 0.00 -0.10 -0.30 0.70 -0.30 0.30 -0.70 0.10 -0.20 0.00 -0.80 0.10 0.30 -0.30 0.50 -0.10 -0.30 -0.10 0.20 0.40 -0.50 Paso 6: Culminacin

-0.23 -0.03 0.37 1.27 0.97 0.37 0.47 0.17 -0.43 0.27 -0.73 -0.43 0.47 -0.03 0.17 0.07 -0.23 0.37 0.67 -0.83 0.17 0.57 -0.83 0.07 -0.53 -0.93 -0.93 -0.33 -0.03 0.07

0.00 0.02 0.26 0.76 0.77 -0.04 0.23 0.00 0.30 0.00 0.08 0.13 0.33 0.01 0.05 -0.05 -0.02 -0.08 0.00 0.67 0.02 0.17 0.25 0.03 0.05 0.28 0.10 -0.06 -0.01 -0.04

suma n-1 (n-1) sx s y coef. de correlacin es decir, r

4.21 29.00 7.01 0.60

Por tanto

24

2.2 Correlacin lineal




Ntese lo siguiente:  r pertenece al intervalo [-1, 1], es decir -1 <= r <= 1,  El valor absoluto de r mide la fuerza de la relacin lineal  Luego r = 1 r = -1 si y solo si todos los puntos del diagrama se encuentran sobre una lnea recta  Si r > 0 la tendencia lineal es positiva, i. e. la pendiente de la lnea de tendencia es positiva  Si r < 0 la tendencia lineal es negativa, i. e. la pendiente de la lnea de tendencia es negativa  El coeficiente r es una medida simtrica. La correlacin entre X e Y es la misma que entre Y y X.

25

2.2 Correlacin lineal




La interpretacin de r como medida del grado de relacin lineal entre dos variables es una interpretacin matemtica pura y est completamente desprovista de implicaciones causa y efecto. El hecho de que dos variables tiendan a aumentar o disminuir al mismo tiempo no implica que una tenga algn efecto directo o indirecto en la otra. Las r s deben manejarse con cuidado si se va a dar una informacin sensata respecto a la relacin entre pares de variables. Los coeficientes de correlacin han probado su utilidad, p. e. en pruebas psicolgicas y en otros campos en que es importante determinar la interrelacin de algunas variables que se estudian simultneamente.
26

2.3 Regresin lineal




Es usual estudiar la relacin entre dos o ms variables con la esperanza de estimar o predecir una de las variables en particular. Los mtodos desarrollados para manejar problemas de prediccin se conocen como mtodos de regresin. Por ejemplo, considrese el problema de predecir el rendimiento del pasto como funcin de la cantidad de agua de irrigacin aplicada: OJO: r solo indica qu tan estrecha es la relacin lineal entre las variables y no es capaz de resolver problemas de prediccin. Por supuesto, permite indicar cuales variables conviene incluir en un experimento para fines de prediccin.
27

2.3 Regresin lineal




Sea X la cantidad de agua aplicada (pulgadas); sea Y el rendimiento de forraje del terreno de una granja experimental (toneladas),
Tabla 2 Agua Rendimiento X Y 12 5.27 18 5.68 24 6.25 30 7.21 36 8.02 42 8.71 48 8.42

Rendimiento del forraje como funcin de la cantidad de irrigacin


Rendimiento del forraje
9 8.5 8 7.5 7 6.5 6 5.5 5 5 15 25 35 45 55

Agua aplicada

28

2.3 Regresin lineal




Segn la grafica, el conjunto de observaciones X y Y se relacionan en forma aproximadamente lineal. Luego, se ajustar una lnea recta a tal conjunto de puntos para predecir el valor de y partiendo del valor de x. Si se acepta la linealidad, entonces se espera que el valor dado por la lnea recta ajustada a la muestra, en cualquiera de los siete puntos x s de la muestra, sea una mejor estimacin de y, porque se espera ms estabilidad en la lnea recta ajustada de la muestra que en una sola observacin puntual. Si hay inters en un valor intermedio de x, se emplea la lnea recta ajustada de la muestra para encontrar el valor estimado de y para tal valor de x. Ojo: Puesto que se supone una relacin lineal slo en esta regin de valores de X, no es legitimo usar la lnea recta para predecir valores de Y fuera de este intervalo de valores de X !!! 29

2.3 Regresin lineal




El problema de la prediccin lineal se reduce entonces al problema de ajustar una lnea recta a un conjunto de puntos. Si la ecuacin de la lnea recta se escribe como Y = mX + b ; solo restara determinar los valores de tales parmetros, de manera que la recta coincida de manera satisfactoria con el conjunto de puntos. Hay numerosos mtodos para desarrollar la estimacin de tales parmetros, el ms conocido para problemas de regresin es el mtodo de la suma de los mnimos cuadrados. Como la recta deseada se usar para predecir, es razonable pedir que la recta haga pequeos los errores de prediccin, entendido como la diferencia entre un valor observado de y, respecto del valor correspondiente en la lnea recta de y. 30

2.3 Regresin lineal


 

Los errores de prediccin en la grfica de la Tabla 2 son los pequeos segmentos verticales de los puntos observados la recta. Los puntos que estn por arriba (abajo) de la recta dan errores positivos (negativos). Por tanto, no servira pedir que la suma de los errores sea tan pequea como sea posible. Esto podra evitarse si consideramos el valor absoluto de la magnitud de los errores, pero complicara su manejo matemtico. La dificultad se evita requiriendo que la suma de los cuadrados de los errores se haga tan pequea como sea posible. Formulas de regresin lineal (2 Variables)

31

2.3 Regresin lineal


 

Mediante la gestin de los trminos algebraicos se pueden deducir formulas equivalente para m. De la tabla 2 se concluye:
prom 30.00 7.08 suma

Agua Rendimiento

X Y

12.00 5.27 -18.00 -1.81 32.58 324.00

18.00 5.68 -12.00 -1.40 16.80 144.00

24.00 6.25 -6.00 -0.83 4.98 36.00

30.00 7.21 0.00 0.13 0.00 0.00

36.00 8.02 6.00 0.94 5.64 36.00

42.00 8.71 12.00 1.63 19.56 144.00

48.00 8.42 18.00 1.34 24.12 324.00

Agua X - prom X Rendimiento Y - prom Y


(X-promX) (Y-prom Y)
(X - prom X)^2

103.68 1,008.00 m= b= 0.10 3.99

Luego Y = 0.10 X + 3.99

Luego

32

2.4 Regresin lineal




Despus de ajustar la lnea de regresin, se puede inspeccionar su grafica y observar que tan exactamente predice valores de Y, p. e. calculando las magnitudes de todos los errores de prediccin yi y i. En tal contexto, una medida til de la exactitud de la prediccin se n obtiene calculando la media de los cuadrados yi  yi ' 2 de los errores de prediccin, segn la expresin i !1 Si dividimos entre n-2, se puede mostrar que el resultado es una estimacin no sesgada de s2, donde s2 es la varianza de los errores de prediccin. Si se hace esto, la expresin resultante se designa se y se llama error estndar de estimacin , o bien error tpico . n As pues, en funcin de las variables originales yi  yi ' 2 El error estndar de estimacin es: se ! i !1
n-2 n

 

33

2.4 Regresin lineal




A partir de la tabla 2:
y real prediccin (y') y1 5.27 5.2286 0.041 0.002 Calculo de SSResid (suma residual de los cuadrados) y2 y3 y4 y5 y6 y7 suma 5.68 6.25 7.21 8.02 8.71 8.42 5.8457 6.4629 7.08 7.6971 8.3143 8.9314 -0.166 -0.213 0.130 0.323 0.396 -0.511 0.027 0.045 0.017 0.104 0.157 0.262 0.6138 ssresid n- 2= 7-2= error estandar funcin de excel: error.tipico.xy 5 0.3504 0.3504

errores de prediccin = (y-y') 2 2 (errores de prediccin) = (y-y')

34

2.4 Regresin lineal

dispersin (resp prom y) errores de prediccin^2 CALCULO ALTERNO DE r 2 es decir r


2

Calculo de SSReg (suma de regresin de los cuadrados) y1 y2 y3 y4 y5 y6 y7 suma 5.27 5.68 6.25 7.21 8.02 8.71 8.42 -1.85 -1.23 -0.62 0.00 0.62 1.23 1.85 3.428 1.523 0.381 0.000 0.381 1.523 3.428 10.664 0.94558 SSReg / (SSReg + SSResid)

2.4 Regresin lineal




Si se supone, que existe una lnea de regresin terica de la cual la recta de mnimos cuadrados es una estimacin y adems se supone que los valores de yi yi es ahora el valor en la lnea terica, son independientes y normalmente distribuidos con media cero y la misma desviacin estndar s, entonces se es una estimacin de s. Se puede sealar que aproximadamente el 95% de los errores de prediccin seran menos que 1.96 se en magnitud. La aproximacin proviene de que 1.96s ha sido substituida por su estimacin de muestra 1.96se y porque solo se tiene a mano la recta de regresin de la muestra. Aun cuando la muestra del ejercicio es demasiado pequea los resultados se expresan en la siguiente grafica:

2.4 Regresin lineal


Banda de Prediccin con Probabilidad deseada
10.00 9.00 Rendimiento (Ton) 8.00 7.00 6.00 5.00 4.00 0.00

Serie1 Serie2 Serie3 Serie4

10.00

20.00

30.00

40.00

50.00

60.00

Agua (pulgadas)

2.4 Regresin lineal




Puede verse que los siete puntos estn colocados dentro de la banda del 95% como era de esperarse. En una larga serie de experimentos similares estos, puede esperase que el 95% de los puntos que los representan quedarn situados dentro de la banda trazada. Esta interpretacin geomtrica del problema es muy practica, pues proporciona al investigador una idea de los valores Y que puede esperar obtener si efecta experimentos para otros valores de X !!!

2.4 Regresin lineal




Extrapolacin vs Interpolacin: Predecir un valor de Y para cierto X, cuyo valor queda fuera de la regin de los valores observados de X, extrapolacin, es considerablemente ms difcil que el de predecir valores de X que estn dentro del intervalo de observaciones, interpolacin. En la extrapolacin las hiptesis necesarias para justificarla rara vez se presentan en situaciones de la vida real. P. e., es muy poco probable que la relacin existente, entre el riego de un terreno de sembrado y su rendimiento en forraje siga siendo lineal para valores X fuera de la regin de valores observados. Finamente, si el diagrama de dispersin indica que la relacin entre X y Y no es lineal, puede aun usarse el modelo lineal si es posible encontrar una funcin de X y una funcin de Y, tales que la relacin entre estos valores funcionales sea lineal.

2.4 Regresin lineal




Aun cuando r es til para describir que tan estrechamente se encuentran relacionadas linealmente dos variables, no es muy til en otros sentidos. Un coeficiente r no se presta a enunciados cuantitativos, a menos que se asocien con la regresin. Por lo general, la correlacin solo es la primera parte en el estudio de la relacin de dos variables, mientras que la regresin es la tcnica bsica en este tipo de estudios. La regresin lineal permite explicitar c/u de los parmetro de la lnea, es una solucin nica con mtodo exacto.
40

2.5 Ejercicios
1.

A partir de una muestra de 5 terrenos cuyos datos corresponden a ingresos brutos por Ha. y valor del terreno por Ha., estime mediante regresin lineal el valor unitario de un terreno cuyos ingresos Brutos por Ha. son $800. Los datos de la muestra se presentan en la siguiente tabla:
Modelacin con una variable
7,000 MODELO PARA DETERMINAR VALOR

Muestra 1 2 3 4 5 Inmueble objeto

Valor Unitario por Hectarea

Valor $/Ha Y 4,200 6,100 6,800 6,200 5,000

Ingr Brutos / HA X 400 750 870 800 600 800

6,500

6,000

5,500

5,000

4,500

4,000 300

400

500

600

700

800

900

Ingresos Brutos por Hectarea

41

Tratamiento por regresin lineal de una variable Y = mX + b


donde:

Solucin Pedestre Paso 1: Determinacin de m


Muestra 1 2 3 4 5 promedio Valor $/Ha Y 4,200 6,100 6,800 6,200 5,000 5,660 Ingr Brutos / HA X 400 750 870 800 600 684 Numerador X - prom X -284 66 186 116 -84 Y- prom Y -1,460 440 1,140 540 -660 ( X-prom X ) ( Y-promY ) 414,640 29,040 212,040 62,640 55,440 773,800 Denominador [X - prom X]2 80,656 4,356 34,596 13,456 7,056 140,120

m igual a Paso 2: Determinacin de b Luego, Paso 3: Estimacin b igual a 1,882.6720

5.5224

Una vez construida la recta Y = mx + b ; Se pueden substituir los valores de m y b Si deseo sabe el valor de x = 800 Y= 6,300.60
42

Paso 4: Coeficiente de correlacin Alternativamente r=


(n-1) s X sY

donde sx (sy ) es la desv estndar de X (Y),

sX =

Qu significa r2? r2 es un indice que vara entre 0 y 1 si su valor es cercano a 1 significa una tendencia lineal en los datos Si su valor es cero, no hay una relacionlineal entre los datos Paso 4.1: Determinacin del Coeficiente de correlacin

Valor $/Ha Muestra 1 2 3 4 5 promedio Y 4,200 6,100 6,800 6,200 5,000 5,660

Ingr Brutos / HA X 400 750 870 800 600 684 X - prom X -284 66 186 116 -84

Numerador Y- prom Y -1,460 440 1,140 540 -660 suma (X-prom X) (Y-promY) 414,640 29,040 212,040 62,640 55,440 773,800

Denominador [X - prom X]2 [Y - prom Y]2 80,656 2,131,600 4,356 193,600 34,596 1,299,600 13,456 291,600 7,056 435,600 140,120 producto raz denominador 4,352,000 609,802,240,000 780,898.35 780,898.35

numerador

773,800

Luego, r =

99.09%

r2=

43 98.19%

2.5 Ejercicios
Paso 5: Solucin semiautomtica funcin de excel
pendiente interseccin.Eje coeficiente.r2

Resultado 5.5224 1,882.6720 98.19% 6,300.60 6,300.60

pronostico tendencia

Modelo para determinar valor


7,000 Valor Unitario por Ha 6,500 6,000 5,500 5,000 4,500 4,000 350 550 750 950 Lineal (datos originales) datos originales y = 5.5224x + 1882.7 R = 0.9819

Ingresos Brutos por Ha

44

3. Regresin lineal mltiple


3.1 Comentarios 3.2 Ejercicios

45

3.1 Comentarios
 

La mayora de los problemas de prediccin involucran ms de una variable en la obtencin de la prediccin. Por ejemplo, si se quiere predecir la variable Y por una funcin lineal de las variables X1 y X2, el problema se convierte en el de encontrar el plano de mejor ajuste en el sentido de mnimos cuadrados a un diagrama de dispersin de puntos en 3 dimensiones. En sntesis, es un tratamiento matemtico anlogo a regresin lineal simple. Se puede explicitar cada parmetro, solucin nica, mtodo exacto

46

3.2 Ejercicios
1.

A partir de una muestra de 5 terrenos cuyos datos corresponden a ingresos brutos por Ha., riesgo de helada (pp) y poblacin activa, estime mediante regresin lineal mltiple el valor unitario de un terreno cuyos ingresos Brutos por Ha. son $800, riesgo de helada 11% y 1,200 habitantes dedicados a la actividad agrcola en su ubicacin. Los datos de la muestra se presentan en la siguiente tabla:
Valor $/Ha Muestra 1 2 3 4 5 Inmueble objeto Y 4,200 6,100 6,800 6,200 5,000 ? Riesgo de Poblacin activa helada (pp) por Ingr Brutos / Ha aos que se ha producido agraria agrcola X1 X2 X3 400 11 1,200 750 10 1,250 870 11 1,300 800 10 1,400 600 10 1,300 800 11 1,200

47

3.2 Ejercicios
CONTROL + SHIFT + ACEPTAR

ejemplo de regresin lineal de varias variables Solucin Automatica Anlisis Y, (X1, X2, X3) Funcin estimacin.lineal

48

4. Anlisis multivariante.
4.1 Introduccin 4.2 Anlisis de componentes principales 4.3 Anlisis discriminante 4.4 Anlisis cluster

49

4.1 Introduccin


El anlisis multivariante es un conjunto de tcnicas estadsticas utilizadas cuando se trabaja sobre colecciones de datos en las cules hay muchas variables implicadas, en el sentido de que hay varias variables medidas para cada individuo objeto estudiado. Su razn de ser radica en un mejor entendimiento del fenmeno objeto de estudio obteniendo informacin que los mtodos estadsticos univariantes y bivariantes son incapaces de conseguir.

50

4.1 Introduccin


El anlisis multivariante ayuda al analista o investigador a tomar decisiones ptimas en el contexto en el que se encuentre teniendo en cuenta la informacin disponible por el conjunto de datos analizado Hair et al. (1999) dicen: Las mujeres y hombres de negocios de hoy no
pueden seguir aproximaciones ya pasadas en las que los consumidores eran considerados homogneos y caracterizados por un nmero pequeo de variables demogrficas. En su lugar, deben desarrollar estrategias que atraigan a numerosos segmentos de clientes con caractersticas demogrficas y psicogrficas diversas en un mercado con mltiples restricciones (legales, econmicas, competitivas, tecnolgicas, etc.). Slo a travs del anlisis multivariante las relaciones mltiples de este tipo podrn ser examinadas adecuadamente para obtener un entendimiento ms completo y real del entorno que permita tomar las decisiones ms adecuadas.

51

4.1 Introduccin
 

Mtodos con variable dependiente Hay una variable que depende de otras que se miden como independientes o predictoras . Tienen un inters predictivo.

   

Por ejemplo: Regresin lineal mltiple Mtodos con slo variables independientes No se distingue entre variables dependientes e independientes. Tienen un inters descriptivo en el sentido de clasificar objetos en funcin de las variables.

52

4.1 Introduccin
Mtodos con slo variables independientes:

53

4.1 Introduccin


Los principales problemas, en este contexto, son:  Anlisis de componentes principales (ACP)  Anlisis discriminante  Anlisis cluster

54

4.2 Anlisis de componentes principales (ACP)




Muchas variables que se toman entre los individuos de la poblacin estn correlacionadas, generando informacin redundante. Por tanto, interesa reducir el nmero de variables para resumir adecuadamente la informacin. As, el ACP consiste en crear artificialmente unas pocas variables nuevas que retengan una parte significativa de la informacin proporcionada por los datos . El procedimiento para crear dichas variables es matemtico y no hay seguridad de que stas tengan un sentido claro; pero, en muchos casos se les puede dotar de sentido. Ejemplo: si tomas como variables las notas de un conjunto de alumnos de Bachillerato en distintas materias, el ACP puede reducir a unas pocas variables nuevas, que quiz se identifiquen como ndices de competencia humanstica, cientfico-tcnica, etc.

55

4.2 Anlisis de componentes principales (ACP)




Dadas X1, ,Xn variables, tomadas de una cierta poblacin, que poseen las siguientes caractersticas:  n es grande  Entre ellas hay correlaciones  Tienen significacin, i. e. cada Xi tiene un sentido claro. determinar nuevas variables Y1, ,Ym, llamadas componentes principales, c/u de ellas de la forma Yj = a1jX1 + + anjXn donde el coeficiente akj recibe el nombre de peso de la variable Xk en Yj con las siguientes caractersticas:  m < n (a menudo, significativamente menor)  Las Yj son independientes, i. e. entre ellas no hay correlaciones. Por tanto, no proporcionan informacin redundante
56

4.2 Anlisis de componentes principales (ACP)


En principio, los CP s se obtienen a partir de un procedimiento matemtico, y no hay certeza de que tengan un significado claro. Pero, al observar en las Yj las variables con mayor peso (i. e., aquellas a las que corresponden los mayores akj), algunas Yj pueden interpretarse (observemos que para hacer efectivo este criterio, las Yj deben ser de tamaos similares). Inicialmente, el procedimiento matemtico suministra Y1, ,Yn. El mismo numero de variables Y s que de Variables X s, (lo cul no supone ningn adelanto). Sin embargo, las Yj aparecen ordenadas segn el porcentaje de informacin original (procedente de las Xi) que retienen. As, basta con tomar unas cuantas Yj, no todas, para retener un porcentaje de informacin suficiente. OJO: Esta etapa del proceso reduce el nmero de variables.


57

4.2 Anlisis de componentes principales (ACP)




Dicho porcentaje de informacin se mide como el porcentaje de varianza original retenida. De hecho, conocidas:
 

las varianzas de las Yj se determinan, ya que la varianza conjunta de varias variables se estima como la suma de las varianzas. Puesto que la varianza conjunta de las Xi supone una estimacin de la diversidad presente en los datos, para que un nmero reducido de Yj describa suficientemente bien la poblacin, la varianza conjunta de estas Yj debe suponer un porcentaje suficientemente grande de la variabilidad original (p. e. cerca del 80%). De hecho, este es el criterio que suele considerarse para escoger las componentes principales ms relevantes.

las varianzas de las Xi, que se calculan con los datos originales; las expresiones de las Yj, una vez determinados los pesos de las Xi en cada Yj;

58

4.2 Anlisis de componentes principales (ACP)




Ejemplo: Anlisis de componentes principales

 

Estas CPi explicarn la mayor variabilidad de las variables originales Las CPi presentan incorrelacin entre ellas

59

4.3 Anlisis discriminante




 1.

2.

Sea Y una variable categrica (o discreta) que recibe el nombre de variable clasificadora o factor de clasificacin, con una cantidad k finita de valores (niveles) posibles, y varias variables numricas X1, , Xn. Tanto la variable Y como las Xi se registran simultneamente sobre un conjunto de individuos. Se plantean entonces dos cuestiones: Entre las variables Xi detectar las ms influyentes. I. e. cules permiten discriminar mejor el valor de Y entre distintas opciones? Obsrvese que en el fondo estamos intentando detectar influencias . OJO: funciones discriminantes. Dado un nuevo individuo que ha registrado los valores de las variables Xi, predecir el valor ms probable de Y para dicho individuo, i. e., clasificar al individuo en alguno de los niveles posibles para la variable Y. OJO: funciones de clasificacin.

60

4.3 Anlisis discriminante




 

Las funciones discriminantes son expresiones del tipo: F1 = a1X1 + a2X2 + + anXn F2 = b1X1 + b2X2 + + bnXn . donde los ai, bj, etc. reciben el nombre de pesos. Cada funcin discriminante posee un cierto poder discriminante. El procedimiento proporciona varias funciones discriminantes; de ellas, se toman unas cuntas (en ocasiones, bastar con una) de modo que el poder discriminante total sea grande. Cada funcin discriminante permite discriminar entre distintas opciones, de modo que el uso sucesivo de todas las funciones permite discriminar efectivamente el valor de Y.
61

4.3 Anlisis discriminante




P. e., Sea un conjunto de pacientes afectados por cierta enfermedad, donde las Xi son # de pulsaciones, # de glbulos rojos, niveles de calcio, potasio, etc. La variable cualitativa Y indica un diagnostico sobre un enfermo del tipo cura totalmente , cura parcialmente o no cura . Quiz se tengan dos funciones discriminantes y la primera permita distinguir entre los pacientes que se curan (total o parcialmente) y aquellos que no, mientras que la segunda permita distinguir los cura totalmente de los cura parcialmente . Si, por el contrario, se tiene slo una funcin discriminante, de su valor podramos deducir directamente el posible diagnstico entre las tres alternativas que se dan. Ntese que, si las variables involucradas en la funcin tienen tamaos similares, las variables que poseen mayor peso en cada funcin discriminante son las ms influyentes a la hora de discriminar la variable Y entre las alternativas correspondientes a dicha funcin.
62

4.3 Anlisis discriminante




Si la variable Y tiene k niveles posibles, hay k funciones de clasificacin: s1 = c10 + c11X1 + + c1nXn sj = cj0 + cj1X1 + + cjnXn sk = ck0 + ck1X1 + + cknXn De modo que para un nuevo individuo con valores x1, ,xn en las respectivas variables Xi, el valor ms probable de Y para dicho individuo se obtiene sustituyendo los valores x1, ,xn en las funciones de clasificacin y tomando el nivel correspondiente al subndice de aquella funcin que de un valor mayor. En el caso de las funciones de clasificacin, los coeficientes de las funciones no son interpretables, y por tanto no pueden utilizarse para responder a la pregunta (1).
63

4.4 Anlisis cluster




Dado un numero suficientemente grande de individuos entre los cules se han registrado los valores de las variables numricas X1, ,Xn, queremos dividir a dichos individuos en k grupos distintos, denominados clusters, segn criterios de homogeneidad. El nmero de grupos lo fija el experimentador, de modo que los elementos de cada grupo posean cierta afinidad. La tcnica para determinar los clusters es matemtica. Afinidad se traduce en procedimientos matemticos que agrupen observaciones. Como en el ACP, corre a cargo del experimentador dar sentido a c/u de los grupos determinados. I. e., encontrar los rasgos comunes a las observaciones pertenecientes a un cluster dado. P. e., en el caso de los clientes de una empresa, el anlisis cluster servira para dividir a dichos clientes en distintos grupos, c/u con un perfil distinto. 64

4.4 Anlisis cluster


1. Se fija una cierta distancia. Habitualmente es la eucldea al cuadrado, i. e. la distancia entre dos puntos del plano es el cuadrado de la longitud del segmento de recta que los une; tal nocin puede generalizarse al espacio y ms dimensiones. Hay, no obstante, otros conceptos posibles de distancia que podran usarse. 1.1Se fija un nmero (k) de clusters. 2. Se busca la pareja de datos ms prxima, conforme al punto 1. Dicha pareja forma, provisionalmente, un grupo. 3. A partir de este momento, continuamos buscando la pareja ms prxima. En este sentido, el grupo formado en 2 cuenta ahora como una sola entidad. Luego, se hace necesaria definir la distancia de una observacin a un grupo como el anterior, o, en general, la distancia entre dos grupos (p. e., entre dos parejas que han sido encontradas en distintos pasos del procedimiento). Para medir distancias entre grupos hay distintas posibilidades. Entre ellas:
65


Para formar los clusters, el procedimiento es el siguiente:

4.4 Anlisis cluster


mtodo del centroide: Se sustituye el grupo por el punto (centroide) cuyas coordenadas son las medias de las observaciones que integran el grupo. Luego, la distancia entre dos grupos es la distancia entre sus centroides, medida segn (1).  mtodo del vecino ms prximo: La distancia entre dos grupos es la menor de las distancias, segn 1, entre los integrantes de c/ grupo.  mtodo de Ward: tiene en cuenta la variabilidad total de c/grupo, de modo que la distancia entre dos grupos se define como el aumento que se producira en la variabilidad conjunta si ambos grupos se fundieran para formar uno slo. Este mtodo requiere que la distancia fijada en (1) sea la eucldea al cuadrado.  etc. 4. Reiteramos el paso 3 hasta obtener k clusters.


66

4.4 Anlisis cluster




Conviene observar que el experimentador tiene que decidir tanto el nmero de clusters, como la distancia entre observaciones y la distancia entre grupos. Distintas elecciones para estos parmetros llevan a resultados distintos, con lo cul en cada caso habr que ver qu elecciones arrojan resultados ms significativos.

67

4.4 Anlisis cluster




Ejemplo: Anlisis jerrquico de clusters

68

4.4 Anlisis cluster


1.

Transformacin de variables para uniformar sus escalas (slo variables cuantitativas) Estandarizar las variables, si fuera necesario. Elegir una medida de distancia entre objetos. Elegir un algoritmo para unir (fusionar) grupos. Decidir el nmero final de clusters e interpretarlos

   

69

4.5 Comentarios


A menudo las tcnicas anteriores se combinan:




Por ejemplo, la prediccin de una cierta variable categrica Y puede mejorar cuando se utilizan no ciertas variables Xi, sino ciertas combinaciones de las Xi determinadas a partir de un anlisis en componentes principales. O que el anlisis discriminante funcione mejor sobre los elementos de un cierto cluster, en lugar de aplicarse a toda la muestra, etc.

70

5. Software y bibliografa recomendada


 

Se puede trabajar sobre distintas softwares, por ejemplo: Statgraphics, ver pagina siguiente, localizable en: http://www.statgraphics.net/Download.htm Xlstat, promocionada como la herramienta la ms completa y utilizada de anlisis de datos y estadsticas para Microsoft Excel, localizable y descargable en http://www.xlstat.com/es/home/ Sin embargo, yo recomendara ampliamente el SPSS ver pagina web http://www.spss.com/ (en ingles). O bien, en espaol, http://www.spss.com.mx/ para tener una idea completa del producto. Se puede descargar un software trial para 15 das en http://forms.cognos.com/?elqPURLPage=4333&mc=web_spss_download 71

72

5. Software y bibliografa recomendada




Introduccin al SPSS: Statistical Package for the Social Sciences (SPSS) es un programa estadstico informtico muy usado en las ciencias sociales y las empresas de investigacin de mercado. Originalmente SPSS fue creado como el acrnimo de Statistical Package for the Social Sciences. Hoy, la sigla se usa tanto para designar el programa estadstico como la empresa que lo produce. El paquete SPSS es una herramienta para el anlisis de datos, que nos permite realizar diversos tipos de anlisis estadsticos de acuerdo a las caractersticas de la informacin que utilicemos. A travs de SPSS podemos generar diferentes estudios, ya sean descriptivos o de inferencia, permitindonos realizar desde una mera 74 simple descripcin de datos hasta modelos estadsticos.

5. Software y bibliografa recomendada





b) Historia del SPSS


SPSS fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent. para su uso por grandes computadoras. De 1969 a 1975 el National Opinin Research Center de la Universidad de Chicago estuvo a cargo del desarrollo, distribucin y venta del programa. A partir de 1975 corresponde a la empresa SPSS Inc. Hacia 1970 se publica el primer manual de usuario del SPSS por Nie y Hall. Este manual populariza el programa entre las instituciones de educacin superior en USA. En 1984 sale la primera versin para computadores personales. Como programa estadstico es muy popular su uso debido a la capacidad de trabajar con bases de datos de gran tamao. La versin 12 del SPSS es de 2 millones de registros y 250,000 variables. Adems, de permitir la recodificacin de las variables y registros segn las necesidades del usuario. El programa consiste en un mdulo base y mdulos anexos que se han ido actualizando constantemente con nuevos procedimientos estadsticos. Cada uno de estos mdulos se compra por separado. Actualmente, compite no solo con softwares licenciados como lo son SAS, MatLab o Stata, sino tambin con software de cdigo abierto y libre, de los cuales el ms destacado es el Lenguaje R.
75

 

5. Software y bibliografa recomendada


 


SPSS Advantage for Excel 2007 - (90MB) Download the free trial version of SPSS Advantage for Excel 2007. This Microsoft Excel add-on product enables business users to seamlessly add select SPSS functionality to Microsoft Excel 2007, gaining powerful data utility and analysis tools. The trial is the full version of SPSS Advantage for Excel 2007 with a free 14-day trial license. To purchase SPSS Advantage for Excel and obtain an authorization code for perpetual use, contact SPSS Inc. If you are in North America, call 1.800.543.2185 or e-mail sales@spss.com. To find out the availability of SPSS Advantage for Excel in your area, contact your local office.

Respecto a la versin de student les recomiendo visitar el sitio http://www.spss.com/downloads/Papers.cfm?prod_familyID=000 05&Name=SPSS Una vez ah en la parte final de la hoja ubiquen

Siguiendo las instrucciones primero se registraran y luego les permitira bajar el software de prueba

5. Software y bibliografa recomendada


 

Introduccin a la Estadstica Descriptiva ; Luis Ignacio Hernndez Vivar, 2009 Estadstica Aplicada ; Julin de la Horra Navarro; Editorial Daz de Santos; 1 Edicin 1995; 179 paginas SPSS 10 Gua para el Anlisis de Datos , extrado de Internet Cuanto vale un predio rustico?. Propuesta metodologa dese una visin objetiva ; Oscar Prez Veyna, Netzahualcyotl Flores Lzaro; XXIII Congreso Panamericano de Valuacin; Abril 2008, San Jos, Costa Rica. El modelo economtrico aplicado a la valoracin ; Jorge A. Hernndez Plascencia; Baldomero Segura Garca del Ro; XXIII Congreso Panamericano de Valuacin; Abril 2008, San Jos, Costa Rica. Mtodos de Valoracion del agua para uso agrcola ; Oscar Prez Veyna, 45 Congreso Nacional de Valuacin Noviembre 2009, Cancn, Mxico 77

Reflexiones


La crisis segn Albert Einstein No pretendamos que las cosas cambien, si siempre hacemos lo mismo. La crisis es la mejor bendicin que puede sucederle a personas y pases, porque la crisis trae progresos. La creatividad nace de la angustia como el da nace de la noche oscura. Es en la crisis que nace la inventiva, los descubrimientos y las grandes estrategias. Quien supera la crisis se supera a s mismo sin quedar 'superado'. Quien atribuye a la crisis sus fracasos y penurias, violenta su propio talento y respeta ms a los problemas que a las soluciones. La verdadera crisis, es la crisis de la incompetencia. El inconveniente de las personas y los pases es la pereza para encontrar las salidas y soluciones.
78

Sin crisis no hay desafos, sin desafos la vida es una rutina, una lenta agona. Sin crisis no hay mritos. Es en la crisis donde aflora lo mejor de cada uno, porque sin crisis todo viento es caricia. Hablar de crisis es promoverla, y callar en la crisis es exaltar el conformismo. En vez de esto, trabajemos duro. Acabemos de una vez con la nica crisis amenazadora, que es la tragedia de no querer luchar por superarla.

79

Comentarios o Sugerencias

80

You might also like