Professional Documents
Culture Documents
Prologo
Parafraseando a Joan Robinson: El propsito de estudiar estadstica no es adquirir un conjunto de respuestas de receta a las preguntas propias de esta ciencia, sino aprender la manera de evitar que los estadsticos nos engaen.
2
Temario
1. 2.
3. 4. 5.
Conocimientos bsicos Correlacin y regresin lineal con dos variables Regresin lineal mltiple Anlisis multivariante Software y bibliografa recomendada
3
1. Conocimientos bsicos
1. 1 Plano cartesiano y lnea recta 1.2 La media 1.3 La desviacin estndar y la varianza
Un cortador de lea vende un carro de lea en $100. El costo de produccin de ese carro es de $80. La ganancia es de $20. Es correcto? ( ) Si ( ) No Un cortador de lea vende un carro de lea en $100. El costo de produccin de ese carro de lea es de $80. Si Ud. sabe leer coloque una X en los $20 que representan la ganancia. ( ) $ 20 ( ) $40 ( ) $60 ( ) $80 ( ) $100 6
Emplea el sistema de coordenadas rectangulares; Entre otros, permite construir la grfica de una funcin; Los valores del dominio se ubican en el eje horizontal (eje x ) y los valores del contradominio se ubican el eje vertical (eje y ). En tal contexto, la grfica es el conjunto de puntos cuyas coordenadas son valores correspondientes a la variable independiente (dominio) y la variable dependiente (contradominio); o los pares ordenados (x,y ) o (x,f(x)). Para graficar una funcin se puede construir una tabla y asignarle valores a la variable independiente x. Ejemplo: Graficar la funcin y = f(x) = 2X -1
7
Es una sucesin o trayectoria de puntos que no cambian de direccin, o bien, en trminos del espacio, es la interseccin de dos planos. Otros conceptos lo complementan: Pendiente de una recta: Uno de los elementos ms importantes de la lnea recta es la pendiente, la cual se define como la tangente del ngulo de inclinacin (aquel que forma la recta con el eje positivo de las X). Dados dos puntos por los cuales pasa la recta, su pendiente se calcula as: m = (y2 y1) / (x2 x1) m = Tg U
9
Ecuacin de la recta:
Forma intercepcin-pendiente: y = mx + b Donde (b es la intercepcin con el eje Y). Cfr y = 2x -1 Conocida la pendiente m y un punto cualquiera (x1, y1), la ecuacin es: y y1 = m(x x1) Conocidos dos puntos la ecuacin (x1, y1) y (x2, y2) la ecuacin es: y y1 = [ (y2 y1) / (x2 x1) ] (x x1) 10
Forma general de la ecuacin de la recta: La encontramos haciendo operaciones con cualquiera de las formas antes mencionadas, su representacin es: ax + by + c = 0. Se dice que dos puntos son colineales si estn sobre la misma recta. Se dice que dos rectas son perpendiculares si el producto de sus pendientes es 1. Se dice que dos rectas son paralelas si ambas tienen la misma pendiente.
11
1.2 La Media
La media aritmtica poblacional se denota como . La media aritmtica muestral es el promedio de los datos.
n
X
X=
i!1
12
La varianza poblacional se denota como es el promedio de los cuadrados de las distancias de los datos a su media aritmtica.
W =
X X
i i !1
13
La varianza muestral se denota como s s se calcula igual que la varianza poblacional, pero dividiendo entre n-1. n
s2 =
X X
i i !1
n -1
s es un estimador insesgado, funciona para cualquier tamao de muestra. En Excel puede usarse la funcin VAR
14
Por otra parte, la desviacin estndar mide la variacin de los datos en trminos absolutos. Se interpreta como la distancia promedio de los datos a su media aritmtica. Se expresa en las mismas unidades que las empleadas en los datos. Se calcula como la raz cuadrada positiva de la varianza. Desviacin Estndar Poblacional:
W! W
15
s= s
16
2.1 Introduccin
Muchos problemas del trabajo estadstico involucran dos o mas variables. Ambos temas, correlacin y regresin lineal, son dos de las tcnicas usadas al considerar datos asociados con varias variables. Para fines de presentacin, el mtodo se aplicar al caso de dos variables, pero puede generalizarse. En algunos problemas, las variables se estudian simultneamente para ver la forma en que se encuentran interrelacionadas: Correlacin En otros, hay una variable de inters particular y las restantes se estudian por la posibilidad de que aclaren aspectos de la primera: Regresin lineal
18
Un problema de correlacin se presenta cuando el individuo se pregunta si hay alguna relacin entre un par de variables que le interesan. Considere los datos de la tabla 1, donde X = promedio de calificaciones de la escuela; Y = promedio de calificaciones del 1er ao de la universidad
Tabla 1 x 3.0 2.4 3.7 3.6 3.8 2.9 3.5 3.0 2.3 3.0 y 2.4 2.6 3.0 3.9 3.6 3.0 3.1 2.8 2.2 2.9 x 2.9 2.7 3.7 2.7 3.3 2.3 3.1 2.8 3.0 2.2 y 1.9 2.2 3.1 2.6 2.8 2.7 2.4 3.0 3.3 1.8 x 3.1 3.3 2.7 3.5 2.9 2.7 2.9 3.2 3.4 2.5 y 2.8 3.2 1.8 2.7 2.1 1.7 1.7 2.3 2.6 2.7
19
En un intento de descubrir la forma apropiada de la relacin, marcamos los puntos en el plano X,Y mediante un diagrama de dispersin , el cual es un grfico donde la variable X se coloca en el eje de las abcisas, la otra Y en el de las ordenadas y los pares (xi,yi) se representan como una nube de puntos, cuya forma nos informa sobre el tipo de relacin existente entre las variables. En nuestro ejemplo, el diagrama de dispersin muestra que hay una tendencia de los valores bajos de x a asociarse con los valores bajos de y. Tambin, los valores altos de ambas variables tienden a asociarse entre si. Aunque vago, el aspecto general del diagrama de dispersin es el de una lnea recta
20
3.1
2.6
2.1
1.6 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0
Calificaciones de la Preparatoria
Para calcular en alguna forma el grado de la relacin lineal se sugiere una medida que sea ciertamente independiente de la eleccin del origen de las variables e independiente de la escala de medidas empleada. Considrese el proceso de normalizar , medir en unidades estndar de muestra los datos originales.
21
Constryanse las nuevas variables U y V, donde: Ui = (xi Prom X) / Sx ; Vi = (yi prom Y) / Sy para i = 1,
Paso 3: Normalizacin U V
(x - prom_x) / sx (y - prom_y) / sy
., 30
-0.01 -1.38 1.59 1.36 1.82 -0.24 1.14 -0.01 -1.61 -0.01 -0.24 -0.69 1.59 -0.69 0.68 -1.61 0.22 -0.46 -0.01 -1.84 0.22 0.68 -0.69 1.14 -0.24 -0.69 -0.24 0.45 0.91 -1.15
-0.42 -0.05 0.67 2.30 1.75 0.67 0.85 0.31 -0.78 0.49 -1.32 -0.78 0.85 -0.05 0.31 0.13 -0.42 0.67 1.21 -1.50 0.31 1.03 -1.50 0.13 -0.96 -1.68 -1.68 -0.60 -0.05 0.13
Unidades estandarizadas Y
1.50 1.00 0.50 0.00 -2.00 -1.00 -0.50 -1.00 -1.50 -2.00 0.00 1.00 2.00 3.00
-3.00
Unidades estandarizadas X
22
Despus de normalizar, la mayora de los puntos estn en CI y CIII. Tales puntos tienden a tener coordenadas mayores en magnitud, que los de CII y CIV. La sumatoria del producto de los trminos ui y vi resultantes de la normalizacin, dividido entre el numero de puntos menos uno, n-1, son la clave para encontrar la medida deseada S i ui vi / (n-1) El ndice se llama coeficiente de correlacin (Pearson) y se designa con la letra r, r se define por la formula siguiente: r = ________________ ; o equivalente (n 1) s x s y Si se calcula r a partir de la tabla I se obtiene: r = 0.60.
23
Paso 5: Calculo de r x 3.0 2.4 3.7 3.6 3.8 2.9 3.5 3.0 2.3 3.0 2.9 2.7 3.7 2.7 3.3 2.3 3.1 2.8 3.0 2.2 3.1 3.3 2.7 3.5 2.9 2.7 2.9 3.2 3.4 2.5 del paso 2 prom S = desv est x 3.0 0.4 y 2.4 2.6 3.0 3.9 3.6 3.0 3.1 2.8 2.2 2.9 1.9 2.2 3.1 2.6 2.8 2.7 2.4 3.0 3.3 1.8 2.8 3.2 1.8 2.7 2.1 1.7 1.7 2.3 2.6 2.7 y 2.6 0.6
(x - prom_x)
r=
(n-1) s X s Y
(y - prom_y)
(x - prom_x) (y - prom_y)
0.00 -0.60 0.70 0.60 0.80 -0.10 0.50 0.00 -0.70 0.00 -0.10 -0.30 0.70 -0.30 0.30 -0.70 0.10 -0.20 0.00 -0.80 0.10 0.30 -0.30 0.50 -0.10 -0.30 -0.10 0.20 0.40 -0.50 Paso 6: Culminacin
-0.23 -0.03 0.37 1.27 0.97 0.37 0.47 0.17 -0.43 0.27 -0.73 -0.43 0.47 -0.03 0.17 0.07 -0.23 0.37 0.67 -0.83 0.17 0.57 -0.83 0.07 -0.53 -0.93 -0.93 -0.33 -0.03 0.07
0.00 0.02 0.26 0.76 0.77 -0.04 0.23 0.00 0.30 0.00 0.08 0.13 0.33 0.01 0.05 -0.05 -0.02 -0.08 0.00 0.67 0.02 0.17 0.25 0.03 0.05 0.28 0.10 -0.06 -0.01 -0.04
Por tanto
24
Ntese lo siguiente: r pertenece al intervalo [-1, 1], es decir -1 <= r <= 1, El valor absoluto de r mide la fuerza de la relacin lineal Luego r = 1 r = -1 si y solo si todos los puntos del diagrama se encuentran sobre una lnea recta Si r > 0 la tendencia lineal es positiva, i. e. la pendiente de la lnea de tendencia es positiva Si r < 0 la tendencia lineal es negativa, i. e. la pendiente de la lnea de tendencia es negativa El coeficiente r es una medida simtrica. La correlacin entre X e Y es la misma que entre Y y X.
25
La interpretacin de r como medida del grado de relacin lineal entre dos variables es una interpretacin matemtica pura y est completamente desprovista de implicaciones causa y efecto. El hecho de que dos variables tiendan a aumentar o disminuir al mismo tiempo no implica que una tenga algn efecto directo o indirecto en la otra. Las r s deben manejarse con cuidado si se va a dar una informacin sensata respecto a la relacin entre pares de variables. Los coeficientes de correlacin han probado su utilidad, p. e. en pruebas psicolgicas y en otros campos en que es importante determinar la interrelacin de algunas variables que se estudian simultneamente.
26
Es usual estudiar la relacin entre dos o ms variables con la esperanza de estimar o predecir una de las variables en particular. Los mtodos desarrollados para manejar problemas de prediccin se conocen como mtodos de regresin. Por ejemplo, considrese el problema de predecir el rendimiento del pasto como funcin de la cantidad de agua de irrigacin aplicada: OJO: r solo indica qu tan estrecha es la relacin lineal entre las variables y no es capaz de resolver problemas de prediccin. Por supuesto, permite indicar cuales variables conviene incluir en un experimento para fines de prediccin.
27
Sea X la cantidad de agua aplicada (pulgadas); sea Y el rendimiento de forraje del terreno de una granja experimental (toneladas),
Tabla 2 Agua Rendimiento X Y 12 5.27 18 5.68 24 6.25 30 7.21 36 8.02 42 8.71 48 8.42
Agua aplicada
28
Segn la grafica, el conjunto de observaciones X y Y se relacionan en forma aproximadamente lineal. Luego, se ajustar una lnea recta a tal conjunto de puntos para predecir el valor de y partiendo del valor de x. Si se acepta la linealidad, entonces se espera que el valor dado por la lnea recta ajustada a la muestra, en cualquiera de los siete puntos x s de la muestra, sea una mejor estimacin de y, porque se espera ms estabilidad en la lnea recta ajustada de la muestra que en una sola observacin puntual. Si hay inters en un valor intermedio de x, se emplea la lnea recta ajustada de la muestra para encontrar el valor estimado de y para tal valor de x. Ojo: Puesto que se supone una relacin lineal slo en esta regin de valores de X, no es legitimo usar la lnea recta para predecir valores de Y fuera de este intervalo de valores de X !!! 29
El problema de la prediccin lineal se reduce entonces al problema de ajustar una lnea recta a un conjunto de puntos. Si la ecuacin de la lnea recta se escribe como Y = mX + b ; solo restara determinar los valores de tales parmetros, de manera que la recta coincida de manera satisfactoria con el conjunto de puntos. Hay numerosos mtodos para desarrollar la estimacin de tales parmetros, el ms conocido para problemas de regresin es el mtodo de la suma de los mnimos cuadrados. Como la recta deseada se usar para predecir, es razonable pedir que la recta haga pequeos los errores de prediccin, entendido como la diferencia entre un valor observado de y, respecto del valor correspondiente en la lnea recta de y. 30
Los errores de prediccin en la grfica de la Tabla 2 son los pequeos segmentos verticales de los puntos observados la recta. Los puntos que estn por arriba (abajo) de la recta dan errores positivos (negativos). Por tanto, no servira pedir que la suma de los errores sea tan pequea como sea posible. Esto podra evitarse si consideramos el valor absoluto de la magnitud de los errores, pero complicara su manejo matemtico. La dificultad se evita requiriendo que la suma de los cuadrados de los errores se haga tan pequea como sea posible. Formulas de regresin lineal (2 Variables)
31
Mediante la gestin de los trminos algebraicos se pueden deducir formulas equivalente para m. De la tabla 2 se concluye:
prom 30.00 7.08 suma
Agua Rendimiento
X Y
Luego
32
Despus de ajustar la lnea de regresin, se puede inspeccionar su grafica y observar que tan exactamente predice valores de Y, p. e. calculando las magnitudes de todos los errores de prediccin yi y i. En tal contexto, una medida til de la exactitud de la prediccin se n obtiene calculando la media de los cuadrados yi yi '
2 de los errores de prediccin, segn la expresin i !1 Si dividimos entre n-2, se puede mostrar que el resultado es una estimacin no sesgada de s2, donde s2 es la varianza de los errores de prediccin. Si se hace esto, la expresin resultante se designa se y se llama error estndar de estimacin , o bien error tpico . n As pues, en funcin de las variables originales yi yi '
2 El error estndar de estimacin es: se ! i !1
n-2 n
33
A partir de la tabla 2:
y real prediccin (y') y1 5.27 5.2286 0.041 0.002 Calculo de SSResid (suma residual de los cuadrados) y2 y3 y4 y5 y6 y7 suma 5.68 6.25 7.21 8.02 8.71 8.42 5.8457 6.4629 7.08 7.6971 8.3143 8.9314 -0.166 -0.213 0.130 0.323 0.396 -0.511 0.027 0.045 0.017 0.104 0.157 0.262 0.6138 ssresid n- 2= 7-2= error estandar funcin de excel: error.tipico.xy 5 0.3504 0.3504
34
Calculo de SSReg (suma de regresin de los cuadrados) y1 y2 y3 y4 y5 y6 y7 suma 5.27 5.68 6.25 7.21 8.02 8.71 8.42 -1.85 -1.23 -0.62 0.00 0.62 1.23 1.85 3.428 1.523 0.381 0.000 0.381 1.523 3.428 10.664 0.94558 SSReg / (SSReg + SSResid)
Si se supone, que existe una lnea de regresin terica de la cual la recta de mnimos cuadrados es una estimacin y adems se supone que los valores de yi yi es ahora el valor en la lnea terica, son independientes y normalmente distribuidos con media cero y la misma desviacin estndar s, entonces se es una estimacin de s. Se puede sealar que aproximadamente el 95% de los errores de prediccin seran menos que 1.96 se en magnitud. La aproximacin proviene de que 1.96s ha sido substituida por su estimacin de muestra 1.96se y porque solo se tiene a mano la recta de regresin de la muestra. Aun cuando la muestra del ejercicio es demasiado pequea los resultados se expresan en la siguiente grafica:
10.00
20.00
30.00
40.00
50.00
60.00
Agua (pulgadas)
Puede verse que los siete puntos estn colocados dentro de la banda del 95% como era de esperarse. En una larga serie de experimentos similares estos, puede esperase que el 95% de los puntos que los representan quedarn situados dentro de la banda trazada. Esta interpretacin geomtrica del problema es muy practica, pues proporciona al investigador una idea de los valores Y que puede esperar obtener si efecta experimentos para otros valores de X !!!
Extrapolacin vs Interpolacin: Predecir un valor de Y para cierto X, cuyo valor queda fuera de la regin de los valores observados de X, extrapolacin, es considerablemente ms difcil que el de predecir valores de X que estn dentro del intervalo de observaciones, interpolacin. En la extrapolacin las hiptesis necesarias para justificarla rara vez se presentan en situaciones de la vida real. P. e., es muy poco probable que la relacin existente, entre el riego de un terreno de sembrado y su rendimiento en forraje siga siendo lineal para valores X fuera de la regin de valores observados. Finamente, si el diagrama de dispersin indica que la relacin entre X y Y no es lineal, puede aun usarse el modelo lineal si es posible encontrar una funcin de X y una funcin de Y, tales que la relacin entre estos valores funcionales sea lineal.
Aun cuando r es til para describir que tan estrechamente se encuentran relacionadas linealmente dos variables, no es muy til en otros sentidos. Un coeficiente r no se presta a enunciados cuantitativos, a menos que se asocien con la regresin. Por lo general, la correlacin solo es la primera parte en el estudio de la relacin de dos variables, mientras que la regresin es la tcnica bsica en este tipo de estudios. La regresin lineal permite explicitar c/u de los parmetro de la lnea, es una solucin nica con mtodo exacto.
40
2.5 Ejercicios
1.
A partir de una muestra de 5 terrenos cuyos datos corresponden a ingresos brutos por Ha. y valor del terreno por Ha., estime mediante regresin lineal el valor unitario de un terreno cuyos ingresos Brutos por Ha. son $800. Los datos de la muestra se presentan en la siguiente tabla:
Modelacin con una variable
7,000 MODELO PARA DETERMINAR VALOR
6,500
6,000
5,500
5,000
4,500
4,000 300
400
500
600
700
800
900
41
5.5224
Una vez construida la recta Y = mx + b ; Se pueden substituir los valores de m y b Si deseo sabe el valor de x = 800 Y= 6,300.60
42
sX =
Qu significa r2? r2 es un indice que vara entre 0 y 1 si su valor es cercano a 1 significa una tendencia lineal en los datos Si su valor es cero, no hay una relacionlineal entre los datos Paso 4.1: Determinacin del Coeficiente de correlacin
Valor $/Ha Muestra 1 2 3 4 5 promedio Y 4,200 6,100 6,800 6,200 5,000 5,660
Ingr Brutos / HA X 400 750 870 800 600 684 X - prom X -284 66 186 116 -84
Numerador Y- prom Y -1,460 440 1,140 540 -660 suma (X-prom X) (Y-promY) 414,640 29,040 212,040 62,640 55,440 773,800
Denominador [X - prom X]2 [Y - prom Y]2 80,656 2,131,600 4,356 193,600 34,596 1,299,600 13,456 291,600 7,056 435,600 140,120 producto raz denominador 4,352,000 609,802,240,000 780,898.35 780,898.35
numerador
773,800
Luego, r =
99.09%
r2=
43 98.19%
2.5 Ejercicios
Paso 5: Solucin semiautomtica funcin de excel
pendiente interseccin.Eje coeficiente.r2
pronostico tendencia
44
45
3.1 Comentarios
La mayora de los problemas de prediccin involucran ms de una variable en la obtencin de la prediccin. Por ejemplo, si se quiere predecir la variable Y por una funcin lineal de las variables X1 y X2, el problema se convierte en el de encontrar el plano de mejor ajuste en el sentido de mnimos cuadrados a un diagrama de dispersin de puntos en 3 dimensiones. En sntesis, es un tratamiento matemtico anlogo a regresin lineal simple. Se puede explicitar cada parmetro, solucin nica, mtodo exacto
46
3.2 Ejercicios
1.
A partir de una muestra de 5 terrenos cuyos datos corresponden a ingresos brutos por Ha., riesgo de helada (pp) y poblacin activa, estime mediante regresin lineal mltiple el valor unitario de un terreno cuyos ingresos Brutos por Ha. son $800, riesgo de helada 11% y 1,200 habitantes dedicados a la actividad agrcola en su ubicacin. Los datos de la muestra se presentan en la siguiente tabla:
Valor $/Ha Muestra 1 2 3 4 5 Inmueble objeto Y 4,200 6,100 6,800 6,200 5,000 ? Riesgo de Poblacin activa helada (pp) por Ingr Brutos / Ha aos que se ha producido agraria agrcola X1 X2 X3 400 11 1,200 750 10 1,250 870 11 1,300 800 10 1,400 600 10 1,300 800 11 1,200
47
3.2 Ejercicios
CONTROL + SHIFT + ACEPTAR
ejemplo de regresin lineal de varias variables Solucin Automatica Anlisis Y, (X1, X2, X3) Funcin estimacin.lineal
48
4. Anlisis multivariante.
4.1 Introduccin 4.2 Anlisis de componentes principales 4.3 Anlisis discriminante 4.4 Anlisis cluster
49
4.1 Introduccin
El anlisis multivariante es un conjunto de tcnicas estadsticas utilizadas cuando se trabaja sobre colecciones de datos en las cules hay muchas variables implicadas, en el sentido de que hay varias variables medidas para cada individuo objeto estudiado. Su razn de ser radica en un mejor entendimiento del fenmeno objeto de estudio obteniendo informacin que los mtodos estadsticos univariantes y bivariantes son incapaces de conseguir.
50
4.1 Introduccin
El anlisis multivariante ayuda al analista o investigador a tomar decisiones ptimas en el contexto en el que se encuentre teniendo en cuenta la informacin disponible por el conjunto de datos analizado Hair et al. (1999) dicen: Las mujeres y hombres de negocios de hoy no
pueden seguir aproximaciones ya pasadas en las que los consumidores eran considerados homogneos y caracterizados por un nmero pequeo de variables demogrficas. En su lugar, deben desarrollar estrategias que atraigan a numerosos segmentos de clientes con caractersticas demogrficas y psicogrficas diversas en un mercado con mltiples restricciones (legales, econmicas, competitivas, tecnolgicas, etc.). Slo a travs del anlisis multivariante las relaciones mltiples de este tipo podrn ser examinadas adecuadamente para obtener un entendimiento ms completo y real del entorno que permita tomar las decisiones ms adecuadas.
51
4.1 Introduccin
Mtodos con variable dependiente Hay una variable que depende de otras que se miden como independientes o predictoras . Tienen un inters predictivo.
Por ejemplo: Regresin lineal mltiple Mtodos con slo variables independientes No se distingue entre variables dependientes e independientes. Tienen un inters descriptivo en el sentido de clasificar objetos en funcin de las variables.
52
4.1 Introduccin
Mtodos con slo variables independientes:
53
4.1 Introduccin
Los principales problemas, en este contexto, son: Anlisis de componentes principales (ACP) Anlisis discriminante Anlisis cluster
54
Muchas variables que se toman entre los individuos de la poblacin estn correlacionadas, generando informacin redundante. Por tanto, interesa reducir el nmero de variables para resumir adecuadamente la informacin. As, el ACP consiste en crear artificialmente unas pocas variables nuevas que retengan una parte significativa de la informacin proporcionada por los datos . El procedimiento para crear dichas variables es matemtico y no hay seguridad de que stas tengan un sentido claro; pero, en muchos casos se les puede dotar de sentido. Ejemplo: si tomas como variables las notas de un conjunto de alumnos de Bachillerato en distintas materias, el ACP puede reducir a unas pocas variables nuevas, que quiz se identifiquen como ndices de competencia humanstica, cientfico-tcnica, etc.
55
Dadas X1, ,Xn variables, tomadas de una cierta poblacin, que poseen las siguientes caractersticas: n es grande Entre ellas hay correlaciones Tienen significacin, i. e. cada Xi tiene un sentido claro. determinar nuevas variables Y1, ,Ym, llamadas componentes principales, c/u de ellas de la forma Yj = a1jX1 + + anjXn donde el coeficiente akj recibe el nombre de peso de la variable Xk en Yj con las siguientes caractersticas: m < n (a menudo, significativamente menor) Las Yj son independientes, i. e. entre ellas no hay correlaciones. Por tanto, no proporcionan informacin redundante
56
57
Dicho porcentaje de informacin se mide como el porcentaje de varianza original retenida. De hecho, conocidas:
las varianzas de las Yj se determinan, ya que la varianza conjunta de varias variables se estima como la suma de las varianzas. Puesto que la varianza conjunta de las Xi supone una estimacin de la diversidad presente en los datos, para que un nmero reducido de Yj describa suficientemente bien la poblacin, la varianza conjunta de estas Yj debe suponer un porcentaje suficientemente grande de la variabilidad original (p. e. cerca del 80%). De hecho, este es el criterio que suele considerarse para escoger las componentes principales ms relevantes.
las varianzas de las Xi, que se calculan con los datos originales; las expresiones de las Yj, una vez determinados los pesos de las Xi en cada Yj;
58
Estas CPi explicarn la mayor variabilidad de las variables originales Las CPi presentan incorrelacin entre ellas
59
1.
2.
Sea Y una variable categrica (o discreta) que recibe el nombre de variable clasificadora o factor de clasificacin, con una cantidad k finita de valores (niveles) posibles, y varias variables numricas X1, , Xn. Tanto la variable Y como las Xi se registran simultneamente sobre un conjunto de individuos. Se plantean entonces dos cuestiones: Entre las variables Xi detectar las ms influyentes. I. e. cules permiten discriminar mejor el valor de Y entre distintas opciones? Obsrvese que en el fondo estamos intentando detectar influencias . OJO: funciones discriminantes. Dado un nuevo individuo que ha registrado los valores de las variables Xi, predecir el valor ms probable de Y para dicho individuo, i. e., clasificar al individuo en alguno de los niveles posibles para la variable Y. OJO: funciones de clasificacin.
60
Las funciones discriminantes son expresiones del tipo: F1 = a1X1 + a2X2 + + anXn F2 = b1X1 + b2X2 + + bnXn . donde los ai, bj, etc. reciben el nombre de pesos. Cada funcin discriminante posee un cierto poder discriminante. El procedimiento proporciona varias funciones discriminantes; de ellas, se toman unas cuntas (en ocasiones, bastar con una) de modo que el poder discriminante total sea grande. Cada funcin discriminante permite discriminar entre distintas opciones, de modo que el uso sucesivo de todas las funciones permite discriminar efectivamente el valor de Y.
61
P. e., Sea un conjunto de pacientes afectados por cierta enfermedad, donde las Xi son # de pulsaciones, # de glbulos rojos, niveles de calcio, potasio, etc. La variable cualitativa Y indica un diagnostico sobre un enfermo del tipo cura totalmente , cura parcialmente o no cura . Quiz se tengan dos funciones discriminantes y la primera permita distinguir entre los pacientes que se curan (total o parcialmente) y aquellos que no, mientras que la segunda permita distinguir los cura totalmente de los cura parcialmente . Si, por el contrario, se tiene slo una funcin discriminante, de su valor podramos deducir directamente el posible diagnstico entre las tres alternativas que se dan. Ntese que, si las variables involucradas en la funcin tienen tamaos similares, las variables que poseen mayor peso en cada funcin discriminante son las ms influyentes a la hora de discriminar la variable Y entre las alternativas correspondientes a dicha funcin.
62
Si la variable Y tiene k niveles posibles, hay k funciones de clasificacin: s1 = c10 + c11X1 + + c1nXn sj = cj0 + cj1X1 + + cjnXn sk = ck0 + ck1X1 + + cknXn De modo que para un nuevo individuo con valores x1, ,xn en las respectivas variables Xi, el valor ms probable de Y para dicho individuo se obtiene sustituyendo los valores x1, ,xn en las funciones de clasificacin y tomando el nivel correspondiente al subndice de aquella funcin que de un valor mayor. En el caso de las funciones de clasificacin, los coeficientes de las funciones no son interpretables, y por tanto no pueden utilizarse para responder a la pregunta (1).
63
Dado un numero suficientemente grande de individuos entre los cules se han registrado los valores de las variables numricas X1, ,Xn, queremos dividir a dichos individuos en k grupos distintos, denominados clusters, segn criterios de homogeneidad. El nmero de grupos lo fija el experimentador, de modo que los elementos de cada grupo posean cierta afinidad. La tcnica para determinar los clusters es matemtica. Afinidad se traduce en procedimientos matemticos que agrupen observaciones. Como en el ACP, corre a cargo del experimentador dar sentido a c/u de los grupos determinados. I. e., encontrar los rasgos comunes a las observaciones pertenecientes a un cluster dado. P. e., en el caso de los clientes de una empresa, el anlisis cluster servira para dividir a dichos clientes en distintos grupos, c/u con un perfil distinto. 64
66
Conviene observar que el experimentador tiene que decidir tanto el nmero de clusters, como la distancia entre observaciones y la distancia entre grupos. Distintas elecciones para estos parmetros llevan a resultados distintos, con lo cul en cada caso habr que ver qu elecciones arrojan resultados ms significativos.
67
68
Transformacin de variables para uniformar sus escalas (slo variables cuantitativas) Estandarizar las variables, si fuera necesario. Elegir una medida de distancia entre objetos. Elegir un algoritmo para unir (fusionar) grupos. Decidir el nmero final de clusters e interpretarlos
69
4.5 Comentarios
Por ejemplo, la prediccin de una cierta variable categrica Y puede mejorar cuando se utilizan no ciertas variables Xi, sino ciertas combinaciones de las Xi determinadas a partir de un anlisis en componentes principales. O que el anlisis discriminante funcione mejor sobre los elementos de un cierto cluster, en lugar de aplicarse a toda la muestra, etc.
70
Se puede trabajar sobre distintas softwares, por ejemplo: Statgraphics, ver pagina siguiente, localizable en: http://www.statgraphics.net/Download.htm Xlstat, promocionada como la herramienta la ms completa y utilizada de anlisis de datos y estadsticas para Microsoft Excel, localizable y descargable en http://www.xlstat.com/es/home/ Sin embargo, yo recomendara ampliamente el SPSS ver pagina web http://www.spss.com/ (en ingles). O bien, en espaol, http://www.spss.com.mx/ para tener una idea completa del producto. Se puede descargar un software trial para 15 das en http://forms.cognos.com/?elqPURLPage=4333&mc=web_spss_download 71
72
Introduccin al SPSS: Statistical Package for the Social Sciences (SPSS) es un programa estadstico informtico muy usado en las ciencias sociales y las empresas de investigacin de mercado. Originalmente SPSS fue creado como el acrnimo de Statistical Package for the Social Sciences. Hoy, la sigla se usa tanto para designar el programa estadstico como la empresa que lo produce. El paquete SPSS es una herramienta para el anlisis de datos, que nos permite realizar diversos tipos de anlisis estadsticos de acuerdo a las caractersticas de la informacin que utilicemos. A travs de SPSS podemos generar diferentes estudios, ya sean descriptivos o de inferencia, permitindonos realizar desde una mera 74 simple descripcin de datos hasta modelos estadsticos.
SPSS Advantage for Excel 2007 - (90MB) Download the free trial version of SPSS Advantage for Excel 2007. This Microsoft Excel add-on product enables business users to seamlessly add select SPSS functionality to Microsoft Excel 2007, gaining powerful data utility and analysis tools. The trial is the full version of SPSS Advantage for Excel 2007 with a free 14-day trial license. To purchase SPSS Advantage for Excel and obtain an authorization code for perpetual use, contact SPSS Inc. If you are in North America, call 1.800.543.2185 or e-mail sales@spss.com. To find out the availability of SPSS Advantage for Excel in your area, contact your local office.
Respecto a la versin de student les recomiendo visitar el sitio http://www.spss.com/downloads/Papers.cfm?prod_familyID=000 05&Name=SPSS Una vez ah en la parte final de la hoja ubiquen
Siguiendo las instrucciones primero se registraran y luego les permitira bajar el software de prueba
Introduccin a la Estadstica Descriptiva ; Luis Ignacio Hernndez Vivar, 2009 Estadstica Aplicada ; Julin de la Horra Navarro; Editorial Daz de Santos; 1 Edicin 1995; 179 paginas SPSS 10 Gua para el Anlisis de Datos , extrado de Internet Cuanto vale un predio rustico?. Propuesta metodologa dese una visin objetiva ; Oscar Prez Veyna, Netzahualcyotl Flores Lzaro; XXIII Congreso Panamericano de Valuacin; Abril 2008, San Jos, Costa Rica. El modelo economtrico aplicado a la valoracin ; Jorge A. Hernndez Plascencia; Baldomero Segura Garca del Ro; XXIII Congreso Panamericano de Valuacin; Abril 2008, San Jos, Costa Rica. Mtodos de Valoracion del agua para uso agrcola ; Oscar Prez Veyna, 45 Congreso Nacional de Valuacin Noviembre 2009, Cancn, Mxico 77
Reflexiones
La crisis segn Albert Einstein No pretendamos que las cosas cambien, si siempre hacemos lo mismo. La crisis es la mejor bendicin que puede sucederle a personas y pases, porque la crisis trae progresos. La creatividad nace de la angustia como el da nace de la noche oscura. Es en la crisis que nace la inventiva, los descubrimientos y las grandes estrategias. Quien supera la crisis se supera a s mismo sin quedar 'superado'. Quien atribuye a la crisis sus fracasos y penurias, violenta su propio talento y respeta ms a los problemas que a las soluciones. La verdadera crisis, es la crisis de la incompetencia. El inconveniente de las personas y los pases es la pereza para encontrar las salidas y soluciones.
78
Sin crisis no hay desafos, sin desafos la vida es una rutina, una lenta agona. Sin crisis no hay mritos. Es en la crisis donde aflora lo mejor de cada uno, porque sin crisis todo viento es caricia. Hablar de crisis es promoverla, y callar en la crisis es exaltar el conformismo. En vez de esto, trabajemos duro. Acabemos de una vez con la nica crisis amenazadora, que es la tragedia de no querer luchar por superarla.
79
Comentarios o Sugerencias
80