You are on page 1of 33

ANLISIS UNIVARIANTE Y BIVARIANTE

INDICE
1. INTRODUCCION...................................................2 2. DISTRIBUCIN DE FRECUENCIAS...........................2 3. MEDIDAS DE TENDENCIA CENTRAL........................4
3.1. LA MODA.........................................................................5 3.2. LA MEDIANA.....................................................................5 3.3. LA MEDIA.........................................................................5

4. MEDIDAS DE DISPERSIN...............................6
4.1. EL RANGO........................................................................6 4.2. EL RECORRIDO INTERCUARTILICO...................................7 4.3. LA DESVIACIN TIPICA.....................................................7 4.4. EL COEFICIENTE DE VARIACIN.......................................8

5. ANLISIS GRAFICO UNIVARIANTE..........................8 6. ANLISIS BIVARIANTE........................................11


6.1. TABLAS DE CONTINGENCIA...........................................11 6.2. TABULACION DE VALORES MEDIOS Y ANLISIS DE LA VARIANZA....................................................................16 6.3. COEFICIENTES DE CORRELACION..................................18

7. ANLISIS GRAFICO BIVARIANTE....................19 8. EL ANLISIS UNIVARIANTE Y BIVARIANTE EN SPSS........................................................22


8.1. ANALISIS UNIVARIANTE EN SPSS...................................22 8.2. EL ANALISIS BIVARIANTE EN SPSS.................................28 8.3. ANALISIS DE CORRELACION EN SPSS.............................31 8.4. ANALISIS GRAFICO EN SPSS...........................................33

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

1. INTRODUCCION
Antes de abordar la aplicacin de cualquier tcnica multivariante es necesario que se realice una exploracin previa de los datos mediante anlisis univariante y bivariante. De hecho, en una gran mayora de los informes que entregan los Institutos de investigacin a sus clientes slo se utiliza este tipo de tcnicas, siendo ms utilizadas las tcnicas multivariantes en la investigacin acadmica que en la prctica empresarial. En este tema vamos a realizar un breve recorrido por las tcnicas univariantes y bivariantes ms utilizadas. Empezaremos con la distribucin de frecuencias, que es la primera medida que se observa cuando se tienen datos secundarios o procedentes de una encuesta. El siguiente apartado se dedicar a las medidas de tendencia central, haciendo especial nfasis en la media aritmtica que no slo es una medida descriptiva, sino tambin objeto de inferencia estadstica. El cuarto apartado se dedica a las medidas de dispersin. Posteriormente, veremos el anlisis grfico univariante que suele ser una herramienta muy til cuando complementa al anlisis univariante. El quinto y sexto apartados se centran en la explicacin de las tcnicas y anlisis grficos bivariantes ms usados en investigacin comercial. Terminaremos el captulo ilustrando cmo obtener estas medidas en SPSS con varios ejemplos.

2. DISTRIBUCIN DE FRECUENCIAS
En la mayora de los libros de estadstica, la distribucin de frecuencias es uno de los primeros temas que se abordan puesto que proporciona un mtodo de organizacin de datos que se analizarn posteriormente con otras tcnicas. La distribucin de frecuencias es una relacin de categoras o intervalos de medida y el nmero de medidas observado en cada intervalo (frecuencia). La frecuencia absoluta es el nmero de veces que se encuentran mediciones para el intervalo, es decir, el nmero de veces que se repite cada valor de la variable. La frecuencia relativa se calcula como el cociente entre la frecuencia y el nmero total de datos. La utilidad de la frecuencia relativa se debe a que permite comparaciones homogneas entre diferentes mediciones, al expresarlas en tanto por ciento o tanto por uno. La frecuencia absoluta acumulada expresa el nmero de datos que hay igual al intervalo o nmero considerado y los inferiores a l. La frecuencia relativa acumulada es el resultado de dividir cada frecuencia acumulada por el nmero total de datos. En los programas de ordenador suele aparecer adems el porcentaje de casos vlidos que es aquel en el que se han eliminado los datos perdidos.

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

En la tabla 2.1. se observa la distribucin de frecuencias de una muestra de 77 personas.

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Tabla 2.1. Ejemplo de distribucin de frecuencias


Edad Frecuencia 17,0 18,0 19,0 20,0 21,0 22,0 23,0 24,0 25,0 26,0 27,0 28,0 29,0 30,0 31,0 32,0 34,0 35,0 37,0 39,0 43,0 47,0 51,0 Total 3 2 2 5 2 4 6 4 7 6 8 8 9 1 1 1 1 1 1 2 1 1 1 77 Frecuencia relativa 3,9 2,6 2,6 6,5 2,6 5,2 7,8 5,2 9,1 7,8 10,4 10,4 11,7 1,3 1,3 1,3 1,3 1,3 1,3 2,6 1,3 1,3 1,3 100,0 Frecuencia Relativa acumulada 3,9 6,5 9,1 15,6 18,2 23,4 31,2 36,4 45,5 53,2 63,6 74,0 85,7 87,0 88,3 89,6 90,9 92,2 93,5 96,1 97,4 98,7 100,0

3. MEDIDAS DE TENDENCIA CENTRAL


Las tablas de frecuencias nos ofrecen toda la informacin disponible, pero en muchas ocasiones el analista encuentra dificultades en interpretar toda esa extensa informacin, por lo que intenta resumirla en una serie de expresiones, denominadas medias de posicin. En concreto, estas medidas son de tendencia central, de dispersin, de asimetra y de curtosis. Las medidas de posicin son valores sintticos que fijan el comportamiento global de una variable a partir de los datos individuales recogidos y que presentan las siguientes caractersticas: Intervienen en su determinacin todos y cada uno de los valores de la distribucin Siempre se pueden calcular Son nicos para cada distribucin de frecuencias.

Con las medidas de tendencia central tratamos de saber cul es el

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

centro de los datos. Normalmente, estas medidas describen el total de los datos. Los valores de tendencia central que ms se utilizan son la moda, la mediana y la media. A su vez, esta ltima es uno de los objetivos de la inferencia estadstica. El clculo de medidas de tendencia central con datos agrupados ha sido un rea importante en la estadstica descriptiva, debido a la necesidad de simplificar los clculos que se iban a realizar. No obstante, con el uso extensivo de los programas estadsticos, su importancia en la actualidad es casi nula, ya que no es necesario agrupar los datos, introduciendo siempre las observaciones de cada individuo u objeto para cada variable y no las tablas de frecuencias que luego son calculadas por el programa. Por ello, en la explicacin de las medidas de posicin vamos a centrarnos en los datos individuales. 3.1. LA MODA La moda es el valor que se repite ms veces, es decir, el valor con mayor frecuencia en un conjunto de datos. Cuando slo hay una moda, nos encontramos con una distribucin unimodal. Si hay dos valores con mxima frecuencia, la distribucin es bimodal. En la distribucin que hemos expuesto en la tabla 2.1, el valor con mayor frecuencia (11.7) es 29, por tanto, esa es la moda de esa distribucin. 3.2. LA MEDIANA Es el valor de la distribucin que ocupa el lugar medio de todos los valores ordenados de menor a mayor o al contrario. Por tanto, aquel valor cuya frecuencia acumulada es el nmero total de datos entre dos. La mediana divide los datos previamente ordenados en dos partes con el mismo nmero de casos a cada lado. Una parte tendr los datos con menor valor que la mediana y la otra los datos que son mayores. En el caso anterior (tabla 2.1), el valor que divide a los datos en dos es 28, puesto que tenemos 23 datos y este valor es el que ocupa el lugar 12, dejando 11 valores a cada lado. Cuando tenemos un nmero par de dato, no es posible que un valor divida la distribucin en dos partes iguales. Por tanto, para el clculo de la mediana se tomar la media aritmtica (medida que veremos en el siguiente apartado) de los dos valores centrales. 3.3. LA MEDIA La media aritmtica se utiliza para variables cuya escala es, al menos, de intervalos. Se expresa de la siguiente forma:

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA
n

x = xi ni / N
i =1

Siendo Xi el valor de la variable observada y n i el nmero de observaciones tienen ese valor. En el ejemplo expuesto en la tabla 2.1., el clculo de la media ser el siguiente: _ X = (17*3+18*2+19*2+20*5+21*2+22*4+23*6+24*4+25*7+26*6+27*8+ 28*8+29*9+30*1 +31*1+32*1+34*1+35*1+37*1+39*2+43*1+47*1+51*1)/77 = 26,48 Estas son las medidas de tendencia central ms utilizadas, aunque existen otras medidas como la media geomtrica, que se utiliza para calcular el valor central de variables acumulativas, porcentajes, tasas y nmeros ndices y la media armnica, que se usa para promediar velocidades y tiempos.

4. MEDIDAS DE DISPERSIN
Las medidas de dispersin nos ayudan a comprender si las medidas de tendencia central son verdaderamente representativas de los datos que hemos obtenido y analizado. Puede ser que tengamos dos distribuciones cuya media, mediana y moda sea la misma, pero cuyos datos sean muy diferentes. La simple utilizacin de las medidas de tendencia central nos podra hacer creer que estamos ante la misma distribucin y, sin embargo, no es as. Por ejemplo, tenemos estas dos distribuciones: X1 = 4, 5, 6, 8, 8, 10, 11, 12 X2 = 1, 2, 5, 8, 8, 11, 14, 15 Para ambas, la media, la mediana y la moda es 8. No obstante, la primera distribucin est mucho ms concentrada que la segunda. Por ello, acompaaremos a la medida de tendencia central con una medida de la dispersin de los datos. Las medidas de dispersin ms utilizadas son el rango, el recorrido intercuartlico, la desviacin tpica y el coeficiente de variacin. 4.1. EL RANGO El rango es la medida de dispersin ms fcil de calcular. Es la resta entre el valor mximo y el valor mnimo de la distribucin. Por ejemplo,

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

en el caso anterior, el rango para cada una de las distribuciones es: R1 = 12-4 = 8 R2 = 15-1 = 14 Habiendo una mayor dispersin en la segunda variable. En el ejemplo de la tabla 2.1. el rango es 34, diferencia entre 17 y 51. Sin embargo, el rango es una medida bastante inestable porque slo se necesitan los valores extremos. Para superar esta inestabilidad, se puede utilizar el rango modificado. Esta medida se utiliza eliminando un determinado porcentaje de valores extremos. Los rangos modificados ms utilizados son el del 90% (se elimina un 5% de los valores ms bajos y un 5% de los ms altos), el del 80% (se elimina un 10% de los valores ms bajos y un 10% de los ms altos) y el del 50% (se elimina un 25% de los ms altos y un 25% de los ms bajos). 4.2. EL RECORRIDO INTERCUARTILICO Los cuartiles son aquellos valores que dividen a la distribucin en cuatro partes con igual nmero de casos en cada una de ellas. El primer cuartil toma el 25% de los casos por debajo de su lugar, el segundo es la mediana y toma el 50% de los casos por debajo, el tercero deja el 75% de los casos por debajo. Se puede aproximar su lugar con las frmulas 0,25*n+0,5 para el primer cuartil, 0,5*n+0,5 para el segundo y 0,75*n+0,5 para el tercero. El recorrido intercuartlico se define como la diferencia entre el primer y el tercer cuartil. A diferencia del rango, es una medida de dispersin que se ve poco afectada por los valores extremos de la distribucin. 4.3. LA DESVIACIN TIPICA A diferencia del rango, considera todos los valores de la variable. Se calcula como la raz cuadrada del sumatorio de las diferencias al cuadrado de cada valor de la variable y la media. En concreto es:

=
siendo:

(( x x) n ) / N
i i

i =1

xi = valor de la variable para el sujeto i x = media aritmtica ni = frecuencia absoluta para el valor i

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

N = nmero total de datos En el caso de la tabla 2.1. la desviacin tpica es 6,26. Tambin es frecuente, utilizar la varianza en vez de la desviacin tpica que es simplemente su cuadrado. 4.4. EL COEFICIENTE DE VARIACIN Las medidas de dispersin que hemos expuesto hasta ahora tienen un problema: estn ntimamente relacionadas con las unidades de medida. As si una variable se encuentra medida en unidades, las medidas de dispersin sern diferentes que si se encuentran medidas en miles. Lo mismo ocurre cuando tenemos un conjunto de variables que recogen aspectos diferentes (renta, edad, metros). En estos casos, no podremos decir qu variable tiene ms dispersin. El coeficiente de variacin soluciona este problema, pues es una medida relativa de dispersin que consiste en dividir la desviacin tpica entre la media. Es adimensional y por tanto, cuanto mayor sea ms nmero de veces la desviacin contendr a la media y por tanto, menor representatividad tendr esta ltima medida. En el caso de la tabla 2.1. el coeficiente de variacin es de 0,23.

5. ANLISIS GRAFICO UNIVARIANTE


Aunque la distribucin de frecuencias representa toda la informacin disponible, siempre es til traducirla a grficos de modo que la referencia visual sirva para explicar mejor el fenmeno o sea un punto de partida para el anlisis estadstico con tcnicas que emplean dos o ms variables. Esta etapa puede parecer insignificante a primera vista, pero es crucial en el anlisis de datos, por si misma y como introduccin a cualquier anlisis bivariante o multivariante. Representa una primera aproximacin al fenmeno que se va a analizar y facilita la interpretacin de resultados. Muchos investigadores tienden a obviar esta etapa que, sin embargo, sirve para hacer una estimacin ptima de los resultados cuando posteriormente se aplica mtodos ms sofisticados. Con la inspeccin grfica de los datos univariantes observamos la forma de la distribucin. Los tipos de grficos son muy variados. Para fenmenos cuantitativos se suelen utilizar las grficas de barras, los histogramas y los polgonos de frecuencias. Para fenmenos ms cualitativos, existen los diagramas sectoriales, cartogramas y pictogramas, aunque estos ltimos se utilizan muy poco, ya que la mayora de los programas de ordenador facilitan esta tarea, representando sobre todo histogramas y grficas de barras para ver la

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

forma de la distribucin. Los histogramas se utilizan para representar generalmente frecuencias agrupadas. Tienen dos ejes perpendiculares. Normalmente, en el eje de ordenadas (Y) se sitan los valores de las frecuencias y en el de abscisas (X), los lmites del intervalo o marcas de clase. El histograma est formado por una serie de rectngulos de igual base. Por el contrario, la altura de los mismos es diferente, dependiendo del valor de la frecuencia correspondiente. Como resultado de ello, mayores valores de frecuencia significarn mayores reas del rectngulo asociado y menores valores de frecuencias se traducirn en reas menores. Por ejemplo, para la distribucin de frecuencias de la tabla 1 el histograma es el siguiente (figura 2.1.): FIGURA 2.1. HISTOGRAMA DE FRECUENCIAS
40

30

20

10 Desv. tp. = 6,26 Media = 26,5 0 15,0 20,0 25,0 30,0 35,0 40,0 45,0 50,0 N = 77,00

edad

En este grfico se han agrupado las frecuencias de edad y adems se ha obtenido una curva para ver si la distribucin se ajusta a una normal. Como se puede observar en el grfico, la curva no se ajusta a una normal. La normalidad es un requisito esencial en la aplicacin de muchas de las tcnicas multivariantes. En general, no slo se observa mediante estos grficos. Existen medidas univariantes, como la asimetra y la curtosis y test de normalidad, disponibles en la mayora de programas estadsticos, que nos ayudarn a decidir si los valores de la variable se distribuyen como una normal. Pero la inspeccin grfica del histograma nos da una idea previa sobre este supuesto. La grfica de barras es similar al histograma, aunque en este caso no se pueden agrupar los datos. En la figura 2.2. se puede observar una

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

grfica obtenida de la misma encuesta en la que se muestra la preocupacin por la apariencia que tienen los individuos a los que se ha preguntado. FIGURA 2.2. GRAFICA DE BARRAS
26

24

22

20

Frecuencia

18

16 poco regular bastante mucho

preocupacin apariencia
El polgono de frecuencias o grfico de lneas es otra de las formas habituales de representar la distribucin de frecuencias. El eje de ordenadas representa las frecuencias relativas y el de abscisas representa las marcas de clases. Cada punto del polgono de frecuencias coincide con el punto medio del lado superior del rectngulo correspondiente en el histograma. En la figura 2.3 tenemos un polgono de frecuencias.

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.3. POLGONO DE FRECUENCIAS

26

24

22

20

Frecuencia

18

16 poco regular bastante mucho

preocupacin apariencia

Los pictogramas o diagramas pictricos utilizan dibujos ms o menos artsticos para representar valores de las categoras relacionndolas con el tamao.

6. ANLISIS BIVARIANTE
Las tcnicas de anlisis bivariante expresan el grado de relacin entre dos variables. Pueden considerarse, en algunos supuestos, como casos especiales o simplicados de algunas tcnicas de anlisis multivariante. Entre las ms utilizadas en investigacin comercial, cabe destacar: Tablas de contingencia (o tabulacin cruzada) y X Tabulacin de valores medios y anlisis de varianza Correlacin entre rangos de Spearman y de correlacin lineal

6.1. TABLAS DE CONTINGENCIA En cualquier investigacin de mercados basada en la encuesta como tcnica de obtencin de informacin y con variables cualitativas, despus de realizar un anlisis univariante se procede a llevar a cabo una serie de cruces entre variables con el fin de observar la relacin entre dichas variables. Normalmente, se suelen cruzar variables de clasificacin (sexo, edad, clase social, estado civil...) con variables relacionadas con el tema general de la encuesta (consumo del producto,

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

lugares de compra, hbitos de compra). Tambin se pueden hacer cruces entre dos preguntas relacionadas con el tema de la encuesta (consumo del producto y lugar de compra). La nica condicin para realizar el cruce es que las variables sean no mtricas (categricas) o cualitativas (con escalas nominal u ordinal). Los cruces son tablas de doble entrada conocidas como tablas de contingencia y suelen acompaarse de dos subndices (rxc) que indican el nmero de niveles de las variables analizadas (r filas y c columnas). El caso ms simple es el de las tablas 2x2, que es con el que empezaremos explicando esta tcnica. En las distribuciones bidimensionales se consideran simultneamente dos caracteres de una misma muestra (por ejemplo, consumo de un producto y sexo). Los pares que contienen los valores de las variables junto con sus correspondientes frecuentas constituyen una tabla de doble entrada (2x2). Nuestro inters consiste en que se realiza un anlisis simultneo de ambos atributos o caractersticas y mediante su distribucin conjunta, tratamos de establecer si existe relacin entre ambas. El esquema de una tabla de contingencia 2x2 es el siguiente: TABLA 2.2. ESQUEMA DE UNA TABLA DE CONTINGENCIA VARIABLE B NIVEL 1 NIVEL 1 VARIABLE A NIVEL 2 TOTAL MARGINAL n11 n21 n.1 NIVEL 2 n12 n22 n.2 TOTAL MARGINAL n1. n2. TOTAL N

Siendo: n11 = nmero de veces que se repite el nivel 1 de la variable A junto con el nivel 1 de la variable B n12 = nmero de veces que se repite el nivel 1 de la variable A junto con el nivel 2 de la variable B n21 = nmero de veces que se repite el nivel 2 de la variable A junto con el nivel 1 de la variable B n22 = nmero de veces que se repite el nivel 2 de la variable A junto con

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

el nivel 2 de la variable B n1.= nmero de veces que se repite el nivel 1 de la variable A sin importar el nivel de la variable B n2.= nmero de veces que se repite el nivel 2 de la variable A sin importar el nivel de la variable B n.1= nmero de veces que se repite el nivel 1 de la variable B sin importar el nivel de la variable A n.2= nmero de veces que se repite el nivel 2 de la variable B sin importar el nivel de la variable A N= nmero total de observaciones Generalmente es conveniente que la variable expresada como filas sea considerada como la independiente y en columnas est la que consideremos dependiente. La hiptesis nula asociada a las tablas de contingencia es de independencia. Se dice que hay independencia entre dos variables cuando los valores que toma una de ellas no se ven influidos por los que adopte la otra. El contraste ms utilizado para probar la independencia entre dos variables cualitativas es el de la X, cuya hiptesis nula es la independencia poblacional entre las variables. El estadstico calculado se basa en la suma de los cuadrados de la diferencia entre las frecuencias observadas y las esperadas (si las variables fueran completamente independientes), dividida entre las frecuencias esperadas:

= (nij Eij ) / Eij


i =1

siendo: nij = frecuencia observada de la fila i y la columna j Eij = frecuencia esperada de la fila i y la columna j Las estimaciones de las frecuencias esperadas utilizan la estimacin mximo verosmil en la que la probabilidad se define como: Pi. = ni./N Por tanto, la independencia entre dos sucesos implica: P(i,j) = P (i) * P (j) = (ni./N) * (n.j/N) Como E(i,j) = N * P(i,j)

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Entonces E(i,j) = (ni.*n.j)/N Respecto a la X cuanto mayor sea la diferencia entre las frecuencias observadas y las esperadas mayor ser la frecuencia. Si el valor del estadstico calculado supera al valor crtico (C) , obtenido de la bsqueda en unas tablas para unos grados de libertad (r-1)*(c-1) y para un nivel de significacin, se rechaza la hiptesis nula y se dice que las variables no actan de forma independiente. Si ocurre lo contrario, no se rechaza la hiptesis nula y se dice que las variables actan de forma independiente. Como ya explicamos en el tema anterior, gracias a los programas de ordenador, obtenemos un valor de la probabilidad de rechazar la hiptesis nula siendo cierta (p-valor). Si esta probabilidad es inferior al nivel de significacin fijado (1% o 5%) entonces se rechaza la hiptesis nula. Para poder calcular el estadstico, se debe cumplir una condicin: no debe existir ninguna frecuencia terica inferior a 5 individuos. Si se da ese caso, el resultado obtenido no se puede interpretar, es decir, aunque obtuviramos un estadstico calculado superior al valor crtico, no estaramos en condiciones de rechazar la hiptesis nula y no podramos llegar a ninguna conclusin. Si no se cumple este requisito de que todas las frecuencias esperadas sean superiores a cinco, en las tablas 2x2 se puede utilizar el test exacto de Fischer, que utiliza la distribucin de probabilidad exacta de la configuracin de las frecuencias observadas. En el caso de las tablas con ms filas y columnas, algunos investigadores permiten que si hay menos de un 20% de celdas con frecuencia esperada menor que cinco, se pueda interpretar la X. Existen una serie de medias de asociacin basadas en el estadstico X como el coeficiente de Pearson, el de contingencia y la V de Cramer. Estas tres medidas y algunas otras, nos permiten ver el grado de asociacin entre las dos variables estudiadas1. Vamos a exponer el clculo de la X con un ejemplo. Supongamos que un investigador quiere saber si hay relacin entre el consumo de un producto light y el sexo. Para ello, entrevista a 200 personas y despus de recoger datos los resultados expuestos en una tabla 2x2 son los siguientes: TABLA 2.3. EJEMPLO DE UNA TABLA DE CONTINGENCIA SEXO
1

REFERENCIA BIBLIOGRAFICA

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

HOMBRE CONSUMO DE SI PRODUCT O LIGHT NO TOTAL MARGINAL n11 = 20 n21 = 80 n.1 = 100

MUJER n12 = 80 n22 = 20 n.2 = 100

TOTAL MARGINAL n1. = 100 n2. = 100 N = 200

Si el sexo no influyera en el consumo del producto, las proporciones de consumidores y no consumidores seran del 50% independientemente del sexo. Se quiere contrastar, con un nivel de significacin del 5% la hiptesis nula de independencia poblacional en el efecto del consumo de un producto light sobre el sexo, siendo los resultados de la frecuencia esperada (terica) los siguientes: TABLA 2.4. FRECUENCIAS TEORICAS HOMBRE SI NO E11 = 50 E21 = 50 MUJER E12 = 50 E22 = 50

Estas frecuencias se obtienen de multiplicar las frecuencias marginales de cada fila y columna en la celda correspondiente y dividirlas por el nmero total de datos. En concreto: E11 = 100*100/200 Y lo mismo para todas las dems. Para calcular el estadstico X habr que restar cada frecuencia conjunta observada de la tabla 2.3. de la frecuencia esperada de la tabla 2.4. en cada celda, elevarla al cuadrado y dividirla otra vez por la frecuencia terica. La suma de todas las celdas ser el valor del estadstico calculado. Para el ejemplo: X= (20-50)/50+(80-50)/50+(80-50)/50+(20-50)/50 = 72 El valor crtico de una distribucin X con un grado de libertada al 5% es 3,84. Por tanto, al ser mayor el estadstico calculado que el de las tablas, rechazamos la hiptesis nula y decimos que el sexo influye en el consumo del producto light.

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

6.2. TABULACION DE VALORES MEDIOS Y ANLISIS DE LA VARIANZA El anlisis de la varianza trata de estudiar la relacin entre una variable mtrica y una variable no mtrica. La prueba de hiptesis se hace mediante la F de Snedecor. La hiptesis nula es que hay igualdad de medias. Las variables que se suelen cruzar son las que provienen de una encuesta en la que se valoran determinados atributos o caractersticas del producto mediante escalas mtricas y las de clasificacin u otras relacionadas con el tema general de la encuesta. Antes de explicar cmo se realiza el clculo del estadstico, vamos a observar de forma grfica cmo sera el anlisis de varianza. En la figura 2.4., representamos la media de la valoracin del aroma de una colonia respecto de las personas que eligen su propia marca de colonia y las que no la eligen. Como se puede observar, las medias son bastante diferentes. En el caso de la valoracin del envase, sin embargo, no hay grandes diferencias entre los dos grupos. Los crculos representan la dispersin entre los grupos. En el primer caso (figura 2.4.), las medias son diferentes para los que eligen y para los que no eligen. En el segundo (figura 2.5.), no. Adems, en el primer caso, no hay demasiada dispersin entre las respuestas de los individuos y en el segundo s. El anlisis de la varianza, nos permitir ver si esas medias son estadsticamente diferentes o no.

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.4. VALORACIN DEL AROMA DEL ENVASE


Media = 8.44

FIGURA 2.5. VALORACIN

Media = 6.63 Media = 3.29 Media = 3.24

Si

No

Eleccin marca

Si

No

Eleccin marca

El anlisis de la varianza se basa en que la dispersin total se descompone en dispersin intra grupos y dispersin entre grupos o lo que es lo mismo, diferencias de respuesta de los individuos con respecto a su grupo y diferencias de respuesta entre los distintos grupos. Las dispersiones se miden como suma de cuadrados de la siguiente forma: SC TOTAL = SC INTRA + SC ENTRE

( xij x..) = ( xij x. j ) + k (x.. x. j )


i =1 j =1 i =1 j =1 j =1

siendo: xij = valor de la observacin i para el grupo j x.. = media total x. j = media del grupo j k = nmero de grupos La F de Snedecor se calcular como el cociente entre la SC entre y la SC intra, divididas ambas por sus grados de libertad (el nmero de niveles menos uno y el nmero de observaciones menos el nmero de niveles, respectivamente). Cuanto mayor sea la F, mayor ser la diferencia entre grupos y la menor la diferencia intra grupos. Si el valor del estadstico calculado supera al valor crtico (C) , obtenido de la bsqueda en unas tablas para unos grados de libertad (k-1) y (n-1) y para un nivel de significacin, se rechaza la hiptesis nula y se dice que las variables tienen medias diferentes para cada grupo. Si ocurre lo contrario, no se rechaza la hiptesis nula y se dice que las variables tienen medias iguales en los dos grupos.

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Como en el apartado obtenemos un valor de siendo cierta (p-valor). significacin fijado (1% o

anterior, con el programa de ordenador, la probabilidad de rechazar la hiptesis nula Si esta probabilidad es inferior al nivel de 5%) entonces se rechaza la hiptesis nula.

El clculo del estadstico se puede ver con un ejemplo. Vamos a suponer que tenemos ocho datos de personas a las que preguntamos cunto valoran el aroma de una colonia (en una escala del 0 al 10) y si eligen ellos su propia marca. De estas ocho personas, cuatro eligen marca y cuatro no. Los resultados son: TABLA 2.5. VALORACIN AROMA Y ELECCIN DE MARCA ELECCION VALORACI N AROMA SI 8 SI 9 SI 7 SI 8 NO 5 NO 4 NO 6 NO 4

1 2 3 4 5 6 7 8

La media total es de 6,375. Para los que eligen marca, la media es 8 y para los que no la eligen 4,75. son estadsticamente diferentes estas medias?. Para probar la hiptesis de igualdad de medias, calculamos la F que ser:

SC entre = ((8-6,375)+(4,75-6,375))*2 = 10,56 SC intra = (8-8)+(9-8)+(7-8)+(8-8)+(5-4,75)+(4-4,75)+(64,75)+(4-4,75) = 4,75 F = (10,56/1)/(4,75/7) = 15,56 El estadstico de tablas para 1 y 7 grados de libertad y un nivel de significacin del 5% es de....BUSCAR ESTADSTICO. Como el estadstico calculado es mayor que el terico, rechazamos la hiptesis nula de igualdad de medias. 6.3. COEFICIENTES DE CORRELACION La correlacin es la tcnica estadstica bivariante que se usa con mayor frecuencia para resumir la fuerza de la asociacin entre dos variables mtricas. En investigacin comercial se suele utiliza para medir la intensidad de la relacin entre dos variables como, por ejemplo, ventas

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

y gasto publicitario, cuota de mercado y nmero de puntos de distribucin, percepciones de calidad y de precio, etc. La correlacin producto-momento es el estadstico que se suele emplear en mayor medida cuando se trata de medir la fuerza de la asociacin entre dos variables mtricas. Si denominamos X e Y a dichas variables, la correlacin lineal entre ambas indica el grado en el que la variacin de la variable X se relaciona con la variacin de la variable Y. Se conoce tambin con el nombre de coeficiente de correlacin de Pearson. Y se expresa como: r = ( xi - x)( yi y ) /
i =1 n

( xi - x) ( yi y )
i =1 i =1

Cuando queremos calcular la fuerza de la relacin entre dos variables no mtricas existen otras posibles medidas como la rho de Spearman () y la tau de Kendall (). Ambas medidas utilizan clasificaciones en vez de valores absolutos de las variables. Tambin varan entre -1 y 1. Como regla general la de Kendall se prefiere cuando hay un nmero relativamente pequeo de categoras y existen muchos casos. Por el contrario, el uso de la de Spearman rd ms aconsejable cuando tenemos un nmero relativamente alto de categoras (Malhotra, 1997).

7. ANLISIS GRAFICO BIVARIANTE


El anlisis grfico bivariante trata de ver las relaciones entre las variables y las diferencias entre grupos de variables. Para ello contamos con los grficos de cajas y bigotes (representar las diferencias entre dos o ms grupos de variables) y con los grficos XY (comprobar la relacin entre las variables). Son un complemento del anlisis de varianza y del anlisis de correlacin. En cuanto a las diferencias entre dos o ms variables mtricas para grupos distintos de individuos, necesitamos entender cmo se distribuyen los valores para cada uno de ellos y si existen suficientes diferencias como para tener significacin estadstica. Otro aspecto importante es identificar los atpicos que pueden resultar slo aparentes cuando los valores se separan en grupos. El mtodo que se utiliza para analizar estas diferencias es el grfico de cajas (box plot). Los lmites superior e inferior de la caja marcan los cuartiles superior e inferior de los datos. Por tanto, la longitud de la caja es la distancia entre el primer y el tercer cuartil, de forma que la caja contiene los datos centrales de la distribucin. La lnea dentro de la caja seala la posicin de la mediana. Si esta cae cerca del final de la caja, se indica la presencia de asimetra. Las lneas que se extienden desde cada caja (llamadas bigotes) representan la distancia entre la mayor y la menor de las observaciones que estn a menos de un cuartil de la caja. Los casos atpicos (marcados con asterisco) son observaciones que se sitan a

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

ms de 1 cuartil fuera de los lmites de la caja. En la figura 2.6 se muestra el grfico de cajas para dos grupos de individuos: los que eligen marca y los que no. Los dos grupos tienen un conjunto de valores muy diferente, lo que indica que existen diferencias entre los grupos de la valoracin del aroma. Adems existen en el segundo grupo dos casos atpicos. El investigador debe examinar estas observaciones y ver qu solucin aplica. FIGURA 2.6. DIAGRAMA DE CAJAS Y BIGOTES

12

10

4
72 21

aroma

2
63

0
N= 50 27

si

no

eleccin marca

Para ver la relacin entre dos variables, podemos utilizar los grficos de dispersin, de forma que el patrn de puntos representa la relacin: cuando los puntos se organizan a lo largo de una recta, tenemos una relacin lineal de correlacin, mientras que un conjunto de puntos curvados puede indicar relacin no lineal o incluso puede haber ausencia de relacin cuando el conjunto de puntos es aleatorio. Por ejemplo, el grfico de dispersin de las variables (figura 2.7) indica que los puntos estn alineados alrededor de una lnea recta, ya que tienen una correlacin elevada de 0,839. FIGURA 2.7. GRAFICO DE DISPERSION ENTRE AROMA Y CALIDAD

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

11 10 9 8 7 6 5

aroma

4 3 0 2 4 6 8 10 12

calidad

Sin embargo, la valoracin del envase y del precio presentan una ausencia casi total de correlacin como evidencia de la amplia dispersin de los puntos (correlacin de 0,114), como se muestra en la figura 2.8. FIGURA 2.8.: GRAFICO DE DISPERSION ENTRE ENVASE Y PRECIO

10

envase

0 0 2 4 6 8 10 12

precio

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

8. EL ANLISIS UNIVARIANTE Y BIVARIANTE EN SPSS


8.1. ANALISIS UNIVARIANTE EN SPSS El mdulo de SPSS que permite analizar la informacin se encuentra en el men de anlisis. Son varios los sub-mens que nos permitirn aplicar las tcnicas univariantes y bivariantes que hemos explicado hasta ahora. La distribucin de frecuencias se encuentra en el men Estadsticos Descriptivos, Frecuencias (Figura 2.9). FIGURA 2.9. MODULO ESTADISTICOS DESCRIPTIVOS

Cuando se acepta el submen de frecuencias, al menos se debe introducir una variable para que sea analizada. Por defecto, la salida nos dar las frecuencias absolutas, relativas, vlidas y acumuladas. Si queremos pedir otras medidas descriptivas, como las de posicin central, de dispersin o de deformacin, tendremos que marcar aquellas que queramos que aparezcan en la salida en la opcin de Estadsticos. Tambin podemos pedir grficos (histogramas, sectores o grficas de barras) en la opcin Grficos. Por ltimo, podemos cambiar la organizacin de la informacin (que aparezca de forma ascendente, descendente; por valores o por frecuencias) en la opcin Formato. En la

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

figura 2.10. se muestra cmo es el submen frecuencias.

FIGURA 2.10. SUBMENU DE FRECUENCIAS

Para analizar las salidas del SPSS, vamos a utilizar una base de datos que proviene de una de las encuestas realizadas en los aos 90 por el CIS. En esta base de datos, tiene 2491 individuos y 140 variables. Las variables provienen de un amplio cuestionario que contiene preguntas sobre posesin de bienes, actitudes y valores, as como variables sociodemogrficas que permiten clasificar a los sujetos entrevistados. Vamos a analizar las salidas referentes a tres preguntas con diferentes tipos de escala. 1. Para la escala nominal, estudiaremos las respuestas a la pregunta tiene ordenador personal?, cuyas respuestas son Si o No. 2. Para la escala ordinal, estudiaremos las respuestas a la pregunta

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Cmo utiliza el ordenador personal, cuyas respuestas van desde 1 Sin ninguna dificultad hasta 5 No sabe utilizarlo. 3. Para la escala pregunta Los respuestas se totalmente de de intervalos, estudiaremos las respuestas a la ordenadores son difciles de manejar, cuyas determinan en una escala del 1 al 9 siendo 1 acuerdo y 9 totalmente en desacuerdo.

En la tabla 2.6. se muestra la salida a la primera pregunta. Como de las 2491 personas encuestadas, 8 no contestan a esta pregunta, el porcentaje vlido es distinto a la frecuencia relativa que aparece en la tercera columna. Del total de casos vlidos, el 26,3% (654 personas sobre 2483 casos vlidos) posee ordenador. TABLA 2.6. FRECUENCIAS DE LA PREGUNTA TIENE ORDENADOR PERSONAL?
Ordenador personal Frecuencia 654 1829 2483 8 2491 Porcentaje 26,2 73,4 99,7 ,3 100,0 Porcentaje vlido 26,3 73,7 100,0 Porcentaje acumulado 26,3 100,0

Vlidos

Perdidos Total

S No Total Sistema

En esta pregunta no nos interesa obtener una medida descriptiva. Si puede ser interesante pedir un grfico (de sectores o de barras). Los grficos de SPSS no son visualmente atractivos. Por ello, si lo que nos interesa es hacer una inspeccin rpida se pueden solicitar estos grficos, pero si vamos a presentar un informe o un trabajo acadmico es mucho mejor preparar grficos en una hoja de clculo o con un programa de presentaciones. No obstante, en la figura 2.11. presentamos el grfico de sectores que se obtendra cuando se marcara esta opcin en SPSS. FIGURA 2.11. GRAFICO DE SECTORES DE LA PREGUNTA TIENE ORDENADOR PERSONAL?

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Ordenador personal
Perdido S

No

Casos ponderados por PESO

La siguiente pregunta, con escala ordinal, permite un anlisis de frecuencias y obtener ciertas medidas descriptivas, como la mediana y la moda. Sin embargo, estas medidas no aaden gran informacin a la inspeccin visual de las frecuencias. Estas se pueden observar en la tabla 2.7. En este caso, los valores ausentes son 123 por lo que el porcentaje vlido cambia en mayor medida que en el ejemplo anterior. El dato que ms se puede destacar es que casi un 60% de la muestra (el 58,9%) no sabe utilizar el ordenador, mientras que un 23,6% afirma manejarlo sin dificultad. TABLA 2.7. FRECUENCIAS DE LA PREGUNTA COMO UTILIZA EL ORDENADOR PERSONAL?
Ordenador personal Frecuencia Sin dificultad 558 Con alguna dificultad 214 Con bastante dificultad 113 Con mucha dificultad 86 No sabe utilizarlo 1395 Total 2368 Sistema 123 2491 Porcentaje 22,4 8,6 4,6 3,5 56,0 95,1 4,9 100,0 Porcentaje vlido 23,6 9,1 4,8 3,6 58,9 100,0 Porcentaje acumulado 23,6 32,6 37,4 41,1 100,0

Vlidos

Perdidos Total

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

La ltima pregunta que vamos a exponer se basa en una escala de intervalos de nueve posiciones. Con las variables mtricas (escalas de intervalos o de razn) no es necesario analizar las frecuencias, sobre todo si tienen un rango muy amplio. Mucho ms ilustrativo ser el anlisis de medidas de tendencia central y de dispersin. Para obtener estas medidas descriptivas, podemos pedir que no aparezcan las frecuencias en el submen que hemos ilustrado y marcar la opcin de descriptivos o podemos acudir a otro submen dentro del mdulo de Estadsticos Descriptivos, concretamente Descriptivos (figura 2.12). En este submen, debemos introducir las variables con escala de intervalo o de razn que queremos analizar. Por defecto, se obtendr la misma informacin que en el men de frecuencias, es decir, media, desviacin tpica, mximo y mnimo. Si queremos alguna otra medida hay que marcarla en Opciones. Tambin este submen nos permite crear variables estandarizadas (nuevas variables que se denominan como las antiguas con una Z delante) que pueden ser objeto de anlisis posteriores.

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.12. SUBMENU DESCRIPTIVOS

La salida de SPSS muestra por defecto los resultados que aparecen en la tabla 2.8. Segn la escala utilizada (1-9), la media de las respuestas se concentra en torno al acuerdo con esta afirmacin, aunque hay una elevada dispersin, ya que la desviacin tpica arroja un valor de 2,44. TABLA 2.8. MEDIDAS DESCRIPTIVAS DE LA PREGUNTA LOS ORDENADORES SON DIFICILES DE MANEJAR
Estadsticos descriptivos N Los ordenadores son dificiles de manejar N vlido (segn lista) 2489 2489 Mnimo 1 Mximo 9 Media 2,58 Desv. tp. 2,448

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

8.2. EL ANALISIS BIVARIANTE EN SPSS La tabulacin cruzada se analiza en SPSS en el submen de tablas de contingencia, que se encuentra tambin en el mdulo de Estadsticos Descriptivos. Habr que introducir las variables que consideremos fila (o que dependen de otra) y las variables que consideremos columna (las que condicionan a las variables fila). En el ejemplo que desarrollamos en el apartado 5, pondramos el consumo del producto light por filas y el sexo por columnas. Tambin habr que marcar en la opcin de Estadsticos la Chi-cuadrado y en la opcin de Casillas el porcentaje por columna. En la figura 2.13. se muestra la pantalla que reproduce una tabulacin para la base de datos de la encuesta del CIS en que se trata de ver la relacin de dependencia entre la posesin de antena parablica y el tipo de residencia en la que vive en el encuestado. FIGURA 2.13. TABULACION CRUZADA EN SPSS

La salida que proporciona el programa muestra en primer lugar las tablas de contingencia (Tabla 2.9.). El porcentaje por columna nos indica que parece haber un mayor porcentaje de usuarios de antenas en los chalets y en los pisos. Para probar que realmente hay una relacin de dependencia acudimos al estadstico Chi-cuadrado (Tabla 2.10.). El valor de esta prueba es de 46,98. Si nos fijamos en su p-valor y lo comparamos con un nivel de significacin del 1%, podemos rechazar la hiptesis nula de independencia y concluir que hay una relacin entre la

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

posesin de antena y el tipo de residencia. Es importante observar que no hay ninguna celda con frecuencia esperada menor que 5. Si hubiera ms de un 20% de celdas con frecuencias esperadas menores que 5, no podramos interpretar los resultados que nos arrojara esta prueba. TABLA 2.9. TABULACION CRUZADA TIPO DE RESIDENCIA Y ANTENA PARABOLICA
Tabla de contingencia Antena parabolica de TV (personal o colectiva) * PISO PISO Casa unifamiliar (zona residencial deprimida o rural) 27 4,0% 641 96,0% 668 100,0%

Antena parabolica de TV S (personal o colectiva) No Total

Recuento % de PISO Recuento % de PISO Recuento % de PISO

Piso 210 13,7% 1322 86,3% 1532 100,0%

Chalet o casa (nivel medio y alto) 29 12,9% 195 87,1% 224 100,0%

No consta 3 6,1% 46 93,9% 49 100,0%

Total 269 10,9% 2204 89,1% 2473 100,0%

TABLA 2.10. ESTADISTICO CHI-CUADRADO


Pruebas de chi-cuadrado Valor 46,986 a 55,357 25,470 2473 gl 3 3 1 Sig. asinttica (bilateral) ,000 ,000 ,000

Chi-cuadrado de Pearson Razn de verosimilitud Asociacin lineal por lineal N de casos vlidos

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 5,33.

En cuanto al anlisis de la varianza, hay varias opciones en SPSS para realizarlo, pero nosotros aconsejamos el mdulo de Comparar medias, Anova de un factor. Entre las opciones, habr que marcar descriptivos para que aparezcan las medias y desviaciones tpicas. Para desarrollar un ejemplo vamos a utilizar otra base de datos. En este caso la que proviene de una encuesta a trabajadores sobre marketing interno. Cruzaremos la categora profesional con la opinin que tiene el encuestado sobre el ambiente laboral. Los mdulos y opciones se pueden ver en las figuras 2.14. y 2.15.

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.14. MODULO DE ANOVA

FIGURA 2.15. ANOVA DE UN FACTOR. OPCIONES

Los resultados se muestran en las tablas 2.11. y 2.12. En la primera, se observa que las medias parecen diferentes en funcin de la categora profesional, ya que las categoras ms elevadas puntan mejor el ambiente laboral. La prueba de que las medias son estadsticamente diferentes se basa en la F-Snedecor. El valor de este estadstico es de

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

8,47 y tiene un p-valor de 0.000, lo que nos indica que para un nivel de significacin del 1% podemos rechazar la hiptesis nula de igualdad de medias. TABLA 2.11. DESCRIPTIVOS DE AMBIENTE LABORAL POR CATEGORIA PROFESIONAL
Descriptivos AMBIENTE LABORAL Intervalo de confianza para la media al 95% Lmite Lmite inferior superior 3,72 3,89 3,47 3,89 3,95 4,17 4,06 4,44 3,82 3,95

N 1 2 3 4 Total 501 106 259 51 916

Media 3,80 3,68 4,06 4,25 3,89

Desviacin tpica ,963 1,091 ,887 ,683 ,956

Error tpico ,043 ,106 ,055 ,095 ,032

Mnimo 1 1 1 2 1

Mximo 5 5 5 5 5

TABLA 2.12. ANALISIS DE VARIANZA (AMBIENTE LABORAL POR CATEGORIA PROFESIONAL)


ANOVA AMBIENTE LABORAL Suma de cuadrados 22,699 813,798 836,496 gl 3 912 915 Media cuadrtica 7,566 ,892 F 8,479 Sig. ,000

Inter-grupos Intra-grupos Total

8.3. ANALISIS DE CORRELACION EN SPSS

La correlacin bivariada se analiza en SPSS en el submen de Correlaciones (figura 2.16). Concretamente, se debe elegir la opcin Divariadas puesto que las otras opciones se refieren a las correlaciones parciales o a las distancias. Por defecto se calcula la correlacin de Pearson, aunque tambin se pueden marcar los otros estadsticos que indican correlacin para variables no mtricas, como la tau de Kendall o la rho de Spearman. Adems, el programa permite obtener aquellos coeficientes que tienen una correlacin estadsticamente significativa. En el caso de la base de datos que estamos analizando vamos a obtener las correlaciones divariadas entre las preguntas que hemos estado analizando anteriormente referidas a los ordenadores. Como se puede ver en la tabla 2.13., la salida es una matriz cuya diagonal principal es la unidad. Las correlaciones entre las variables aparecen en los dems elementos de la matriz. En el ejemplo, todas las variables tienen una correlacin estadsticamente significativa al 99%.

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.15. MODULO DE CORRELACIONES BIVARIADAS

TABLA 2.13. SALIDA DE CORRELACIONES BIVARIADAS

ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Correlaciones Con los ordenadores se resuelven mas facilmente Los algunos ordenadores problemas de son dificiles la vida de manejar cotidiana 1 ,412** . ,000 2489 2486 ,412** 1 ,000 2486 ,409** ,000 2487 **. La correlacin es significativa al nivel 0,01 (bilateral). . 2486 ,579** ,000 2485 Los ordenadores hacen que las personas se comuniquen cada vez menos entre si ,409** ,000 2487 ,579** ,000 2485 1 . 2487

Los ordenadores son dificiles de manejar

Correlacin de Pearson Sig. (bilateral) N Con los ordenadores se Correlacin de Pearson resuelven mas facilmente Sig. (bilateral) algunos problemas de la vida cotidiana N Los ordenadores hacen que las personas se comuniquen cada vez menos entre si Correlacin de Pearson Sig. (bilateral) N

8.4. ANALISIS GRAFICO EN SPSS Los grficos explicados en el apartado 7 (histogramas, grficas de barras, polgono de frecuencias, dispersin y cajas) se pueden encontrar en la mayora de los programas existentes. La opcin del men que permite llevar a cabo todos estos anlisis es la de Grficos. Dentro de ella, se debe elegir el tipo de plot que queremos para representar los datos. En histogramas, hay que indicar la variable y si se quiere representar la curva normal, marcar dicha opcin. En dispersin se deben escoger, al menos, las dos variables que sern representadas. Y en cajas se debe indicar la variable de referencia (categrica) para dividir entre grupos y la variable mtrica que se representar en la caja.

You might also like