You are on page 1of 11

Curso 2013/14

Asignatura: ESTADISTICA AVANZADA


Estudios:GRADOS EN ADE, FYCO, ECONOMIA Y MARKETING

PRACTICA
DE ORDENADOR 4: ANALISIS
DE LA VARIANZA

1. PROCEDIMIENTO ANOVA DE UN FACTOR.


El procedimiento ANOVA de un factor permite comparar si k medias son iguales, es decir, es
una extension de la prueba T para mas de dos muestras independientes vista en la practica
2. El contraste a realizar sera pues:
H0 : 1 = 2 = . . . = k
H1 : i 6= j para alg
un i 6= j

Como las muestras deben ser independientes, deben introducirse los datos en dos variables, una variable donde se introduzcan los k tratamientos del FACTOR y otra variable
cuantitativa donde se recojan los datos, tal y como se vio en el punto 1.2 de la practica 2.
Para realizar un analisis de la varianza, ejecutaremos el procedimiento del men
u:
Analizar Comparar medias ANOVA de un factor

En el visor de resultados, SPSS muestra la tabla del ANOVA con la descomposicion de la


variabilidad en suma de cuadrados entre tratamientos (Inter-grupos) y suma de cuadrados
error (Intra-grupos), los grados de libertad de las sumas de cuadrados, los dos estimadores
de la varianza en los que se basa el metodo, el estadstico F y el p-valor (Sig.(bilateral)).

Ejemplo 1 Se desea investigar si tres metodos de ense


nanza producen resultados similares.
Para ello se toman 3 grupos de estudiantes similares y con cada uno se sigue un metodo:
ense
nanza tradicional, ense
nanza basada en la realizacion de trabajos por parte de los alumnos y ense
nanza con soporte informatico. Una vez finalizado el periodo de ense
nanza, todos
los alumnos realizan el mismo examen final, obteniendo las siguientes calificaciones:
Grupo
Grupo I
6 7 5
Grupo II 10 9 9
Grupo III 3 4 8

Notas
5 8 4
10 6
7 6 3

6
10
3

7
6

Hay razones para creer que existen diferencias en la calificacion esperada dependiendo
del metodo de ense
nanza?

2. ANALISIS
POSTERIORES AL ANOVA.
Si hemos rechazado la hipotesis nula de igualdad de medias del ANOVA, estaremos interesados en determinar que medias producen las diferencias, para lo que deberemos comparar
todas las parejas de medias de los k tratamientos, es decir, los contrastes a resolver son:
H0 : i = j
H1 : i 6= j

para i 6= j.

De esto se ocupan los analisis posteriores o post hoc, que podemos encontrar en el boton
post hoc del procedimiento ANOVA de un factor. De todas las pruebas que ofrece el programa, en teora solo hemos visto el metodo LSD (que en SPSS aparece como DMS), el
metodo de Tukey (recordad que u
nicamente puede emplearse para dise
nos balanceados) y el
de Dunnet si uno de los tratamientos es un control.

Ejemplo 2 Siguiendo con el ejemplo 1,cuales son los metodos de ense


nanza significativamente diferentes?.
Ejemplo 3 Supongamos ahora que en el ejemplo 1, el primer metodo es un control, existen
diferencias entre los resultados obtenidos con los otros dos metodos con los resultados de la
ense
nanza tradicional?.

DE LAS HIPOTESIS

3. COMPROBACION
PREVIAS
AL MODELO.
Recordemos que las hipotesis de partida del modelo son fundamentales para poder aplicar
la tecnica del ANOVA, por lo que antes de su aplicacion deberemos comprobar las hipotesis
de
Normalidad.
Homocedasticidad.
Independencia.
Aleatoriedad.
Existencia de valores atpicos.
Estas comprobaciones podemos realizarlas a traves de los datos o sobre los residuos del
modelo, eij = yij yi , que podemos obtener en el SPSS en el men
u:
Analizar Modelo lineal general Univariante
En Dependientes introducimos la variable con las observaciones y en Factores fijos la
variable factor. En el boton Guardar, encontraremos los residuos y las medias (valores
pronosticados) necesarias para realizar algunos graficos que veremos mas adelante.

1. Normalidad: la comprobaremos analtica o graficamente seg


un se vio en la practica
3, en el punto 1.1.
2. Homocedasticidad:
Contraste: El procedimiento para realizar el Test de Levene se encuentra en el
cuadro de dialogo del procedimiento ANOVA de un factor, en el boton Opciones:

o bien en el mismo men


u de los test de normalidad:
Analizar Estadsticos descriptivos Explorar
Graficos Dispersion por nivel con prueba de Levene

Grafico de residuos frente a valores previstos: diagrama de dispersion donde en el


eje X introduciremos los valores previstos y en el eje Y los residuos. El diagrama
de dispersion podemos encontrarlo en el men
u:
Graficos Cuadros de dialogo antiguo Dispersion Dispersion simple

3. Aleatoriedad: debemos estudiar la presencia de tendencias o patrones en el gr


afico
de residuos frente a secuencia de tiempo, que obtendremos en el men
u:
Graficos Cuadros de dialogo antiguo Lineas Simple

marcamos la opcion Valores individuales de los casos y pulsamos Definir. En la lnea


representa: introduciremos los residuos, y en Etiquetas de categoras marcamos la
opcion N
umero de casos.

Podemos as mismo comprobar la aleatoriedad mediante un test de rachas de los residuos, tal y como se vio en el punto 1.3 de la anterior practica.

4. Existencia de valores atpicos: podemos estudiar la existencia de valores atpicos


en cualquiera de los graficos de residuos vistos anteriormente, aunque el grafico que
muestra mas facilmente estos valores es el diagrama de cajas, tambien conocido como
grafico de caja y bigotes. Este grafico lo encontraremos en el men
u:
Graficos Cuadros de dialogo antiguo Diagramas de caja Simple

En variable introduciremos los residuos y en el eje de categoras el factor.

Ejemplo 4 Comprobar que se verifican las hipotesis de normalidad y homocedasticidad en


el ejemplo 1. Hay alguna observacion que pueda considerarse potencialmente atpica?.


4. ALTERNATIVA NO PARAMETRICA
AL ANOVA:
EL TEST DE KRUSKAL-WALLIS.
Dadas k muestras independientes, el objetivo de este test es contrastar que las k distribuciones son identicas frente a la hipotesis alternativa de que una o varias poblaciones difieren
en su tendencia central, sin necesitar que dichas poblaciones sean normales.
Encontramos la prueba de Kruskal-Wallis en SPSS en el men
u:
Analizar Pruebas no parametricas Muestras independientes
En la pesta
na Objetivo, seleccionamos Comparar automaticamente distribuciones entre
grupos.

En la pesta
na Campos, introducimos la variable con los datos en Campos de prueba y
la variable con el grupo de pertenencia de cada individuo en Grupos.

En la pesta
na Configuracion, en el apartado seleccionar pruebas, escogemos Personalizar pruebas y elegimos ANOVA de 1 va de Kruskal-Wallis dentro del cuadro
Comparar distribuciones entre grupos.
7

En el apartado Opciones de prueba podemos cambiar el nivel de confianza, por defecto


el 95%.
Ejemplo 5 Se desea comprobar si al intensidad del ruido influye en la duracion de una
cierta tarea laboral. Para ello se tomaron cuatro muestras bajo cuatro niveles diferentes de
ruido (bajo, medio, alto y muy alto) de los tiempo (en segundos) empleados por obreros de
caractersticas similares para llevar a cabo dicha tarea, obteniendose los siguientes datos:

Nivel
Nivel
Nivel
Nivel

1
2
3
4

18
21
34
29

Observaciones
16 15 20
25 24 27
30 28 42
36 49 31

(Yij )
23
19
45 37
48 45

Contrastar la igualdad de los tiempos medios en realizar la tarea los cuatro grupos.

M
etodo de Dunn.
En caso de que se rechace la hipotesis nula de que todas las poblaciones tienen la misma
distribucion, podemos identificar que poblaciones son significativamente diferentes mediante
el test de comparaciones m
ultiples de Dunn (tambien llamado de Nemenyi). Este metodo no
tiene un procedimiento especfico dentro de los men
us del SPSS, pero podemos encontrarlo
en la tabla obtenida al ejecutar la prueba de Kruskal-Wallis.

Al pinchar dos veces sobre ella nos aparece la ventana de Visor de modelos. En la division
derecha, en la parte inferior, en el desplegable Ver, cambiamos la opcion por defecto de Vista
de prueba de muestras independientes por Comparaciones por parejas.

5. EJERCICIOS.
1. Una compa
na desea estudiar si existen diferencias en el tiempo que un cliente tarda
en pagar una factura dependiendo del cuatrimestre en que ha sido emitida. Para ello
selecciona varias facturas emitidas en los tres cuatrimestres del a
no pasado, observando
el n
umero de das que tardaron en ser pagadas:
Cuatrimestre 1
Cuatrimestre 2
Cuatrimestre 3

28
26
37

19
20
28

13
11
26

28
14
35

29
22
31

22
21

21

Que conclusion se puede obtener de estos datos?


2. Una entidad financiera tiene tres sucursales en la provincia de Almera. Para evaluar
si la sucursal en la que trabajan sus empleados influye en los salarios de estos, se
seleccionan tres muestras aleatorias de empleados en cada sucursal, y se recoge sus
salarios:
Sucursal 1
1.536
3.768
1.517
1.536

Sucursal 2
1.596
1.536
1.548
1.920
2.700

Sucursal 3
1.614
1.536
3.720
2.712
1.716
1.536

se puede admitir la influencia de la sucursal en los salarios de los trabajadores?.


3. Una compa
na dispone de tres plantas de produccion, en apariencia iguales. Para
comprobar si tienen igual efectividad, la direccion eligio aleatoriamente 30 das; durante
los 10 primeros se determino la produccion diaria de la planta 1, durante los 10 das
siguientes, la produccion de la planta 2 y, en los 10 u
ltimos das, la produccion de la
planta 3. Los datos se recogen en el fichero Produccion.sav. Podemos considerar que
el n
umero de unidades producidas por las tres plantas es la misma?.

4. Cansado de los fallos reiterados de los productos Acme, Wile E. Coyote desea comparar
los niveles de eficiencia de los productos que encarga, con objeto de encontrar alguno
que le ayude a dar caza al impertinente Correcaminos, que cada da le altera mas
los nervios. Para ello estudia los productos utilizados en 7 semanas elegidas al azar,
anotando el porcentaje de fallo de los productos:
Petardo
Peque
no Gigante
42.7
47.3
57.3
63.1
49.2
51.2
48

Bomba aerea
Autoguiada
38.3
35.1
42.7
58.2
32.7
30.1
31.1

Patines Indumentaria
Cohete
Bat-Man
42.9
30.1
38.2
37.5
49.9
47.8
59.3
53.9
45.7
33.8
48.3
38.7
45.2
39.7

Existen diferencias significativas entre los niveles medios de eficiencia de los productos?.
5. En la promocion de un nuevo juguete, se estudia la calidad de las tres marcas principales de pilas alcalinas, con el fin de recomendar su utilizacion. Para ello toma
muestras aleatorias de pilas de cada marca y mide en tiempo que el juguete permanece
funcionando. Los resultados obtenidos fueron:
Marca
A
125
B
87
C
55

Horas de duracion
140 218 78 98
100 85 65 115 83
50 78 93 60 78

Puede decirse que haya diferencias significativas en las calidades de las marcas de
pilas?. En caso afirmativo, indicar que marca tiene una duracion significativamente
mayor.
6. Aquellos individuos que se preocupan por su salud probablemente prefieran perritos
calientes bajos en sal y caloras. Los datos del archivo HotdogData.sav son los resultados de un analisis de laboratorio sobre los contenidos de caloras y sodio de los perritos
calientes de las marcas mas conocidas. Se analizaron 3 tipos de perritos calientes: de
ternera, de ave y mixto (mayoritariamente cerdo y ternera, pero con hasta un 15% de
ave). Realiza un analisis estadstico para averiguar si el contenido de sal y caloras
depende del tipo de perrito caliente (haz un analisis para las caloras y otro diferente/independiente para la sal).
7. Una editorial lleva a cabo una investigacion para buscar una respuesta a la pregunta de
si existen diferencias significativas entre las caractersticas de los anuncios que se publican en diferentes revistas, o en diferentes tipos de revistas. Para ello se seleccionaron
30 revistas, que fueron catalogadas seg
un el nivel educativo de su lector tpico. Se
seleccionaron aleatoriamente entonces 3 revistas de cada uno de los niveles, y de cada
10

una se seleccionaron aleatoriamente 6 anuncios. Las revistas se agruparon de la siguiente forma:


Grupo 1 : Nivel ed. alto: 1. Scientific American, 2. Fortune, 3. The New Yorker.
Grupo 2 : Nivel ed. medio: 4. Sports Illustrated, 5. Newsweek, 6. People.
Grupo 3 : Nivel ed. bajo: 7. National Enquirer, 8. Grit, 9. True Confessions.
De cada anuncio se conto el n
umero de palabras y el n
umero de frases. Los datos del
archivo MagazineData.sav contienen los resultados:
(a) Compara el n
umero de palabras de los diferentes anuncios entre los 3 grupos.
(b) Si tratamos los datos como muestras independientes seleccionadas de las 9 revistas diferentes, investigar si hay diferencias significativas (en el n
umero medio de
palabras por anuncio) entre estas revistas seleccionadas.
(c) Repetir el proceso de (a) y comparar el n
umero de frases de los diferentes anuncios
entre los 3 grupos.

11