You are on page 1of 166

.

INFERENCIA Y CONTRASTE DE HIPÓTESIS


EN VARIABLES CUANTITATIVAS
PEDRO VALERO

CONTENIDOS

1. Asociación entre dos variables contínuas............................................. 3


2. La recta de regresión ............................................................................ 5
3. Como calcular rectas (1)....................................................................... 11
4. El coeficiente de correlación ................................................................ 13
5. Como calcular rectas (2)....................................................................... 16
6. El ajuste de la recta............................................................................... 18
7. Evaluando la regresión en detalle......................................................... 20
8. Evaluar si la regresión es lineal ............................................................ 21
9. Evaluar residuales de gran tamaño ....................................................... 28
10. Evaluar puntos influyentes ................................................................... 31
11. Pensar en variables subyacente ............................................................ 36
12. Muestras y regresión ............................................................................ 39
13. El error típico de los coeficientes de la recta........................................ 42

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 1 de 166


.

14. Pruebas de hipótesis de la pendiente de regresión................................ 45


15. Pruebas de hipótesis y regresión con ordenador................................... 47
16. Intervalos de confianza para valores predichos.................................... 51
17. Supuestos para inferencias en regresión............................................... 56
18. Igual variabilidad.................................................................................. 57
19. Normalidad de los errores .................................................................... 62
20. Predictores binarios .............................................................................. 63
21. Predictores politómicos ........................................................................ 73
22. Descripción del Analisis de Varianza................................................... 74
23. Supuestos del análisis de regresión ...................................................... 83
24. Igualdad de varianzas en Análisis de Varianza .................................... 84
25. Comparando las medias........................................................................ 93

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 2 de 166


1 . Asociación entre dos variables contínuas: El diagrama de

1. Asociación entre dos variables contínuas: El


diagrama de dispersión
Aproximación gráfica

• En la segunda parte del Informe Pisa se analiza la


relación entre la puntuación en Matemáticas obtenida

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 3 de 166


1 . Asociación entre dos variables contínuas: El diagrama de

por los alumnos y la inversión Pública en PIB.


La recta de regresión nos
La forma600 de la nube nos
da la relación lineal
indica la relación aproxi- media
mada
Corea Finlandia
Japón
Suiza
Nueva Zelanda
Rep. Checa
Francia
Suecia

Puntuación en Matemáticas
Eslovaquia Polonia Dinamarca
500
Luxemburgo
España Estados Unidos Noruega
Rusia
Italia Portugal
Grecia

Uruguay
Tailandia
Cada punto indica el
400
Turquía
valor del país en
ambas variables
México
Indonesia Túnez
Brasil

R2 = 0,1271
300
1% 2% 3% 4% 5% 6% 7% 8% 9%
Inversión pública en educación (% del PIB)

Fuente: PISA Figura 1: Diagrama de Dispersión dePuntuación en Matemáticas versus inversión Pública

L i i d l í t á t i l d E t d E ñ tá

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 4 de 166


1 . Asociación entre dos variables contínuas: El diagrama de

ACTIVIDADES

EJERCICIO 1.1 En el informe PISA, qué puedes decir de la relación


entre puntuación en Matemáticas y PIB per capita a partir del
diagrama de dispersión. ¿Qué paises se ajustan peor a la rela-
ción?
EJERCICIO 1.2 En el informe PISA, qué puedes decir de la relación
entre el índice de status socieconómico y cultura y puntuación en
Matemáticas a partir del diagrama de dispersión. ¿Qué paises se
ajustan peor a la relación?
EJERCICIO 1.3 En el informe PISA, ¿dirías que la relación entre el
índice de status socieconómico y cultura y puntuación en Matemá-
ticas podría ser curvilínea?
EJERCICIO 1.4 En el informe PISA, ¿como interpretarías o explicarías
que el índice de status socieconómico y cultura y puntuación en
Matemáticas tiene una forma curvilínea?

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 5 de 166


2 . La recta de regresión.

2. La recta de regresión
Calculando puntuaciones predichas

• La recta de regresión nos da una idea de la relación


teórica entre dos variables.
• Cuando hablamos de regresión, hay una variable
explicada o predicha, y una variable explicativa o
predictora (también, dependiente o independiente).
• La variable predicha se pone en el eje de las y, la
variable predictora en el eje de las x.
• En el ejemplo de la Figura 1 sobre la relación entre
puntuación en Matemáticas y la inversión pública, la
formula no nos la dan así que usaremos otro ejemplo.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 6 de 166


2 . La recta de regresión.

• Ejemplo, 18 esquiadores de campo a través hacen un


recorrido. A esos esquiadores se les mide la
concentración de CPK en sangre (la cantidad de
enzima CPK en sangre es una medida de stress
muscular). Los datos son los siguientes.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 7 de 166


2 . La recta de regresión.

• CPK es la variable predicha, AGE es la variable


predictora
• La formula en este caso es la siguiente:

CPK = 867 – 9.85 × AGE Ecuación (2.5)

• A partir de esa fórmula podemos calcular puntuaciones


predichas o esperadas para el CPK de los esquiadores.
• Cada puntuación expresa un valor teórico o ideal que
asignamos a todos los sujetos que tengan el mismo
valor en la variable predictora. Por ejemplo, el primer
esquiador tenía una edad de 19. El valor predicho para
este esquiador es de:

679.85 = 867 – 9.85 × 19 Ecuación (2.6)

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 8 de 166


2 . La recta de regresión.

• El gráfico a continuación muestra la línea de regresión


y el valor del primer sujeto.

1500.00
1000.00
CPK
Esta es la puntuación predicha
500.00

Este es la puntuación del sujeto 1


0.00

10.00 20.00 30.00 40.00 50.00 60.00 70.00

Age

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 9 de 166


2 . La recta de regresión.

• Las puntuaciones predichas y las observadas no


coinciden. Siempre hay una cierta cantidad de error.

1500.00
1000.00
Esta diferencia se llama error o
CPK
residual

{
500.00

Este es la puntuación del sujeto 1


0.00

10.00 20.00 30.00 40.00 50.00 60.00 70.00

Age

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 10 de 166


2 . La recta de regresión.

• El concepto de error o residual es de mucha


importancia. En el informe PISA lo utilizamos para
valorar si un país está funcionando por encima o por
debajo de sus posibilidades o expectativas.
Hong-Kong tiene un residual
600
positivo y alto
Hong-Kong
Finlandia
Corea Holanda Canadá
Macao Japón
Puntuación en Matemáticas

Suiza Islandia
Francia Suecia
500 Polonia Alemania
Luxemburgo
España Noruega
Rusia Letonia
Portugal Estados Unidos
Italia
Grecia

Serbia y M.
Tailandia
Macao Uruguay España tiene un resid-
400
ual cercano a cero
México
Mexico tiene un
valor bajo
Túnez Indonesia

R2 = 0,5118
300
-1,5 -1,0 -0,5 0,0 0,5 1,0
Índice PISA de estatus socio-económico y cultural

Fuente: PISA
Figura 2: Diagrama de Dispersión dePuntuación en Matemáticas versus estatus socioeconómico

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 11 de 166


2 . La recta de regresión.

• Para calcular los residuales simplemente restamos la


puntuación observada de la puntuación predicha. Los
símbolos que se suelen utilizar son:
e i = y i – ŷ i Ecuación (2.7)

Esto indica el Esta es la puntuación predicha


residual o error
Esta es la puntuación
observada

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 12 de 166


2 . La recta de regresión.

• Las puntuaciones observadas, predichas y residuales


para los datos de los esquiadores son las siguientes:
Observadas PredichasResiduales

Tabla 1: Puntuaciones observadas, predichas y residuales para los datos de


esquiadores

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 13 de 166


2 . La recta de regresión.

• Tener en cuenta las siguientes relaciones. Las tres


fórmulas son la misma después de un poco de
manipulación

e = y – ŷ
y = ŷ + e
ŷ = y – e
ACTIVIDADES

EJERCICIO 2.1 Comprueba que las puntuaciones residuales de la


Figura 1 están bien calculadas a partir de las otras puntuacio-
nes. Utiliza la Ecuación 2.7.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 14 de 166


2 . La recta de regresión.

EJERCICIO 2.2 En el gráfico de la Figura 3 indica aproximadamente


cual es la puntuación observada, la predicha y la residual para
Islandia. Indica lo mismo para Macao.

600

Hong-Kong
Finlandia
Corea Holanda Canadá
Macao Japón
Puntuación en Matemáticas

Suiza Islandia
Francia Suecia
500 Polonia Alemania
Luxemburgo
España Noruega
Rusia Letonia
Portugal Estados Unidos
Italia
Grecia

Tailandia Serbia y M.
Macao Uruguay
400
México

Túnez Indonesia

R2 = 0,5118
300
-1,5 -1,0 -0,5 0,0 0,5 1,0
Índice PISA de estatus socio-económico y cultural

Fuente: PISA
Figura 3: Diagrama de Dispersión dePuntuación en Matemáticas versus inversión Pública

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 15 de 166


3 . Como calcular rectas (1).

3. Como calcular rectas (1)


Métodos para ajustar líneas

• Hay diversas maneras de ajustar líneas de predicción:


– Se pueden ajustar a mano
– Se pueden calcular rectas de regresión
– Se pueden utilizar métodos robustos o más flexibles

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 16 de 166


3 . Como calcular rectas (1).

• Aquí se muestran varias posibilidades


Línea a mano. Tiene dos partes

1500.00
Línea de regresión

1000.00
CPK

Línea robusta
500.00
0.00

10.00 20.00 30.00 40.00 50.00 60.00 70.00


Age

• Cada una de estas líneas tiene sus propiedades y sus


méritos. Nosotros sólo veremos las de la regresión.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 17 de 166


3 . Como calcular rectas (1).

• La línea de regresión tiene las siguientes propiedades:


– Es recta
– Siendo recta, es la línea que da una suma al
cuadrado de residuales menor.
• Hay varias formulas para calcular la recta de regresión.
De entre ellas, he seleccionado la siguiente:
– Recordar, queremos calcular una recta que tiene la
siguiente forma:
Este símbolo significa predicha Las dos cosas que no sabemos
son a y b
ŷ = a + bx

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 18 de 166


3 . Como calcular rectas (1).

– b se denomina la pendiente de la recta y se puede


calcular con la siguiente fórmula.
rS y r=correlación
b = -------- S y = desviación típica de y Ecuación (3.3)
Sx S x = desviación típica de x

– Una vez se conoce b es fácil calcular a. Esto se hace


mediante

a = y – bx Ecuación (3.4)

– En los cálculos anteriores falta como calcular r . Eso


lo veremos en el siguiente apartado.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 19 de 166


4 . El coeficiente de correlación.

4. El coeficiente de correlación
Midiendo la relación

• Hay diferentes fórmulas para calcular el coeficiente de


correlación, todas ellas equivalentes.
• El método más sencillo consiste en:
– Pasar las puntuaciones de las variables a
puntuaciones z (esto se hace restando la media de la
variable y dividiendo por la desviación típica)

xi – x
z x = ------------ Ecuación (4.5)
sx

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 20 de 166


4 . El coeficiente de correlación.

– Aplicar la siguiente fórmula (es decir, multiplicar cada


una de las puntuaciones z para una variable por la
puntuación z correspondiente de la otra variable y
dividir por el número de casos menos 1)

r =
∑ z zy
x
----------------
- Ecuación (4.6)
n–1
• EJEMPLO DE CALCULO: Se llevó a cabo un estudio de
efecto del carril-bici sobre conductores y ciclistas. Las
variables son: ESPACIO DE VIAJE entre el carril-bici y
la línea central de la carretera, y SEPARACIÓN es la
distancia entre el ciclista y un coche que pasa.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 21 de 166


4 . El coeficiente de correlación.

• Aquí están los datos


Tabla 2: Datos para Espacio de viaje y separación

Espacio de viaje Separación


12.8 5.5
12.9 6.2
12.9 6.3
13.6 7
14.5 7.8
14.6 8.3
15.1 7.1
17.5 10
19.5 10.8
20.8 11

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 22 de 166


4 . El coeficiente de correlación.

• Calculamos la media y la desviación típica de las


variables
Tabla 3: Medias y desviaciónes típicas de las variables

x s
Espacio de viaje 15.42 2.88
Separación 8 1.98

– Calculamos las puntuaciones típicas


Tabla 4: Puntuaciones z para Espacio de viaje y separación

Espacio de viaje Separación


-0.91 -1.26
-0.88 -0.91
-0.88 -0.86
-0.63 -0.51
-0.32 -0.1
-0.29 0.15
-0.11 -0.46
0.72 1.01
1.42 1.42
1.87 1.52

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 23 de 166


4 . El coeficiente de correlación.

– Multiplicamos los dos valores de cada fila


Tabla 5: Multiplicando los valores

Multiplicación
1.15
0.80
0.76
0.32
0.03
-0.04
0.05
0.73
2.02
2.84

– Sumamos los valores de la columna anterior y


dividimos por el número de casos menos 1 y nos da
la correlación.
Tabla 6: Correlación

Correlación
0.96

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 24 de 166


5 . Como calcular rectas (2).

5. Como calcular rectas (2)


Ahora sí

• En la sección Como calcular rectas (1) vimos una


fórmulas para calcular la recta de regresión que
utilizaba el coeficiente de correlación. Estas fórmulas
eran la Ecuación 3.3 y la Ecuación 3.4.
• Tener en cuenta que, a diferencia de la correlación,
tenemos que distinguir entre variable predictora y
variable predicha. En nuestro ejemplo, el espacio de
viaje es la predictora, y la separación es la predicha.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 25 de 166


5 . Como calcular rectas (2).

• Aplicado al ejemplo, el resultado es:


0.96 ( 1.98 )
b = -------------------------- = 0.66
2.88
a = 8 – 0.66 ( 15.42 ) = – 2.1772

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 26 de 166


5 . Como calcular rectas (2).

ACTIVIDADES

EJERCICIO 5.1 Para los siguientes datos, calcula la correlación del


peso sobre las abdominales. El resultado es -0.37.

Tabla 7: Peso, tamaño de cintura y número de abdominales de un grupo de atletas

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 27 de 166


5 . Como calcular rectas (2).

EJERCICIO 5.2 Calcula la correlación entre la cintura y el número de


abdominales. El resultado es -0.62.
EJERCICIO 5.3 Calcula la recta de regresión para predecir las abdomi-
nales a partir del peso. El resultado es

b = – 1.14
a = 350.15
EJERCICIO 5.4 Calcula la recta de regresión para predecir las abdomi-
nales a partir de la cintura. El resultado es

b = – 18.18
a = 784.02

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 28 de 166


6 . El ajuste de la recta.

6. El ajuste de la recta
Valorando la regresión

• En la Section 3 . vimos que la recta de regresión es la


que minimiza:
2
SCE = ∑e Ecuación (6.5)

– Es decir, la suma de cuadrados de los errores.


- ¿Por qué elevamos al cuadrado? La suma de los
residuales sin más es igual a cero. Al elevar al
cuadrado los signos negativos desaparecen.
• ¿Cómo podemos valorar si SCE es mucho o es poco?

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 29 de 166


6 . El ajuste de la recta.

– Volviendo al ejemplo de Edad versus CPK, tenemos


lo siguiente

1500.00
Esta es la línea de
regresión

1000.00

Esta es la línea de
CPK

la media de CPK
500.00
0.00

0.00 20.00 40.00 60.00 80.00


Age

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 30 de 166


6 . El ajuste de la recta.

– La línea media es la línea recta que produce el error


máximo. Si calculamos los residuales de esa línea
hacemos:
2
SCT = ∑ (y – y) Ecuación (6.6)

– Esa fórmula es igual a la de la varianza de y pero sin


dividir por el número de casos.
• Sabiendo SCE y SCT podemos calcular una nueva
cantidad que llamaremos suma de cuadrados
explicados por la regresión (SCR).

SCR = SCT – SCE Ecuación (6.7)

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 31 de 166


6 . El ajuste de la recta.

• Para valorar el tamaño de SCR calculamos la


proporción (es decir, dividimos el valor más pequeño
por el total). A esto lo llamamos proporción de varianza
2
explicada y se simboliza R .
2 SCR
R = ----------- Ecuación (6.8)
SCT
2
• Algunos datos sobre R
2
– R es el cuadrado de la correlación
2
– R va entre 0 y 1, donde uno indicaría que todos los
puntos caen sobre la recta, y 0 indicaría que la recta
no ayuda a mejorar la predicción en absoluto.
2
– R a veces se da en términos de porcentajes.
Simplemente multiplicamos la proporción por 100.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 32 de 166


6 . El ajuste de la recta.

– Dependiendo de la disciplina, los investigadores


2
consideran que una R es buena o mala. En
2
encuestas, por ejemplo, una R de 0.4 podría estar
muy bien considerada. En experimentos físicos, un
0.9 puede ser considerado insuficiente.
ACTIVIDADES

EJERCICIO 6.1 Calcula el valor de R 2 para la recta de regresión que


predice las abdominales a partir del peso.
EJERCICIO 6.2 Calcula el valor de R 2 para la recta de regresión que
predice las abdominales a partir de la cintura.
EJERCICIO 6.3 Calcula el valor de R 2 para los datos de la Tabla 2.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 33 de 166


7 . Evaluando la regresión en detalle.

7. Evaluando la regresión en detalle


Calcular la proporción de varianza explicada no es suficiente
2
• El valor de R es importante para valorar una regresión,
pero también hay que tener en cuenta otras cosas. Las
cosas que hay que tener en cuenta son:
– Evaluar si la relación es realmente lineal
– Evaluar si hay residuales de tamaño excesivo
– Evaluar puntos influyentes
– Considerar si hay variables subyacentes
• Para evaluar lo anterior utilizaremos fundamentalmente
dos herramientas.
– El diagrama de dispersión (ya hemos visto esto
antes)

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 34 de 166


7 . Evaluando la regresión en detalle.

– Gráficos de los residuales: Veremos ejemplos de


estos gráficos en los siguientes apartados.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 35 de 166


8 . Evaluar si la regresión es lineal.

8. Evaluar si la regresión es lineal


La regresión ajusta líneas rectas

• En el siguiente ejemplo examinamos 38 coches de los


años 80 y vemos la relación que hay entre su peso
(weight) y su eficiencia (MPG= millas por galón que es
equivalente a kilómetros recorridos por litro).

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 36 de 166


8 . Evaluar si la regresión es lineal.

• El diagrama de dispersión sin la recta de regresión tiene


este aspecto:

40.00
35.00
30.00
MPG

25.00
20.00
15.00

1.00 2.00 3.00 4.00 5.00


Weight

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 37 de 166


8 . Evaluar si la regresión es lineal.

• Si ajustamos la recta de regresión veríamos esto.

40.00
35.00
30.00
MPG

25.00
20.00
15.00

1.00 2.00 3.00 4.00 5.00


Weight

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 38 de 166


8 . Evaluar si la regresión es lineal.

• Esa línea no acaba de ajustar bien. Una línea un poco


curva iría mucho mejor:

40.00
35.00
30.00
MPG

25.00
20.00
15.00

1.00 2.00 3.00 4.00 5.00

Weight

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 39 de 166


8 . Evaluar si la regresión es lineal.

• Todavía mejor sería usar dos líneas rectas:

40.00
35.00
30.00
MPG

25.00
20.00
15.00

1.00 2.00 3.00 4.00 5.00


Weight

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 40 de 166


8 . Evaluar si la regresión es lineal.

• Cuando la forma de la relación no es lineal, utilizar una


recta de regresión puede no ser correcto
– Si la relación es curvilínea, una línea recta no es una
descripción adecuada de los datos
– Si en los datos parece que hay más de un grupo,
ajustar líneas por grupos puede ser más razonable

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 41 de 166


8 . Evaluar si la regresión es lineal.

• Un gráfico para evaluar la curvilinearidad es el de la


variable predictora frente a los residuales o errores
El gráfico muestra la curva
muy claramente

10.00
Aquí ponemos los
residuales

5.00
Aquí ponemos la
variable predictora
Residuals

0.00
-10.00 -5.00

1.00 2.00 3.00 4.00 5.00


Weight

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 42 de 166


8 . Evaluar si la regresión es lineal.

• Ese gráfico debería mostrar una forma recta a lo largo


del valor 0 en los residuales. Un ejemplo para una
relación lineal sería el siguiente:

160.00
140.00
120.00
Horsepower

100.00
80.00
60.00

1.00 2.00 3.00 4.00 5.00

Weight

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 43 de 166


8 . Evaluar si la regresión es lineal.

• En este caso, los residuales tienen la siguiente forma:

40.00
20.00
Residuals

0.00
-20.00
-40.00

1.00 2.00 3.00 4.00 5.00

i h

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 44 de 166


8 . Evaluar si la regresión es lineal.

ACTIVIDADES

EJERCICIO 8.1 Indica si aprecias curvilinealidad en estos gráficos

600.00

100.00
400.00

50.00
Displacement

Residuals
200.00

0.00
-50.00
0.00

-100.00
-200.00

1.00 2.00 3.00 4.00 5.00 1.00 2.00 3.00 4.00 5.00

Weight Weight

EJERCICIO 8.2 Indica si aprecias curvilinealidad en la relación entre


cintura (waist) y abdominales (situps)
Scatter Plot [Unnamed Data]
Scatter Plot [Unnamed Data]

100.00
300.00
250.00

50.00
200.00

Residuals

0.00
Situps

150.00

-50.00
100.00

-100.00
50.00

30.00 32.00 34.00 36.00 38.00


30.00 32.00 34.00 36.00 38.00
Waist
Waist

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 45 de 166


8 . Evaluar si la regresión es lineal.

EJERCICIO 8.3 ¿Dirías que hay curvilinearidad en este gráfico del


informe PISA?
600

Hong-Kong
Corea Finlandia
Liechtenstein Canadá
Macao Suiza
Rep. Checa Francia
N. Zelanda
Eslovaquia Suecia Dinamarca
Puntuación en Matemáticas
500
Polonia Alemania Irlanda Noruega
Letonia Hungría Luxemburgo
Rusia España Estados Unidos

Portugal Italia
Serbia y M.
Grecia
Uruguay
Turquía
Tailandia
400
México

Indonesia
Túnez
Brasil

2
R = 0,4361
300
0 10.000 20.000 30.000 40.000 50.000 60.000
PIB per cápita

Fuente: Banco Mundial y PISA

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 46 de 166


9 . Evaluar residuales de gran tamaño.

9. Evaluar residuales de gran tamaño


Evaluando valores extremos

• En un análisis de regresión, algunos de los puntos


pueden ajustar mucho peor que otros.
• Cuando los puntos que ajustan son unos pocos, y la
diferencia es muy grande, esos puntos puede ser
interesantes analizarlos con más detalle.
• Los valores extremos son valores que se dice que
tienen más información que otros, por lo que resultan
más interesantes que el resto.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 47 de 166


9 . Evaluar residuales de gran tamaño.

• Ejemplo: En las elecciones del año 2000, hubo mucha


controversia sobre las papeletas para votar en algunos
condados en Florida. En esos condados, el diseño de la
papeleta se supone que pudo llevar a que algunas
personas que querían votar por Gore en realidad
votaran a Buchanan. El condado más conflictivo fue
PalmBeach

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 48 de 166


9 . Evaluar residuales de gran tamaño.

• Una forma de evaluar esto es ver el gráfico de votos de


Gore v. Buchanan

4000.00
PALM_BEACH

3000.00
BUCHANAN

2000.00
1000.00
0.00

0.00 100000.00 200000.00 300000.00 400000.00


GORE

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 49 de 166


9 . Evaluar residuales de gran tamaño.

• Una forma de valorar los valores residuales extremos


es hacer un histograma de éstos.
Residuals

50
Hay dos residuales
40
negativos Este sería Palm
Beach
30
20
10
0

-979.6 140.0 1259.6 2099.2

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 50 de 166


9 . Evaluar residuales de gran tamaño.

• ¿Qué hacemos con los residuales muy altos o bajos?


– Los estudiamos por separado ya que a menudo los
valores con residuales altos son más interesantes
que los otros valores
– Damos el resultado para el resto de los datos
después de haber excluido el valor residual pero
informando de lo que hemos hecho.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 51 de 166


9 . Evaluar residuales de gran tamaño.

ACTIVIDADES

EJERCICIO 9.1 El siguiente gráfico muestra los residuales del análi-


sis de regresión de la variable tanto por ciento de peso indivi-
dual como predictora de la presión alta (presión sistólica) en
los datos sobre lípidos. ¿Dirías que hay valores extremos?

40

30

Frecuencia

20

10

Mean = -1,9706459E-
15
Std. Dev. =
6,75826587
0 N = 95
-20,00000 -10,00000 0,00000 10,00000 20,00000
Unstandardized Residual

EJERCICIO 9.2 El siguiente gráfico muestra los residuales del análi-


sis de regresión de la variable tanto por ciento de peso indivi-
dual como predictora de la presión baja (presión diastólica) en
los datos sobre lípidos. ¿Dirías que hay valores extremos?

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 52 de 166


9 . Evaluar residuales de gran tamaño.

30

Frecuencia
20

10

Mean = -3,9135362E-
15
Std. Dev. = 9,8063713
N = 95
0
-20,00000 0,00000 20,00000 40,00000 60,00000
Unstandardized Residual

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 53 de 166


10 . Evaluar puntos influyentes.

10. Evaluar puntos influyentes


Todos los puntos deberían influir lo mismo

• Observaciones que tienen valores especialmente altos


en la variable predictora pueden tener excesiva
influencia sobre la regresión.
• Ejemplo: En un grupo de ciudades muy populares en
Estados Unidos para jubilados tenemos la población
(utilizaremos los logaritmos de la población por razones
que no comentaremos) y el coste del alquiler de una
casa.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 54 de 166


10 . Evaluar puntos influyentes.

• En el diagrama de dispersión de estas dos variables


hemos puesto dos líneas. Una ajusta a todos los datos,
y la otra a todos menos Las Vegas, que es la ciudad con
más habitantes del grupo de ciudades.
800.00 1000.00 1200.00 1400.00

Quitar ese punto hace


que la recta de regresión
varie todo esto

}
Rent-pw_p_1.0

600.00
400.00

6.00 8.00 10.00 12.00 14.00

Population-pw_p_0.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 55 de 166


10 . Evaluar puntos influyentes.

• Porque un punto sea extremo no tiene porque tener


mucha influencia. Por ejemplo, si el punto que quitamos
es el que está arriba:
800.00 1000.00 1200.00 1400.00
Al quitar este punto,
la variación es mucho
menor
Rent-pw_p_1.0

600.00
400.00

6.00 8.00 10.00 12.00 14.00

Population-pw_p_0.00

• Los puntos que tienen más influencia son los que


destacan en la variable predictora, por la derecha o por

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 56 de 166


10 . Evaluar puntos influyentes.

la izquierda y no los que tienen un residual alto.


• En el ejemplo de las votaciones por Bush tendríamos lo
siguiente:

4000.00
Estos puntos tienen
PALM_BEACH
más influencia que
Palm Beach
3000.00
BUCHANAN

2000.00
1000.00
0.00

0.00 100000.00 200000.00 300000.00 400000.00


GORE

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 57 de 166


10 . Evaluar puntos influyentes.

ACTIVIDADES

EJERCICIO 10.1 En el siguiente diagrama de dispersión se puede ver la


relación entre la variable SalariosProfesores y la variable Impu-
testosProfesores. De las ciudades señaladas en el gráfico, ¿qué
ciudades dirías que tendrán más influencia en una regresión entre
x e y?

60.00 Stockholm
ImpuestosProfesores
40.00

Copenhagen
TEACHTAX

Geneva
20.00

Luxembourg
0.00

0.00 20.00 40.00 60.00


SalariosProfesor
TEACHSAL

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 58 de 166


10 . Evaluar puntos influyentes.

EJERCICIO 10.2 Y de la regresión siguiente que utiliza BIGMAC como


predictora y BREAD (pan) como predicha?

250.00
200.00
Lagos

150.00
BREAD

100.00

Manila
Caracas
50.00

Mexico_City
Bombay
0.00

0.00 50.00 100.00 150.00 200.00 250.00

BIGMAC

EJERCICIO 10.3 ¿Y en este caso? (BUSFARE=PRECIO DE UN RECORRIDO EN


AUTOBÚS; WORKHRS=HORAS DE TRABAJO AL AÑO).

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 59 de 166


10 . Evaluar puntos influyentes.

1400.00 1600.00 1800.00 2000.00 2200.00 2400.00


Hong_Kong

Bogota

WORKHRS
Stockholm

Copenhagen

0.00 1.00 2.00 3.00

BUSFARE

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 60 de 166


11 . Pensar en variables subyacente.

11. Pensar en variables subyacente


A veces las relaciones pueden ser muy sospechosas

• A veces, las relaciones entre dos variables pueden ser


debidas a factores subyacentes o variables que
denominamos intermedias.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 61 de 166


11 . Pensar en variables subyacente.

• Veamos el siguiente ejemplo. Tenemos la relación entre


el número de personas por televisión (usaremos
logaritmos) que hay en países del mundo y la
expectativa de vida en ese país:
80.00
La relación es lineal y parece
bastante clara. Conclusión: las
falta de televisiones disminuye
la expectativa de vida
70.00

Aquí hay menos personas por


LifeExpec_p_1.0

televisión (es decir, hay más


televisiones por persona)
60.00

Aquí hay más personas por tele-


visión (es decir, hay menos televe
siones por persona)
50.00

0.00 2.00 4.00 6.00 8.00

PeopleTV_p_0.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 62 de 166


11 . Pensar en variables subyacente.

• No obstante, si pensamos un poco podemos ver que el


número de personas por televisión es un indicador de la
riqueza en un país, y que cuanta más riqueza, mejor
sistema sanitario y más doctores tendremos en este
sitio. Así, si hacemos esta regresión vemos que:

80.00
70.00
LifeExpec_p_1.0

60.00
50.00

4.00 6.00 8.00 10.00 12.00

Personas por médico


PeoplePhy_p_0.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 63 de 166


11 . Pensar en variables subyacente.

• En realidad, lo que pasa es que el número de médicos


y el de televisiones está muy relacionado:

12.00
10.00
PeoplePhy_p_0.00
por médico
8.00
personas
6.00
4.00

0.00 2.00 4.00 6.00 8.00

PeopleTV_p_0.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 64 de 166


11 . Pensar en variables subyacente.

ACTIVIDADES

EJERCICIO 11.1 ¿Cuál crees que es la explicación de que exista corre-


lación entre el tamaño del pie y el número de palabras en vocabu-
lario en los niños de 12 años?
EJERCICIO 11.2 ¿Cuál crees que es la explicación de que los niños que
tienen profesores particulares tienen un coeficiente de inteli-
gencia menor que los que no tienen profesores particulares?

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 65 de 166


12 . Muestras y regresión.

12. Muestras y regresión


Trabajamos con muestras por lo que hay que calcular la
variación

• Del mismo modo que vimos que una media calculada


con una muestra de datos es una estimación que varía
dentro de un intervalo, las estimaciones tanto de los
coeficientes de la regresión como de su ajuste
también varían dentro de un intervalo.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 66 de 166


12 . Muestras y regresión.

• Un ejemplo lo tenemos en los siguientes gráficos que


muestran el efecto de usar muestras para estimar las
rectas de regresión:
Las líneas
Los puntos solidos son son difer-

10.00
una muestra entes

5.00
0.00
y

El resto de los puntos


-5.00

harían el papel de una


población
-10.00

-10.00 -5.00 0.00 5.00 10.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 67 de 166


12 . Muestras y regresión.

• Si extraemos una muestra diferente la línea de


regresión sería diferente a su vez:

10.00
5.00
0.00
y

-5.00
-10.00

-10.00 -5.00 0.00 5.00 10.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 68 de 166


12 . Muestras y regresión.

• NOTA: Los ejemplos anteriores corresponden a


muestras muy malas. En el siguiente gráfico se ve
efecto del muestreo con una muestra más razonable:

10.00
5.00

Las líneas son


diferentes pero
por muy poco
0.00
y

-5.00
-10.00

-10.00 -5.00 0.00 5.00 10.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 69 de 166


12 . Muestras y regresión.

• Otro ejemplo con un muestreo bien hecho:

10.00
5.00
0.00
y

-5.00
-10.00

-10.00 -5.00 0.00 5.00 10.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 70 de 166


13 . El error típico de los coeficientes de la recta.

13. El error típico de los coeficientes de la recta


El primer paso para calcular pruebas de hipótesis

• Cuando vimos el tema de inferencias en medias ya


vimos que el error típico nos informaba de la
variabilidad de las medias (multiplicando por el valor de
la distribución de probabilidad esto nos daba también el
intervalo de confianza dentro del que estaría la media).
• En el caso de la pendiente de la regresión, también
podemos calcular un error típico de la pendiente que
nos informa de la variabilidad de la pendiente (y que
multiplicando por el valor de la distribución de
probabilidad nos da un intervalo de confianza para la
pendiente.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 71 de 166


13 . El error típico de los coeficientes de la recta.

• Hay tres factores que afectan el error típico de la


pendiente de una regresión.
– Variación alrededor de la línea de regresión

¿Qué datos producirán un error típico menor? Parece claro


que el de la izquierda ¿no?

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 72 de 166


13 . El error típico de los coeficientes de la recta.

– Variabilidad de la variable predictora

¿Y de estos dos? Parece también claro que el de la


derecha. Al tener más valores de la variable predic-
tora, la estimación será más consistente

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 73 de 166


13 . El error típico de los coeficientes de la recta.

– Número de casos

También parece claro que cuanto mayor sea el


número de casos, menor error típico de la regresión

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 74 de 166


13 . El error típico de los coeficientes de la recta.

• La fórmula del error típico de la pendiente de la


regresión es entonces:

Ecuación (13.3)
Desviación típica del
se error
ET ( b ) = ---------------------
sx n – 1
Desviación típica de Número de casos
la variable predictora

– En la fórmula anterior hemos introducido un símbolo


nuevo, la desviación típica del error. Esto es igual a:
Esta es la suma de cuadrados
se = SCE-
----------- del error. Ya vimos esto en la
Ecuación (13.4)
Ecuación 6.6
n–2

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 75 de 166


13 . El error típico de los coeficientes de la recta.

– El siguiente elemento importante para poder hacer


una prueba de hipótesis es saber qué distribución
tenemos que usar para comprobar si el error típico es
grande o pequeño. En este caso, tenemos que el
error típico sigue la distribución t de Student con n-2
grados de libertad.
• NOTA: Es posible también calcular el error típico de la
intercepta pero éste tiene poco interés y no lo
pondremos aquí.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 76 de 166


14 . Pruebas de hipótesis de la pendiente de regresión.

14. Pruebas de hipótesis de la pendiente de regresión


Aceptando y rechazando hipótesis nulas

• A partir de lo mostrado en la sección anterior, podemos


hacer una prueba de hipótesis de la pendiente de una
regresión del siguiente modo:
Esto es el valor que hipotetizamos
b–β para la población. La mayoría de las
t = --------------- veces aquí ponemos cero Ecuación (14.5)
ET ( b )
• En la ecuación anterior, las hipótesis más habituales
son:

H0 → β = 0 Ecuación (14.6)

H1 → β ≠ 0

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 77 de 166


14 . Pruebas de hipótesis de la pendiente de regresión.

• Por tanto, la fórmula anterior se reduce a:


b
t = --------------- Ecuación (14.7)
ET ( b )
• A veces, más que una prueba de hipótesis, es
interesante calcular un intervalo de confianza. Esto se
hace mediante:

Ecuación (14.8)
IC ( b ) = b ± t n – 2 × ET

Atención: esta fór-


mula está diferente en
los apuntes en fotoco-
piadora

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 78 de 166


14 . Pruebas de hipótesis de la pendiente de regresión.

– En la fórmula anterior, si tenemos en cuenta que la


distribución t se parece mucho a la normal con
tamaños de muestra grandes, entonces podemos
hacer:

Ecuación (14.9)
IC ( b ) = b ± 1.96 × ET

Atención: esta fór-


mula está diferente en
los apuntes en fotoco-
piadora

• Gráficamente, la prueba de hipótesis de la pendiente lo


que hace es lo siguiente:

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 79 de 166


14 . Pruebas de hipótesis de la pendiente de regresión.

40.00
Lo que probamos es si la pendiente de
esta línea es diferente de la de esta otra
(es decir si la pendiente es diferente de
cero)

30.00
MPG

20.00
10.00

60.00 80.00 100.00 120.00 140.00 160.00

Horsepower

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 80 de 166


15 . Pruebas de hipótesis y regresión con ordenador.

15. Pruebas de hipótesis y regresión con ordenador


¿Qué resultados nos proporciona el ordenador?

• Es raro hacer los cálculos de un análisis de regresión a


mano hoy en día así que usaremos el ordenador.
• Usaremos un ejemplo con variable predictora el %de
peso ideal y como variable predicha el colesterol.
– En primer lugar nos aparece la correlación
Esta parte nos da el valor de R y R al cuad-
rado
Esta es la desviación
típica del error S
e
Resumen del modelob

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .105a .011 .000 35.667
a. Variables predictoras: (Constante), % ideal body wt.
b. Variable dependiente: Cholesterol

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 81 de 166


15 . Pruebas de hipótesis y regresión con ordenador.

– A continuación tenemos la prueba F (no la


utilizaremos en este caso)
En esta parte tenemos las sumas de cuadrados. Si dividimos la
Suma de cuadrados de la regresión por la total nos da R al cuadrado

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1321.868 1 1321.868 1.039 .311a
Residual 118307.038 93 1272.119
Total 119628.905 94
a. Variables predictoras: (Constante), % ideal body wt.
b. Variable dependiente: Cholesterol

Estas partes no las usaremos de momento

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 82 de 166


15 . Pruebas de hipótesis y regresión con ordenador.

– Luego tenemos la prueba de hipótesis de los


coeficientes (lo más importante en nuestro caso)
Aquí miramos el nivel de sig-
nificación de los coeficientes de la
recta (el de la constante no tiene
mucha importancia)

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 163.390 27.556 5.929 .000
% ideal body wt. .277 .271 .105 1.019 .311
a. Variable dependiente: Cholesterol

Estos son los coeficientes de la recta. La constante y la pendi-


ente

• Con el SPSS también se pueden calcular los gráficos


que hemos visto anteriormente. Los veremos en
prácticas.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 83 de 166


15 . Pruebas de hipótesis y regresión con ordenador.

ACTIVIDADES

EJERCICIO 15.1 ¿Qué dirías de la relación entre peso y HDL en los


datos de lípidos a partir de estos resultados?

Resumen del modelob

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .032a .001 -.010 10.144
a. Variables predictoras: (Constante), % ideal body wt.
b. Variable dependiente: HDL

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 9.595 1 9.595 .093 .761a
Residual 9569.205 93 102.895
Total 9578.800 94
a. Variables predictoras: (Constante), % ideal body wt.
b. Variable dependiente: HDL

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 84 de 166


15 . Pruebas de hipótesis y regresión con ordenador.

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 43.028 7.837 5.490 .000
% ideal body wt. .024 .077 .032 .305 .761
a. Variable dependiente: HDL

EJERCICIO 15.2 ¿Qué dirias de la relación entre peso ideal y altura


(HEIGHT)? ¿Este estudio está bien planteado?

Resumen del modelob

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .417a .174 .165 3.800959
a. Variables predictoras: (Constante), % ideal body wt.
b. Variable dependiente: Height

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 85 de 166


15 . Pruebas de hipótesis y regresión con ordenador.

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 283.095 1 283.095 19.595 .000a
Residual 1343.598 93 14.447
Total 1626.693 94
a. Variables predictoras: (Constante), % ideal body wt.
b. Variable dependiente: Height

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 82.212 2.937 27.995 .000
% ideal body wt. -.128 .029 -.417 -4.427 .000
a. Variable dependiente: Height

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 86 de 166


16 . Intervalos de confianza para valores predichos.

16. Intervalos de confianza para valores predichos


Averiguando entre qué valores están las predicciones

• Uno de los usos más importantes de las rectas de


regresión es hacer predicciones de valores.
• No obstante, predicciones hechas con la recta de
regresión no son exactas. Las predicciones estarán
dentro de un intervalo.
• Distinguiremos dos tipos de predicciones para calcular
los intervalos
– Predicción del valor medio para los sujetos con el
mismo valor en la variable predictora
– Predicción de puntuaciones individuales

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 87 de 166


16 . Intervalos de confianza para valores predichos.

• Veamos un ejemplo: A un grupo de sujetos les medimos


el tamaño de la cintura para intentar predecir el
porcentaje de grasa corporal. El diagrama de dispersión
es el siguiente

40.00
30.00
PORCGRASA

20.00
10.00
0.00

30.00 35.00 40.00 45.00

CINTURA

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 88 de 166


16 . Intervalos de confianza para valores predichos.

• La ecuación de regresión para los datos de arriba es:

PorcGrasa = – 62.56 + 2.22 × Cintura Ecuación (16.3)

• Si queremos predecir un valor de PorcGrasa para un


sujeto con una cintura de 40 tendriamos:

26.24 = – 62.56 + 2.22 × 40 Ecuación (16.4)

• El error típico para el valor medio de 26.24 para todos


los hombres con cintura de 40 se calcula mediante la
siguiente fórmula:
2 s e22
ET ( µ̂ ) = ET ( b ) × ( x i – x ) + ----- Ecuación (16.5)
n

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 89 de 166


16 . Intervalos de confianza para valores predichos.

• En cambio, el error típico para un sujeto concreto que


tenga una cintura de 40 tendría esta fórmula:
2 s e22
ET ( ŷ ) = ET ( b ) × ( x i – x ) + ----- + s e2 Ecuación (16.6)
n
– Esta fórmula es igual a la anterior pero además
añade la desviación típica de los errores. Eso hace
que el intervalo sea más grande.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 90 de 166


16 . Intervalos de confianza para valores predichos.

• EJEMPLO: Si utilizamos un ordenador, la mayor parte


de los resultados que necesitamos los tenemos dados.
Estadísticos descriptivos

Desviación
Aquí tenemos x
Media típ. N
Weight (lb) 188.60 26.662 20
Waist (in) 37.05 3.818 20

Resumen del modelo

R cuadrado Error típ. de la Aquí está se


Modelo R R cuadrado corregida estimación
1 .853a .727 .712 14.306
a. Variables predictoras: (Constante), Waist (in)

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os Aquí está
ET ( b )
Modelo B Error típ. Beta t Sig.
1 (Constante) -32.055 32.009 -1.001 .330
Waist (in) 5.956 .860 .853 6.928 .000
a. Variable dependiente: Weight (lb)

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 91 de 166


16 . Intervalos de confianza para valores predichos.

• El error típico para la media de los sujetos con cintura


igual a 40 sería de:
2 14.306 2 2
ET ( µ̂ ) = 0.86 × ( 40 – 37.5 ) + ------------------- = 6.877
20
– Como el valor predicho es de 26.24, entonces el
intervalo será

26.24 ± 1.96 ( 6.877 )

• Si en cambio se trata de calcular el intervalo de


confianza para todos los sujetos con puntuación igual a
40 tendriamos

ET ( ŷ ) = 6.877 2 + 14.306 2 = 15.873083

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 92 de 166


16 . Intervalos de confianza para valores predichos.

– Tener en cuenta que en los cálculos he aprovechado


los resultados del cálculo anterior.
– El intervalo de confianza sería:

26.24 ± 1.96 ( 15.87 )

• ¿Cuál es la diferencia entre ambos intervalos? En el


primero de los intervalos diríamos que confiamos al
95% que la media para sujetos que tienen 40 está en
ese intervalo. En el segundo de los intervalos,
confiamos al 95% que la puntuación de un sujeto
particular estará en ese intervalo.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 93 de 166


16 . Intervalos de confianza para valores predichos.

• EJEMPLO GRAFICO: Predecimos el salario de unos


individuos a partir del nivel de educación que tienen
(años de escolarización). En el gráfico se muestran las
lineas de predicción medias e individuales.
Esta es la línea de
predicción individ-
ual
Esta es la
línea media 80,00

60,00
Salario

40,00

20,00
R2 lineal = 0,525

R2 lineal = 0,525

0,00

0,00 20,00 40,00 60,00 80,00 100,00


Educación

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 94 de 166


17 . Supuestos para inferencias en regresión.

17. Supuestos para inferencias en regresión


¿Todavía más gráficos?

• En la sección [7] vimos que había unas condiciones que


había que evaluar para decidir si tenía sentido calcular
rectas de regresión.
• Aquí vamos a ver unas condiciones para evaluar si las
inferencias acerca de la regresión tienen sentido.
• Notar la diferencia: Lo primero era para evaluar si la
recta tenía sentido, lo segundo es para evaluar si las
inferencias tienen sentido.
• Las condiciones son:
– Linealidad (esto lo hemos visto en la sección [8] y no
lo repetiremos otra vez)

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 95 de 166


17 . Supuestos para inferencias en regresión.

– Varianza igual (homogénea). Esto lo repasaremos en


la sección [18].
– Normalidad de los errores.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 96 de 166


18 . Igual variabilidad.

18. Igual variabilidad


¿El gráfico se va estrechando?

• En un análisis de regresión ideal el gráfico tiene que


tener la siguiente forma:

– Para cada uno de los valores de X, los valores de Y


siguen una distribución normal con la misma
desviación típica.
– En este caso, la condición se refiere a comprobar
que las desviaciones típicas son efectivamente
iguales.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 97 de 166


18 . Igual variabilidad.

• Ejemplo: Hemos predecido la tasa de nacimientos/


defunciones (birthdeat) a partir de la expectativa de vida
femenina.

15.00
Aquí hay más vari- Kuwait

anza
10.00

Emirates Arabs

Hacer predic-
birtdeat

Oman
Jordania

ciones aquí tiene Siria Bahrein

menos varianza Saudi Arabia


5.00

South Corea Singapur

Hong Kong
Georgia

Bielorussia
0.00

40.00 50.00 60.00 70.00 80.00

explmale

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 98 de 166


18 . Igual variabilidad.

• Una forma de ver este efecto mejor es usar el gráfico de


residuales versus la variable independiente.

10.00
Kuwait

5.00
Emirates Arabs

Oman
Jordania
Siria
Residuals

Bahrein

Saudi Arabia
Costa Rica
0.00

South Corea
Israel

Georgia
Letonia
Russia Ireland
Hungary
-5.00

40.00 50.00 60.00 70.00 80.00

explmale

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 99 de 166


18 . Igual variabilidad.

ACTIVIDADES

EJERCICIO 18.1 ¿Dirías que se aprecian varianzas iguales en este


caso? Se intenta predecir el salario medio en unas profesio-
nes(income) a partir del prestigio que tienen esas profesiones
(prestige).

100.00
80.00
60.00
Income

40.00
20.00
0.00

0.00 20.00 40.00 60.00 80.00 100.00

Prestige

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 100 de 166
18 . Igual variabilidad.

60.00
40.00
20.00
Residuals

0.00
-60.00 -40.00 -20.00

0.00 20.00 40.00 60.00 80.00 100.00

Prestige

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 101 de 166
18 . Igual variabilidad.

EJERCICIO 18.2 ¿Y en la predicción del salario a partir de los años


de educación?

100.0
80.00
60.00
Income

40.00
20.00
0.00

0.00 20.00 40.00 60.00 80.00 100.00

Education

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 102 de 166
18 . Igual variabilidad.

60.00
40.00
20.00
Residuals

0.00
-20.00
-40.00

0.00 20.00 40.00 60.00 80.00 100.00

Education

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 103 de 166
18 . Igual variabilidad.

EJERCICIO 18.3 ¿Y en la predicción del precio del pan a partir del


precio de las hamburguesas?

250.00
200.00
150.00
BREAD

100.00
50.00
0.00

0.00 50.00 100.00 150.00 200.00 250.00

BIGMAC

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 104 de 166
18 . Igual variabilidad.

50.00 100.00 150.00 200.00


Residuals

0.00
-100.00 -50.00

0.00 50.00 100.00 150.00 200.00 250.00

BIGMAC

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 105 de 166
19 . Normalidad de los errores.

19. Normalidad de los errores


También tienen que ser normales

• Ya vimos en la sección [9] que había que mirar


histogramas de los residuales para comprobar si no
había valores extraños.
• La comprobación anterior, si queremos hacer
inferencias, pasa a ser comprobar si los residuales
siguen aproximadamente la distribución normal
(obviamente, si hay residuales altos esto lleva a que la
distribución normal no sea plausible de todos modos).

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 106 de 166
19 . Normalidad de los errores.

• Ejemplo: Residuales de la predicción de Bigmac a partir


de Bread.
Residuals

30
Tenemos valores
extraños en los residu-
ales

20
10
0

-68.8-41.2-13.7 13.8 41.2 68.8 96.2123.8151.2

BinWidth= 27.50 NBins= 9

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 107 de 166
20 . Predictores binarios.

20. Predictores binarios


Un caso especial de la regresión

• Un caso especial de regresión es el que se produce


cuando tenemos un predictor binario (con sólo dos
valores).

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 108 de 166
20 . Predictores binarios.

• Ejemplo: Tenemos dos grupos de individuos a los que


se les mide el colesterol. Un grupo viene de una zona
urbana y el otro viene de una zona rural. A los que
vienen de zona urbana les ponemos un 1 y a los que
vienen de una zona rural les ponemos un cero.

6.00

Estos son de zona rural

La línea de regresión une


5.50

las medias
values
Observed
Colesterol
5.00

Estos son de zona urbana


4.50

5.00 5.10 5.20 5.30 5.40

di d l

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 109 de 166
20 . Predictores binarios.

• En el resultado en el ordenador tenemos lo siguiente:


– El valor de la correlación
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .596a .355 .338 .21551
a. Variables predictoras: (Constante), ZonaFictic

Igual que antes, se puede interpretar sin problemas

– La prueba F (que no necesitamos utilizar)


ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión .996 1 .996 21.439 .000a
Residual 1.811 39 .046
Total 2.807 40
a. Variables predictoras: (Constante), ZonaFictic
b. Variable dependiente: LogCholesterol

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 110 de 166
20 . Predictores binarios.

– Los coeficientes (que es lo que utilizaremos)


Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 5.052 .048 104.831 .000
ZonaFictic .312 .067 .596 4.630 .000
a. Variable dependiente: LogCholesterol

Esta es la media de los Esta prueba de hipótesis prueba si


que han recibido un cero hay diferencias en la media entre
los grupos
Esta es la diferen-
cia entre los que
tienen cero y los que
tienen 1

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 111 de 166
20 . Predictores binarios.

• Ahora bien, dado que este procedimiento es muy


común, los paquetes estadísticos tienen un modulo
específico para hacer esos análisis. En el SPSS está en
el comando pruebas T para muestras independientes
en el comando Comparar Medias. El resultado es el
siguiente:
Estadísticos de grupo

Desviación Error típ. de


ZonaFictic N Media típ. la media
LogCholesterol Rural 20 5.0518 .21282 .04759
Urban 21 5.3636 .21803 .04758

Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
LogCholesterol Se han asumido
.046 .832 -4.630 39 .000 -.31177 .06733 -.44797 -.17558
varianzas iguales
No se han asumido
-4.633 38.974 .000 -.31177 .06729 -.44789 -.17566
varianzas iguales

Si no rechazas la Hipótesis nula en este En caso contrario, hay


test, entonces hay que mirar esta línea que mirar esta otra

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 112 de 166
20 . Predictores binarios.

– En el output anterior hay que tener en cuenta que se


hace una prueba de hipótesis de la homogeneidad
de las varianzas. Esto es semejante a la condición
que hemos evaluado en la sección [18] aunque allí lo
hacíamos gráficamente.

6.00
Las varianzas son homogeneas
cuando las anchuras son aproxi-
madamente iguales
5.50
Observed values

5.00
4.50

5.00 5.10 5.20 5.30 5.40

Predicted Values

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 113 de 166
20 . Predictores binarios.

ACTIVIDADES

EJERCICIO 20.1 ¿Dirías que hay diferencias en el peso ideal entre


hombres y mujeres en los datos de Lípidos? (0 son hombres y 1 son
mujeres)

Resumen del modelob

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .020a .000 -.010 13.6266
a. Variables predictoras: (Constante), GenderRecod
b. Variable dependiente: % ideal body wt.

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 7.039 1 7.039 .038 .846a
Residual 17268.668 93 185.685
Total 17275.707 94
a. Variables predictoras: (Constante), GenderRecod
b. Variable dependiente: % ideal body wt.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 114 de 166
20 . Predictores binarios.

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 100.808 1.617 62.336 .000
GenderRecod -.626 3.217 -.020 -.195 .846
a. Variable dependiente: % ideal body wt.

30

25

20
Frecuencia

15

10

Mean = 2,2199256E-14
Std. Dev. =
13,55393789
N = 95
0
-20,00000 0,00000 20,00000 40,00000
Unstandardized Residual

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 115 de 166
20 . Predictores binarios.

60,00000

40,00000

Unstandardized Residual
20,00000

0,00000

-20,00000

-40,00000

0 0,2 0,4 0,6 0,8 1


GenderRecod

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 116 de 166
20 . Predictores binarios.

EJERCICIO 20.2 ¿Hay diferencias en el peso entre hombres y muje-


res(weight)? (0 hombres, 1 mujeres)

Resumen del modelob

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .647a .419 .413 21.753
a. Variables predictoras: (Constante),
b. Variable dependiente: Weight

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 31751.212 1 31751.212 67.101 .000a
Residual 44006.325 93 473.186
Total 75757.537 94
a. Variables predictoras: (Constante),
b. Variable dependiente: Weight

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 117 de 166
20 . Predictores binarios.

240

220

200

180

Weight
160

140

120
R2 lineal = 0,419

100

0 0,2 0,4 0,6 0,8 1


GenderRecod

20

15
Frecuencia

10

Mean = 1,4377388E-14
Std. Dev. =
21,63682945
N = 95
0
-50,00000 -25,00000 0,00000 25,00000 50,00000
Unstandardized Residual

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 118 de 166
20 . Predictores binarios.

75,00000

50,00000

Unstandardized Residual
25,00000

0,00000

-25,00000

-50,00000

-75,00000

0 0,2 0,4 0,6 0,8 1


GenderRecod

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 119 de 166
20 . Predictores binarios.

EJERCICIO 20.3 En el ejercicio anterior se veía que los grupos no


parecían tener las varianzas homogéneas. Interpreta este output
en consecuencia y revisa los conclusiones anteriores si es nece-
sario.

Estadísticos de grupo

Desviación Error típ. de


N Media típ. la media
Weight male 71 169.28 23.288 2.764
female 24 127.21 16.208 3.308

Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Weight Se han asumido
6.352 .013 8.192 93 .000 42.073 5.136 31.874 52.273
varianzas iguales
No se han asumido
9.760 57.158 .000 42.073 4.311 33.441 50.705
varianzas iguales

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 120 de 166
21 . Predictores politómicos.

21. Predictores politómicos


También conocido por Análisis de varianza

• El análisis de varianza es una de las técnicas


estadísticas más importantes y con gran tradición de
aplicación en Psicología y otras ciencias.
• En este tema veremos tres partes:
– Una descripción de la técnica (con fórmulas)
– La forma de comprobar supuestos
– La forma de hacer comparaciones sobre qué grupos
realmente producen las diferencias (más adelante se
explicará esto mejor).

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 121 de 166
22 . Descripción del Analisis de Varianza.

22. Descripción del Analisis de Varianza


En qué consiste

• En el apartado anterior vimos que los predictores


podían estar formados por dos categorías para los que
utilizábamos valores de 1 y 0.
• Ese mismo concepto lo podemos extender a
predictores que tienen más de dos categorías.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 122 de 166
22 . Descripción del Analisis de Varianza.

• EJEMPLO: Tenemos cuatro grupos de pacientes a los


que medimos la presión arterial. Luego, a cada uno de
esos grupos les damos una droga diferente y les
medimos la presión arterial otra vez. Entonces
calculamos la diferencia en la presión arterial.
– Los datos tienen este aspecto (no están todos, es
sólo para dar una idea).
Aquí está el
grupo A

Aquí empieza el
grupo B

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 123 de 166
22 . Descripción del Analisis de Varianza.

• Una forma de entender el problema es mirando el


siguiente gráfico:
Cada columna indica el cambio en presión para
cada invidudo en cada uno de los grupos. La
línea indica las medias para los grupos

El problema con-
60.0

siste en ver si las


drogas tienen efec-
tos diferentes entre
sí. Posteriormente,
40.0

se puede ver qué


drogas tienen más
efecto. Por ejemplo,
en este caso, las
20.0

drogas C y D pare-
cen tener más
efecto que las dro-
gas A y B.
0.0
-20.

1
A 2
B 3
C 4
D
Drogas

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 124 de 166
22 . Descripción del Analisis de Varianza.

• Si añadimos una representación de los errores típicos


de las medias, es más claro en qué consiste el
problema:

60.0
Los diamantes
representan
intervalos de
confianza para
las medias. Estos
40.0

intervalos no
deberian sola-
parse si las dro-
gas tienen
20.0

efectos difer-
entes.
0.0
-20.

1
A 2
B 3
C 4
D
Variables

Estos dos grupos no pare- Estas drogas bajan más la presión


cen diferentes entre sí que las otras dos

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 125 de 166
22 . Descripción del Analisis de Varianza.

• El ANOVA es un método para probar que existen


diferencias entre los grupos de manera genérica.
Gráficamente, la idea es la siguiente:
3.Este gráfico tiene todos
60.0

los puntos. Haciendo la


suma de cuadrados
respecto de la media tene-
mos la SUMA DE
40.0

CUADRADOS TOTAL
20.0

2. la SUMA DE
CUADRADOS DEL
ERROR es la difer-
0.0

encia de cada sujeto


respecto a la media
de su grupo. Lo
llamaremos SCE en
-20.

1
A 2
B 3
C 4
D Total las fórmulas.
1. Esas son las medias para cada grupo. La diferencia entre
Variables
cada una de esas cuatro medias y la media total se denomina
Suma DE CUADRADOS de los TRATAMIENTOS y es igual
a la SUMA DE CUADRADOS DE LA REGRESIÓN. Lo
llamaremos SCR en las fórmulas

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 126 de 166
22 . Descripción del Analisis de Varianza.

• Supongamos que los tratamientos no tienen efecto. El


gráfico anterior tendría la siguiente forma.
Si los tratamientos no tienen efecto las

60.0
medias coincidirán con la media total y la
suma de cuadrados de los tratamientos será
cero

40.0
20.0
0.0
-20.

1
A 2
B 3
C 4
D

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 127 de 166
22 . Descripción del Analisis de Varianza.

• No obstante, lo normal es que las medias de los


tratamientos tengan una cierta variación. ¿Como
podemos decir que esa variación es suficientemente
importante?
– Lo que hacemos es comparar la variación en los
tratamientos con la variación error. Para ello
dividimos una variación con la otra.
– Ahora bien, las sumas de cuadrados directamente no
son una buena fuente de medir la variación ya que
cada una de ellas suma un número de elementos
diferentes.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 128 de 166
22 . Descripción del Analisis de Varianza.

• En lugar de las sumas de cuadrados utilizaremos la


varianza (es decir la suma de cuadrados dividido por el
número de elementos utilizados para calcularla menos
uno).
– El número de elementos diferentes para la suma de
cuadrados totales es el número de casos totales
menos uno.
– El número de elementos diferentes para la suma de
cuadrados de los tratamientos es el número de
tratamientos menos uno.
– El número de elementos diferentes para la suma de
cuadrados del error es la resta de los dos anteriores
(o también, la suma del número de elementos por
cada grupo menos 1).

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 129 de 166
22 . Descripción del Analisis de Varianza.

– La descripción anterior se puede plantear en


términos de la siguiente fórmula:

SCR ⁄ ( k – 1 )
F = -------------------------------
SCE ⁄ ( n – k )
n es el
K es el número de categorías o número de
grupos comparados casos

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 130 de 166
22 . Descripción del Analisis de Varianza.

• Todos esos cálculos se suelen disponer en una tabla de


análisis de varianza. Tener en cuenta que lo nosotros
llamamos “de la regresión” en la tabla pone
inter-grupos, y lo que pone “del error” pone intra-grupos.
Esta es la suma de Estos son los grados
cuadrados de la de libertad
regresión
Esta es la división de las
ANOVA dos medias cuadráticas
Presión
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 3133.239 3 1044.413 9.086 .000
Intra-grupos 6206.917 54 114.943
Total 9340.155 57

Esto es la división
de los dos valores
Esta es la suma Esta es la suma que están a la
de cuadrados de cuadrados del izquierda (Suma
Total error de cuadrados/gra-
dos de libertad)

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 131 de 166
22 . Descripción del Analisis de Varianza.

• La división de las medias cuadráticas se dice que sigue


la distribución de probabilidad F con grados de libertad
en el numerador y en el denominador.
– La hipótesis nula es que todas las medias son
iguales.
– Si F fuera 1 significaría que la media cuadrática del
tratamiento es igual a la del error y no rechazamos la
hipótesis nula->no hay diferencias entre
tratamientos.
– Si F es grande (dados los grados de libertad),
rechazamos la hipótesis nula y afirmamos que sí hay
efectos del tratamiento. Esto lo podemos ver en el
apartado de significación (si es menor al nivel de
error habitual rechazamos la hipótesis nula).

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 132 de 166
22 . Descripción del Analisis de Varianza.

– En el ejemplo, rechazaríamos la hipótesis nula. Los


tratamientos sí que tuvieron efecto.
ANOVA

Presión
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 3133.239 3 1044.413 9.086 .000
Intra-grupos 6206.917 54 114.943
Total 9340.155 57

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 133 de 166
22 . Descripción del Analisis de Varianza.

ACTIVIDADES

EJERCICIO 22.1 En este estudio se planteó si algunas de las caracte-


rísticas alimenticias de los cereales del desayuno en un super-
mercado puede tener relación con la estanteria en la que se ponen
a la venta. Un investigador se planteó estudiar este efecto y
recogió los datos de la cantidad de azucares que tenían los
cereales y la estantería en la que estaban puestos. Los resulta-
dos se muestran a continuación.

Descriptivos

sugars
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 20 4.800 4.5722 1.0224 2.660 6.940 -1 15
2 20 9.400 4.1090 .9188 7.477 11.323 .0 15
3 36 6.528 3.8358 .6393 5.230 7.826 .0 14
Total 76 6.829 4.3981 .5045 5.824 7.834 -1 15

sugars
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 217.804 2 108.902 6.448 .003
Intra-grupos 1232.972 73 16.890
Total 1450.776 75

EJERCICIO 22.2 En el mismo estudio se planteó si había diferencias en


las proteínas que tenían esos cereales en función del estante.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 134 de 166
22 . Descripción del Analisis de Varianza.

Descriptivos

protein
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 20 2.65 1.461 .327 1.97 3.33 1 6
2 20 1.90 1.021 .228 1.42 2.38 1 4
3 36 2.86 .723 .121 2.62 3.11 1 4
Total 76 2.55 1.100 .126 2.30 2.80 1 6

protein
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 12.134 2 6.067 5.631 .005
Intra-grupos 78.656 73 1.077
Total 90.789 75

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 135 de 166
22 . Descripción del Analisis de Varianza.

EJERCICIO 22.3 ¿Y en el sodio? (el sodio sube la tensión así que es


conveniente evitarlo)

Descriptivos

sodium
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 20 176.2500 105.26752 23.53853 126.9833 225.5167 .00 290
2 20 146.7500 82.45054 18.43650 108.1620 185.3380 .00 280
3 36 158.6111 72.57126 12.09521 134.0565 183.1657 .00 320
Total 76 160.1316 84.29304 9.66907 140.8698 179.3934 .00 320

ANOVA

sodium
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 8860.629 2 4430.314 .617 .542
Intra-grupos 524038.056 73 7178.604
Total 532898.684 75

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 136 de 166
22 . Descripción del Analisis de Varianza.

EJERCICIO 22.4 ¿Y en la fibra? (todos sabemos para qué es buena la


fibra)

Descriptivos

fiber
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 20 1.6850 1.35735 .30351 1.0497 2.3203 .00 4.0
2 20 .9000 1.37267 .30694 .2576 1.5424 .00 5.0
3 36 3.1389 2.87256 .47876 2.1670 4.1108 .00 14
Total 76 2.1671 2.39546 .27478 1.6197 2.7145 .00 14

ANOVA

fiber
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 70.757 2 35.378 7.182 .001
Intra-grupos 359.611 73 4.926
Total 430.368 75

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 137 de 166
22 . Descripción del Analisis de Varianza.

EJERCICIO 22.5 También nos planteamos si hay diferencias en el azucar


en función del fabricante (hemos eliminado un fabricante que sólo
tiene un producto)

Descriptivos

sugars
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
G 22 7.955 3.8727 .8257 6.237 9.672 1 14
K 22 7.273 4.3772 .9332 5.332 9.213 .0 15
N 6 1.833 2.8577 1.1667 -1.166 4.832 .0 6
P 9 8.778 4.5765 1.5255 5.260 12.296 3 15
Q 8 5.250 5.0920 1.8003 .993 9.507 -1 12
R 8 6.125 3.5632 1.2598 3.146 9.104 2 11
Total 75 6.880 4.4050 .5086 5.866 7.894 -1 15

ANOVA

sugars
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 239.838 5 47.968 2.767 .025
Intra-grupos 1196.082 69 17.335
Total 1435.920 74

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 138 de 166
23 . Supuestos del análisis de regresión.

23. Supuestos del análisis de regresión


Gráficos, gráficos, gráficos...

• El análisis de varianza en realidad es un caso particular


del análisis de regresión (aunque aquí no lo hemos
demostrado en detalle)
• Por ello, se aplican supuestos similares a los que
utilizamos habitualmente en regresión. Estos supuestos
son los siguientes:
– Igualdad de varianzas
– Normalidad de los residuales

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 139 de 166
23 . Supuestos del análisis de regresión.

• De estos dos supuestos, la normalidad de los


residuales se prueba como hemos anteriormente para
otros métodos (histograma de los residuales). La
igualdad de varianzas la veremos con más detalle en el
siguiente punto.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 140 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

24. Igualdad de varianzas en Análisis de Varianza


Comprobando supuestos

• Para comprobar la igualdad de varianzas, podríamos


usar el siguiente gráfico (ya mostrado anteriormente):
El tamaño de estos gráficos repre-

60.0
senta la desviación típica. Si son
aproximadamente iguales, las
40.0
20.0
0.0
-20. varianzas son iguales

1
A 2
B 3
C 4
D
Variables

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 141 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

• No obstante, ese gráfico no se encuentra en muchos


paquetes estadísticos. En cambio, se suele ver el
siguiente gráfico:
50,0 La altura del
rectángulo está
40,0 relacionada con la
desviación típica
30,0 y si los rectangu-
los son similares
Presión 20,0 entonces las vari-
anzas son
10,0 homogéneas
0,0
12

-10,0

1 2 3 4
Droga

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 142 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

ACTIVIDADES

EJERCICIO 24.1 En el análisis del azucar en cajas de cereales en fun-


ción del estante, ¿se puede apreciar si hay homogeneidad de
varianza?

15,0

10,0

sugars
5,0

0,0

-5,0

1 2 3
shelf

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 143 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

14

12

10

Frecuencia
8

2
Mean = 3,9552E-16
Std. Dev. = 4,05458
N = 76
0
-10,00 -5,00 0,00 5,00 10,00
Residuo para sugars

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 144 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

EJERCICIO 24.2 ¿Qué dirías de la homogeneidad para las proteínas en


función del grupo?

6 45

5 68

protein
3

1 2 3
shelf

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 145 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

30

Frecuencia
20

10

Mean = 2,3072E-16
Std. Dev. = 1,02408
N = 76
0
-2,00 -1,00 0,00 1,00 2,00 3,00
Residuo para protein

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 146 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

EJERCICIO 24.3 ¿Hay homogeneidad de varianzas en la grasa de los


cereales (fat)?

3 5

fat
2 64

0 51

1 2 3
shelf

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 147 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

25

20

Frecuencia
15

10

Mean = 1,0235E-16
Std. Dev. = 0,96954
N = 76
0
-1,00 0,00 1,00 2,00 3,00 4,00
Residuo para fat

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 148 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

EJERCICIO 24.4 ¿Hay homogeneidad en la varianza en las calorías?


160,00 36

140,00

120,00

calories
100,00

80,00 48

60,00

66

40,00

1 2 3
shelf

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 149 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

30

25

20

Frecuencia
15

10

Mean = 2,838E-15
Std. Dev. = 19,4224
N = 76
0
-60,00 -40,00 -20,00 0,00 20,00 40,00 60,00
Residuo para calories

Descriptivos

calories
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 20 102.5000 9.10465 2.03586 98.2389 106.7611 80 110
2 20 109.5000 8.25578 1.84605 105.6362 113.3638 90 120
3 36 107.7778 26.95087 4.49181 98.6589 116.8966 50 160
Total 76 106.8421 19.61024 2.24945 102.3610 111.3232 50 160

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 150 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

EJERCICIO 24.5 ¿Y en las calorías en función del fabricante?

160,00 35

140,00 17

14

120,00 4

calories
100,00 21

80,00

60,00

24

40,00

G K N P Q R
ManuReco

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 151 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

25

20

Frecuencia
15

10

Mean = 6,356E-15
Std. Dev. = 18,06161
N = 75
0
-60,00 -40,00 -20,00 0,00 20,00 40,00 60,00
Residuo para calories

Descriptivos

calories
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
G 22 111.3636 10.37187 2.21129 106.7650 115.9623 100 140
K 22 108.6364 22.73982 4.84815 98.5541 118.7186 50 160
N 6 86.6667 10.32796 4.21637 75.8281 97.5052 70 100
P 9 108.8889 10.54093 3.51364 100.7864 116.9914 90 120
Q 8 95.0000 29.27700 10.35098 70.5238 119.4762 50 120
R 8 115.0000 22.67787 8.01784 96.0408 133.9592 90 150
Total 75 106.9333 19.72605 2.27777 102.3948 111.4719 50 160

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 152 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

EJERCICIO 24.6 ¿Hay homogeneidad en la grasa en función del fabri-


cante?

5 60

3 27 57

fat
2

1 45

G K N P Q R
ManuReco

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 153 de 166
24 . Igualdad de varianzas en Análisis de Varianza.

25

20

Frecuencia
15

10

Mean = -2,7712E-16
Std. Dev. = 0,90721
N = 75
0
-2,00 -1,00 0,00 1,00 2,00 3,00
Residuo para fat

Descriptivos

fat
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
G 22 1.36 .581 .124 1.11 1.62 1 3
K 22 .64 .848 .181 .26 1.01 0 3
N 6 .17 .408 .167 -.26 .60 0 1
P 9 .89 1.054 .351 .08 1.70 0 3
Q 8 1.75 1.581 .559 .43 3.07 0 5
R 8 1.25 1.282 .453 .18 2.32 0 3
Total 75 1.03 1.013 .117 .79 1.26 0 5

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 154 de 166
25 . Comparando las medias.

25. Comparando las medias


Comparando las medias de los grupos

• Cuando en un análisis de varianza rechazamos la


hipótesis nula la conclusión es sólo que los tratamientos
son diferentes.
– Esa conclusión es sólo un primer paso que se queda
corto sin saber entre qué medias están las
diferencias.
– Para saber eso utilizamos las pruebas de
comparaciones de medias.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 155 de 166
25 . Comparando las medias.

• Para hacer este calculo podemos tenemos que seguir


tres pasos:
– Elegir las dos medias a comparar. Esto tiene que
hacerse teniendo en cuenta las características del
estudio. Por ejemplo, en el estudio sobre drogas, la
droga A es la que actualmente se utiliza y la D es una
alternativa recientemente desarrollada. Sería
interesante comparar entonces A con D.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 156 de 166
25 . Comparando las medias.

– Calcular el error típico. La fórmula para este cálculo


es la siguiente:

Medias a comparar µ1 – µ2
---------------------------
Desviación típica del Tamaños de los
1 1
error (mas sobre esto s e ----- + ----- grupos
a continuación) n1 n2

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 157 de 166
25 . Comparando las medias.

– La desviación típica la da el SPSS al cuadrado.


Sacando la raíz se obtiene el valor que necesitamos.
S e es laANOVA
raíz cuadrada de este valor
Presión
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 3133.239 3 1044.413 9.086 .000
Intra-grupos 6206.917 54 114.943
Total 9340.155 57

– El resultado de la Ecuación es un valor de t que


habría que comparar con el valor de t con n-k grados
de libertad (es decir, el número de casos menos el
número de grupos del análisis).

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 158 de 166
25 . Comparando las medias.

• En el SPSS también se puede pedir que muestre esos


calculos automaticamente.
– No obstante, hay que tener cuidado con este
resultado y mirar sólo la comparación concreta que
queremos hacer. En este caso la droga A con la D
En este cuadro se muestran las comparaciones
Comparaciones múltiples
para todas las medias. Nosotros debemos mirar
Variable dependiente: Presión solamente la que está en el recuadro.
DMS
Intervalo de confianza al
95%
Diferencia de Límite
(I) Droga (J) Droga medias (I-J) Error típico Sig. Límite inferior superior
1 2 .5333 3.9148 .892 -7.315 8.382
3 17.3167* 4.1523 .000 8.992 25.641
4 12.5667* 3.8532 .002 4.842 20.292
2 1 -.5333 3.9148 .892 -8.382 7.315
3 16.7833* 4.1523 .000 8.459 25.108
4 12.0333* 3.8532 .003 4.308 19.758
3 1 -17.3167* 4.1523 .000 -25.641 -8.992
2 -16.7833* 4.1523 .000 -25.108 -8.459
4 -4.7500 4.0942 .251 -12.958 3.458
4 1 -12.5667* 3.8532 .002 -20.292 -4.842
2 -12.0333* 3.8532 .003 -19.758 -4.308
3 4.7500 4.0942 .251 -3.458 12.958
*. La diferencia entre las medias es significativa al nivel .05.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 159 de 166
25 . Comparando las medias.

• ¿Por qué tenemos que limitarnos a mirar sólo una


comparación?
– Si hacemos muchas comparaciones, aumenta la
probabilidad de rechazar alguna hipótesis nula.
– Ese aumento de la probabilidad de rechazar
hipótesis nula lleva a que los niveles de significación
no sean correctos. Habría que corregirlos.
– Hay muchos métodos de corrección de ese error
pero aquí no los veremos por ello la forma correcta
de usar la tabla anterior es mirar la comparación (o
comparaciones si son pocas) en la que estemos
interestados. No se trata de coger la tabla y mirar
línea por línea todos los casos en los que
rechazamos la hipótesis nula.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 160 de 166
25 . Comparando las medias.

ACTIVIDADES

EJERCICIO 25.1 Supongamos que los cereales que tomamos normalmente


están en la estantería 1 por que no nos gusta agacharnos para
cogerlos. ¿Hay diferencias en la cantidad de proteínas entre la
estantería 1 y la 2? ¿Y con la 3?
ANOVA

protein
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 14.653 2 7.327 7.127 .001
Intra-grupos 74.013 72 1.028
Total 88.667 74

6 44

5 67

4 63
protein

1 2 3
shelf

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 161 de 166
25 . Comparando las medias.

Comparaciones múltiples

Variable dependiente: protein


DMS
Intervalo de confianza al
95%
Diferencia de Límite
(I) shelf (J) shelf medias (I-J) Error típico Sig. Límite inferior superior
1 2 .861* .325 .010 .21 1.51
3 -.211 .283 .458 -.77 .35
2 1 -.861* .325 .010 -1.51 -.21
3 -1.072* .288 .000 -1.64 -.50
3 1 .211 .283 .458 -.35 .77
2 1.072* .288 .000 .50 1.64
*. La diferencia entre las medias es significativa al nivel .05.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 162 de 166
25 . Comparando las medias.

EJERCICIO 25.2 ¿Y hay diferencia entre la cantidad de azucares entre


el grupo 1y los otros dos?

ANOVA

sugars
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 246.064 2 123.032 7.445 .001
Intra-grupos 1189.856 72 16.526
Total 1435.920 74

15,0

10,0
sugars

5,0

0,0 46

-5,0

1 2 3
shelf

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 163 de 166
25 . Comparando las medias.

Variable dependiente: sugars


DMS
Intervalo de confianza al
95%
Diferencia de Límite
(I) shelf (J) shelf medias (I-J) Error típico Sig. Límite inferior superior
1 2 -4.9368* 1.3023 .000 -7.533 -2.341
3 -1.7278 1.1337 .132 -3.988 .532
2 1 4.9368* 1.3023 .000 2.341 7.533
3 3.2091* 1.1527 .007 .911 5.507
3 1 1.7278 1.1337 .132 -.532 3.988
2 -3.2091* 1.1527 .007 -5.507 -.911
*. La diferencia entre las medias es significativa al nivel .05.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 164 de 166
25 . Comparando las medias.

EJERCICIO 25.3 ¿Y la comparación entre el primer estante y los otros


dos para la fibra?

ANOVA

fiber
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 66.850 2 33.425 6.708 .002
Intra-grupos 358.758 72 4.983
Total 425.609 74

14,00 24

12,00

10,00 45

23

8,00
fiber

6,00

40

4,00

50

2,00

0,00

1 2 3
shelf

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 165 de 166
25 . Comparando las medias.

Comparaciones múltiples

Variable dependiente: fiber


DMS
Intervalo de confianza al
95%
Diferencia de Límite
(I) shelf (J) shelf medias (I-J) Error típico Sig. Límite inferior superior
1 2 .73763 .71511 .306 -.6879 2.1632
3 -1.45389* .62253 .022 -2.6949 -.2129
2 1 -.73763 .71511 .306 -2.1632 .6879
3 -2.19152* .63298 .001 -3.4533 -.9297
3 1 1.45389* .62253 .022 .2129 2.6949
2 2.19152* .63298 .001 .9297 3.4533
*. La diferencia entre las medias es significativa al nivel .05.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 166 de 166

You might also like