PDF

.
INFERENCIA Y CONTRASTE DE HIPÓTESIS

EN VARIABLES CUANTITATIVAS
PEDRO VALERO
CONTENIDOS
1. Asociación entre dos variables contínuas............................................. 3

2. La recta de regresión ............................................................................ 5
3. Como calcular rectas (1)....................................................................... 11
4. El coeficiente de correlación ................................................................ 13
5. Como calcular rectas (2)....................................................................... 16
6. El ajuste de la recta............................................................................... 18
7. Evaluando la regresión en detalle......................................................... 20
8. Evaluar si la regresión es lineal ............................................................ 21
9. Evaluar residuales de gran tamaño ....................................................... 28
10. Evaluar puntos influyentes ................................................................... 31
11. Pensar en variables subyacente ............................................................ 36
12. Muestras y regresión ............................................................................ 39
13. El error típico de los coeficientes de la recta........................................ 42
Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 1 de 166

.
14. Pruebas de hipótesis de la pendiente de regresión................................ 45

15. Pruebas de hipótesis y regresión con ordenador................................... 47
16. Intervalos de confianza para valores predichos.................................... 51
17. Supuestos para inferencias en regresión............................................... 56
18. Igual variabilidad.................................................................................. 57
19. Normalidad de los errores .................................................................... 62
20. Predictores binarios .............................................................................. 63
21. Predictores politómicos ........................................................................ 73
22. Descripción del Analisis de Varianza................................................... 74
23. Supuestos del análisis de regresión ...................................................... 83
24. Igualdad de varianzas en Análisis de Varianza .................................... 84
25. Comparando las medias........................................................................ 93

1 . Asociación entre dos variables contínuas: El diagrama de
1. Asociación entre dos variables contínuas: El

diagrama de dispersión
Aproximación gráfica
• En la segunda parte del Informe Pisa se analiza la

relación entre la puntuación en Matemáticas obtenida

por los alumnos y la inversión Pública en PIB.

La recta de regresión nos
La forma600 de la nube nos
da la relación lineal
indica la relación aproxi- media
mada
Corea Finlandia
Japón
Suiza
Nueva Zelanda
Rep. Checa
Francia
Suecia
Puntuación en Matemáticas
Eslovaquia Polonia Dinamarca
500
Luxemburgo
España Estados Unidos Noruega
Rusia
Italia Portugal
Grecia
Uruguay
Tailandia
Cada punto indica el
400
Turquía
valor del país en
ambas variables
México
Indonesia Túnez
Brasil
R2 = 0,1271
300
1% 2% 3% 4% 5% 6% 7% 8% 9%
Inversión pública en educación (% del PIB)
Fuente: PISA Figura 1: Diagrama de Dispersión dePuntuación en Matemáticas versus inversión Pública
L i i d l í t á t i l d E t d E ñ tá

ACTIVIDADES
EJERCICIO 1.1 En el informe PISA, qué puedes decir de la relación

entre puntuación en Matemáticas y PIB per capita a partir del
diagrama de dispersión. ¿Qué paises se ajustan peor a la rela-
ción?
EJERCICIO 1.2 En el informe PISA, qué puedes decir de la relación
entre el índice de status socieconómico y cultura y puntuación en
Matemáticas a partir del diagrama de dispersión. ¿Qué paises se
ajustan peor a la relación?
EJERCICIO 1.3 En el informe PISA, ¿dirías que la relación entre el
índice de status socieconómico y cultura y puntuación en Matemá-
ticas podría ser curvilínea?
EJERCICIO 1.4 En el informe PISA, ¿como interpretarías o explicarías
que el índice de status socieconómico y cultura y puntuación en
Matemáticas tiene una forma curvilínea?

2 . La recta de regresión.
2. La recta de regresión
Calculando puntuaciones predichas
• La recta de regresión nos da una idea de la relación

teórica entre dos variables.
• Cuando hablamos de regresión, hay una variable
explicada o predicha, y una variable explicativa o
predictora (también, dependiente o independiente).
• La variable predicha se pone en el eje de las y, la
variable predictora en el eje de las x.
• En el ejemplo de la Figura 1 sobre la relación entre
puntuación en Matemáticas y la inversión pública, la
formula no nos la dan así que usaremos otro ejemplo.

• Ejemplo, 18 esquiadores de campo a través hacen un

recorrido. A esos esquiadores se les mide la
concentración de CPK en sangre (la cantidad de
enzima CPK en sangre es una medida de stress
muscular). Los datos son los siguientes.

• CPK es la variable predicha, AGE es la variable

predictora
• La formula en este caso es la siguiente:
CPK = 867 – 9.85 × AGE Ecuación (2.5)
• A partir de esa fórmula podemos calcular puntuaciones

predichas o esperadas para el CPK de los esquiadores.
• Cada puntuación expresa un valor teórico o ideal que
asignamos a todos los sujetos que tengan el mismo
valor en la variable predictora. Por ejemplo, el primer
esquiador tenía una edad de 19. El valor predicho para
este esquiador es de:
679.85 = 867 – 9.85 × 19 Ecuación (2.6)

• El gráfico a continuación muestra la línea de regresión

y el valor del primer sujeto.
1500.00
1000.00
CPK
Esta es la puntuación predicha
500.00
Este es la puntuación del sujeto 1

0.00
10.00 20.00 30.00 40.00 50.00 60.00 70.00
Age

• Las puntuaciones predichas y las observadas no

coinciden. Siempre hay una cierta cantidad de error.
1500.00
1000.00
Esta diferencia se llama error o
CPK
residual
{
500.00
Este es la puntuación del sujeto 1

0.00
10.00 20.00 30.00 40.00 50.00 60.00 70.00
Age

• El concepto de error o residual es de mucha

importancia. En el informe PISA lo utilizamos para
valorar si un país está funcionando por encima o por
debajo de sus posibilidades o expectativas.
Hong-Kong tiene un residual
600
positivo y alto
Hong-Kong
Finlandia
Corea Holanda Canadá
Macao Japón
Suiza Islandia
Francia Suecia
500 Polonia Alemania
Luxemburgo
España Noruega
Rusia Letonia
Portugal Estados Unidos
Italia
Grecia
Serbia y M.
Tailandia
Macao Uruguay España tiene un resid-
400
ual cercano a cero
México
Mexico tiene un
valor bajo
Túnez Indonesia
R2 = 0,5118
300
-1,5 -1,0 -0,5 0,0 0,5 1,0
Índice PISA de estatus socio-económico y cultural
Fuente: PISA
Figura 2: Diagrama de Dispersión dePuntuación en Matemáticas versus estatus socioeconómico

• Para calcular los residuales simplemente restamos la

puntuación observada de la puntuación predicha. Los
símbolos que se suelen utilizar son:
e i = y i – ŷ i Ecuación (2.7)
Esto indica el Esta es la puntuación predicha

residual o error
Esta es la puntuación
observada

• Las puntuaciones observadas, predichas y residuales

para los datos de los esquiadores son las siguientes:
Observadas PredichasResiduales
Tabla 1: Puntuaciones observadas, predichas y residuales para los datos de

esquiadores

• Tener en cuenta las siguientes relaciones. Las tres

fórmulas son la misma después de un poco de
manipulación
e = y – ŷ
y = ŷ + e
ŷ = y – e
ACTIVIDADES
EJERCICIO 2.1 Comprueba que las puntuaciones residuales de la

Figura 1 están bien calculadas a partir de las otras puntuacio-
nes. Utiliza la Ecuación 2.7.

EJERCICIO 2.2 En el gráfico de la Figura 3 indica aproximadamente

cual es la puntuación observada, la predicha y la residual para
Islandia. Indica lo mismo para Macao.
600
Hong-Kong
Finlandia
Corea Holanda Canadá
Macao Japón
Suiza Islandia
Francia Suecia
500 Polonia Alemania
Luxemburgo
España Noruega
Rusia Letonia
Portugal Estados Unidos
Italia
Grecia
Tailandia Serbia y M.
Macao Uruguay
400
México
Túnez Indonesia
R2 = 0,5118
300
-1,5 -1,0 -0,5 0,0 0,5 1,0
Índice PISA de estatus socio-económico y cultural
Fuente: PISA
Figura 3: Diagrama de Dispersión dePuntuación en Matemáticas versus inversión Pública

3 . Como calcular rectas (1).
3. Como calcular rectas (1)

Métodos para ajustar líneas
• Hay diversas maneras de ajustar líneas de predicción:

– Se pueden ajustar a mano
– Se pueden calcular rectas de regresión
– Se pueden utilizar métodos robustos o más flexibles

• Aquí se muestran varias posibilidades

Línea a mano. Tiene dos partes
1500.00
Línea de regresión
1000.00
CPK
Línea robusta
500.00
0.00
10.00 20.00 30.00 40.00 50.00 60.00 70.00

Age
• Cada una de estas líneas tiene sus propiedades y sus

méritos. Nosotros sólo veremos las de la regresión.

• La línea de regresión tiene las siguientes propiedades:

– Es recta
– Siendo recta, es la línea que da una suma al
cuadrado de residuales menor.
• Hay varias formulas para calcular la recta de regresión.
De entre ellas, he seleccionado la siguiente:
– Recordar, queremos calcular una recta que tiene la
siguiente forma:
Este símbolo significa predicha Las dos cosas que no sabemos
son a y b
ŷ = a + bx

– b se denomina la pendiente de la recta y se puede

calcular con la siguiente fórmula.
rS y r=correlación
b = -------- S y = desviación típica de y Ecuación (3.3)
Sx S x = desviación típica de x
– Una vez se conoce b es fácil calcular a. Esto se hace

mediante
a = y – bx Ecuación (3.4)
– En los cálculos anteriores falta como calcular r . Eso

lo veremos en el siguiente apartado.

4 . El coeficiente de correlación.
4. El coeficiente de correlación
Midiendo la relación
• Hay diferentes fórmulas para calcular el coeficiente de

correlación, todas ellas equivalentes.
• El método más sencillo consiste en:
– Pasar las puntuaciones de las variables a
puntuaciones z (esto se hace restando la media de la
variable y dividiendo por la desviación típica)
xi – x
z x = ------------ Ecuación (4.5)
sx

– Aplicar la siguiente fórmula (es decir, multiplicar cada

una de las puntuaciones z para una variable por la
puntuación z correspondiente de la otra variable y
dividir por el número de casos menos 1)
r =
∑ z zy
x
----------------
- Ecuación (4.6)
n–1
• EJEMPLO DE CALCULO: Se llevó a cabo un estudio de
efecto del carril-bici sobre conductores y ciclistas. Las
variables son: ESPACIO DE VIAJE entre el carril-bici y
la línea central de la carretera, y SEPARACIÓN es la
distancia entre el ciclista y un coche que pasa.

• Aquí están los datos

Tabla 2: Datos para Espacio de viaje y separación
Espacio de viaje Separación

12.8 5.5
12.9 6.2
12.9 6.3
13.6 7
14.5 7.8
14.6 8.3
15.1 7.1
17.5 10
19.5 10.8
20.8 11

• Calculamos la media y la desviación típica de las

variables
Tabla 3: Medias y desviaciónes típicas de las variables
x s
Espacio de viaje 15.42 2.88
Separación 8 1.98
– Calculamos las puntuaciones típicas

Tabla 4: Puntuaciones z para Espacio de viaje y separación
Espacio de viaje Separación

-0.91 -1.26
-0.88 -0.91
-0.88 -0.86
-0.63 -0.51
-0.32 -0.1
-0.29 0.15
-0.11 -0.46
0.72 1.01
1.42 1.42
1.87 1.52

– Multiplicamos los dos valores de cada fila

Tabla 5: Multiplicando los valores
Multiplicación
1.15
0.80
0.76
0.32
0.03
-0.04
0.05
0.73
2.02
2.84
– Sumamos los valores de la columna anterior y

dividimos por el número de casos menos 1 y nos da
la correlación.
Tabla 6: Correlación
Correlación
0.96

5. Como calcular rectas (2)

Ahora sí
• En la sección Como calcular rectas (1) vimos una

fórmulas para calcular la recta de regresión que
utilizaba el coeficiente de correlación. Estas fórmulas
eran la Ecuación 3.3 y la Ecuación 3.4.
• Tener en cuenta que, a diferencia de la correlación,
tenemos que distinguir entre variable predictora y
variable predicha. En nuestro ejemplo, el espacio de
viaje es la predictora, y la separación es la predicha.

• Aplicado al ejemplo, el resultado es:

0.96 ( 1.98 )
b = -------------------------- = 0.66
2.88
a = 8 – 0.66 ( 15.42 ) = – 2.1772

ACTIVIDADES
EJERCICIO 5.1 Para los siguientes datos, calcula la correlación del

peso sobre las abdominales. El resultado es -0.37.
Tabla 7: Peso, tamaño de cintura y número de abdominales de un grupo de atletas

EJERCICIO 5.2 Calcula la correlación entre la cintura y el número de

abdominales. El resultado es -0.62.
EJERCICIO 5.3 Calcula la recta de regresión para predecir las abdomi-
nales a partir del peso. El resultado es
b = – 1.14
a = 350.15
EJERCICIO 5.4 Calcula la recta de regresión para predecir las abdomi-
nales a partir de la cintura. El resultado es
b = – 18.18
a = 784.02

6 . El ajuste de la recta.
6. El ajuste de la recta
Valorando la regresión
• En la Section 3 . vimos que la recta de regresión es la

que minimiza:
2
SCE = ∑e Ecuación (6.5)
– Es decir, la suma de cuadrados de los errores.

- ¿Por qué elevamos al cuadrado? La suma de los
residuales sin más es igual a cero. Al elevar al
cuadrado los signos negativos desaparecen.
• ¿Cómo podemos valorar si SCE es mucho o es poco?

– Volviendo al ejemplo de Edad versus CPK, tenemos

lo siguiente
1500.00
Esta es la línea de
regresión
1000.00
CPK
la media de CPK
500.00
0.00
0.00 20.00 40.00 60.00 80.00

Age

– La línea media es la línea recta que produce el error

máximo. Si calculamos los residuales de esa línea
hacemos:
2
SCT = ∑ (y – y) Ecuación (6.6)
– Esa fórmula es igual a la de la varianza de y pero sin

dividir por el número de casos.
• Sabiendo SCE y SCT podemos calcular una nueva
cantidad que llamaremos suma de cuadrados
explicados por la regresión (SCR).
SCR = SCT – SCE Ecuación (6.7)

• Para valorar el tamaño de SCR calculamos la

proporción (es decir, dividimos el valor más pequeño
por el total). A esto lo llamamos proporción de varianza
2
explicada y se simboliza R .
2 SCR
R = ----------- Ecuación (6.8)
SCT
2
• Algunos datos sobre R
2
– R es el cuadrado de la correlación
2
– R va entre 0 y 1, donde uno indicaría que todos los
puntos caen sobre la recta, y 0 indicaría que la recta
no ayuda a mejorar la predicción en absoluto.
2
– R a veces se da en términos de porcentajes.
Simplemente multiplicamos la proporción por 100.

– Dependiendo de la disciplina, los investigadores

2
consideran que una R es buena o mala. En
2
encuestas, por ejemplo, una R de 0.4 podría estar
muy bien considerada. En experimentos físicos, un
0.9 puede ser considerado insuficiente.
ACTIVIDADES
EJERCICIO 6.1 Calcula el valor de R 2 para la recta de regresión que

predice las abdominales a partir del peso.
EJERCICIO 6.2 Calcula el valor de R 2 para la recta de regresión que
predice las abdominales a partir de la cintura.
EJERCICIO 6.3 Calcula el valor de R 2 para los datos de la Tabla 2.

7 . Evaluando la regresión en detalle.
7. Evaluando la regresión en detalle

Calcular la proporción de varianza explicada no es suficiente
2
• El valor de R es importante para valorar una regresión,
pero también hay que tener en cuenta otras cosas. Las
cosas que hay que tener en cuenta son:
– Evaluar si la relación es realmente lineal
– Evaluar si hay residuales de tamaño excesivo
– Evaluar puntos influyentes
– Considerar si hay variables subyacentes
• Para evaluar lo anterior utilizaremos fundamentalmente
dos herramientas.
– El diagrama de dispersión (ya hemos visto esto
antes)

7 . Evaluando la regresión en detalle.
– Gráficos de los residuales: Veremos ejemplos de

estos gráficos en los siguientes apartados.

8 . Evaluar si la regresión es lineal.
8. Evaluar si la regresión es lineal

La regresión ajusta líneas rectas
• En el siguiente ejemplo examinamos 38 coches de los

años 80 y vemos la relación que hay entre su peso
(weight) y su eficiencia (MPG= millas por galón que es
equivalente a kilómetros recorridos por litro).

• El diagrama de dispersión sin la recta de regresión tiene

este aspecto:
40.00
35.00
30.00
MPG
25.00
20.00
15.00
1.00 2.00 3.00 4.00 5.00

Weight

• Si ajustamos la recta de regresión veríamos esto.
40.00
35.00
30.00
MPG
25.00
20.00
15.00
1.00 2.00 3.00 4.00 5.00

Weight

• Esa línea no acaba de ajustar bien. Una línea un poco

curva iría mucho mejor:
40.00
35.00
30.00
MPG
25.00
20.00
15.00
1.00 2.00 3.00 4.00 5.00
Weight

• Todavía mejor sería usar dos líneas rectas:
40.00
35.00
30.00
MPG
25.00
20.00
15.00
1.00 2.00 3.00 4.00 5.00

Weight

• Cuando la forma de la relación no es lineal, utilizar una

recta de regresión puede no ser correcto
– Si la relación es curvilínea, una línea recta no es una
descripción adecuada de los datos
– Si en los datos parece que hay más de un grupo,
ajustar líneas por grupos puede ser más razonable

• Un gráfico para evaluar la curvilinearidad es el de la

variable predictora frente a los residuales o errores
El gráfico muestra la curva
muy claramente
10.00
Aquí ponemos los
residuales
5.00
Aquí ponemos la
variable predictora
Residuals
0.00
-10.00 -5.00
1.00 2.00 3.00 4.00 5.00

Weight

• Ese gráfico debería mostrar una forma recta a lo largo

del valor 0 en los residuales. Un ejemplo para una
relación lineal sería el siguiente:
160.00
140.00
120.00
Horsepower
100.00
80.00
60.00
1.00 2.00 3.00 4.00 5.00
Weight

• En este caso, los residuales tienen la siguiente forma:
40.00
20.00
Residuals
0.00
-20.00
-40.00
1.00 2.00 3.00 4.00 5.00
i h

ACTIVIDADES
EJERCICIO 8.1 Indica si aprecias curvilinealidad en estos gráficos
600.00
100.00
400.00
50.00
Displacement
Residuals
200.00
0.00
-50.00
0.00
-100.00
-200.00
1.00 2.00 3.00 4.00 5.00 1.00 2.00 3.00 4.00 5.00
Weight Weight
EJERCICIO 8.2 Indica si aprecias curvilinealidad en la relación entre

cintura (waist) y abdominales (situps)
Scatter Plot [Unnamed Data]
Scatter Plot [Unnamed Data]
100.00
300.00
250.00
50.00
200.00
Residuals
0.00
Situps
150.00
-50.00
100.00
-100.00
50.00
30.00 32.00 34.00 36.00 38.00

30.00 32.00 34.00 36.00 38.00
Waist
Waist

EJERCICIO 8.3 ¿Dirías que hay curvilinearidad en este gráfico del

informe PISA?
600
Hong-Kong
Corea Finlandia
Liechtenstein Canadá
Macao Suiza
Rep. Checa Francia
N. Zelanda
Eslovaquia Suecia Dinamarca
500
Polonia Alemania Irlanda Noruega
Letonia Hungría Luxemburgo
Rusia España Estados Unidos
Portugal Italia
Serbia y M.
Grecia
Uruguay
Turquía
Tailandia
400
México
Indonesia
Túnez
Brasil
2
R = 0,4361
300
0 10.000 20.000 30.000 40.000 50.000 60.000
PIB per cápita
Fuente: Banco Mundial y PISA

9 . Evaluar residuales de gran tamaño.
9. Evaluar residuales de gran tamaño

Evaluando valores extremos
• En un análisis de regresión, algunos de los puntos

pueden ajustar mucho peor que otros.
• Cuando los puntos que ajustan son unos pocos, y la
diferencia es muy grande, esos puntos puede ser
interesantes analizarlos con más detalle.
• Los valores extremos son valores que se dice que
tienen más información que otros, por lo que resultan
más interesantes que el resto.

• Ejemplo: En las elecciones del año 2000, hubo mucha

controversia sobre las papeletas para votar en algunos
condados en Florida. En esos condados, el diseño de la
papeleta se supone que pudo llevar a que algunas
personas que querían votar por Gore en realidad
votaran a Buchanan. El condado más conflictivo fue
PalmBeach

• Una forma de evaluar esto es ver el gráfico de votos de

Gore v. Buchanan
4000.00
PALM_BEACH
3000.00
BUCHANAN
2000.00
1000.00
0.00
0.00 100000.00 200000.00 300000.00 400000.00

GORE

• Una forma de valorar los valores residuales extremos

es hacer un histograma de éstos.
Residuals
50
Hay dos residuales
40
negativos Este sería Palm
Beach
30
20
10
0
-979.6 140.0 1259.6 2099.2

• ¿Qué hacemos con los residuales muy altos o bajos?

– Los estudiamos por separado ya que a menudo los
valores con residuales altos son más interesantes
que los otros valores
– Damos el resultado para el resto de los datos
después de haber excluido el valor residual pero
informando de lo que hemos hecho.

ACTIVIDADES
EJERCICIO 9.1 El siguiente gráfico muestra los residuales del análi-

sis de regresión de la variable tanto por ciento de peso indivi-
dual como predictora de la presión alta (presión sistólica) en
los datos sobre lípidos. ¿Dirías que hay valores extremos?
40
30
Frecuencia
20
10
Mean = -1,9706459E-
15
Std. Dev. =
6,75826587
0 N = 95
-20,00000 -10,00000 0,00000 10,00000 20,00000
Unstandardized Residual
EJERCICIO 9.2 El siguiente gráfico muestra los residuales del análi-

sis de regresión de la variable tanto por ciento de peso indivi-
dual como predictora de la presión baja (presión diastólica) en
los datos sobre lípidos. ¿Dirías que hay valores extremos?

30
Frecuencia
20
10
Mean = -3,9135362E-
15
Std. Dev. = 9,8063713
N = 95
0
-20,00000 0,00000 20,00000 40,00000 60,00000

10 . Evaluar puntos influyentes.
10. Evaluar puntos influyentes

Todos los puntos deberían influir lo mismo
• Observaciones que tienen valores especialmente altos

en la variable predictora pueden tener excesiva
influencia sobre la regresión.
• Ejemplo: En un grupo de ciudades muy populares en
Estados Unidos para jubilados tenemos la población
(utilizaremos los logaritmos de la población por razones
que no comentaremos) y el coste del alquiler de una
casa.

• En el diagrama de dispersión de estas dos variables

hemos puesto dos líneas. Una ajusta a todos los datos,
y la otra a todos menos Las Vegas, que es la ciudad con
más habitantes del grupo de ciudades.
800.00 1000.00 1200.00 1400.00
Quitar ese punto hace

que la recta de regresión
varie todo esto
}
Rent-pw_p_1.0
600.00
400.00
6.00 8.00 10.00 12.00 14.00
Population-pw_p_0.00

• Porque un punto sea extremo no tiene porque tener

mucha influencia. Por ejemplo, si el punto que quitamos
es el que está arriba:
800.00 1000.00 1200.00 1400.00
Al quitar este punto,
la variación es mucho
menor
Rent-pw_p_1.0
600.00
400.00
6.00 8.00 10.00 12.00 14.00
Population-pw_p_0.00
• Los puntos que tienen más influencia son los que

destacan en la variable predictora, por la derecha o por

la izquierda y no los que tienen un residual alto.

• En el ejemplo de las votaciones por Bush tendríamos lo
siguiente:
4000.00
Estos puntos tienen
PALM_BEACH
más influencia que
Palm Beach
3000.00
BUCHANAN
2000.00
1000.00
0.00
0.00 100000.00 200000.00 300000.00 400000.00

GORE

ACTIVIDADES
EJERCICIO 10.1 En el siguiente diagrama de dispersión se puede ver la

relación entre la variable SalariosProfesores y la variable Impu-
testosProfesores. De las ciudades señaladas en el gráfico, ¿qué
ciudades dirías que tendrán más influencia en una regresión entre
x e y?
60.00 Stockholm
ImpuestosProfesores
40.00
Copenhagen
TEACHTAX
Geneva
20.00
Luxembourg
0.00
0.00 20.00 40.00 60.00

SalariosProfesor
TEACHSAL

EJERCICIO 10.2 Y de la regresión siguiente que utiliza BIGMAC como

predictora y BREAD (pan) como predicha?
250.00
200.00
Lagos
150.00
BREAD
100.00
Manila
Caracas
50.00
Mexico_City
Bombay
0.00
0.00 50.00 100.00 150.00 200.00 250.00
BIGMAC
EJERCICIO 10.3 ¿Y en este caso? (BUSFARE=PRECIO DE UN RECORRIDO EN

AUTOBÚS; WORKHRS=HORAS DE TRABAJO AL AÑO).

1400.00 1600.00 1800.00 2000.00 2200.00 2400.00

Hong_Kong
Bogota
WORKHRS
Stockholm
Copenhagen
0.00 1.00 2.00 3.00
BUSFARE

11 . Pensar en variables subyacente.
11. Pensar en variables subyacente

A veces las relaciones pueden ser muy sospechosas
• A veces, las relaciones entre dos variables pueden ser

debidas a factores subyacentes o variables que
denominamos intermedias.

• Veamos el siguiente ejemplo. Tenemos la relación entre

el número de personas por televisión (usaremos
logaritmos) que hay en países del mundo y la
expectativa de vida en ese país:
80.00
La relación es lineal y parece
bastante clara. Conclusión: las
falta de televisiones disminuye
la expectativa de vida
70.00
Aquí hay menos personas por

LifeExpec_p_1.0
televisión (es decir, hay más

televisiones por persona)
60.00
Aquí hay más personas por tele-

visión (es decir, hay menos televe
siones por persona)
50.00
0.00 2.00 4.00 6.00 8.00
PeopleTV_p_0.00

• No obstante, si pensamos un poco podemos ver que el

número de personas por televisión es un indicador de la
riqueza en un país, y que cuanta más riqueza, mejor
sistema sanitario y más doctores tendremos en este
sitio. Así, si hacemos esta regresión vemos que:
80.00
70.00
LifeExpec_p_1.0
60.00
50.00
4.00 6.00 8.00 10.00 12.00
Personas por médico

PeoplePhy_p_0.00

• En realidad, lo que pasa es que el número de médicos

y el de televisiones está muy relacionado:
12.00
10.00
PeoplePhy_p_0.00
por médico
8.00
personas
6.00
4.00
0.00 2.00 4.00 6.00 8.00
PeopleTV_p_0.00

ACTIVIDADES
EJERCICIO 11.1 ¿Cuál crees que es la explicación de que exista corre-

lación entre el tamaño del pie y el número de palabras en vocabu-
lario en los niños de 12 años?
EJERCICIO 11.2 ¿Cuál crees que es la explicación de que los niños que
tienen profesores particulares tienen un coeficiente de inteli-
gencia menor que los que no tienen profesores particulares?

12 . Muestras y regresión.
12. Muestras y regresión

Trabajamos con muestras por lo que hay que calcular la
variación
• Del mismo modo que vimos que una media calculada

con una muestra de datos es una estimación que varía
dentro de un intervalo, las estimaciones tanto de los
coeficientes de la regresión como de su ajuste
también varían dentro de un intervalo.

• Un ejemplo lo tenemos en los siguientes gráficos que

muestran el efecto de usar muestras para estimar las
rectas de regresión:
Las líneas
Los puntos solidos son son difer-
10.00
una muestra entes
5.00
0.00
y
El resto de los puntos

-5.00
harían el papel de una

población
-10.00
-10.00 -5.00 0.00 5.00 10.00

• Si extraemos una muestra diferente la línea de

regresión sería diferente a su vez:
10.00
5.00
0.00
y
-5.00
-10.00
-10.00 -5.00 0.00 5.00 10.00

• NOTA: Los ejemplos anteriores corresponden a

muestras muy malas. En el siguiente gráfico se ve
efecto del muestreo con una muestra más razonable:
10.00
5.00
Las líneas son

diferentes pero
por muy poco
0.00
y
-5.00
-10.00
-10.00 -5.00 0.00 5.00 10.00

• Otro ejemplo con un muestreo bien hecho:
10.00
5.00
0.00
y
-5.00
-10.00
-10.00 -5.00 0.00 5.00 10.00

13 . El error típico de los coeficientes de la recta.
13. El error típico de los coeficientes de la recta

El primer paso para calcular pruebas de hipótesis
• Cuando vimos el tema de inferencias en medias ya

vimos que el error típico nos informaba de la
variabilidad de las medias (multiplicando por el valor de
la distribución de probabilidad esto nos daba también el
intervalo de confianza dentro del que estaría la media).
• En el caso de la pendiente de la regresión, también
podemos calcular un error típico de la pendiente que
nos informa de la variabilidad de la pendiente (y que
multiplicando por el valor de la distribución de
probabilidad nos da un intervalo de confianza para la
pendiente.

• Hay tres factores que afectan el error típico de la

pendiente de una regresión.
– Variación alrededor de la línea de regresión
¿Qué datos producirán un error típico menor? Parece claro

que el de la izquierda ¿no?

– Variabilidad de la variable predictora
¿Y de estos dos? Parece también claro que el de la

derecha. Al tener más valores de la variable predic-
tora, la estimación será más consistente

– Número de casos
También parece claro que cuanto mayor sea el

número de casos, menor error típico de la regresión

• La fórmula del error típico de la pendiente de la

regresión es entonces:
Ecuación (13.3)
Desviación típica del
se error
ET ( b ) = ---------------------
sx n – 1
Desviación típica de Número de casos
la variable predictora
– En la fórmula anterior hemos introducido un símbolo

nuevo, la desviación típica del error. Esto es igual a:
Esta es la suma de cuadrados
se = SCE-
----------- del error. Ya vimos esto en la
Ecuación (13.4)
Ecuación 6.6
n–2

– El siguiente elemento importante para poder hacer

una prueba de hipótesis es saber qué distribución
tenemos que usar para comprobar si el error típico es
grande o pequeño. En este caso, tenemos que el
error típico sigue la distribución t de Student con n-2
grados de libertad.
• NOTA: Es posible también calcular el error típico de la
intercepta pero éste tiene poco interés y no lo
pondremos aquí.

14 . Pruebas de hipótesis de la pendiente de regresión.
14. Pruebas de hipótesis de la pendiente de regresión

Aceptando y rechazando hipótesis nulas
• A partir de lo mostrado en la sección anterior, podemos

hacer una prueba de hipótesis de la pendiente de una
regresión del siguiente modo:
Esto es el valor que hipotetizamos
b–β para la población. La mayoría de las
t = --------------- veces aquí ponemos cero Ecuación (14.5)
ET ( b )
• En la ecuación anterior, las hipótesis más habituales
son:
H0 → β = 0 Ecuación (14.6)
H1 → β ≠ 0

• Por tanto, la fórmula anterior se reduce a:

b
t = --------------- Ecuación (14.7)
ET ( b )
• A veces, más que una prueba de hipótesis, es
interesante calcular un intervalo de confianza. Esto se
hace mediante:
Ecuación (14.8)
IC ( b ) = b ± t n – 2 × ET
Atención: esta fór-

mula está diferente en
los apuntes en fotoco-
piadora

– En la fórmula anterior, si tenemos en cuenta que la

distribución t se parece mucho a la normal con
tamaños de muestra grandes, entonces podemos
hacer:
Ecuación (14.9)
IC ( b ) = b ± 1.96 × ET
Atención: esta fór-

mula está diferente en
los apuntes en fotoco-
piadora
• Gráficamente, la prueba de hipótesis de la pendiente lo

que hace es lo siguiente:

40.00
Lo que probamos es si la pendiente de
esta línea es diferente de la de esta otra
(es decir si la pendiente es diferente de
cero)
30.00
MPG
20.00
10.00
60.00 80.00 100.00 120.00 140.00 160.00
Horsepower

15 . Pruebas de hipótesis y regresión con ordenador.
15. Pruebas de hipótesis y regresión con ordenador

¿Qué resultados nos proporciona el ordenador?
• Es raro hacer los cálculos de un análisis de regresión a

mano hoy en día así que usaremos el ordenador.
• Usaremos un ejemplo con variable predictora el %de
peso ideal y como variable predicha el colesterol.
– En primer lugar nos aparece la correlación
Esta parte nos da el valor de R y R al cuad-
rado
Esta es la desviación
típica del error S
e
Resumen del modelob
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 .105a .011 .000 35.667
a. Variables predictoras: (Constante), % ideal body wt.
b. Variable dependiente: Cholesterol

– A continuación tenemos la prueba F (no la

utilizaremos en este caso)
En esta parte tenemos las sumas de cuadrados. Si dividimos la
Suma de cuadrados de la regresión por la total nos da R al cuadrado
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1321.868 1 1321.868 1.039 .311a
Residual 118307.038 93 1272.119
Total 119628.905 94
b. Variable dependiente: Cholesterol
Estas partes no las usaremos de momento

– Luego tenemos la prueba de hipótesis de los

coeficientes (lo más importante en nuestro caso)
Aquí miramos el nivel de sig-
nificación de los coeficientes de la
recta (el de la constante no tiene
mucha importancia)
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 163.390 27.556 5.929 .000
% ideal body wt. .277 .271 .105 1.019 .311
a. Variable dependiente: Cholesterol
Estos son los coeficientes de la recta. La constante y la pendi-

ente
• Con el SPSS también se pueden calcular los gráficos

que hemos visto anteriormente. Los veremos en
prácticas.

ACTIVIDADES
EJERCICIO 15.1 ¿Qué dirías de la relación entre peso y HDL en los

datos de lípidos a partir de estos resultados?
Resumen del modelob

1 .032a .001 -.010 10.144
b. Variable dependiente: HDL
ANOVAb
Suma de Media
1 Regresión 9.595 1 9.595 .093 .761a
Residual 9569.205 93 102.895
Total 9578.800 94
b. Variable dependiente: HDL

Coeficientesa
Coeficientes
estandarizados os
1 (Constante) 43.028 7.837 5.490 .000
% ideal body wt. .024 .077 .032 .305 .761
a. Variable dependiente: HDL
EJERCICIO 15.2 ¿Qué dirias de la relación entre peso ideal y altura

(HEIGHT)? ¿Este estudio está bien planteado?
Resumen del modelob

1 .417a .174 .165 3.800959
b. Variable dependiente: Height

ANOVAb
Suma de Media
1 Regresión 283.095 1 283.095 19.595 .000a
Residual 1343.598 93 14.447
Total 1626.693 94
b. Variable dependiente: Height
Coeficientesa
Coeficientes
estandarizados os
1 (Constante) 82.212 2.937 27.995 .000
% ideal body wt. -.128 .029 -.417 -4.427 .000
a. Variable dependiente: Height

16 . Intervalos de confianza para valores predichos.
16. Intervalos de confianza para valores predichos

Averiguando entre qué valores están las predicciones
• Uno de los usos más importantes de las rectas de

regresión es hacer predicciones de valores.
• No obstante, predicciones hechas con la recta de
regresión no son exactas. Las predicciones estarán
dentro de un intervalo.
• Distinguiremos dos tipos de predicciones para calcular
los intervalos
– Predicción del valor medio para los sujetos con el
mismo valor en la variable predictora
– Predicción de puntuaciones individuales

• Veamos un ejemplo: A un grupo de sujetos les medimos

el tamaño de la cintura para intentar predecir el
porcentaje de grasa corporal. El diagrama de dispersión
es el siguiente
40.00
30.00
PORCGRASA
20.00
10.00
0.00
30.00 35.00 40.00 45.00
CINTURA

• La ecuación de regresión para los datos de arriba es:
PorcGrasa = – 62.56 + 2.22 × Cintura Ecuación (16.3)
• Si queremos predecir un valor de PorcGrasa para un

sujeto con una cintura de 40 tendriamos:
26.24 = – 62.56 + 2.22 × 40 Ecuación (16.4)
• El error típico para el valor medio de 26.24 para todos

los hombres con cintura de 40 se calcula mediante la
siguiente fórmula:
2 s e22
ET ( µ̂ ) = ET ( b ) × ( x i – x ) + ----- Ecuación (16.5)
n

• En cambio, el error típico para un sujeto concreto que

tenga una cintura de 40 tendría esta fórmula:
2 s e22
ET ( ŷ ) = ET ( b ) × ( x i – x ) + ----- + s e2 Ecuación (16.6)
n
– Esta fórmula es igual a la anterior pero además
añade la desviación típica de los errores. Eso hace
que el intervalo sea más grande.

• EJEMPLO: Si utilizamos un ordenador, la mayor parte

de los resultados que necesitamos los tenemos dados.
Estadísticos descriptivos
Desviación
Aquí tenemos x
Media típ. N
Weight (lb) 188.60 26.662 20
Waist (in) 37.05 3.818 20
Resumen del modelo
R cuadrado Error típ. de la Aquí está se

1 .853a .727 .712 14.306
a. Variables predictoras: (Constante), Waist (in)
Coeficientesa
Coeficientes
estandarizados os Aquí está
ET ( b )
1 (Constante) -32.055 32.009 -1.001 .330
Waist (in) 5.956 .860 .853 6.928 .000
a. Variable dependiente: Weight (lb)

• El error típico para la media de los sujetos con cintura

igual a 40 sería de:
2 14.306 2 2
ET ( µ̂ ) = 0.86 × ( 40 – 37.5 ) + ------------------- = 6.877
20
– Como el valor predicho es de 26.24, entonces el
intervalo será
26.24 ± 1.96 ( 6.877 )
• Si en cambio se trata de calcular el intervalo de

confianza para todos los sujetos con puntuación igual a
40 tendriamos
ET ( ŷ ) = 6.877 2 + 14.306 2 = 15.873083

– Tener en cuenta que en los cálculos he aprovechado

los resultados del cálculo anterior.
– El intervalo de confianza sería:
26.24 ± 1.96 ( 15.87 )
• ¿Cuál es la diferencia entre ambos intervalos? En el

primero de los intervalos diríamos que confiamos al
95% que la media para sujetos que tienen 40 está en
ese intervalo. En el segundo de los intervalos,
confiamos al 95% que la puntuación de un sujeto
particular estará en ese intervalo.

• EJEMPLO GRAFICO: Predecimos el salario de unos

individuos a partir del nivel de educación que tienen
(años de escolarización). En el gráfico se muestran las
lineas de predicción medias e individuales.
predicción individ-
ual
Esta es la
línea media 80,00
60,00
Salario
40,00
20,00
R2 lineal = 0,525
R2 lineal = 0,525
0,00
0,00 20,00 40,00 60,00 80,00 100,00

Educación

17 . Supuestos para inferencias en regresión.
17. Supuestos para inferencias en regresión

¿Todavía más gráficos?
• En la sección [7] vimos que había unas condiciones que

había que evaluar para decidir si tenía sentido calcular
rectas de regresión.
• Aquí vamos a ver unas condiciones para evaluar si las
inferencias acerca de la regresión tienen sentido.
• Notar la diferencia: Lo primero era para evaluar si la
recta tenía sentido, lo segundo es para evaluar si las
inferencias tienen sentido.
• Las condiciones son:
– Linealidad (esto lo hemos visto en la sección [8] y no
lo repetiremos otra vez)

17 . Supuestos para inferencias en regresión.
– Varianza igual (homogénea). Esto lo repasaremos en

la sección [18].
– Normalidad de los errores.

18 . Igual variabilidad.
18. Igual variabilidad

¿El gráfico se va estrechando?
• En un análisis de regresión ideal el gráfico tiene que

tener la siguiente forma:
– Para cada uno de los valores de X, los valores de Y

siguen una distribución normal con la misma
desviación típica.
– En este caso, la condición se refiere a comprobar
que las desviaciones típicas son efectivamente
iguales.

• Ejemplo: Hemos predecido la tasa de nacimientos/

defunciones (birthdeat) a partir de la expectativa de vida
femenina.
15.00
Aquí hay más vari- Kuwait
anza
10.00
Emirates Arabs
Hacer predic-
birtdeat
Oman
Jordania
ciones aquí tiene Siria Bahrein
menos varianza Saudi Arabia

5.00
South Corea Singapur
Hong Kong
Georgia
Bielorussia
0.00
40.00 50.00 60.00 70.00 80.00
explmale

• Una forma de ver este efecto mejor es usar el gráfico de

residuales versus la variable independiente.
10.00
Kuwait
5.00
Emirates Arabs
Oman
Jordania
Siria
Residuals
Bahrein
Saudi Arabia
Costa Rica
0.00
South Corea
Israel
Georgia
Letonia
Russia Ireland
Hungary
-5.00
40.00 50.00 60.00 70.00 80.00
explmale

ACTIVIDADES
EJERCICIO 18.1 ¿Dirías que se aprecian varianzas iguales en este

caso? Se intenta predecir el salario medio en unas profesio-
nes(income) a partir del prestigio que tienen esas profesiones
(prestige).
100.00
80.00
60.00
Income
40.00
20.00
0.00
0.00 20.00 40.00 60.00 80.00 100.00
Prestige
60.00
40.00
20.00
Residuals
0.00
-60.00 -40.00 -20.00
0.00 20.00 40.00 60.00 80.00 100.00
Prestige
EJERCICIO 18.2 ¿Y en la predicción del salario a partir de los años

de educación?
100.0
80.00
60.00
Income
40.00
20.00
0.00
0.00 20.00 40.00 60.00 80.00 100.00
Education
60.00
40.00
20.00
Residuals
0.00
-20.00
-40.00
0.00 20.00 40.00 60.00 80.00 100.00
Education
EJERCICIO 18.3 ¿Y en la predicción del precio del pan a partir del

precio de las hamburguesas?
250.00
200.00
150.00
BREAD
100.00
50.00
0.00
0.00 50.00 100.00 150.00 200.00 250.00
BIGMAC
50.00 100.00 150.00 200.00

Residuals
0.00
-100.00 -50.00
0.00 50.00 100.00 150.00 200.00 250.00
BIGMAC
19 . Normalidad de los errores.
19. Normalidad de los errores

También tienen que ser normales
• Ya vimos en la sección [9] que había que mirar

histogramas de los residuales para comprobar si no
había valores extraños.
• La comprobación anterior, si queremos hacer
inferencias, pasa a ser comprobar si los residuales
siguen aproximadamente la distribución normal
(obviamente, si hay residuales altos esto lleva a que la
distribución normal no sea plausible de todos modos).
19 . Normalidad de los errores.
• Ejemplo: Residuales de la predicción de Bigmac a partir

de Bread.
Residuals
30
Tenemos valores
extraños en los residu-
ales
20
10
0
-68.8-41.2-13.7 13.8 41.2 68.8 96.2123.8151.2
BinWidth= 27.50 NBins= 9
20 . Predictores binarios.
20. Predictores binarios

Un caso especial de la regresión
• Un caso especial de regresión es el que se produce

cuando tenemos un predictor binario (con sólo dos
valores).
• Ejemplo: Tenemos dos grupos de individuos a los que

se les mide el colesterol. Un grupo viene de una zona
urbana y el otro viene de una zona rural. A los que
vienen de zona urbana les ponemos un 1 y a los que
vienen de una zona rural les ponemos un cero.
6.00
Estos son de zona rural
La línea de regresión une

5.50
las medias
values
Observed
Colesterol
5.00
Estos son de zona urbana

4.50
5.00 5.10 5.20 5.30 5.40
di d l
• En el resultado en el ordenador tenemos lo siguiente:

– El valor de la correlación
Resumen del modelo

1 .596a .355 .338 .21551
a. Variables predictoras: (Constante), ZonaFictic
Igual que antes, se puede interpretar sin problemas
– La prueba F (que no necesitamos utilizar)

ANOVAb
Suma de Media
1 Regresión .996 1 .996 21.439 .000a
Residual 1.811 39 .046
Total 2.807 40
a. Variables predictoras: (Constante), ZonaFictic
b. Variable dependiente: LogCholesterol
– Los coeficientes (que es lo que utilizaremos)

Coeficientesa
Coeficientes
estandarizados os
1 (Constante) 5.052 .048 104.831 .000
ZonaFictic .312 .067 .596 4.630 .000
a. Variable dependiente: LogCholesterol
Esta es la media de los Esta prueba de hipótesis prueba si

que han recibido un cero hay diferencias en la media entre
los grupos
Esta es la diferen-
cia entre los que
tienen cero y los que
tienen 1
• Ahora bien, dado que este procedimiento es muy

común, los paquetes estadísticos tienen un modulo
específico para hacer esos análisis. En el SPSS está en
el comando pruebas T para muestras independientes
en el comando Comparar Medias. El resultado es el
siguiente:
Estadísticos de grupo
Desviación Error típ. de

ZonaFictic N Media típ. la media
LogCholesterol Rural 20 5.0518 .21282 .04759
Urban 21 5.3636 .21803 .04758
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
LogCholesterol Se han asumido
.046 .832 -4.630 39 .000 -.31177 .06733 -.44797 -.17558
varianzas iguales
No se han asumido
-4.633 38.974 .000 -.31177 .06729 -.44789 -.17566
varianzas iguales
Si no rechazas la Hipótesis nula en este En caso contrario, hay

test, entonces hay que mirar esta línea que mirar esta otra
– En el output anterior hay que tener en cuenta que se

hace una prueba de hipótesis de la homogeneidad
de las varianzas. Esto es semejante a la condición
que hemos evaluado en la sección [18] aunque allí lo
hacíamos gráficamente.
6.00
Las varianzas son homogeneas
cuando las anchuras son aproxi-
madamente iguales
5.50
Observed values
5.00
4.50
5.00 5.10 5.20 5.30 5.40
Predicted Values
ACTIVIDADES
EJERCICIO 20.1 ¿Dirías que hay diferencias en el peso ideal entre

hombres y mujeres en los datos de Lípidos? (0 son hombres y 1 son
mujeres)
Resumen del modelob

1 .020a .000 -.010 13.6266
a. Variables predictoras: (Constante), GenderRecod
b. Variable dependiente: % ideal body wt.
ANOVAb
Suma de Media
1 Regresión 7.039 1 7.039 .038 .846a
Residual 17268.668 93 185.685
Total 17275.707 94
a. Variables predictoras: (Constante), GenderRecod
b. Variable dependiente: % ideal body wt.
Coeficientesa
Coeficientes
estandarizados os
1 (Constante) 100.808 1.617 62.336 .000
GenderRecod -.626 3.217 -.020 -.195 .846
a. Variable dependiente: % ideal body wt.
30
25
20
Frecuencia
15
10
Mean = 2,2199256E-14
Std. Dev. =
13,55393789
N = 95
0
-20,00000 0,00000 20,00000 40,00000
60,00000
40,00000
20,00000
0,00000
-20,00000
-40,00000
0 0,2 0,4 0,6 0,8 1

GenderRecod
EJERCICIO 20.2 ¿Hay diferencias en el peso entre hombres y muje-

res(weight)? (0 hombres, 1 mujeres)
Resumen del modelob

1 .647a .419 .413 21.753
a. Variables predictoras: (Constante),
b. Variable dependiente: Weight
ANOVAb
Suma de Media
1 Regresión 31751.212 1 31751.212 67.101 .000a
Residual 44006.325 93 473.186
Total 75757.537 94
a. Variables predictoras: (Constante),
b. Variable dependiente: Weight
240
220
200
180
Weight
160
140
120
R2 lineal = 0,419
100
0 0,2 0,4 0,6 0,8 1

GenderRecod
20
15
Frecuencia
10
Mean = 1,4377388E-14
Std. Dev. =
21,63682945
N = 95
0
-50,00000 -25,00000 0,00000 25,00000 50,00000
75,00000
50,00000
25,00000
0,00000
-25,00000
-50,00000
-75,00000
0 0,2 0,4 0,6 0,8 1

GenderRecod
EJERCICIO 20.3 En el ejercicio anterior se veía que los grupos no

parecían tener las varianzas homogéneas. Interpreta este output
en consecuencia y revisa los conclusiones anteriores si es nece-
sario.
Estadísticos de grupo
Desviación Error típ. de

N Media típ. la media
Weight male 71 169.28 23.288 2.764
female 24 127.21 16.208 3.308
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Weight Se han asumido
6.352 .013 8.192 93 .000 42.073 5.136 31.874 52.273
varianzas iguales
No se han asumido
9.760 57.158 .000 42.073 4.311 33.441 50.705
varianzas iguales
21 . Predictores politómicos.
21. Predictores politómicos

También conocido por Análisis de varianza
• El análisis de varianza es una de las técnicas

estadísticas más importantes y con gran tradición de
aplicación en Psicología y otras ciencias.
• En este tema veremos tres partes:
– Una descripción de la técnica (con fórmulas)
– La forma de comprobar supuestos
– La forma de hacer comparaciones sobre qué grupos
realmente producen las diferencias (más adelante se
explicará esto mejor).
22 . Descripción del Analisis de Varianza.
22. Descripción del Analisis de Varianza

En qué consiste
• En el apartado anterior vimos que los predictores

podían estar formados por dos categorías para los que
utilizábamos valores de 1 y 0.
• Ese mismo concepto lo podemos extender a
predictores que tienen más de dos categorías.
• EJEMPLO: Tenemos cuatro grupos de pacientes a los

que medimos la presión arterial. Luego, a cada uno de
esos grupos les damos una droga diferente y les
medimos la presión arterial otra vez. Entonces
calculamos la diferencia en la presión arterial.
– Los datos tienen este aspecto (no están todos, es
sólo para dar una idea).
Aquí está el
grupo A
Aquí empieza el
grupo B
• Una forma de entender el problema es mirando el

siguiente gráfico:
Cada columna indica el cambio en presión para
cada invidudo en cada uno de los grupos. La
línea indica las medias para los grupos
El problema con-
60.0
siste en ver si las

drogas tienen efec-
tos diferentes entre
sí. Posteriormente,
40.0
se puede ver qué

drogas tienen más
efecto. Por ejemplo,
en este caso, las
20.0
drogas C y D pare-
cen tener más
efecto que las dro-
gas A y B.
0.0
-20.
1
A 2
B 3
C 4
D
Drogas
• Si añadimos una representación de los errores típicos

de las medias, es más claro en qué consiste el
problema:
60.0
Los diamantes
representan
intervalos de
confianza para
las medias. Estos
40.0
intervalos no
deberian sola-
parse si las dro-
gas tienen
20.0
efectos difer-
entes.
0.0
-20.
1
A 2
B 3
C 4
D
Variables
Estos dos grupos no pare- Estas drogas bajan más la presión

cen diferentes entre sí que las otras dos
• El ANOVA es un método para probar que existen

diferencias entre los grupos de manera genérica.
Gráficamente, la idea es la siguiente:
3.Este gráfico tiene todos
60.0
los puntos. Haciendo la

suma de cuadrados
respecto de la media tene-
mos la SUMA DE
40.0
CUADRADOS TOTAL
20.0
2. la SUMA DE
CUADRADOS DEL
ERROR es la difer-
0.0
encia de cada sujeto

respecto a la media
de su grupo. Lo
llamaremos SCE en
-20.
1
A 2
B 3
C 4
D Total las fórmulas.
1. Esas son las medias para cada grupo. La diferencia entre
Variables
cada una de esas cuatro medias y la media total se denomina
Suma DE CUADRADOS de los TRATAMIENTOS y es igual
a la SUMA DE CUADRADOS DE LA REGRESIÓN. Lo
llamaremos SCR en las fórmulas
• Supongamos que los tratamientos no tienen efecto. El

gráfico anterior tendría la siguiente forma.
Si los tratamientos no tienen efecto las
60.0
medias coincidirán con la media total y la
suma de cuadrados de los tratamientos será
cero
40.0
20.0
0.0
-20.
1
A 2
B 3
C 4
D
• No obstante, lo normal es que las medias de los

tratamientos tengan una cierta variación. ¿Como
podemos decir que esa variación es suficientemente
importante?
– Lo que hacemos es comparar la variación en los
tratamientos con la variación error. Para ello
dividimos una variación con la otra.
– Ahora bien, las sumas de cuadrados directamente no
son una buena fuente de medir la variación ya que
cada una de ellas suma un número de elementos
diferentes.
• En lugar de las sumas de cuadrados utilizaremos la

varianza (es decir la suma de cuadrados dividido por el
número de elementos utilizados para calcularla menos
uno).
– El número de elementos diferentes para la suma de
cuadrados totales es el número de casos totales
menos uno.
cuadrados de los tratamientos es el número de
tratamientos menos uno.
cuadrados del error es la resta de los dos anteriores
(o también, la suma del número de elementos por
cada grupo menos 1).
– La descripción anterior se puede plantear en

términos de la siguiente fórmula:
SCR ⁄ ( k – 1 )
F = -------------------------------
SCE ⁄ ( n – k )
n es el
K es el número de categorías o número de
grupos comparados casos
• Todos esos cálculos se suelen disponer en una tabla de

análisis de varianza. Tener en cuenta que lo nosotros
llamamos “de la regresión” en la tabla pone
inter-grupos, y lo que pone “del error” pone intra-grupos.
Esta es la suma de Estos son los grados
cuadrados de la de libertad
regresión
Esta es la división de las
ANOVA dos medias cuadráticas
Presión
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 3133.239 3 1044.413 9.086 .000
Intra-grupos 6206.917 54 114.943
Total 9340.155 57
Esto es la división
de los dos valores
Esta es la suma Esta es la suma que están a la
de cuadrados de cuadrados del izquierda (Suma
Total error de cuadrados/gra-
dos de libertad)
• La división de las medias cuadráticas se dice que sigue

la distribución de probabilidad F con grados de libertad
en el numerador y en el denominador.
– La hipótesis nula es que todas las medias son
iguales.
– Si F fuera 1 significaría que la media cuadrática del
tratamiento es igual a la del error y no rechazamos la
hipótesis nula->no hay diferencias entre
tratamientos.
– Si F es grande (dados los grados de libertad),
rechazamos la hipótesis nula y afirmamos que sí hay
efectos del tratamiento. Esto lo podemos ver en el
apartado de significación (si es menor al nivel de
error habitual rechazamos la hipótesis nula).
– En el ejemplo, rechazaríamos la hipótesis nula. Los

tratamientos sí que tuvieron efecto.
ANOVA
Presión
Suma de Media
Inter-grupos 3133.239 3 1044.413 9.086 .000
Intra-grupos 6206.917 54 114.943
Total 9340.155 57
ACTIVIDADES
EJERCICIO 22.1 En este estudio se planteó si algunas de las caracte-

rísticas alimenticias de los cereales del desayuno en un super-
mercado puede tener relación con la estanteria en la que se ponen
a la venta. Un investigador se planteó estudiar este efecto y
recogió los datos de la cantidad de azucares que tenían los
cereales y la estantería en la que estaban puestos. Los resulta-
dos se muestran a continuación.
Descriptivos
sugars
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 20 4.800 4.5722 1.0224 2.660 6.940 -1 15
2 20 9.400 4.1090 .9188 7.477 11.323 .0 15
3 36 6.528 3.8358 .6393 5.230 7.826 .0 14
Total 76 6.829 4.3981 .5045 5.824 7.834 -1 15
sugars
Suma de Media
Inter-grupos 217.804 2 108.902 6.448 .003
Intra-grupos 1232.972 73 16.890
Total 1450.776 75
EJERCICIO 22.2 En el mismo estudio se planteó si había diferencias en

las proteínas que tenían esos cereales en función del estante.
Descriptivos
protein
la media al 95%
Desviación Límite
1 20 2.65 1.461 .327 1.97 3.33 1 6
2 20 1.90 1.021 .228 1.42 2.38 1 4
3 36 2.86 .723 .121 2.62 3.11 1 4
Total 76 2.55 1.100 .126 2.30 2.80 1 6
protein
Suma de Media
Inter-grupos 12.134 2 6.067 5.631 .005
Intra-grupos 78.656 73 1.077
Total 90.789 75
EJERCICIO 22.3 ¿Y en el sodio? (el sodio sube la tensión así que es

conveniente evitarlo)
Descriptivos
sodium
la media al 95%
Desviación Límite
1 20 176.2500 105.26752 23.53853 126.9833 225.5167 .00 290
2 20 146.7500 82.45054 18.43650 108.1620 185.3380 .00 280
3 36 158.6111 72.57126 12.09521 134.0565 183.1657 .00 320
Total 76 160.1316 84.29304 9.66907 140.8698 179.3934 .00 320
ANOVA
sodium
Suma de Media
Inter-grupos 8860.629 2 4430.314 .617 .542
Intra-grupos 524038.056 73 7178.604
Total 532898.684 75
EJERCICIO 22.4 ¿Y en la fibra? (todos sabemos para qué es buena la

fibra)
Descriptivos
fiber
la media al 95%
Desviación Límite
1 20 1.6850 1.35735 .30351 1.0497 2.3203 .00 4.0
2 20 .9000 1.37267 .30694 .2576 1.5424 .00 5.0
3 36 3.1389 2.87256 .47876 2.1670 4.1108 .00 14
Total 76 2.1671 2.39546 .27478 1.6197 2.7145 .00 14
ANOVA
fiber
Suma de Media
Inter-grupos 70.757 2 35.378 7.182 .001
Intra-grupos 359.611 73 4.926
Total 430.368 75
EJERCICIO 22.5 También nos planteamos si hay diferencias en el azucar

en función del fabricante (hemos eliminado un fabricante que sólo
tiene un producto)
Descriptivos
sugars
la media al 95%
Desviación Límite
G 22 7.955 3.8727 .8257 6.237 9.672 1 14
K 22 7.273 4.3772 .9332 5.332 9.213 .0 15
N 6 1.833 2.8577 1.1667 -1.166 4.832 .0 6
P 9 8.778 4.5765 1.5255 5.260 12.296 3 15
Q 8 5.250 5.0920 1.8003 .993 9.507 -1 12
R 8 6.125 3.5632 1.2598 3.146 9.104 2 11
Total 75 6.880 4.4050 .5086 5.866 7.894 -1 15
ANOVA
sugars
Suma de Media
Inter-grupos 239.838 5 47.968 2.767 .025
Intra-grupos 1196.082 69 17.335
Total 1435.920 74
23 . Supuestos del análisis de regresión.
23. Supuestos del análisis de regresión

Gráficos, gráficos, gráficos...
• El análisis de varianza en realidad es un caso particular

del análisis de regresión (aunque aquí no lo hemos
demostrado en detalle)
• Por ello, se aplican supuestos similares a los que
utilizamos habitualmente en regresión. Estos supuestos
son los siguientes:
– Igualdad de varianzas
– Normalidad de los residuales
23 . Supuestos del análisis de regresión.
• De estos dos supuestos, la normalidad de los

residuales se prueba como hemos anteriormente para
otros métodos (histograma de los residuales). La
igualdad de varianzas la veremos con más detalle en el
siguiente punto.
24 . Igualdad de varianzas en Análisis de Varianza.
24. Igualdad de varianzas en Análisis de Varianza

Comprobando supuestos
• Para comprobar la igualdad de varianzas, podríamos

usar el siguiente gráfico (ya mostrado anteriormente):
El tamaño de estos gráficos repre-
60.0
senta la desviación típica. Si son
aproximadamente iguales, las
40.0
20.0
0.0
-20. varianzas son iguales
1
A 2
B 3
C 4
D
Variables
• No obstante, ese gráfico no se encuentra en muchos

paquetes estadísticos. En cambio, se suele ver el
siguiente gráfico:
50,0 La altura del
rectángulo está
40,0 relacionada con la
desviación típica
30,0 y si los rectangu-
los son similares
Presión 20,0 entonces las vari-
anzas son
10,0 homogéneas
0,0
12
-10,0
1 2 3 4
Droga
ACTIVIDADES
EJERCICIO 24.1 En el análisis del azucar en cajas de cereales en fun-

ción del estante, ¿se puede apreciar si hay homogeneidad de
varianza?
15,0
10,0
sugars
5,0
0,0
-5,0
1 2 3
shelf
14
12
10
Frecuencia
8
2
Mean = 3,9552E-16
Std. Dev. = 4,05458
N = 76
0
-10,00 -5,00 0,00 5,00 10,00
Residuo para sugars
EJERCICIO 24.2 ¿Qué dirías de la homogeneidad para las proteínas en

función del grupo?
6 45
5 68
protein
3
1 2 3
shelf
30
Frecuencia
20
10
Mean = 2,3072E-16
Std. Dev. = 1,02408
N = 76
0
-2,00 -1,00 0,00 1,00 2,00 3,00
Residuo para protein
EJERCICIO 24.3 ¿Hay homogeneidad de varianzas en la grasa de los

cereales (fat)?
3 5
fat
2 64
0 51
1 2 3
shelf
25
20
Frecuencia
15
10
Mean = 1,0235E-16
Std. Dev. = 0,96954
N = 76
0
-1,00 0,00 1,00 2,00 3,00 4,00
Residuo para fat
EJERCICIO 24.4 ¿Hay homogeneidad en la varianza en las calorías?

160,00 36
140,00
120,00
calories
100,00
80,00 48
60,00
66
40,00
1 2 3
shelf
30
25
20
Frecuencia
15
10
Mean = 2,838E-15
Std. Dev. = 19,4224
N = 76
0
-60,00 -40,00 -20,00 0,00 20,00 40,00 60,00
Residuo para calories
Descriptivos
calories
la media al 95%
Desviación Límite
1 20 102.5000 9.10465 2.03586 98.2389 106.7611 80 110
2 20 109.5000 8.25578 1.84605 105.6362 113.3638 90 120
3 36 107.7778 26.95087 4.49181 98.6589 116.8966 50 160
Total 76 106.8421 19.61024 2.24945 102.3610 111.3232 50 160
EJERCICIO 24.5 ¿Y en las calorías en función del fabricante?
160,00 35
140,00 17
14
120,00 4
calories
100,00 21
80,00
60,00
24
40,00
G K N P Q R
ManuReco
25
20
Frecuencia
15
10
Mean = 6,356E-15
Std. Dev. = 18,06161
N = 75
0
-60,00 -40,00 -20,00 0,00 20,00 40,00 60,00
Residuo para calories
Descriptivos
calories
la media al 95%
Desviación Límite
G 22 111.3636 10.37187 2.21129 106.7650 115.9623 100 140
K 22 108.6364 22.73982 4.84815 98.5541 118.7186 50 160
N 6 86.6667 10.32796 4.21637 75.8281 97.5052 70 100
P 9 108.8889 10.54093 3.51364 100.7864 116.9914 90 120
Q 8 95.0000 29.27700 10.35098 70.5238 119.4762 50 120
R 8 115.0000 22.67787 8.01784 96.0408 133.9592 90 150
Total 75 106.9333 19.72605 2.27777 102.3948 111.4719 50 160
EJERCICIO 24.6 ¿Hay homogeneidad en la grasa en función del fabri-

cante?
5 60
3 27 57
fat
2
1 45
G K N P Q R
ManuReco
25
20
Frecuencia
15
10
Mean = -2,7712E-16
Std. Dev. = 0,90721
N = 75
0
-2,00 -1,00 0,00 1,00 2,00 3,00
Residuo para fat
Descriptivos
fat
la media al 95%
Desviación Límite
G 22 1.36 .581 .124 1.11 1.62 1 3
K 22 .64 .848 .181 .26 1.01 0 3
N 6 .17 .408 .167 -.26 .60 0 1
P 9 .89 1.054 .351 .08 1.70 0 3
Q 8 1.75 1.581 .559 .43 3.07 0 5
R 8 1.25 1.282 .453 .18 2.32 0 3
Total 75 1.03 1.013 .117 .79 1.26 0 5
25 . Comparando las medias.
25. Comparando las medias

Comparando las medias de los grupos
• Cuando en un análisis de varianza rechazamos la

hipótesis nula la conclusión es sólo que los tratamientos
son diferentes.
– Esa conclusión es sólo un primer paso que se queda
corto sin saber entre qué medias están las
diferencias.
– Para saber eso utilizamos las pruebas de
comparaciones de medias.
• Para hacer este calculo podemos tenemos que seguir

tres pasos:
– Elegir las dos medias a comparar. Esto tiene que
hacerse teniendo en cuenta las características del
estudio. Por ejemplo, en el estudio sobre drogas, la
droga A es la que actualmente se utiliza y la D es una
alternativa recientemente desarrollada. Sería
interesante comparar entonces A con D.
– Calcular el error típico. La fórmula para este cálculo

es la siguiente:
Medias a comparar µ1 – µ2
---------------------------
Desviación típica del Tamaños de los
1 1
error (mas sobre esto s e ----- + ----- grupos
a continuación) n1 n2
– La desviación típica la da el SPSS al cuadrado.

Sacando la raíz se obtiene el valor que necesitamos.
S e es laANOVA
raíz cuadrada de este valor
Presión
Suma de Media
Inter-grupos 3133.239 3 1044.413 9.086 .000
Intra-grupos 6206.917 54 114.943
Total 9340.155 57
– El resultado de la Ecuación es un valor de t que

habría que comparar con el valor de t con n-k grados
de libertad (es decir, el número de casos menos el
número de grupos del análisis).
• En el SPSS también se puede pedir que muestre esos

calculos automaticamente.
– No obstante, hay que tener cuidado con este
resultado y mirar sólo la comparación concreta que
queremos hacer. En este caso la droga A con la D
En este cuadro se muestran las comparaciones
Comparaciones múltiples
para todas las medias. Nosotros debemos mirar
Variable dependiente: Presión solamente la que está en el recuadro.
DMS
Intervalo de confianza al
95%
Diferencia de Límite
(I) Droga (J) Droga medias (I-J) Error típico Sig. Límite inferior superior
1 2 .5333 3.9148 .892 -7.315 8.382
3 17.3167* 4.1523 .000 8.992 25.641
4 12.5667* 3.8532 .002 4.842 20.292
2 1 -.5333 3.9148 .892 -8.382 7.315
3 16.7833* 4.1523 .000 8.459 25.108
4 12.0333* 3.8532 .003 4.308 19.758
3 1 -17.3167* 4.1523 .000 -25.641 -8.992
2 -16.7833* 4.1523 .000 -25.108 -8.459
4 -4.7500 4.0942 .251 -12.958 3.458
4 1 -12.5667* 3.8532 .002 -20.292 -4.842
2 -12.0333* 3.8532 .003 -19.758 -4.308
3 4.7500 4.0942 .251 -3.458 12.958
*. La diferencia entre las medias es significativa al nivel .05.
• ¿Por qué tenemos que limitarnos a mirar sólo una

comparación?
– Si hacemos muchas comparaciones, aumenta la
probabilidad de rechazar alguna hipótesis nula.
– Ese aumento de la probabilidad de rechazar
hipótesis nula lleva a que los niveles de significación
no sean correctos. Habría que corregirlos.
– Hay muchos métodos de corrección de ese error
pero aquí no los veremos por ello la forma correcta
de usar la tabla anterior es mirar la comparación (o
comparaciones si son pocas) en la que estemos
interestados. No se trata de coger la tabla y mirar
línea por línea todos los casos en los que
rechazamos la hipótesis nula.
ACTIVIDADES
EJERCICIO 25.1 Supongamos que los cereales que tomamos normalmente

están en la estantería 1 por que no nos gusta agacharnos para
cogerlos. ¿Hay diferencias en la cantidad de proteínas entre la
estantería 1 y la 2? ¿Y con la 3?
ANOVA
protein
Suma de Media
Inter-grupos 14.653 2 7.327 7.127 .001
Intra-grupos 74.013 72 1.028
Total 88.667 74
6 44
5 67
4 63
protein
1 2 3
shelf
Variable dependiente: protein

DMS
95%
(I) shelf (J) shelf medias (I-J) Error típico Sig. Límite inferior superior
1 2 .861* .325 .010 .21 1.51
3 -.211 .283 .458 -.77 .35
2 1 -.861* .325 .010 -1.51 -.21
3 -1.072* .288 .000 -1.64 -.50
3 1 .211 .283 .458 -.35 .77
2 1.072* .288 .000 .50 1.64
EJERCICIO 25.2 ¿Y hay diferencia entre la cantidad de azucares entre

el grupo 1y los otros dos?
ANOVA
sugars
Suma de Media
Inter-grupos 246.064 2 123.032 7.445 .001
Intra-grupos 1189.856 72 16.526
Total 1435.920 74
15,0
10,0
sugars
5,0
0,0 46
-5,0
1 2 3
shelf
Variable dependiente: sugars

DMS
95%
1 2 -4.9368* 1.3023 .000 -7.533 -2.341
3 -1.7278 1.1337 .132 -3.988 .532
2 1 4.9368* 1.3023 .000 2.341 7.533
3 3.2091* 1.1527 .007 .911 5.507
3 1 1.7278 1.1337 .132 -.532 3.988
2 -3.2091* 1.1527 .007 -5.507 -.911
EJERCICIO 25.3 ¿Y la comparación entre el primer estante y los otros

dos para la fibra?
ANOVA
fiber
Suma de Media
Inter-grupos 66.850 2 33.425 6.708 .002
Intra-grupos 358.758 72 4.983
Total 425.609 74
14,00 24
12,00
10,00 45
23
8,00
fiber
6,00
40
4,00
50
2,00
0,00
1 2 3
shelf
Variable dependiente: fiber

DMS
95%
1 2 .73763 .71511 .306 -.6879 2.1632
3 -1.45389* .62253 .022 -2.6949 -.2129
2 1 -.73763 .71511 .306 -2.1632 .6879
3 -2.19152* .63298 .001 -3.4533 -.9297
3 1 1.45389* .62253 .022 .2129 2.6949
2 2.19152* .63298 .001 .9297 3.4533

PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

PDF

Uploaded by

Copyright:

Available Formats

.

INFERENCIA Y CONTRASTE DE HIPÓTESIS

1. Asociación entre dos variables contínuas............................................. 3

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 1 de 166

14. Pruebas de hipótesis de la pendiente de regresión................................ 45

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 2 de 166

1. Asociación entre dos variables contínuas: El

• En la segunda parte del Informe Pisa se analiza la

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 3 de 166

por los alumnos y la inversión Pública en PIB.

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 4 de 166

EJERCICIO 1.1 En el informe PISA, qué puedes decir de la relación

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 5 de 166

• La recta de regresión nos da una idea de la relación

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 6 de 166

• Ejemplo, 18 esquiadores de campo a través hacen un

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 7 de 166

• CPK es la variable predicha, AGE es la variable

CPK = 867 – 9.85 × AGE Ecuación (2.5)

• A partir de esa fórmula podemos calcular puntuaciones

679.85 = 867 – 9.85 × 19 Ecuación (2.6)

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 8 de 166

• El gráfico a continuación muestra la línea de regresión

Este es la puntuación del sujeto 1

10.00 20.00 30.00 40.00 50.00 60.00 70.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 9 de 166

• Las puntuaciones predichas y las observadas no

Este es la puntuación del sujeto 1

10.00 20.00 30.00 40.00 50.00 60.00 70.00

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 10 de 166

• El concepto de error o residual es de mucha

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 11 de 166

• Para calcular los residuales simplemente restamos la

Esto indica el Esta es la puntuación predicha

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 12 de 166

• Las puntuaciones observadas, predichas y residuales

Tabla 1: Puntuaciones observadas, predichas y residuales para los datos de

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 13 de 166

• Tener en cuenta las siguientes relaciones. Las tres

EJERCICIO 2.1 Comprueba que las puntuaciones residuales de la

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 14 de 166

EJERCICIO 2.2 En el gráfico de la Figura 3 indica aproximadamente

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 15 de 166

3. Como calcular rectas (1)

• Hay diversas maneras de ajustar líneas de predicción:

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 16 de 166

• Aquí se muestran varias posibilidades

10.00 20.00 30.00 40.00 50.00 60.00 70.00

• Cada una de estas líneas tiene sus propiedades y sus

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 17 de 166

• La línea de regresión tiene las siguientes propiedades:

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 18 de 166

– b se denomina la pendiente de la recta y se puede

– Una vez se conoce b es fácil calcular a. Esto se hace

– En los cálculos anteriores falta como calcular r . Eso

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 19 de 166

• Hay diferentes fórmulas para calcular el coeficiente de

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 20 de 166

– Aplicar la siguiente fórmula (es decir, multiplicar cada

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 21 de 166

• Aquí están los datos

Espacio de viaje Separación

Inferencia y contraste de hipótesis en variables cuantitativas-Pedro M. Valero Mora 2005 22 de 166