You are on page 1of 33

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.

APLICACIONES EN BIOCIENCIAS E INGENIERA


- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

1

A
A
c
c
t
t
i
i
v
v
i
i
d
d
a
a
d
d
3
3

T
T
e
e
m
m
a
a
3
3

TRABAJO REALIZADO POR: CARMEN M SNCHEZ CAMPOY
PROFESORES: RAMN GUTIRREZ SNCHEZ
MARIA DOLORES RUIZ MEDINA
CURSO: DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD.
APLICACIONES EN BIOCIENCIAS E INGENIERA



- MASTER ESTADSTICA APLICADA -
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

2

A1. CUESTIONES TERICAS
Resolver tres actividades tericas.
1.- Deducir la expresin de los estimadores mnimo-cuadrticos de los
parmetros del modelo de regresin lineal simple.
Definimos las siguientes variables:
X: variable de regresin o explicativa, continua y controlable por el
experimentador. En el diseo del experimento se determinan sus valores.
Y: variable respuesta, para la que se supone una relacin lineal entre Y y la
variable explicativa X.
El modelo que define la observacin de la variable respuesta Y viene dado por:
0 1
Y a a X = + +
representando , la componente de error aleatoria, se supone que es una variable
aleatoria con media cero y varianza
2
y que el conjunto de componentes aleatorias
de error no estn correlacionadas.
Tomando n pares de datos
1 1
( , ),..., ( , )
n n
x y x y , presentamos la siguiente
demostracin:
El proceso para la obtencin por mnimos cuadrados de los estimadores

0 a y

1 a tiene
por objetivo minimizar la suma de los cuadrados de los residuos, que denotamos por
L . Partiendo de dicha funcin su expresin viene dada por:
( )
2
2
0 1
1 1
n n
i i i
i i
L y a a x
= =
= =


Para minimizar L , derivamos parcialmente respecto de
0 1
y a a :
( )
0 1
1
0
2
n
i i
i
L
y a a x
a
=



( )
0 1
1
1
2
n
i i i
i
L
y a a x x
a
=



Los estimadores mnimo-cuadrticos se obtienen igualando las anteriores derivadas a
cero:
( )
0 1
1
2 0
n
i i
i
y a a x
=
=


( )
0 1
1
2 0
n
i i i
i
y a a x x
=
=




Operando se tiene:


DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

3


0 1
1 1
n n
i i
i i
y na a x
= =
= +



2
0 1
1 1 1
n n n
i i i i
i i i
y x a x a x
= = =
= +



Para resolver este sistema de ecuaciones, realizamos los siguientes pasos:
Dividimos la primera ecuacin por n:
0 1
Y a a X = +
Despejando:
0 1
a Y a X =
Sustituyendo
0
a en la segunda ecuacin:

( )
2
1 1
1 1 1
n n n
i i i i
i i i
y x Y a X x a x
= = =
= +



2
1
1 1 1 1
n n n n
i i i i i
i i i i
y x Y x a x X x
= = = =
| |
=
|
\

(*)
Por otra parte:

( )
1 1
( )( )
n n
i i i i i i
i i
y Y x X y x X y Yx Y X
= =
= + =



1 1 1
n n n
i i i i
i i i
y x X y Y x nY X
= = =
= + =



1 1 1 1
n n n n
i i i i i i
i i i i
y x nXY Y x nY X y x Y x
= = = =
= + =




( )
2 2
2 2 2
1 1 1 1
( ) 2 2
n n n n
i i i i i
i i i i
x X x Xx X x X x nX
= = = =
= + = + =



2 2
1 1 1 1 1
2
n n n n n
i i i i i
i i i i i
x X x X x x X x
= = = = =
= + =



Teniendo en cuenta estas igualdades obtenidas y sustituyndolas en la ecuacin (*),
tenemos que:
2
1
1 1
( )( ) ( )
n n
i i i
i i
y Y x X a x X
= =
=


De donde deducimos que el estimador de
1
a viene dado por el cociente:
1
1
2
1
( )( )
( )
n
i i
i XY
n
XX
i
i
y Y x X
S
a
S
x X
=
=

= =



DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

4

Siendo:

1 1
( )( )
n n
XY i i i i
i i
S y Y x X y x nXY
= =
= =



2
2 2
1 1
( )
n n
XX i i
i i
S x X x nX
= =
= =


Basta sustituir

1 a en la expresin despejada de la primera ecuacin para obtener:




0 1 a Y a X =

Luego, hemos deducido que los estimadores

0 a y

1 a son:


1
0 1

XY
XX
S
a
S
a Y a X





2.- Deducir la expresin

1
E YY XY
SS S a S =
de la suma de cuadrados de los residuos.

Tenemos las siguientes notaciones:


0 1 Y a a X = +
E
SS : Suma de cuadrados de los residuos:
2
1
n
E i
i
SS
=
=


( )
2
2
2
1 1
n n
YY i i
i i
S y Y y nY
= =
= =


( )
2
2
2
1 1
n n
XX i i
i i
S x X x nX
= =
= =


1 1
( )( )
n n
XY i i i i
i i
S y Y x X y x nXY
= =
= =


Para poder llegar a la expresin deseada, comenzamos con la siguiente igualdad:

i
i i
y y = +
Restamos Y a ambos lados:

i
i i
y Y y Y = +


DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

5

Si elevamos al cuadrado ambos miembros se obtiene que:

( )

( )
2 2
i
i i
y Y y Y = +

Es decir:
( )

( )

( )

2 2 2
2 i i
i i i
y Y y Y y Y = + +

Sumando ambos miembros de la expresin de i =1 hasta n, se tiene
( )

( )

( )

2 2 2
1 1 1 1
2
n n n n
i i
i i i
i i i i
y Y y Y y Y
= = = =
= + +


Ahora bien, el ltimo trmino de la expresin anterior es cero, hacemos la
demostracin en el siguiente marco:

Luego:
( )

( )

2 2 2
1 1 1
n n n
i
i i
i i i
y Y y Y
= = =
= +

( )

1 1 1
n n n
i i i
i i
i i i
y Y y Y
= = =
=

y sabemos que:
La suma de los residuos mnimo-cuadrticos es igual a cero:


0 1
1 1 1 1 1 1
( ) ( )
n n n n n n
i
i i i i i i
i i i i i i
y y y y y a a x
= = = = = =
= = = + =




( )

0 1 1 1
1 1 1 1
n n n n
i i i i
i i i i
y na a x y n Y a X a x
= = = =
= = =




1 1
1 1 1 1
0
n n n n
i i i i
i i i i
y y a x a x
= = = =
| |
= =
|
\


La suma de los productos cruzados entre los valores ajustados y los residuos es
igual a 0:


( )

0 1 0 1
1 1 1 1
0
n n n n
i i i i
i i i
i i i i
y a a x a a x
= = = =
= + = + =


Puesto que:
es una variable aleatoria con media cero luego:

1
0
n
i
i
n
=
= =

( )
0 1
1 1
0
n n
i
i i i i
i i
x y a a x x
= =
= =

por la segunda ecuacin del
sistemas de ecuaciones obtenido en la estimacin por mnimos
cuadrados.
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

6

Por tanto, hemos llegado a que:
YY E
YY
S S SS = +
Como

0 1 Y a a X = + , equivale a un cambio de escala y origen de la variable X, por las
propiedades de la varianza ante estos cambios, se tiene que:

( )

( )
2 2
2
1 1
1
n n
i i
i i
y Y x X
a
n n
= =

=

( )

( )
2 2 2
1
1 1
n n
i i
i i
y Y a x X
= =
=


Luego:


2
1 1 1 1 1
XY
XX XX XX XY
YY
XX
S
S a S a a S a S a S
S
= = = =

As llegamos a la igualdad deseada:

1
YY XY E
S a S SS = +

1
E YY XY
SS S a S =


3.- Explicar brevemente la interpretacin de los valores del coeficiente de
determinacin.

El coeficiente de determinacin se define como la proporcin de la varianza total
explicada por la regresin. Su expresin viene dada por:

( )
( )
2
2 1
2
1
n
i
i R
n
YY
i
i
y Y
SS
R
S
y Y
=
=

= =


De forma equivalente, y en aplicacin de la igualdad:
( )

( )

2 2 2
1 1 1
n n n
i
i i
i i i
y Y y Y
= = =
= +


obtenida en el apartado anterior de esta actividad, podemos expresar el coeficiente de
determinacin como, como uno menos la proporcin no explicada por la regresin, es
decir:

( )
2
2 1
2
1
1 1
n
i
i E
n
YY
i
i
SS
R
S
y Y

=
=
= =


El criterio mnimo-cuadrtico equivale a maximizar
2
R .
Dicho coeficiente toma valores en el intervalo (0 , 1) y se interpreta como la proporcin
de variabilidad de los datos explicada por el modelo de regresin. Por este motivo, se
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

7

suele utilizar, como un indicador de la adecuacin del modelo de regresin (medida
relativa del grado de asociacin lineal entre X e Y), mide la correlacin entre el valor
observado y el valor predicho o ajustado con la regresin.
2
0 1 R
Si
2
1 R = ( )

( )
2 2
1 1
n n
i i
i i
y Y y Y
= =
=

y

2
1
0
n
i
i

=
=


Lo que implica un ajuste perfecto, Y depende funcionalmente de X, la varianza
de los residuos se hace cero y la varianza de los valores observados y la
variable respuesta coincide.
Si
2
1 R <

( )
2
1
0
n
i
i
y Y
=

2
1
0
n
i
i


Se tiene que:

( ) ( )

( )
2 2
2
1 1
2 2
2
1 1
(1 )
n n
i i
i i
n n
i
i
i i
y Y R y Y
R y Y
= =
= =




Un valor de
2
R cercano a 0 implica baja capacidad explicativa de la recta, por
otro lado, un valor prximo a 1, equivale a alta capacidad explicativa de la recta.
Si
2
0 R =

( )
2 2
1 1
n n
i
i
i i
y Y
= =
=

y

( )
2
1
0
n
i
i
y Y
=
=


El modelo no explica nada de Y a partir de X.

En resumen:
El coeficiente de determinacin toma valores entre 0 y 1, tomando el valor 0
cuando el modelo no explica nada de Y a partir de X, es decir el ajuste es el
peor posible, y tomando el valor 1 cuando todos los residuos son nulos, es
decir el ajuste es perfecto. Para valores intermedios, segn estn ms
prximos a 0 o 1, nos indicarn un peor o mejor ajuste respectivamente, por
poner datos numricos algunos autores, consideran un buen ajuste para
valores de
2
R mayores de 0.75, es decir cuando al menos el 75% de la
varianza total quede explicada por la regresin.
Para terminar damos otras frmulas para el coeficiente de determinacin:
2
2 ' 2
1 1
R XY
YY YY XX
SS S
R a a r
S S S
= = = =


DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

8

A2. TRABAJO
Elaborar un resumen sobre los contrastes de ajuste en el modelo de regresin
lineal. Indicando algunos casos particulares interesantes para el anlisis de la
adecuacin del modelo

Los estimadores

0 a y

1 a dependen de la muestra seleccionada, por lo tanto son


variables aleatorias y presentarn una distribucin de probabilidad. Estas
distribuciones de probabilidad de los estimadores pueden utilizarse para construir
intervalos de confianza o contrastes sobre los parmetros del modelo de regresin.
Suponiendo que los residuos se distribuyen normalmente, realizamos un resumen de
los contrastes de ajuste sobre el modelo de regresin lineal simple:

1.- Ajuste de la pendiente de la recta, contrastes para el parmetro a
1
:

En trminos generales planteamos los siguientes contrastes para a
1
:
Unilateral a la izquierda (contraste de una cola):
0 1
1 1
:
:
H a a
H a a
=

<


- El estadstico pivote para este contraste es:

1
0
E
XX
a a
t
MS
S

= donde:

1
2
YY XY
E
S a S
MS
n


Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 , 2 n
t t

<

siendo
, 2 n
t

el percentil 1 de la distribucin t-Student con n-2 grados de
libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos H
o
si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )
2 0 n
P t t

<


Unilateral a la derecha (contraste de una cola):

0 1
1 1
:
:
H a a
H a a
=

>





DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

9

- El estadstico pivote para este contraste es:

1
0
E
XX
a a
t
MS
S

= donde:

1
2
YY XY
E
S a S
MS
n


Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 1 , 2 n
t t

>

siendo
1 , 2 n
t

el percentil de la distribucin t-Student con n-2 grados de
libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos H
o
si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )
2 0 n
P t t

>


Bilateral (contraste de dos colas):
0 1
1 1
:
:
H a a
H a a
=


- El estadstico pivote para este contraste es:

1
0
E
XX
a a
t
MS
S

= donde:

1
2
YY XY
E
S a S
MS
n


Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 / 2, 2 n
t t

>

siendo
/ 2, 2 n
t

el percentil 1 / 2 de la distribucin t-Student con n-2 grados
de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos H
o
si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )
2 0
2
n
P t t

>


Caso especial
Se puede considerar el contraste de ausencia de una relacin lineal entre X e Y; o bien,
la ausencia de una relacin causal entre dichas variables, en trminos del primer
contraste de ajuste sobre la pendiente. Es decir,
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

10

0 1
1 1
: 0
: 0
H a
H a
=


- El estadstico pivote para este contraste es:

1
0
E
XX
a
t
MS
S
=
Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 / 2, 2 n
t t

>


es decir,
0 / 2, 2 n
t t

>
o
0 / 2, 2 n
t t

<

siendo
/ 2, 2 n
t

el percentil 1 / 2 de la distribucin t-Student con n-2 grados
de libertad.
Por lo tanto, si el estadstico de prueba cae en la regin crtica, se rechaza la hiptesis
nula y se dice que el estadstico hallado es estadsticamente significativo con un nivel
de confianza del 100(1-)%.

Ajuste de la pendiente de la recta, contrastes para el parmetro a
0
:

En trminos generales planteamos los siguientes contrastes para a
0
:

Unilateral a la izquierda (contraste de una cola):
0 0
1 0
:
:
H a a
H a a
=

<


- El estadstico pivote para este contraste es:

0
0
2
1
E
XX
a a
t
X
MS
n S

=
| |
| +
|
\
donde:

1
2
YY XY
E
S a S
MS
n


Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 , 2 n
t t

<

siendo
, 2 n
t

el percentil 1 de la distribucin t-Student con n-2 grados de
libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos H
o
si : p-valor <
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

11

Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )
2 0 n
P t t

<


Unilateral a la derecha (contraste de una cola):

0 0
1 0
:
:
H a a
H a a
=

>


- El estadstico pivote para este contraste es:

0
0
2
1
E
XX
a a
t
X
MS
n S

=
| |
| +
|
\
donde:

1
2
YY XY
E
S a S
MS
n


Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 1 , 2 n
t t

>

siendo
1 , 2 n
t

el percentil de la distribucin t-Student con n-2 grados de
libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
Rechazamos H
o
si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )
2 0 n
P t t

>


Bilateral (contraste de dos colas):
0 0
1 0
:
:
H a a
H a a
=


- El estadstico pivote para este contraste es:

0
0
2
1
E
XX
a a
t
X
MS
n S

=
| |
| +
|
\
donde:

1
2
YY XY
E
S a S
MS
n


Bajo la hiptesis nula, dicho estadstico sigue una distribucin t-Student con n-2
grados de libertad.
- La hiptesis nula se rechaza cuando:
0 / 2, 2 n
t t

>

siendo
/ 2, 2 n
t

el percentil 1 / 2 de la distribucin t-Student con n-2 grados
de libertad.
Otra forma ver si rechazamos o no la hiptesis nula es con el p-valor:
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

12

Rechazamos H
o
si : p-valor <
Calculndose el p-valor en este caso de la forma siguiente:
p-valor = ( )
2 0
2
n
P t t

>






A3. ANLISIS DE DATOS

Para realizar los ejercicios voy a utilizar el software SPSS.




Llamamos a las variables DOSIS (Variable Independiente) y NIVELTOX (Variable
Dependiente) que vienen recogidas en archivo ejercicio1.sav de la carpeta de datos.

Empezamos el problema mediante la presentacin del diagrama de dispersin entre
ambas variables, y la representacin de la recta de regresin aproximada. Los
diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de
relacin existente entre dos variables, adems, tambin puede utilizarse como una
forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con
observar el grado en el que la nube de puntos se ajusta a una lnea recta.
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

13


El grfico muestra una posible adecuacin del modelo lineal y la tendencia creciente
del mismo.
Para obtener la recta de regresin mnima cuadrtica de NIVELTOX sobre DOSIS ,
representada en la nube de puntos,
0 1
Y a a X = +
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:

En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.719 que nos indica que el 71.9% de la variabilidad
de NIVELTOX, es explicada por la relacin lineal con DOSIS.
El valor R (0.848) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La ltima columna nos muestra el Error tpico de la estimacin (raz
cuadrada de la varianza residual) con un valor igual a 2,772.

En cuadro siguiente se tiene la tabla ANOVA:
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

14


En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (491,8) en
la Variabilidad debida a la Regresin (353,44) y la Variabilidad Residual (138,36), es
decir, en Variabilidad explicada por el modelo de regresin y la Variabilidad no
explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se construye a partir de
esta descomposicin y proporciona el valor del estadstico F que permite contrastar la
hiptesis nula de que la pendiente de la recta de regresin es igual a cero contra la
alternativa de que la pendiente es distinta de cero, es decir:
0 1
1 1
: 0
: 0
H a
H a
=


donde H
0
se conoce, en general, como hiptesis de no linealidad entre X e Y.
La Tabla ANOVA muestra el valor del estadstico de contraste, F = 45.981, que se
define como el cociente entre el Cuadrado medio debido a la regresin (353.44) y el
Cuadrado medio residual (7.687), por tanto cuanto mayor sea su valor, mejor ser la
prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es
cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a
rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, en
este caso el modelo lineal simple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal simple:

El modelo presenta los siguientes parmetros: como ordenada en el
origen,
0
0.82 a = y la pendiente
1
0.752 a = .
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

15

Por tanto, la ecuacin de la recta estimada o ajustada es: 0.82 0.752 y x = + . As
mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de
la significacin de cada uno de estos parmetros:
0 0
1 0
: 0
: 0
H a
H a
=


0 1
1 1
: 0
: 0
H a
H a
=


El primero de estos contrastes carece de inters en la mayora de los casos ya que
raramente el punto de corte de la recta de regresin con el eje de ordenadas
(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de
significado casi siempre.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativa
equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadstico de contraste que aparece en la columna t vale 6.781 tiene un p-valor
asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05
que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin
lineal significativa entre Y y X.
En la ltima columna de la tabla se muestran los intervalos de confianza para
0
a y
1
a ,
al 95%. El intervalo para
0
a es (-6.222, 4.582), puesto que el cero pertenece al
intervalo, se aceptara la hiptesis nula y concluir que si la DOSIS es cero el
NIVELTOX tambin lo es, por tanto al nivel de confianza del 95% el parmetro
0
a
podra considerarse igual a cero.

VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)
estos supuestos resultan necesarios para validar la inferencia respecto a los
parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a
posteriori de dichas hiptesis del modelo.

Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grfico
seleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

16


El Grfico representa las funciones de distribucin terica y emprica de los residuos
tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribucin normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

17

mayor diferencia negativa. Se muestra el valor del estadstico Z (0.647) y el valor del
p-valor asociado (0.797). Por lo tanto no se puede rechazar la hiptesis de normalidad
de los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los
residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de
la variable NIVELTOX , si observamos que el grfico muestra forma de embudo... Si
por el contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar
la hiptesis de igualdad de varianzas.

No apreciamos tendencia clara en este grfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin del
modelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si
observamos trayectorias de comportamiento no aleatorio esto es indicio de que el
modelo propuesto no describe adecuadamente los datos.
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

18


SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-
valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.399 prximo a 2 lo que indica la incorrelacin de los residuos.



DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

19

Empezamos el problema mediante la presentacin del diagrama de dispersin entre
ambas variables, y la representacin de la recta de regresin aproximada. Los
diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de
relacin existente entre dos variables, adems, tambin puede utilizarse como una
forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con
observar el grado en el que la nube de puntos se ajusta a una lnea recta.

El grfico muestra una posible adecuacin del modelo lineal y la tendencia creciente
del mismo.
Para obtener la recta de regresin mnima cuadrtica de Y sobre X , representada en
la nube de puntos,
0 1
Y a a X = +
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:

En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.915 que nos indica que el 91.5% de la variabilidad
de Y, es explicada por la relacin lineal con X.
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

20

El valor R (0.957) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La penltima columna nos muestra el Error tpico de la estimacin (raz
cuadrada de la varianza residual) con un valor igual a 3.254.

En cuadro siguiente se tiene la tabla ANOVA:

En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (3871.879)
en la Variabilidad debida a la Regresin (3543.657) y la Variabilidad Residual
(328.222), es decir, en Variabilidad explicada por el modelo de regresin y la
Variabilidad no explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se
construye a partir de esta descomposicin y proporciona el valor del estadstico F que
permite contrastar la hiptesis nula de que la pendiente de la recta de regresin es
igual a cero contra la alternativa de que la pendiente es distinta de cero, es decir:
0 1
1 1
: 0
: 0
H a
H a
=


donde H
0
se conoce, en general, como hiptesis de no linealidad entre X e Y.
La Tabla ANOVA muestra el valor del estadstico de contraste, F = 334.693, que se
define como el cociente entre el Cuadrado medio debido a la regresin (3543.657) y el
Cuadrado medio residual (10.588), por tanto cuanto mayor sea su valor, mejor ser la
prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es
cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a
rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, en
este caso el modelo lineal simple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal simple:
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

21


El modelo presenta los siguientes parmetros: como ordenada en el
origen,
0
3.549 a = y la pendiente
1
0.926 a = .
Por tanto, la ecuacin de la recta estimada o ajustada es: 3.549 0.926 y x = + . As
mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de
la significacin de cada uno de estos parmetros:
0 0
1 0
: 0
: 0
H a
H a
=


0 1
1 1
: 0
: 0
H a
H a
=


El primero de estos contrastes carece de inters en la mayora de los casos ya que
raramente el punto de corte de la recta de regresin con el eje de ordenadas
(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de
significado casi siempre.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativa
equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadstico de contraste que aparece en la columna t vale 18.295 tiene un p-valor
asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05
que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin
lineal significativa entre Y y X.
En la ltima columna de la tabla se muestran los intervalos de confianza para
0
a y
1
a ,
al 95%. El intervalo para
0
a es (-0.078, 7.177), puesto que el cero pertenece al
intervalo, se aceptara la hiptesis nula y concluir que si la variable X es cero la
variable Y tambin lo es, por tanto al nivel de confianza del 95% el parmetro
0
a
podra considerarse igual a cero.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)
estos supuestos resultan necesarios para validar la inferencia respecto a los
parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a
posteriori de dichas hiptesis del modelo.

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

22

Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grfico
seleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q... , obtenemos lo
siguiente:

El Grfico representa las funciones de distribucin terica y emprica de los residuos
tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

23

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribucin normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadstico Z (0.706) y el valor del
p-valor asociado (0.701). Por lo tanto no se puede rechazar la hiptesis de normalidad
de los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los
residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de
la variable Y, si observamos que el grfico muestra forma de embudo... Si por el
contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar la
hiptesis de igualdad de varianzas.

No apreciamos tendencia clara en este grfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin del
modelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si
observamos trayectorias de comportamiento no aleatorio esto es indicio de que el
modelo propuesto no describe adecuadamente los datos.

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

24

Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-
valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 2.395 prximo a 2 lo que indica la incorrelacin de los residuos.
Estudiar posibles datos atpicos, afectan al ajuste realizado? Afectan a alguna
de las hiptesis del modelo?
En la nube de puntos podemos ver de forma grfica si existen o no datos atpicos o
anmalos que puedan influir en el estudio regresin lineal, para nuestro caso
observamos datos separados de la recta de regresin generada, aunque no se
observa datos con gran relevancia. Para hacer un estudio de si hay o no datos atpicos
podemos analizar los residuos.

Los residuos son muy importantes en el anlisis de regresin. En primer lugar, nos
informan sobre el grado de exactitud de los pronsticos: cuanto ms pequeo es el
error tpico de los residuos, mejores son los pronsticos, o lo que es lo mismo, mejor
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

25

se ajusta la recta de regresin a la nube de puntos. En segundo lugar, el anlisis de
las caractersticas de los casos con residuos grandes (grandes en valor absoluto)
puede ayudarnos a detectar casos atpicos y, consecuentemente, a perfeccionar la
ecuacin de regresin a travs de un estudio detallado de los mismos. El SPSS nos
ofrece la opcin "Diagnsticos por caso" del cuadro de dilogo Regresin lineal:
Estadsticos, ofrece un listado de todos los residuos o, alternativamente (y esto es ms
interesante), un listado de los residuos que se alejan de cero (el valor esperado de los
residuos) en ms de un determinado nmero de desviaciones tpicas. Es fcil, por
tanto, identificar los casos que poseen residuos grandes.
Hemos elegido el valor de 2, puesto que no hay residuos que se alejen ms de 3, que
es el valor que viene por defecto. El resultado que proporciona el SPSS es de dos
valores atpicos encontrados:

Los datos atpicos pueden afectar al modelo estimado de regresin, as como a las
hiptesis de normalidad y homocedasticidad cuando estos sean relevantes por lo que
merecen un estudio en profundidad, cuando se tienen identificados los datos atpicos
podemos:
Eliminar los puntos si realmente no presentan ningn inters.
Crear una variable ficticia que trate de medir el efecto del punto sobre el
modelo y que lo caracterice como punto especial proveniente de otra poblacin.

Es admisible que la variabilidad de los residuos aumente o disminuya con la
propia variable explicativa?

Puesto que siempre se cumple la igualdad:
E YY
YY
SS S S =
y la variable

Y depende de la variable X, es lgico que la variabilidad de los residuos


aumente o disminuya con la propia variable explicativa.




DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

26



Llamamos a las variables PRECIO (Variable Independiente) y DEMANDA (Variable
Dependiente) que vienen recogidas en archivo ejercicio3.sav de la carpeta de datos.

Empezamos el problema mediante la presentacin del diagrama de dispersin entre
ambas variables, y la representacin de la recta de regresin aproximada. Los
diagramas de dispersin ofrecen una idea bastante aproximada sobre el tipo de
relacin existente entre dos variables, adems, tambin puede utilizarse como una
forma de cuantificar el grado de relacin lineal existente entre dos variables, basta con
observar el grado en el que la nube de puntos se ajusta a una lnea recta.

El grfico muestra una posible adecuacin del modelo lineal y la tendencia decreciente
del mismo.
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

27

Para obtener la recta de regresin mnima cuadrtica de Y sobre X , representada en
la nube de puntos,
0 1
Y a a X = +
Para ello utilizamos la opcin Analizar/Regresin/Lineales... que proporciona el SPSS,
obtenemos los siguientes resultados:

En la tabla Resumen del modelo, se muestran los resultados del ajuste del modelo de
regresin. El valor del coeficiente de determinacin, R cuadrado, mide la bondad del
ajuste de la recta de regresin a la nube de puntos, valores pequeos de R
cuadrado indican que el modelo no se ajusta bien a los datos.
R cuadrado toma un valor de 0.758 que nos indica que el 75.8% de la variabilidad
de DEMANDA, es explicada por la relacin lineal con PRECIO.
El valor R (0.871) representa el valor absoluto del Coeficiente de Correlacin, es decir
es un valor entre 0 y 1. Valores prximos a 1 indican una fuerte relacin entre las
variables. La penltima columna nos muestra el Error tpico de la estimacin (raz
cuadrada de la varianza residual) con un valor igual a 47,528.

En cuadro siguiente se tiene la tabla ANOVA:

En la Tabla ANOVA, se muestra la descomposicin de la Variabilidad Total (84145.636)
en la Variabilidad debida a la Regresin (63815.23) y la Variabilidad Residual
(20330.406), es decir, en Variabilidad explicada por el modelo de regresin y la
Variabilidad no explicada. La Tabla de Anlisis de la Varianza (Tabla ANOVA) se
construye a partir de esta descomposicin y proporciona el valor del estadstico F que
permite contrastar la hiptesis nula de que la pendiente de la recta de regresin es
igual a cero contra la alternativa de que la pendiente es distinta de cero, es decir:
0 1
1 1
: 0
: 0
H a
H a
=


donde H
0
se conoce, en general, como hiptesis de no linealidad entre X e Y.
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

28

La Tabla ANOVA muestra el valor del estadstico de contraste, F = 28.25, que se
define como el cociente entre el Cuadrado medio debido a la regresin (63815.23) y el
Cuadrado medio residual (2258.934), por tanto cuanto mayor sea su valor, mejor ser
la prediccin mediante el modelo lineal. El p-valor asociado a F, en la columna Sig, es
cero en su redondeo, menor que el nivel de significacin = 0.05, lo que conduce a
rechazar la hiptesis nula, es decir existe una relacin lineal significativa entre las
variables del problema.
"Esto indica que es vlido el modelo de regresin considerado, en
este caso el modelo lineal simple."
La siguiente tabla muestra las estimaciones de los parmetros del modelo de
regresin lineal simple:

El modelo presenta los siguientes parmetros: como ordenada en el
origen,
0
497.156 a = y la pendiente
1
24.419 a = .
Por tanto, la ecuacin de la recta estimada o ajustada es: 497.156 24.419 y x = . As
mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de
la significacin de cada uno de estos parmetros:
0 0
1 0
: 0
: 0
H a
H a
=


0 1
1 1
: 0
: 0
H a
H a
=


El primero de estos contrastes carece de inters en la mayora de los casos ya que
raramente el punto de corte de la recta de regresin con el eje de ordenadas
(ordenada en el origen) ser el punto (0,0). Adems dicho punto de corte carece de
significado casi siempre.
El segundo contraste, el contraste de la pendiente de la recta, es una alternativa
equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadstico de contraste que aparece en la columna t vale 8.17 tiene un p-valor
asociado, columna Sig, menor que 0.001, menor que el nivel de significacin = 0.05
que conduce al rechazo de la hiptesis nula y podemos afirmar que existe una relacin
lineal significativa entre Y y X.
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

29

En la ltima columna de la tabla se muestran los intervalos de confianza para
0
a y
1
a ,
al 95%. El intervalo para
0
a es (359.499 , 634.813), puesto que el cero no pertenece al
intervalo, se rechazara la hiptesis nula.
VALIDACIN Y DIAGNOSIS DEL MODELO
En este apartado vamos a comprobar que se verifican los supuestos del modelo de
regresin lineal (normalidad, homocedasticidad (igualdad de varianzas) y linealidad)
estos supuestos resultan necesarios para validar la inferencia respecto a los
parmetros. Utilizaremos el anlisis de los residuos para realizar los contrastes a
posteriori de dichas hiptesis del modelo.
Normalidad
Podemos comprobarla de forma grfica o analticamente, grficamente podemos
estudiar el grfico probabilstico normal, Para obtener dicho grfico
seleccionamos Analizar/Estadsticos descriptivos/Grficos Q-Q..., obtenemos lo
siguiente:

El Grfico representa las funciones de distribucin terica y emprica de los residuos
tipificados. Desviaciones de los puntos del grfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicacin de los puntos del grfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hiptesis de normalidad. Lo conformamos de forma analstica mediante el contraste de
Kolmogorov-Smirnov:
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

30


Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribucin normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadstico Z (0.438) y el valor del
p-valor asociado (0.991). Por lo tanto no se puede rechazar la hiptesis de normalidad
de los residuos.
Homocedasticidad
Comprobamos la hiptesis de homogeneidad de las varianzas grficamente
representando los residuos tipificados frente a los tiempos de incubacin estimados
tipificados. El anlisis de este grfico puede revelar una posible violacin de la
hiptesis de homocedasticidad, por ejemplo si detectamos que el tamao de los
residuos aumenta o disminuye de forma sistemtica para algunos valores ajustados de
la variable Y, si observamos que el grfico muestra forma de embudo... Si por el
contario dicho grfico no muestra patrn alguno, entonces no podemos rechazar la
hiptesis de igualdad de varianzas.

DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

31

No apreciamos tendencia clara en este grfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hiptesis de homocedasticidad.
Este mismo grfico resulta muy til para detectar indicios de falta de adecuacin del
modelo propuesto a los datos, posibles desviaciones de la hiptesis de linealidad. Si
observamos trayectorias de comportamiento no aleatorio esto es indicio de que el
modelo propuesto no describe adecuadamente los datos.
Independencia de los residuos
La hiptesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresin/Lineal...

SPSS proporciona el valor del estadstico de Durbin-Watson pero no muestra el p-
valor asociado por lo que hay que utilizar las tablas correspondientes. El estadstico de
Durbin-Watson mide el grado de autocorrelacin entre el residuo correspondiente a
cada observacin y la anterior. Si su valor est prximo a 2, entonces los residuos
estn incorrelados, si se aproxima a 4, estarn negativamente autocorrelados y si su
valor est cercano a 0 estarn positivamente autocorrelados. En nuestro caso, toma el
valor 0.771 prximo a 0 lo que indica la correlacin de los residuos.
Par solucionar la falta independencia al existir una correlacin entre los residuos,
podemos plantear una transformacin de los valores o el aadir ms datos al problema.

DATOS ATPICOS
En la nube de puntos podemos ver de forma grfica si existen o no datos atpicos que
puedan influir en el estudio regresin lineal, para nuestro caso observamos datos
separados de la recta de regresin generada, que de entrada nos hace una idea de
que puedan existir datos anmalos. Para hacer un estudio de si hay o no datos
atpicos podemos analizar los residuos.
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

32


Los residuos son muy importantes en el anlisis de regresin. En primer lugar, nos
informan sobre el grado de exactitud de los pronsticos: cuanto ms pequeo es el
error tpico de los residuos, mejores son los pronsticos, o lo que es lo mismo, mejor
se ajusta la recta de regresin a la nube de puntos. En segundo lugar, el anlisis de
las caractersticas de los casos con residuos grandes (grandes en valor absoluto)
puede ayudarnos a detectar casos atpicos y, consecuentemente, a perfeccionar la
ecuacin de regresin a travs de un estudio detallado de los mismos. El SPSS nos
ofrece la opcin "Diagnsticos por caso" del cuadro de dilogo Regresin lineal:
Estadsticos, ofrece un listado de todos los residuos o, alternativamente (y esto es ms
interesante), un listado de los residuos que se alejan de cero (el valor esperado de los
residuos) en ms de un determinado nmero de desviaciones tpicas. Es fcil, por
tanto, identificar los casos que poseen residuos grandes.
Hemos elegido el valor de 1.5, puesto que no hay residuos que se alejen ms de 2. El
resultado que proporciona el SPSS es de un valor atpico encontrado:

Los datos atpicos pueden afectar al modelo estimado de regresin, as como a las
hiptesis de normalidad y homocedasticidad cuando estos sean relevantes por lo que
merecen un estudio en profundidad, cuando se tienen identificados los datos atpicos
podemos:
Eliminar los puntos si realmente no presentan ningn inters.
DISEO ESTADSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERA
- MASTER EN ESTADSTICA APLICADA -
AUTORA: CARMEN MARA SNCHEZ CAMPOY

33

Crear una variable ficticia que trate de medir el efecto del punto sobre el
modelo y que lo caracterice como punto especial proveniente de otra poblacin.



EL RESTO DE EJERCICIOS SON DE REGRESIN LINEAL MLTIPLE Y
VIENEN REPETIDOS EN LA ACTIVIDAD 4 Y HE DECIDIDO HACERLOS EN
ESA ACTIVIDAD.

You might also like