You are on page 1of 12

METODOS DE BONDAD DE AJUSTE

Bondad de ajuste
La bondad de ajuste de un modelo estadstico describe lo bien que se
ajusta un conjunto de observaciones. Las medidas de bondad en general
resumen la discrepancia entre los valores observados y los k valores
esperados en el modelo de estudio.

Pruebas de la bondad de ajuste.

En la construccin del modelo de simulacin es importante decidir si un


conjunto de datos se ajusta apropiadamente a una distribucin
especfica de probabilidad. Al probar la bondad del ajuste de un
conjunto de datos, se comparan las frecuencias
observadas FO realmente en cada categora o intervalo de clase con las
frecuencias esperadas tericamente FE.

Prueba Ji cuadrada

La prueba Ji cuadrada hace uso de la distribucin del mismo nombre


para probar la bondad del ajuste al comparar el estadstico de prueba
Xo2 con el valor en tablas de la mencionada distribucin Ji cuadrada
con v grados de libertad y un nivel de significancia alfa. En la siguiente
seccin aplicaremos esta prueba para probar la hiptesis nula de que los
nmeros aleatorios (provenientes de un generador) se ajustan a la
distribucin terica uniforme continuo.

Sea X una variable aleatoria discreta con valores x1, x2,......., xn Se


propone la hiptesis nula H0, de que la distribucin de donde proviene la
muestra se comporta segn un modelo terico especfico tal como la
uniforme, la exponencial, la normal, etc. Entonces FOi, representa el
nmero de veces que ocurre el valor xi mientras que FEi, es la
frecuencia esperada proporcionada por el modelo terico propuesto. A
menudo ocurre que muchas de las frecuencias FEi, (y tambin las FOi)
son muy pequeas, entonces, como regla prctica adoptamos el criterio
de agrupar los valores consecutivos de estas frecuencias esperadas
hasta que su suma sea de al menos cinco. La medida estadstica de
prueba para la hiptesis nula es
Para n grande este estadstico de prueba tiene una
distribucin X2 aproximada con V grados de libertad dados por

V = (k 1) (nmero de parmetros estimados)

as, si se estiman dos parmetros como la media y la varianza, la


medida estadstica tendr (k 3) grados de libertad.
Se puede aplicar esta prueba a variables continas agrupando
adecuadamente los valores en un nmero adecuado de subintervalos o
clases k. Una regla emprica para seleccionar el nmero de clases es:

EJEMPLO. La siguiente muestra de tamao 50 ha sido obtenida de una


poblacin que registra la vida til (en unidades de tiempo) de bateras
alcalinas tipo AAA. Prubese la hiptesis nula de que la variable
aleatoria vida til de las bateras sigue una distribucin exponencial
negativa. Considrese un nivel de significancia alpha de 5%.

8.223 0.836 2.634 4.778 0.406 0.517 2.330 2.563 0.511 6.426
2.230 3.810 1.624 1.507 2.343 1.458 0.774 0.023 0.225 3.214
2.920 0.968 0.333 4.025 0.538 0.234 3.323 3.334 2.325 7.514
0.761 4.490 1.514 1.064 5.088 1.401 0.294 3.491 2.921 0.334
1.064 0.186 2.782 3.246 5.587 0.685 1.725 1.267 1.702 1.849

SOLUCIN. Calculamos los valores min = 0.023 y max = 8.223.


Resultando ser el rango o recorrido igual a 8.2. El valor promedio es de
2.3. A continuacin ordenamos los valores de manera ascendente y
construimos el histograma de frecuencias relativas con seis clases cada
una de longitud 1.5. (esto es debido a que 8.2 / 6 = 1.3)
FO
k Clase FO relativa
absoluta
1 0.0 - 1.15 21 0.42
2 1.15 - 3.0 15 0.30
3 3.0 - 4.5 8 0.16
4 4.5 - 6.0 3 0.06
5 6.0 - 7.5 1 0.02
6 7.5 - 9.0 2 0.04
Re agrupamos las clases de modo que la FO sea de al menos 5
FO
k Clase FO relativa
absoluta
1 0.0 - 1.15 21 0.42
2 1.15 - 3.0 15 0.30
3 3.0 - 4.5 8 0.16
4 4.5 - 9.0 6 0.12

Como nuestra hiptesis nula es que los datos se ajustan a la funcin de


probabilidad exponencial negativa, emplearemos tal funcin para
calcular mediante integracin el porcentaje de probabilidad esperado
para cada subintervalos. Ya vimos que el valor promedio es de 2.3, sin
embargo para fines prcticos lo consideraremos como 2.0. El clculo de
la integral para la primer clase es:

k Clase FO relativa FE terica (FO-FE)2FE


1 0.0 - 1.5 0.42 0.528 0.022
2 1.5 - 3.0 0.30 0.249 0.010
3 3.0 - 4.5 0.16 0.118 0.015
4 4.5 - 9.0 0.12 0.105 0.002
Entonces se tiene el valor

Ahora compararemos este valor calculado contra el valor tabulado de la


distribucin Ji cuadrada con un nivel de significancia alpha de 5% y el
nmero de grados de libertad
V = (k 1) 1 = (4 1) 1 = 2. (Obsrvese que se estim el parmetro
promedio?). Entonces

Como vemos el valor calculado es menor que el valor tabulado, por


tanto la conclusin es que no se puede rechazar la hiptesis nula de que
la muestra proviene de una distribucin exponencial con media 2.0.
PRUEBA DE KOLMOGOROV - SMIRNOV

Otra prueba para la bondad de ajuste se apoya en la distribucin de


Kolmogorov Smirnov la que al ser desarrollada para variables continuas
la hace ms poderosa, por ejemplo, en el caso de los nmeros
aleatorios, que la Ji cuadrada. Por esta razn, en esta seccin la
presentamos para un caso distinto al de la distribucin continua.
Definamos la siguiente funcin de distribucin emprica. Supngase
que Y es una variable aleatoria continua que tiene una funcin de
distribucin F(y). Una muestra aleatoria de n realizaciones de Y produce
las observaciones y1, y2, ..., yn. Reordenemos esos valores observados
de menor a mayor, y las yi ordenadas se representan
mediante y(1) y(2) ..., y(n). Es decir, si y1 = 7, y2 = 9 y y3 = 3,
entonces y(1) = 3, y(2) = 7 y y(3) = 9. Ahora bien, la funcin de
distribucin acumulada emprica esta definida por:

F n(y) = fraccin de la muestra menor o igual a y

Supngase que se toma una variable aleatoria continua Y, bajo la


hiptesis nula, que tiene una funcin de distribucin representada por F
(y). La hiptesis alterna es que F (y) no es la funcin verdadera de
distribucin de es la funcin verdadera de distribucin de Y. Despus de
observar una muestra aleatoria de n valores de Y, F (y) debe estar
cerca de F n(y)siempre y cuando sea verdadera la hiptesis nula. Por
lo tanto, la medida estadstica debe apreciar la cercana
de F(y) a Fn(y) en todo el intervalo de valores de y.

La medida estadstica D de K-S se basa en la distancia mxima


entre F(y) y Fn(y), es decir,

D = mx. F(y) - Fn(y)

Se rechaza la hiptesis nula si D es demasiado grande.


Como F(y) y Fn(y) no son decrecientes y Fn(y) es constante entre
observaciones de muestra, la desviacin mxima entre F(y) y Fn(y), se
presentar ya sea en uno de los puntos de observacin y1 , ... yn , o
inmediatamente a la izquierda de uno de ellos. Para determinar el valor
observado de D, se necesita entonces comprobar tan slo

D+ = mx.
y

D- = mx
Ya que
D = mx (D+ , D-)
Si en H0 se supone la forma de F (y), pero se deja sin especificar algunos
de los parmetros, entonces stos se deben estimar a parir de los datos
de la muestra antes de poder llevar a cabo la prueba.
Stephens (1974) dio valores de corte de reas superiores de 0.15, 0.10,
0.05, 0.025 y 0.01 para una forma modificada de la tabla K S para D
(presentada en el apndice de este libro), los cuales se muestran en la
siguiente tabla para tres casos. Estos casos son para la hiptesis nula de
una F(y) completamente especificada, una F(y) normal con promedio y
variancia desconocidos, y una F(y) exponencial con promedio
desconocido.
TABLA DE KOLMOGOROV SMIRNOV DE STEPHENS. Puntos porcentuales
del extremo superior para D modificada

EJEMPLO. Considrese que las diez observaciones siguientes son una


muestra aleatoria de una distribucin continua. Probar la hiptesis de
que esos datos provienen de una distribucin exponencial con promedio
2, en el nivel de significacin 0.05.
0.406, 2.343, 0.538, 5.088, 5.587, 2.563, 0.023, 3.334, 3.491, 1.267.
Solucin. Se ordenan las diez observaciones ascendentemente y
entonces se calcula, para cada y(i), el valor de F(yi), donde H0 establece
que F (y) es exponencial con teta=2. por tanto,
F(yi) = 1 - e-yi/2
Registraremos los datos ordenados as como los clculos en la siguiente
TABLA
I y(i) F(yi) i/n (i 1)/n i/n - F(yi) F(yi) - (i 1)/n
1 0.023 0.0114 0.1 0.0 0.0886 0.0114
2 0.406 0.1838 0.2 0.1 0.0162 0.0838
3 0.538 0.2359 0.3 0.2 0.0641 0.0359
4 1.267 0.4693 0.4 0.3 -0.0693 0.1693
5 2.343 0.6901 0.5 0.4 -0.19801 0.2901
6 2.563 0.7224 0.6 0.5 -0.1224 0.2224
7 3.334 0.8112 0.7 0.6 -0.1112 0.2112
8 3.491 0.8254 0.8 0.7 -0.0254 0.1254
9 5.088 0.9214 0.9 0.8 -0.0214 0.1214
10 5.587 0.9388 0.10 0.9 0.0612 0.0388
D+ es el valor mximo en la columna 6 y D- el mximo en la columna 7.
Entonces D + = 0.0886 y D = 0.2901, lo cual da D = 0.2901. Para
determinar el valor crtico a partir de la tabla K - S, se necesita calcular

En el nivel de significacin alfa = 0.05, el valor de D calculado es menor


que el valor del valor de D modificado. Por lo tanto, no se rechaza la
hiptesis nula. Ms adelante, aplicaremos esta prueba de K S, sin la
modificacin de Stephens.

CONTRASTES DE LA BONDAD DEL AJUSTE

ir a contrastes no paramtricos
ir a script de realizacin

Tambin se le conoce como contraste de adherencia a un ajuste, o como


contraste de la c 2.

La hiptesis a contrastar es el hecho (ntese que no hay valor de un


parmetro) de que la muestra proviene de una distribucin determinada
y planteada de probabilidad , frente a la alternativa de que esto no es
as .
Se parte de una sola muestra (lgico) normalmente en datos en forma
de escala nominal , de ah que este test se encuentre ubicado donde los
est en la tabla resumen que antes presentamos
A travs de este contraste, y partiendo de los datos mustrales , se
obtiene un criterio de decisin sobre la hiptesis de que la poblacin de
la que se ha extrado la muestra se distribuya ( se ajuste bien , se
adhiera ), o no , segn algn modelo terico determinado y planteado a
priori. As:

H0 : la muestra proviene(ajusta ,adhiere) a una poblacin cuya funcin es


(F(x))
H1 : la muestra NO proviene(ajusta ,adhiere) a una poblacin cuya
funcin es (F(x))

y trabajando con un determinado nivel de significacin plantearamos


que si:
Las observaciones mustrales podremos considerarlas y disponerlas
como una distribucin de frecuencias ;frecuencias , claro
est ,observadas.

xi nobservadas,i

x1 no,1

x2 no,2

xm no,m

Si la poblacin sigue un determinado modelo terico de distribucin de


probabilidad cada posible valor de la variable xi tendr asociada una
determinada probabilidad , segn ese modelo terico.

Para cada uno de los valores mustrales podremos construir su


distribucin de probabilidad:

xi P(xi)

x1 P1

x2 P2


xm Pm

Si multiplicamos, para cada xi , su probabilidad , Pi , por el nmero total


de observaciones, n , obtendremos las frecuencias que tericamente
deban corresponder a cada valor de la variable, segn el modelo, (Pin =
n terica,i ).

Y, as , podremos construir una distribucin de frecuencias tericas:

xi ntericas,i

x1 nt,1

x2 nt,2

xm nt,m

A partir de la distribucin de frecuencias observadas y de la de


frecuencias tericas puede construirse el siguiente estadstico:

donde m es el nmero de valores de la variable que se han


muestreado (valores distintos)

Puede demostrarse que si la distribucin de la poblacin es


efectivamente la utilizada para construir las frecuencias tericas, el

estadstico anterior se distribuye como una es decir una chi-dos


con m-k-1 grados de libertad, donde k es el nmero de parmetros
estimados a partir de los datos mustrales y necesarios para la
construccin de la tabla de frecuencias de la distribucin terica.

La prdida de k+1 grados de libertad se debe precisamente a que con


los m datos se calculan k parmetros (habr ,por tanto, k ecuaciones
que liguen los m datos) y , adems, la suma de los m datos debe dar el
nmero total de observaciones n (lo que supone una nueva ligadura):

m grados de libertad iniciales - (k + 1) ligaduras = m-k-1 grados


de libertad finales

Debe observarse que este estadstico se distribuye siempre como


una c 2m-k-1 sea cual fuere el modelo terico ( binomial, Poisson ,normal
,exponencial ,cualquiera de los estudiados, u otro diseado "ad hoc"),
siempre y cuando la poblacin se distribuya, efectivamente, segn ese
modelo.

Teniendo en cuenta esto ,si queremos contrastar la hiptesis de que una


cierta poblacin sigue un modelo determinado, con un nivel de
significacin a , habr que disear una regin crtica segn la cual si los
datos mustrales nos conducen (bajo el supuesto de la hiptesis) a un
estadstico c 2 que pertenezca a ella rechazaremos la hiptesis.

Segn la definicin de nivel de significacin a se habr de cumplir que:

donde

Como siempre, de todas las posibles


regiones que cumplen esa condicin, escogeremos aquella que tenga
mayor amplitud (lo que supone mayor amplitud de la zona de rechazo y,
en consecuencia menor amplitud de la zona de aceptacin) para poder
realizar un contraste severo.

2
Teniendo en cuenta que el estadstico sigue una distribucin c , la
regin crtica de mayor amplitud ser la cola de la derecha.

2
As pues, una vez calculado el estadstico c si:

no rechazaremos la hiptesis de que la poblacin sigue el


modelo de probabilidad planteado. ; mientras que si :

rechazaremos la hiptesis

Por ltimo, quedan hacer dos observaciones finales sobre este contraste:

El estadstico c 2 se calcula a partir de conteos discretos de las


frecuencias para cada posible valor de la variable y, como es bien
sabido, la distribucin c 2 es una distribucin de variable continua. Si las
frecuencias esperadas para todos los valores de la variable ntericas,i " i
son grandes , este hecho no plantea problemas.

Pero si alguna de las frecuencias tericas es inferior a 5 ser necesario


subsanar este inconveniente agrupando las
observaciones adyacentes. A modo de ejemplo:
x nobserva nteric
das,i as,i
en esta tabla existen frecuencias inferiores a 5

xi 6 4

xi 1 2 lo que resolveramos de la siguiente forma


+1

x nobservad nterica
as,i s,i

xi+x 6+1=7 4+2=


i+1 6

Por otro lado, cuando resulta que los grados de libertad implicados son
slo 1 (es decir, m-k-1 = 1) el estadstico c 2 toma un sobrevalor que
"infla" la rechazabilidad de la hiptesis, dado que la distribucin chi-dos
con un solo grado de libertad se eleva de forma evidente en la parte
prxima a cero haciendo que el valor crtico, que divide las zonas , sea
muy prximo a ste , primando, por ello, la rechazabilidad de la hiptesis
. Para paliar esto, el americano Yates prob que es conveniente cuando

m-k-1 = 1 utilizar como estadstico el siguiente :


Estas dos puntualizaciones debern tenerse presentes a la hora de
realizar los contrastes de adherencia a un ajuste (hiptesis: Poblacin
sigue cierto modelo), as como al realizar los contrastes de
independencia (tablas de contingencia que estudiaremos despus,
cuando sean oportunas - son lo que se conoce como correcciones de
continuidad de la prueba o test de la c 2.