Professional Documents
Culture Documents
UNIDAD IV
PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS 4.1 BONDAD DE AJUSTE Las pruebas de bondad de ajuste tratan de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribucin. Las pruebas bsicas que pueden aplicarse son: la ji-cuadrada y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y la distribucin terica que se supone debe seguir esa muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin muestral y la terica, H0 es la distribucin que se supone sigue la muestra aleatoria. La hiptesis alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta. Hablamos de bondad de ajuste cuando tratamos de comparar una distribucin de frecuencia observada con los valores correspondientes de una distribucin esperada o terica. Algunos estudios producen resultados sobre los que no podemos afirmar que se contribuyen normalmente, es decir con forma acampanada concentradas sobre la media. Su frmula es la siguiente:
i 1
oi
f ei f ei
Los grados de libertad vienen dados por: gl= K-m-1. Criterio de decisin es el siguiente: Se rechaza H0 cuando
2 t2;K m1
Donde t representa el valor proporcionado por las tablas, segn el nivel de significacin elegido. Cuanto ms se aproxima a cero el valor de chi-cuadrada, ms ajustadas estn ambas distribuciones.
Pgina 2
Interpretacin: cuanto mayor sea el valor de ji-cuadrada menos creble es la hiptesis nula H0. De la misma forma, cuanto ms se aproximan acero el valor de , ms ajustadas estn las distribuciones. H0 se acepta H0 se rechaza
Pgina 3
Pgina 4
Grados de libertad v = (r-1)*(c-1) Frecuencia Esperada = Total de la columna * Total del rengln Gran total
Caractersticas X2 toma valores no negativos; es decir, puede ser cero o positiva. X2 no es simtrica; es asimtrica hacia la derecha. Existen muchas distribuciones X2 como en el caso de la distribucin t, hay una distribucin, X2 diferente para cada valor de los grados de libertad. Nos dan una tabla de contingencia. El procedimiento de la prueba ji-cuadrada puede tambin utilizarse para probar la hiptesis de independencia de dos variables de clasificacin. Ejemplo: Supngase que desea determinar si las opiniones de los residentes votantes del estado de Illinois respecto a una nueva reforma impositiva son independientes de sus niveles de ingreso. Una muestra aleatoria de 1000 votantes registrados del estado de Illinois se clasifica de acuerdo con sus ingresos como bajo, medio y alto y si estn a favor o en contra de la nueva reforma impositiva. Las frecuencias observadas se presentan en la siguiente tabla, la cual se conoce como una tabla de contingencia.
Pgina 5
A una tabla de contingencia con r renglones y c columnas se le conoce como una tabla r x c (r x c se lee r por c), a los totales de renglones y columnas en la tabla anterior se les denomina frecuencia marginales. La decisin de aceptar o rechazar la hiptesis nula, H0, de independencia entre la opinin de votantes respecto a la nueva reforma de impuestos y su nivel de ingresos se basan en que tan bien se ajustan las frecuencias observadas en cada una de las 6 celdas de la tabla, y las frecuencias que se esperaran para cada celda bajo la suposicin de que H0 es verdadera. Para encontrar estas frecuencias esperadas, defnanse los siguientes eventos: L: una persona seleccionada esta en el nivel bajo de ingresos. M: una persona seleccionada esta en el nivel medio de ingresos. H: una persona seleccionada esta en el nivel alto de ingresos. F: una persona seleccionada est a favor de la nueva reforma fiscal. A: una persona seleccionada est en contra de la nueva reforma fiscal.
Pgina 6
( ) ( )
( ) , ( )
( )
Ahora si H0 es verdadera y las dos variables son independientes, debe tenerse: P (LF) = P (L) P (F) = ( P (LA) = P (L) P (A) = ( P (MF) = P (M) P (F) = ( P (MA) = P (M) P (A) = ( P (HF) = P (H) P (F) = ( P (HA) = P (H) P (A) = (
)( )( )( )( )( )(
), ), ), ), ), ).
Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el nmero total de observaciones. Como antes, estas frecuencias se redondean a un decimal de esta manera el nmero esperado de votantes de bajos ingresos en la muestra y que favorecen la nueva reforma impositiva, se estima que es:
)(
) x 100 =
)(
= 200.9
Cuando H0 es verdadera. La regla general para obtener la frecuencia esperada de cualquier celda la proporciona la siguiente frmula:
Pgina 7
En el ejemplo, se necesitan calcular nicamente las dos frecuencias esperadas del rengln de arriba de la tabla y entonces encontrar las otras por sustraccin. El numero de grados de libertad asociado a la prueba ji cuadrada que se utiliza aqu es igual al nmero de frecuencias de celdas que pueden llenarse libremente cuando se dan los totales marginales y el gran total; en este ejemplo ese nmero es 2. Una formula simple que proporciona el nmero correcto de grados de libertad es: v = (r-1)*(c-1) de aqu que, para este ejemplo V = (2-1)*(3-1) = 2 grados de libertad. Para probara la hiptesis nula de independencia, se utiliza el siguiente criterio de decisin:
Pgina 8
Donde la sumatoria se extiende a todas las celdas rc en la tabla de contingencia r x c. Si > con v = (r-1)(c-1) grados de libertad se rechaza la hiptesis nula de independencia en el nivel de significancia ; de lo contrario, se acepta la hiptesis nula. Al aplicar este criterio a este ejemplo, se encuentra que:
+
)
+
)
+
P
= 7.85
0.02 = 5.991
para v= (2-1) (3-1) = 2 grados de libertad. La hiptesis nula se rechaza. Se concluye que la opinin de un votante referente a la nueva reforma fiscal y su nivel de ingresos no son independientes. Es importante recordar que el estadstico sobre el cual se basa la decisin tiene una distribucin que solo se aproxima por la distribucin JI cuadrada. Los valores calculados 2 dependen de las frecuencias de la celda y, en consecuencia, son discretos. La distribucin ji cuadrada continua parece aproximar muy bien la distribucin muestral discreta de x2 en la medida en la que el numero de grados de libertad sea mayor que 1. En una tabla de contingencia de
Pgina 9
(|
Si las frecuencias esperadas de celdas son grandes, los resultados corregidos y sin corregir son casi los mismos. Cuando las frecuencias esperadas estn entre 5 y 10, debe aplicarse la correccin de Yates. Para frecuencias esperadas menores que 5, debe utilizarse la prueba exacta de Fisher-Irwin. Sin embargo, puede evitarse el uso de la prueba Fisher-Irwin al seleccionar una muestra grande.
Pgina 10
Para demostrar que si la poblacin sigue la distribucin hipottica propuesta, tiene, aproximadamente, una distribucin ji-cuadrada en donde los grados de libertad vienen dados por: gl= K-m-1 donde m representa el numero de parmetros de la distribucin
hipottica, estimados por los estadsticos muestrales. Esta aproximacin mejora conforme n se incrementa. El criterio de decisin es el siguiente: Se rechaza H0 cuando el valor del estadstico de prueba contrario se acepta. Donde t representa el valor proporcionado por las tablas, segn el nivel de significacin elegido. Cuanto ms se aproxima a cero el valor de ji-cuadrada, ms ajustadas estn ambas distribuciones.
Pgina 11
. En caso
desviacin de las frecuencias observadas y las esperadas, no nicamente la pequea magnitud de las frecuencias esperadas. No hay consenso generalizado en cuanto al valor mnimo de las frecuencias esperadas, pero valores de 3, 4 y 5 se usan ampliamente como mnimos. Algunos autores proponen que una frecuencia esperada podra ser tan pequea, como 1 o 2, siempre que la mayora de ellas excedan 5. Cuando una frecuencia esperada sea muy pequea, puede cambiarse con la frecuencia esperada de un intervalo de clase adyacente. Las frecuencias observadas correspondientes tambin se combinaran, y k se reducira una unidad. No es necesario que los intervalos de clase tengan la misma anchura. Ejemplo: Una distribucin continua. Un ingeniero est probando una fuente de poder usada en una computadora notebook. Utilizando = 0.05, el quiere determinar si una distribucin normal describe adecuadamente el voltaje de salida. De una muestra aleatoria de n = 100 unidades obtiene las estimaciones muestrales de la media y la desviacin estndar x = 5.04 V y s = 0.08 V. Una prctica comn cuando se construyen los intervalos de clase para la distribucin de frecuencia usada en la prueba ji-cuadrada de la bondad del ajuste es elegir los limites de clase de las celdas de tal modo que las frecuencias esperadas Ei = npi sean iguales para todas lsa celdas o intervalos de clase. Para usar este mtodo, los limites de clase a0,a1,,ak de los k intervalos de clase se elegiran de tal modo que todas las probabilidades
= (
( )
sean iguales. Suponga que se decide usar k = 8 intervalos de clase. Para la distribucin normal estndar, los intervalos que dividen la escala en ocho segmentos igualmente factibles son [ 0, 0.32), [0.32, 0.675), [0.675, 1.15), [1.15, ) y los cuatro intervalos reflejados al otro lado de cero.
Pgina 12
La cota del primer intervalo de clase es x 1.15s = 4.948. Para el segundo intervalo de clase es [x 1.15s, x 0.675s), y as sucesivamente. Puede aplicarse el procedimiento de prueba de hiptesis de ocho pasos en este problema. 1. La variable de inters es la forma de la distribucin del voltaje de la fuente de poder. 2. H0: la forma de la distribucin es normal. 3. H1: la forma de la distribucin no es normal. 4. = 0.05 5. el estadstico de la prueba es:
6. puesto que se estimaron dos parmetros de la distribucin normal, el estadstico ji-cuadrada anterior tiene k-p-1 = 8-2-1 = 5 grados de libertad. Por lo tanto, se rechazar H0 si
7. clculos Pgina 13
>
= 11.07
= 0.64 <
H0 y no hay evidencia robusta que indique que el voltaje de salida no tenga una distribucin normal. El valor P del estadstico ji-cuadrada P = 0.9861. = 0.64 es
Pgina 14
En estadstica las tablas de contingencia se emplean para registrar y analizar la relacin entre dos o ms variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Sea Pij la probabilidad de que un elemento seleccionado al azar est en la celda ij, dado que las dos clasificaciones son independientes. Entonces pij = uivj, donde ui es la probabilidad de que un elemento seleccionado al azar este en la clase del rengln i y vj es la probabilidad de que un elemento seleccionado al azar est en la clase de la columna j. ahora bien, con el supuesto de independencia, los estimadores de ui y vj son
Pgina 15
Tiene una distribucin ji-cuadrada aproximada con (r-1) (c-1) grados de libertad si la hiptesis nula es verdadera. Por lo tanto, la hiptesis de independencia se rechazara si el valor observado del estadstico de prueba
( )( ).
excediera
Para calcular grados de libertad se tiene la siguiente frmula: gl= (r-)(c-1) NOTA: El clculo de grados de libertad nos dar la pauta para calcular el valor total de frecuencias.
Pgina 16
Para encontrar las frecuencias esperadas, primero debe calcularse ( ) = 0.68, ( ) 0.32, ( ) 0.40 y ( 0.20. Ahora pueden calcularse las frecuencias esperadas con la ecuacin
Por ejemplo, el nmero esperado de trabajadores asalariados que prefieren el plan de pensin 1 es ( )( ) En la siguiente tabla se muestran las frecuencias esperadas. Plan de pensin 1 Clasificacin laboral Trabajadores asalariados Trabajadores por hora Totales 136 64 200 136 64 200 68 32 100 340 160 500
Pgina 17
totales
6. puesto que r = 2 y c = 3, los grados de libertad de ji-cuadrada son (r-1) (c-1)= (1)(2) = 2, se rechazara H0 si > = 5.99
7. clculos ( )
) (
( )
) (
( )
= 49.63 >
, se rechazar la
hiptesis de independencia y se concluye que la preferencia por los planes de pensiones no es independiente de la clasificacin laboral. El valor P para = 49.63 es P = 1.671 x 10-11.
Pgina 18
Pgina 19
Pgina 20
Pgina 21
Pgina 22
Debe mencionarse brevemente una clase espacial de escala ordinal llamada "escala de posicin", donde las observaciones se clasifican de mayor a menor (o viceversa). Al igual que en las escalas nominales, se emplean a menudo porcentajes y proporciones en escalas ordinales. Escala de Intervalo.- Refleja distancias equivalentes entre los objetos y en la propia escala. Es decir, el uso de sta escala permite indicar exactamente la separacin entre 2 puntos, lo cual, de acuerdo al principio de isomorfismos, se traduce en la certeza de que los objetos as medidos estn igualmente separados a la distancia o magnitud expresada en la escala. Escala de Razn.- Constituye el nivel ptimo de medicin, posee un cero verdadero como origen, tambin denominada escala de proporciones. La existencia de un cero, natural y absoluto, significa la posibilidad de que el objeto estudiado carezca de propiedad medida, adems de permitir todas las operaciones aritmticas y el uso de nmeros representada cantidades reales de la propiedad medida.
Con esto notamos que esta escala no puede ser usada en los fenmenos psicolgicos, pues no se puede hablar de cero inteligencia o cero aprendizaje, etc.
Pgina 24
2.-EL CASO DE K MUESTRA: Hasta aqu hemos visto las pruebas estadsticas idneas para probar la significacin de las diferencias. Entre una sola muestra y una poblacin determinada. Entre dos muestras relacionadas o independientes. Ahora veremos las pruebas que determinan la significacin de las diferencias entre 3 o ms grupos, relacionados o independientes. A veces las circunstancias requieren de diseos experimentales de ms de dos muestras o condiciones que puedan estudiarse simultneamente y entonces es necesario usar una prueba estadstica que indique si existe una diferencia total entre las k muestras o condiciones, ya que no es posible tener confianza en una decisin acerca de k muestras, en la que el anlisis se haga probando las muestras, 2 a 2.La tcnica paramtrica para probar si varias muestras proceden de una misma poblacin, es el anlisis de varianza o prueba F. La misma facilita que no haya prdida de precisin al estimar la varianza por separado, pues se utiliza una varianza combinada.
Pgina 26
Pgina 27
EJEMPLO: Una compaa de taxis trata de decidir si el uso de llantas radiales en lugar de llantas regulares con cinturn mejora la economa de combustible.se equipan 16 automviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores, se equipan los mismos autos con las llantas regulares con cinturn y se manejan una vez ms por el recorrido de prueba.se registra el consumo de gasolina, en kilmetros por litro, de la siguiente manera:
Automvil 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Llantas radiales 4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9
llantas con cinturn 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8
Podemos concluir en el nivel de significancia de 0.05 que los autos equipados con llantas radiales obtienen mejores economas de combustible que los equipados con llantas regulares con cinturn?
Pgina 28
para los autos equipados con llantas radiales y con cinturn, respectivamente. 1. H: 12.
2= 0
H1: 1- 2 > 0
3. = 0.05 4. Estadstica de prueba : variable binomial x con p= 5. Clculos: despus de reemplazar cada diferencia positiva con un smbolo + `` y cada diferencia negativa con un smbolo "-, y despus descartar las dos diferencias cero ,obtenemos la secuencia + - + - + - + - + - + - + - + - + -+ - + Para la que n= 14 y x =11. Con el uso de la aproximacin de la curva normal, encontramos que
Z= 10.5 7 = 1.87
14/2
Y entonces P= P(X 11) P ( Z>1.87)= 0.0307 6. DECISION: rechazar Ho y concluir que, en promedio, las llantas radiales mejoran la economa de combustible.
Pgina 29
el agrupamiento de los datos observados en un nmero finito de intervalos de clase. Este requisito de agrupar los datos implica tener una muestra ms o menos grande. De esta manera, la prueba de bondad de ajuste chi-cuadrada se encuentra limitada cuando ( ) es continua y la muestra aleatoria disponible
tiene un tamao pequeo. Una prueba de bondad de ajuste ms apropiada que la chi-cuadrada cuando Kolmogorov Smirnov. La prueba de Kolmogorov Smirnov no necesita que los datos se encuentren agrupados y es aplicable a muestras de tamao pequeo. sta se basa en una comparacin entre las funciones de distribucin acumulativa que se observa en la muestra ordenada y la distribucin propuesta bajo la hiptesis nula. Si esta comparacin revela una diferencia suficientemente grande entre las funciones de distribucin muestral y propuesta, entonces la hiptesis nula de que la distribucin es ( ), se rechaza. ( )
( ) ( )
( ), en donde
( )
( ) se especifica
( )
( )
( )
de la muestra aleatoria,
( )
es la proporcin del nmero de valores en la muestra que son iguales o menores a . Ya que ( ) se encuentra completamente especificada, es posible evaluar a ( ). Si la hiptesis nula es verdadera, entonces es lgico
Pgina 30
( ) para algn valor deseado de , y entonces compara este ltimo con el valor correspondiente de
|
La estadstica
( )
( )|.
independiente de la distribucin. Lo anterior da como resultado que la funcin de distribucin para cualquier ( ). En la tabla J del apndice, se proporcionan los para varios valores de la muestra. El lector debe que se encuentran en la parte inferior de la mayores de
tabla proporcionan una adecuada aproximacin para los valores de 50. Para un tamao del error de tipo i, la regin crtica es de la forma
)
se rechaza si para algn valor
Como se hizo anteriormente, la estadstica de Kolmogorov Smirnov es, en general, superior a la prueba de bondad de ajuste chi cuadrada cuando los datos involucran una variable aleatoria continua, debido a que no es necesario agrupar los datos. Adems, la prueba de Kolmogorov Smirnov tiene la atractiva propiedad de ser aplicable a muestras de tamao pequeo. Por otro lado, la estadstica se encuentra limitada, ya que el modelo propuesto bajo debe especificarse en forma completa. La estadstica de Kolmogorov Smirnov no se aplica a todos aquellos casos para los que as observaciones no son inherentemente cuantitativas a consecuencia de las ambigedades que pueden surgir cuando se ordenan las observaciones.
Pgina 31
que los datos se deben ordenar) vienen de una distribucin con funcin acumulativa F A2 = N S Donde:
El estadstico de la prueba se puede entonces comparar contra las distribuciones del estadstico de prueba (dependiendo que F se utiliza) para determinar el P-valor.
Pgina 32
Pgina 33
Donde:
( )=
posicin en la muestra;
Donde:
Siendo m1,..., mn son los valores medios del estadstico ordenado, de variables aleatorias independientes e idnticamente distribuidas, muestreadas de distribuciones normales. V es la matriz de covarianzas de ese estadstico de orden. La hiptesis nula se rechazar si W es demasiado pequeo.
Pgina 34
De esta manera puedo finalizar que es muy substancial tener siempre en cuenta la escala de medicin que se est utilizando, pues no todos los procedimientos estadsticos son apropiados para cualquier anlisis. En general, las variables estadsticas se clasifican en variables continuas o cuantitativas y variables discretas o cualitativas, segn el nivel de escala en que estn medidas. Las variables continuas se refieren a magnitudes medidas en escala de intervalos o de razn, mientras que las variables discretas comprenden magnitudes medidas en escalas de nivel nominal y ordinal. Por otro lado puedo concluir que las pruebas no paramtricas se encargan de estudiar las pruebas y modelos estadsticos cuya distribucin no se ajusta; o sea que no asumen ningn parmetro de las variables mustrales, por eso es muy importante el conocimiento de las pruebas no paramtricas, ya que se aplica en la administracin debido a la prueba de la tabla de contingencia como la de bondad de ajuste analizan datos nominales u ordinales. Estas pruebas, se usan ampliamente en las aplicaciones de negocios, lo que demuestra la importancia de la habilidad para manejar datos categricos o jerarquizados adems de los cuantitativos.
Pgina 35
Pgina 36
Pgina 37