You are on page 1of 2

Anova para distribuciones normales

El objetivo principal del Anova es contrastar si existen diferencias entre las


diferentes medias de los niveles de las variables (factores). Cuando slo hay
dos medias, el Anova es equivalente a la prueba tStudent para el contraste de
dos medias.
La variacin observada en la respuesta se asume que es debida al efecto de
las variables categricas, aunque tambin se asume que existe cierto error
aleatorio independiente que explica la variacin residual. Se asume tambin
que dicho error aleatorio sigue una distribucin normal con media 0 y varianza
constante. Estas asunciones son anlogas a las exigidas para la prueba tStudent para contrastar la igualdad de dos medias, donde se asuma
normalidad de la respuesta en cada grupo e igualdad de varianzas (contrastada
mediante la F-Snedecor). Para estudiar la validez del modelo es necesario
confirmar estas hiptesis mediante el estudio de los residuos (valores
predichos - valores observados): normalidad, tendencias, etc. y la realizacin
de un contraste de homocedasticidad (homogeneidad de varianzas entre los
grupos).
Para el estudio de la normalidad de los errores, se puede recurrir al estudio de
la normalidad de cada grupo (al igual que en la prueba t-Student) pero no es
recomendable, debido a que puede requerir un gran nmero de pruebas. La
solucin utilizada habitualmente es el estudio del grfico de dispersin entre los
residuos y los valores predichos. Este grfico permite estudiar la simetra, si
existen patrones de comportamiento, la independencia entre observaciones y
tendencias en general. Si se observa algn comportamiento de los
mencionados, el modelo no es vlido y se debe cambiar de modelo, de tcnica
estadstica o transformar las variables.
En general, el Anova es un procedimiento muy robusto que ofrece buenas
aproximaciones en el caso que las premisas del modelo no se cumplan
rigurosamente.
http://www.uclm.es/profesorado/mdsalvador/58109/teoria/anova_un_factorlectura.pdf

Prueba de Kolmogorov- Smimov


La hiptesis nula a contrastar es similar al caso anterior; se trata , por tanto , de
comprobar si la muestra se ajusta o proviene de una poblacin con una
determinada distribucin de probabilidad. Como se plante en el esquema el

test de K-S es ms adecuado cuando la muestra viene planteada en escala


ordinal.
El procedimiento es similar al del test de la chi-2 , se trata de comparar la
distribucin muestral observada con la resultante de dar por cierta la hipottica
distribucin de la poblacin .En el caso de la chi-2 se comparaban frecuencias
absolutas observadas con sus homnimas tericas , en el caso del test de
Kolmogorov-Smirnov las frecuencias a comparar sern las frecuencias relativas
acumuladas F(xi) de las dos distribuciones ; observada y terica. De ah su
utilidad para aquellas ocasiones en las que los datos se encuentren en forma
de escala ordinal.
Escuetamente el procedimiento consiste en establecer las frecuencias relativas
acumuladas referentes a la informacin muestral. F o(xi).. Establecer , tambin,
en base a la distribucin de probabilidad hipottica las frecuencias relativas
acumuladas Ft(xi).
Compararemos ambas frecuencias creando el estadstico
es decir el valor mximo de entre todas las
diferencias entre frecuencias relativas acumuladas tericas y observadas para
los mismos valores o intervalos de la variable.
Dicho estadstico D se comparar con el correspondiente de la tabla del tests
de K-S ( ir a tabla de K-S) en base al nivel de significacin establecido y el
tamao muestral ; de manera que si
D<D(tabla,n,a ) no rechazaremos la hiptesis de que la muestra procede de la
hipottica poblacin con distribucin establecida , mientras que si D>D(tabla
,n,a ) rechazaremos dicha hiptesis.

Prueba de Kruskol- Wallis


La prueba de Kruskal-Wallis para comparar ms de dos grupos La prueba de
Kruskal-Wallis, es una alternativa a la prueba F del anlisis de varianza para
diseos de clasificacin simple. En este caso se comparan varios grupos pero
usando la mediana de cada uno de ellos, en lugar de las medias. Ho: La
mediana de las k poblaciones consideradas son iguales y Ha: Al menos una de
las poblaciones tiene mediana distinta a las otras.

Donde, n es el total de datos.