Estadistica Descriptiva - Unidad II - D

2.4.2.
- Prueba T de Student
En estadstica, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadstico utilizado tiene una distribucin t de Student si la hiptesis nula es cierta. Se aplica cuando la poblacin estudiada sigue una distribucin normal pero el tamao muestral es demasiado pequeo como para que el estadstico en el que est basada la inferencia est normalmente distribuido, utilizndose una estimacin de la desviacin tpica en lugar del valor real. Es utilizado en anlisis discriminante. El estadstico t fue introducido por William Sealy Gosset en 1908, un qumico que trabajaba para la cervecera Guinness de Dubln. Student era su seudnimo de escritor.1 2 3 Gosset haba sido contratado gracias a la poltica de Claude Guiness de reclutar a los mejores graduados de Oxford y Cambridge, y con el objetivo de aplicar los nuevos avances en bioqumica y estadstica al proceso industrial de Guiness.2 Gosset desarroll el test t como una forma sencilla de monitorizar la calidad de la famosa cerveza stout. Public su test en la revista inglesa Biometrika en el ao 1908, pero fue forzado a utilizar un seudnimo por su empleador, para mantener en secreto los procesos industriales que se estaban utilizando en la produccin. Aunque de hecho, la identidad de Gosset era conocida por varios de sus compaeros estadsticos.4 Entre los usos mas frecuentes de las pruebas t se encuentran:
El test de locacin de muestra nica por el cual se comprueba si la media de una poblacin distribuida normalmente tiene un valor especificado en una hiptesis nula. El test de locacin para dos muestras, por el cual se comprueba si las medias de dos poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal nombre slo debera ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como iguales; la forma de los ensayos que se utilizan cuando esta asuncin se deja de lado suelen ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comnmente nombradas como pruebas t desapareadas o de muestras independientes, debido a que tienen su aplicacin mas tpica cuando las unidades estadsticas que definen a ambas muestras que estn siendo comparadas no se superponen.5 El test de hiptesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas unidades estadsticas es cero. Por ejemplo, supngase que se mide el tamao del tumor de un paciente con cncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de
muchos pacientes disminuyera de tamao luego de seguir el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o repetidas.5 6
El test para comprobar si la pendiente de una regresin lineal difiere estadsticamente de cero.
La mayor parte de las pruebas estadsticas t tienen la forma , donde Z y s son funciones de los datos estudiados. Tpicamente, Z se disea de forma tal que resulte sensible a la hiptesis alternativa (p.ej. que su magnitud tienda a ser mayor cuando la hiptesis alternativa es verdadera), mientras que s es un parmetro de escala que permite que la distribucin de T pueda ser determinada.
Por ejemplo, en una prueba t de muestra nica, , donde es la media muestral de los datos, n es el tamao muestral, y es la desviacin estndar de la poblacin de datos; s en una prueba de muestra nica es desviacin estndar muestral. Las asunciones subyacentes en una prueba t son:

, donde
es la
Que Z sigue una distribucin normal bajo la hiptesis nula. ps2 sigue una distribucin 2 con p grados de libertad bajo la hiptesis nula, y donde p es una constante positiva. Z y s son estadsticamente independientes.
En una prueba t especfica, estas condiciones son consecuencias de la poblacin que est siendo estudiada, y de la forma en que los datos han sido muestreados. Por ejemplo, en la prueba t de comparacin de medias de dos muestras independientes, deberamos realizar las siguientes asunciones:
Cada una de las dos poblaciones que estn siendo comparadas sigue una distribucin normal. Esto puede ser demostrado utilizando una prueba de normalidad, tales como una prueba Shapiro-Wilk o Kolmogrov-Smirnov, o puede ser determinado grficamente por medio de un grfico de cuantiles normales Q-Q plot. Si se est utilizando la definicin original de Student sobre su prueba t, las dos poblaciones a ser comparadas deben poseer las mismas varianzas, (esto se puede comprobar utilizando una prueba F de igualdad de varianzas, una prueba de Levene, una prueba de Bartlett, o una prueba de Brown-Forsythe, o estimarla grficamente por medio de un grfico Q-Q plot). Si los tamaos muestrales de los dos grupos comparados son iguales, la prueba original de Student es altamente resistente a la presencia de varianzas desiguales.7 la Prueba de Welch es insensible a la igualdad de
las varianzas, independientemente de si los tamaos de muestra son similares.
Los datos usados para llevar a cabo la prueba deben ser muestreados independientemente para cada una de las dos poblaciones que se comparan. Esto en general no es posible determinarlo a partir de los datos, pero si se conoce que los datos han sido muestreados de manera dependiente (por ejemplo si fueron muestreados por grupos), entonces la prueba t clsica que aqu se analiza, puede conducir a resultados errneos.
Las expresiones explcitas que pueden ser utilizadas para obtener varias pruebas t se dan a continuacin. En cada caso, se muestra la frmula para una prueba estadstica que o bien siga exactamente o aproxime a una distribucin t de Student bajo la hiptesis nula. Adems, se dan los apropiados grados de libertad en cada caso. Cada una de estas estadsticas se pueden utilizar para llevar a cabo ya sea un prueba de una cola o prueba de dos colas. Una vez que se ha determinado un valor t, es posible encontrar un valor P asociado utilizando para ello una tabla de valores de distribucin t de Student. Si el valor P calulado es menor al lmite elegido por significancia estadstica (usualmente a niveles de significancia 0,10; 0,05 o 0,01), entonces la hiptesis nula se rechaza en favor de la hiptesis alternativa. Prueba t para muestra nica En esta prueba se evala la hiptesis nula de que la media de la poblacin estudiada es igual a un valor especificado 0, se hace uso del estadstico:
donde es la media muestral, s es la desviacin estndar muestral y n es el tamao de la muestra. Los grados de libertad utilizados en esta prueba se corresponden al valor n 1. Pendiente de una regresin lineal Supngase que se est ajustando el modelo:
donde xi, i = 1, ..., n son conocidos, y son desconocidos, y i es el error aleatorio en los residuales que se encuentra normalmente distribuido, con un valor esperado 0 y una varianza desconocida 2, e Yi, i = 1, ..., n son las observaciones.
Se desea probar la hiptesis nula de que la pendiente es igual a algn valor especificado 0 (a menudo toma el valor 0, en cuyo caso la hiptesis es que x e y no estn relacionados). sea
Luego
tiene una distribucin t con n 2 grados de libertad si la hiptesis nula es verdadera. El error estndar de la pendiente:
puede ser reescrito en trminos de los residuales:
Luego
se encuentra dado por:
Prueba t para dos muestras independientes Iguales tamaos muestrales, iguales varianzas Esta prueba se utiliza slamente cuando:

los dos tamaos muestrales (esto es, el nmero, n, de participantes en cada grupo) son iguales; se puede asumir que las dos distribuciones poseen la misma varianza.
Las violaciones a estos presupuestos se discuten mas abajo. El estadstico t a probar si las medias son diferentes se puede calcular como sigue:
Donde
Aqu es la desviacin estndar combinada, 1 = grupo uno, 2 = grupo 2. El denominador de t es el error estndar de la diferencia entre las dos medias. Por prueba de significancia, los grados de libertad de esta prueba se obtienen como 2n 2 donde n es el nmero de participantes en cada grupo. Diferentes tamaos muestrales, iguales varianzas Esta prueba se puede utilizar nicamente si se puede asumir que las dos distribuciones poseen la misma varianza. (Cuando este presupuesto se viola, mirar mas abajo). El estadstico t si las medias son diferentes puede ser calculado como sigue:
Donde
Ntese que las frmulas de arriba, son generalizaciones del caso que se da cuando ambas muestras poseen igual tamao (sustituyendo n por n1 y n2). es un estimador de la desviacin estndar comn de ambas muestras: esto se define as para que su cuadrado sea un estimador sin sesgo de la varianza comun sea o no la media iguales. En esta frmula, n = nmero de participantes, 1 = grupo uno, 2 = grupo dos. n 1 es el nmero de grados de libertad para cada grupo, y el tamao muestral total menos dos (esto es, n1 + n2 2) es el nmero de grados de libertad utilizados para la prueba de significancia. Diferentes tamaos muestrales, diferentes varianzas Esta prueba es tambin conocida como prueba t de Welch y es utilizada nicamente cuando se puede asumir que las dos varianzas poblacionales son diferentes (los tamaos muestrales pueden o no ser iguales) y por lo tanto deben ser estimadas por separado. El estadstico t a probar cuando las medias poblacionales son distintas puede ser calculado como sigue:
donde
Aqu s2 es el estimador sin sesgo de la varianza de las dos muestras, n = nmero de participantes, 1 = grupo uno, 2 = grupo dos. Ntese que en este caso, no es la varianza combinada. Para su utilizacin en pruebas de significancia, la distribucin de este estadstico es aproximadamente igual a una distribucin t ordinaria con los grados de libertad calculados segn:
Esta ecuacin es llamada la ecuacin WelchSatterthwaite. Ntese que la
verdadera distribucin de este estadstico de hecho depende (ligeramente) de dos varianzas desconocidas. Prueba t dependiente para muestras apareadas Esta prueba se utiliza cuando las muestras son dependientes; esto es, cuando se trata de una nica muestra que ha sido evaluada dos veces (muestras repetidas) o cuando las dos muestras han sido emparejadas o apareadas. Este es un ejemplo de un test de diferencia apareada.
Para esta ecuacin, la diferencia entre todos los pares tiene que ser calculada. Los pares se han formado ya sea con resultados de una persona antes y despus de la evaluacin o entre pares de personas emparejadas en grupos de significancia (por ejemplo, tomados de la misma familia o grupo de edad: vase la tabla). La media (XD) y la desviacin estndar (sD) de tales diferencias se han utilizado en la ecuacin. La constante 0 es diferente de cero si se desea probar si la media de las diferencias es significativamente diferente de 0. Los grados de libertad utilizados son n 1. Ejemplo repetidas de muestras Test Test 1 2 35% 67% 50% 46% 90% 86% 78% 91% Ejemplo emparejados Par 1 1 2 2 Nombre Juan Joana Jaimito Jesica de Edad 35 36 22 21 pares Test 250 340 460 200
Nmero Nombre 1 2 3 4 Miguel Melanie Melisa Michell
2.4.3.- Prueba de Cuadrado

Quizs sea sta una de las pruebas ms conocidas y usada, siendo una prueba idnea para valorar de forma estadstica las diferencias entre frecuencias de k muestras independientes. Estas frecuencias son dos: las frecuencias observadas (f0), tras la recogida de datos, y las frecuencias tericas o esperadas (f t) de acuerdo con algn modelo terico. Antes de continuar, debemos recordar que esta prueba no debe ser empleada cuando se da alguna de las siguientes situaciones: - Cuando ms del 20% de las casillas presentan frecuencias esperadas menores que 5. - Cuando alguna celda o casilla tiene una frecuencia esperada menor de 1. En esta prueba, tos pasos a seguir son los siguientes: 1. Hiptesis: Hiptesis nula: No existen diferencias entre los grupos. Hiptesis alternativa: Hay diferencias entre los grupos. 2. Estadstico de contraste: Antes de empezar, deberemos construir una tabla de contigencia de s filas por k columnas en la que se crucen las muestras que van a ser comparadas con las modalidades de respuesta de la variable medida en escala nominal. El estadstico de contraste es chi cuadrado, que se define como:
donde f0 es la frecuencia observada y ft es la frecuencia terica o esperada. Este estadstico se distribuye segn chi cuadrado con (s-l)(k-l) grados de libertad. Normalmente, el valor de la frecuencia esperada se calcula partiendo de que los sujetos se reparten de forma equitativa en cada categora o de forma proporcional a las frecuencias marginales (suma de las frecuencias de las filas y de las columnas). En este ltimo caso, el valor de la frecuencia esperada se determina de la siguiente manera:
en la que fc es la frecuencia de la columna y ff es la frecuencia de la fila. 3. Comparacin con el valor crtico y decisin. Una vez ms, procederemos a buscar en la tabla correspondiente el valor crtico adecuado para nuestro nivel de significacin y los "grados de libertad, y decidir si rechazamos o no la hiptesis nula.
2.4.4.- Anlisis de varianza

El anlisis de varianza lo vamos a utilizar para verificar si hay diferencias estadsticamente significativas entre medias cuando tenemos ms de dos muestras o grupos en el mismo planteamiento. En estos casos no utilizamos la t de Student que solamente es un procedimiento vlido cuando comparamos nicamente las medias de dos muestras. Como explicaremos ms adelante, cuando tenemos ms de dos muestras y comparamos las medias de dos en dos suben las probabilidades de error al rechazar la hiptesis de no diferencia porque queda suficientemente explicada por factores aleatorios (que tambin se denomina error muestral). En primer lugar recordamos qu es la varianza y qu nos cuantifica. La frmula de la varianza ya nos es conocida; es la desviacin tpica elevada al cuadrado: 2 = (X M)2 N Utilizamos el smbolo X para designar las puntuaciones individuales, y el smbolo M para designar la media aritmtica de la muestra; va a ser el smbolo de la desviacin tpica de la muestra si no se indica expresamente que se trata del smbolo de la desviacin tpica de la poblacin1. El denominador ser N-1 si queremos obtener una estimacin de la varianza de la poblacin. Esto es lo que haremos habitualmente en el clculo de las varianzas propias del anlisis de varianza.
Una varianza grande indica que hay mucha variacin entre los sujetos, que hay mayores diferencias individuales con respecto a la media; una varianza pequea nos indica poca variabilidad entre los sujetos, diferencias menores entre los sujetos. La varianza cuantifica todo lo que hay de diferente entre los sujetos u observaciones. Como iremos viendo la varianza se puede descomponer en varianzas parciales y a este descomponer la varianza le denominamos anlisis de varianza. La varianza expresa variacin, y si podemos descomponer la varianza, podemos aislar fuentes de variacin. Cuando de los sujetos tenemos varios tipos de informacin, el anlisis de varianza nos va a responder a esta pregunta De dnde vienen las diferencias? El anlisis de varianza no constituye un mtodo o procedimiento nico; segn los diseos y datos disponibles existen diversos modelos de anlisis de varianza. En esta introduccin nos referiremos al anlisis de varianza para varias muestras independientes, y ms concretamente al anlisis de varianza para slo dos muestras independientes (aunque en este caso solemos utilizar la t de Student) porque es de comprensin ms sencilla. La misma explicacin bsica se puede extrapolar a otras situaciones (ms de dos muestras independientes, ms de dos muestras relacionadas, diseos factoriales, etc., que iremos viendo ms adelante). Con la t de Student comprobamos si existe una diferencia estadsticamente significativa entre las medias de dos muestras o grupos; es decir, comprobamos si las dos medias difieren ms de lo que consideramos normal cuando las muestras proceden de la misma poblacin o, lo que es lo mismo, si las medias no difieren entre s ms de lo que es normal que difieran los sujetos entre s. Con el anlisis de varianza comprobamos si existen diferencias estadsticamente significativas entre ms de dos grupos, es decir, comprobamos si las diversas muestras podemos considerarlas muestras aleatorias de la misma poblacin. Es el mtodo apropiado cuando tenemos ms de dos grupos en el mismo planteamiento; en vez de comparar las medias de dos en dos, utilizamos el anlisis de varianza (y ya veremos por qu). Cuando tenemos solamente dos muestras tambin podemos utilizar el anlisis de varianza para comparar dos muestras en vez de la t de Student, pero con slo dos muestras es ms cmodo utilizar los procedimientos tradicionales del contraste de medias (t de Student). Lo que directamente comprobamos en el anlisis de varianza es si entre dos o ms varianzas existen diferencias estadsticamente significativas, pero lo que realmente deseamos comprobar es si hay diferencias entre una serie de medias. Lo primero que hay que comprender, al menos de una manera simple e intuitiva, es que al comprobar si hay diferencia entre dos varianzas (enseguida veremos de
qu dos varianzas estamos hablando), llegamos a una conclusin sobre si hay diferencias entre las medias. Una dificultad inicial que suele presentar el estudio del anlisis de varianza es el uso de trminos nuevos, por eso es til familiarizarse con estos trminos ya desde el principio. Realmente los conceptos no son nuevos, solamente pueden resultar relativamente nuevos los trminos para designarlos. Cuando se cae en la cuenta de que se trata de lo que ya sabemos, desaparece la dificultad. Recordamos la frmula de la varianza: 2 = (X -M)2 N -1 Es decir, se trata de una razn o quebrado con un numerador y un denominador (que ahora es N-1, y no N simplemente, porque se trata de una estimacin de la varianza de la poblacin). A este numerador y denominador de la varianza nos vamos a ir refiriendo por separado utilizando los nuevos trminos, que por otra parte no son arbitrarios y nos ayudarn a entender cmo se analiza o descompone la varianza. El numerador de la varianza o suma de cuadrados La suma de las diferencias de todos los datos con respecto a la media, elevadas previamente al cuadrado [(X-M)2] es el numerador de la varianza. A este numerador se le denomina Suma de Cuadrados y su smbolo habitual es SC. No es raro encontrarse con el smbolo SS, que significa lo mismo pero en ingls (Sum of Squares). La expresin (X-M)2 tambin suele simbolizarse x2 (la equis minscula, x, es smbolo frecuente de X- M), y tambin se utiliza a veces d2 (d = diferencia de cada puntuacin individual con respecto a la media). Como la varianza de la muestra es 2 = (X - M)2 N podemos tambin expresar, y calcular, la suma de cuadrados [(X-M)2] de esta forma (despejndola de la frmula precedente): Numerador de la varianza o Suma de Cuadrados: (X-M)2 = N2 Esta expresin del numerador de la varianza o suma de cuadrados (N2) es muy importante porque, como ya hemos indicado, facilita mucho el clculo de la suma de cuadrados cuando se dispone de una calculadora con programacin estadstica que nos da directamente el valor de la desviacin tpica (), como iremos viendo al explicar los diversos mtodos. La Suma de Cuadrados, o numerador de la varianza, se puede por lo tanto expresar o simbolizar de estas maneras: Numerador de la varianza o Suma de Cuadrados: SC = (X-M)2 = x2 = d2 = N2
El denominador de la varianza o grados de libertad El denominador de la varianza es el nmero de sujetos menos uno, o, segn los casos, el nmero de grupos o nmero de criterios de clasificacin, menos uno (N 1, k-1, etc.). Restamos una unidad porque se trata de estimaciones de la varianza en la poblacin. El trmino habitual de este denominador es grados de libertad y ya nos resulta conocido. El smbolo habitual de los grados de libertad es gl (en ingls encontraremos el trmino degrees of freedom simbolizado como df). El anlisis de varianza admite gran variedad de planteamientos distintos y es el mtodo adecuado para plantear y analizar muchos diseos experimentales y cuasi-experimentales, y tambin estudios exploratorios. Los que vamos a exponer son los siguientes: 1 Para varias muestras independientes 2 Para varias muestras relacionadas 3 Para diseos factoriales (tablas de doble entrada) 4 Para verificar tendencias a creer o decrecer 5 Algunas variantes de los diseos factoriales Los textos bsicos de estadstica e investigacin suelen traer al menos los dos primeros (para ms de dos muestras independientes o relacionadas); en ambos modelos encajan muchos posibles diseos de investigacin. Tambin es frecuente encontrar el modelo ms comn de anlisis de varianza para diseos factoriales; menos frecuente es encontrar en textos bsicos el anlisis de varianza para verificar tendencias (muy til en investigacin sociolgica, educacional y psicolgica) y las diversas variantes de los diseos factoriales. Hay otros muchos modelos de anlisis de varianza que se pueden resolver con facilidad (o al menos entender) mediante procedimientos anlogos a los explicados aqu. El tener a la vista, y con ejemplos resueltos, varios modelos de anlisis de varianza es til por varias razones que se complementan entre s. 1. El qu hacemos, o qu planteamos, en una investigacin depende en buena medida de qu sabemos hacer. Si sabemos de qu anlisis disponemos, podemos pensar en planteamientos que nunca se nos haban ocurrido. Por otra parte el qu sabemos hacer no es exacto: nos basta saber qu podemos aprender o qu podemos buscar o repasar si ha habido un estudio previo; en definitiva lo que importa es saber qu anlisis tenemos de alguna manera disponibles. 2. Muchos posibles anlisis de varianza coinciden con diseos experimentales o cuasi-experimentales especficos. A veces podemos pensar en diseos, estudiados a veces de un modo ms terico y abstracto pero sin referencia a planteamientos y modos de anlisis especficos. Esto puede llevar despus a
diseos mal planteados o inabordables, en definitiva a un aprendizaje inoperante. Una manera de abordar el aprendizaje de los diseos es ver y aprender simultneamente cmo se pueden analizar los datos en cada diseo. Lo mismo sucede con el control de determinadas variables, que puede verse tambin incorporado en el planteamiento de algunos modelos de anlisis de varianza. 3. Con frecuencia se nos ocurren preguntas de investigacin a las que despus no sabemos dar respuesta. Puede ser interesante examinar primero posibles repuestas y pensar despus qu preguntas queremos (o podemos) hacernos Los anlisis estadsticos nos brindan respuestas a posibles preguntas: si tenemos un repertorio amplio de posibles respuestas, pensaremos con ms facilidad en preguntas de inters. 4. En definitiva, y como ya se ha indicado, en el anlisis de varianza disponemos de dos tipos de datos: a) Datos en la variable dependiente (qu medimos, qu preguntamos, qu observamos en los sujetos) y b) Cmo estn clasificados en categoras Lo que hacemos con el anlisis de varianza es comprobar si los datos de la variable dependiente tienen que ver con cmo estn seleccionados y clasificados los sujetos (u objetos). En buena medida los modelos de anlisis de varianza que vamos a exponer no son otra cosa que modos de clasificar a los sujetos, que a su vez nos pueden sugerir numerosas preguntas y planteamientos de investigacin.

Estadistica Descriptiva - Unidad II - D

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadistica Descriptiva - Unidad II - D

Uploaded by

Copyright:

Available Formats

2.4.2.

las varianzas, independientemente de si los tamaos de muestra son similares.

puede ser reescrito en trminos de los residuales:

se encuentra dado por:

Esta ecuacin es llamada la ecuacin WelchSatterthwaite. Ntese que la

Nmero Nombre 1 2 3 4 Miguel Melanie Melisa Michell

2.4.3.- Prueba de Cuadrado

2.4.4.- Anlisis de varianza

You might also like