Professional Documents
Culture Documents
1.- INTRODUCCIN
La Estadstica descriptiva y la teora de la Probabilidad van a ser los pilares de un nuevo procedimiento (Estadstica Inferencial) con los que se va a estudiar el comportamiento global de un fenmeno. La probabilidad y los modelos de distribucin junto con las tcnicas descriptivas, constituyen la base de una nueva forma de interpretar la informacin suministrada por una parcela de la realidad que interesa investigar. En el siguiente esquema representa el tema a tratar y que ser desarrollado a continuacin.
Los mtodos bsicos de la estadstica inferencial son la estimacin y el contraste de hiptesis, que juegan un papel fundamental en la investigacin. Por tanto, algunos de los objetivos que se persiguen en este tema son:
46
Calcular los parmetros de la distribucin de medias o proporciones muestrales de tamao n, extradas de una poblacin de media y varianza conocidas. Estimar la media o la proporcin de una poblacin a partir de la media o proporcin muestral. Utilizar distintos tamaos muestrales para controlar la confianza y el error admitido. Contrastar los resultados obtenidos a partir de muestras. Visualizar grficamente, mediante las respectivas curvas normales, las estimaciones realizadas.
En la mayora de las investigaciones resulta imposible estudiar a todos y cada uno de los individuos de la poblacin ya sea por el coste que supondra, o por la imposibilidad de acceder a ello. Mediante la tcnica inferencial obtendremos conclusiones para una poblacin no observada en su totalidad, a partir de estimaciones o resmenes numricos efectuados sobre la base informativa extrada de una muestra de dicha poblacin. Por tanto, el esquema que se sigue es,
En definitiva, la idea es, a partir de una poblacin se extrae una muestra por algunos de los mtodos existentes, con la que se generan datos numricos que se van a utilizar para generar estadsticos con los que realizar estimaciones o contrastes poblacionales. Existen dos formas de estimar parmetros: la estimacin puntual y la estimacin por intervalo de confianza. En la primera se busca, con base en los datos muestrales, un nico valor estimado para el parmetro. Para la segunda, se determina un intervalo dentro del cual se encuentra el valor del parmetro, con una probabilidad determinada. Si el objetivo del tratamiento estadstico inferencial, es efectuar generalizaciones acerca de la estructura, composicin o comportamiento de las poblaciones no observadas, a partir de una parte de la poblacin, ser necesario que la parcela de poblacin examinada sea representativa del total. Por ello, la seleccin de la muestra requiere unos requisitos que lo garanticen, debe ser representativa y aleatoria.
Apuntes de Estadstica II
47
Adems, la cantidad de elementos que integran la muestra (el tamao de la muestra) depende de mltiples factores, como el dinero y el tiempo disponibles para el estudio, la importancia del tema analizado, la confiabilidad que se espera de los resultados, las caractersticas propias del fenmeno analizado, etctera. As, a partir de la muestra seleccionada se realizan algunos clculos y se estima el valor de los parmetros de la poblacin tales como la media, la varianza, la desviacin estndar, o la forma de la distribucin, etc. El estudio muestral no es un tema que entre a formar parte de este tema, pero si necesitaremos una serie de conceptos necesarios para el desarrollo del tema, y que se detallan a continuacin.
ESTIMADOR: Un estimador * de un parmetro , es un estadstico que se emplea para conocer el parmetro desconocido. ESTADSTICO: Es una funcin de los valores de la muestra. Es una variable aleatoria, cuyos valores dependen de la muestra seleccionada. Su distribucin de probabilidad, se conoce como Distribucin muestral del estadstico. ESTIMACIN: Este trmino indica que a partir de lo observado en una muestra (un resumen estadstico con las medidas que conocemos de Descriptiva) se extrapola o generaliza dicho resultado muestral a la poblacin total, de modo que lo estimado es el valor generalizado a la poblacin. Consiste en la bsqueda del valor de los parmetros poblacionales objeto de estudio. Puede ser puntual o por intervalo de confianza: Puntual: cuando buscamos un valor concreto.
48
Intervalo de confianza: cuando determinamos un intervalo, dentro del cual se supone que va a estar el valor del parmetro que se busca con una cierta probabilidad.
CONTRATE DE HIPTESIS: Consiste en determinar si es aceptable, partiendo de datos muestrales, que la caracterstica o el parmetro poblacional estudiado tome un determinado valor o est dentro de unos determinados valores. NIVEL DE CONFIANZA: Indica la proporcin de veces que acertaramos al afirmar que el parmetro est dentro del intervalo al seleccionar muchas muestras.
1 n (x x)2 i =1 i n 1
Todas las variables aleatorias que forman la muestra verifican que son independientes entre s, que
E[ X i ] = y que su V [ X i ] = 2 .
49
2
n
).
VARIANZA MUESTRAL: Sea X1.....Xn, una m.a.s. independientes e idnticamente distribuidas, definimos el estadstico muestral para la varianza como la cuasivarianza 2 1 n muestral s 2 = 1=1 x1 x , entonces se verifica que: n 1
(n 1)s 2
2 n 1
TOTAL MUESTRAL: Sea X1......Xn, una m.a.s. con E(t)= n y con V(t)= n 2 , entonces se distribuye como una normal: t N n ; n 2 .
50
La media de la muestra puede ser un estimador de la media de la poblacin, la cuasivarianza muestral es un buen estimador de la varianza poblacional y el total muestral es un buen estimador del total poblacional. Por tanto, una definicin ms matemtica de un estimador y las propiedades que debe de cumplir un estimador para ser bueno. Sea X1......Xn, una m.a.s. de tamao n, decimos que es un estimador * de un parmetro si el estadstico que se emplea para conocer dicho parmetro desconocido es este.
Apuntes de Estadstica II
51
La probabilidad de que la media muestral sea igual a la media poblacional es cero, P[x = ] = 0 , es decir, que ser bastante complicado obtener un estimador puntual, por ello se utiliza ms el Intervalo de Confianza y el Contraste de Hiptesis.
52
Con estas definiciones, si tras la extraccin de una muestra se dice que "3 es una estimacin de la media con un margen de error de 0,6 y un nivel de confianza del 99%", podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando, respectivamente, la mitad del error, para obtener el intervalo de confianza segn las definiciones dadas. Para un tamao fijo de la muestra, los conceptos de error y nivel de confianza van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamao del intervalo de confianza, tenemos tambin una mayor probabilidad de xito en nuestra estimacin, es decir, un mayor nivel de confianza. Por tanto, un aspecto que debe de tenerse en cuenta es el tamao muestral, ya que para disminuir el error que se comente habr que aumentar el tamao muestral. Esto se resolver, para un intervalo de confianza cualquiera, despejando el tamao de la muestra en cualquiera de las formulas de los intervalos de confianza que veremos a continuacin, a partir del error mximo permitido. Los intervalos de confianza pueden ser unilaterales o bilaterales: UNILATERAL: P[ X < z ] = 1 P[ X > z ] = 1 . BILATERAL: P z < X < z . 2 2
N( , ), si utilizamos ).
/ n
N (0;1).
Entonces, el intervalo de confianza o la probabilidad para el estimador media con la varianza conocida viene dado por los siguientes parmetros: x P z < < z = P z . < x < z = n 2 / n 2 n 2 2
Apuntes de Estadstica II
P x z . < < x + z . n n 2 2
53
> > x - z /2
] = (1- ).
Ordenando la informacin: P [ x - z /2
< < x + z /2
] = (1- ).
y procediendo de forma anloga a la anterior llegamos a que el intervalo de confianza que buscamos es
s s ; x + z x z . n n 2 2
54
x s/ n
t n 1 .
de manera que si continuamos despejando de forma anloga a los caso anteriores se obtiene un intervalo de confianza: s s I .C . x t ;x + t . n 1; n 1; n n 2 2
Z=
pP pq n
N (0;1) .
Entonces, el intervalo de confianza o la probabilidad para el estimador proporcin viene dado por los siguientes parmetros:
p z 2 pq ; p + z n 2 pq ; . n
Apuntes de Estadstica II
55
56
distribucin de probabilidad, bien al valor o valores de los parmetros que lo definan o bien a ambos. Hiptesis estadstica es, una afirmacin acerca de la distribucin de la poblacin. Puede haber hiptesis estadsticas en contextos paramtricos y no paramtricos. El contraste de hiptesis estadstico se basar en la informacin proporcionada por la muestra. De modo, que si rechazamos la hiptesis, queremos indicar que los datos de la muestra ofrecen cierta evidencia sobre su falsedad. Si la aceptamos simplemente queremos significar que no se rechaza. Un contraste de hiptesis consiste, por tanto, en estudiar dos hiptesis: H0 (hiptesis nula), H1 (hiptesis alternativa), de manera que el investigador divide los resultados muestrales en dos zonas; una zona de rechazo y otra de aceptacin, de manera que segn como obtengamos el resultado, aceptaremos o rechazaremos la hiptesis.
Al aplicar un contraste de hiptesis, clasificamos los puntos del espacio muestral en dos regiones excluyentes y complementarias:
Regin de Rechazo o Regin Crtica: La formada por el conjunto de los valores del estadstico de contraste que nos llevan a rechazar la hiptesis nula H0, se llama regin crtica (los puntos que delimitan la regin crtica se llaman puntos crticos). Regin de Aceptacin o Regin de No Rechazo: Es la formada por el conjunto de los valores del estadstico de contraste que nos lleva a aceptar la hiptesis nula H0.
Apuntes de Estadstica II
57
La hiptesis alternativa es la que se verifica cuando no se verifica la hiptesis nula. El planteamiento de Ho permite elaborar un modelo Probabilstico a partir del cual podemos llegar a la decisin final. A su vez, al plantear una hiptesis, esta puede ser simple o compuesta. Una hiptesis es simple si se especifica exactamente el valor del parmetro. Una hiptesis es compuesta, si contiene dos ms valores del parmetro. La hiptesis nula (Ho) por ser ms concreta suele ser simple y la alternativa, compuesta. Es frecuente plantearlas como complementarias.
5.2.- Supuestos
Las suposiciones que podemos hacer dependiendo del tipo de contraste que necesitemos son: a) Supuestos acerca de las caractersticas de los datos que se van a manipular, como puede ser la independencia de la observaciones, nivel de medida utilizada, etc. b) Supuestos acerca de la forma de distribucin de partida: Normal, Binomial, etc. La violacin de los supuestos podr invalidar ms o menos el modelo probabilstico y llevarnos a decisiones errneas. Concierne al investigador conocer las consecuencias que se derivan de la violacin de tales supuestos sobre el modelo. Por este motivo, si se plantean los supuestos deben ser mnimos y no demasiado exigentes. Por ejemplo, se puede plantear de partida: Poblaciones de partida: normales. Muestras independientes. Observaciones de las muestras: independiente.
58
Este criterio consiste en dividir tal espacio en dos zonas mutuamente excluyentes y exhaustivas: la zona de rechazo o regin crtica y la zona de aceptacin. La zona de rechazo est constituida por aquellos valores del estadstico de contraste que se alejan mucho de Ho, por lo tanto es muy poco probable que ocurran si Ho es verdadera. Por ejemplo, a continuacin se pueden ver dos ejemplos de contrastes, uno unilateral y otro bilateral, aunque se pueden crear muchos ms. Un contraste de hiptesis unilateral es de la forma (hay ms formas): Ho: = o H1: >o Un contraste de hiptesis bilateral es de la forma: Ho: = o H1: o Decidimos que un contraste es unilateral o direccional, si para tomar la decisin de rechazar Ho nos servimos exclusivamente de los valores muy grandes o exclusivamente de los valores muy pequeos del estadstico de contraste.
Decidimos que un contraste es bilateral o no direccional, si utilizamos los valores muy grandes y muy pequeos de los posibles valores del estadstico de contraste.
Si la distribucin, bajo la H1, slo puede estar a la derecha ser ms potente si colocamos a la derecha toda la regin crtica.
Apuntes de Estadstica II
59
Si la distribucin, bajo la H1, puede estar a la derecha o la izquierda sera un test ms potente el que pone parte de la regin crtica a la derecha y parte a la izquierda. El valor se llama nivel de significacin o nivel de riesgo y representa a la probabilidad de que un nivel concreto del estadstico de contraste, caiga en la zona de rechazo o crtica, es decir, es el conjunto de valores del estadstico de contraste que nos lleva a la decisin de rechazar la hiptesis nula. El valor (1-) se llama nivel de confianza, es el conjunto de valores del estadstico de contraste que nos lleva a la decisin de aceptar la hiptesis nula. En los contrates unilaterales est concentrada en uno de los dos extremos de la distribucin, en una nica cola. En los contrastes bilaterales se reparte entre los dos extremos de la distribucin, en las dos colas. Los contrastes unilaterales suelen ser mejores que los contrates bilaterales. La eleccin de uno u otro, est condicionada al planteamiento de la hiptesis alternativa. Ejemplo: Si Ho 0.50 H1 > 0.50 Si Ho = 0.50 H1 0.50 Es unilateral. Es bilateral.
60
De aqu se pueden obtener las siguientes conclusiones que deben de tenerse en cuenta: El ERROR II es el ms grave, al que tambin se le conoce como potencia del contraste, y se representa con la letra .
As, las probabilidades asociadas a los tipos dos tipos de Error vienen dadas por las siguientes expresiones:
1.- Nivel de significacin o tamao del contraste ( ):
Apuntes de Estadstica II
61
que se obtiene al relacionar los posibles valores de H1 con los correspondientes (1-), se llama curva de potencia o funcin de potencia. Cuanto mayor es el nivel de significacin (probabilidad Error Tipo I) mayor es la potencia.
a) Independencia: m.a.s. y poblacin pequea b) Normalidad: Si la muestra es grande no presenta serios problemas. Si la muestra es pequea los contrastes unilaterales aumentan el error. Por lo tanto, si la muestra es grande haremos un contraste unilateral, si utilizamos la distribucin t-student y no se puede asumir que la poblacin es normal.
5.11.2.- Utilizacin de la distribucin T-Student, en el contraste de 1 - 2
62
c) Igualdad de varianzas.
5.11.3.- Utilizacin de la distribucin Chi-Cuadrado ( 2 ), en el contraste 2
El supuesto de normalidad lleva consigo un error, que no podemos corregir aumentando el tamao muestral.
5.11.4.- Utilizacin de la distribucin F-Snedecor en el contraste de 2 1/ 22
No se puede usar si las poblaciones no son normales o los tamaos de las muestras no son grandes. Tampoco debe utilizarse si la independencia no es segura.
Un Contraste de Hiptesis es una prueba insesgada de Ho, si la probabilidad de rechazar Ho cuando es falsa, es igual o mayor que la probabilidad de rechazar Ho cuando es cierta. Es decir, si su potencia es mayor igual que su nivel de significacin.
Consistencia:
Una secuencia de contrastes es consistente frente a todas las alternativas Hi, si su funcin de potencia se aproxima a 1, a medida que n tiende al infinito. Se supone >0 y constante.
p = P Z > z exp .
El p-valor puede considerarse como el valor lmite para que un contraste sea significativo, es decir, elegido un nivel de significacin , se rechazar H0 si p .
Apuntes de Estadstica II
63
).
/ n
N (0;1) .
Podemos hacer tres tipos de contraste. Se presupone que la hiptesis nula es cierta, y se rechaza cuando: A)
H 0 : = 0 H1 : 0
RECHAZO H0 si
x 0 > z / n 2
64
B)
H 0 : 0 H1 : > 0 H 0 : 0 H1 : < 0
RECHAZO H0 si
x 0 > z / n x 0 < z / n
C)
RECHAZO H0 si
Podemos hacer tres tipos de contraste. Se presupone que la hiptesis nula es cierta, y se rechaza cuando: A)
H 0 : = 0 H1 : 0 H 0 : 0 H1 : > 0 H 0 : 0 H1 : < 0
RECHAZO H0 si
x 0 > z s/ n 2
x 0 > z s/ n
B)
RECHAZO H0 si
C)
RECHAZO H0 si
x 0 s/ n
< z
Apuntes de Estadstica II
65
x s/ n
n 1
Podemos hacer tres tipos de contraste. Se presupone que la hiptesis nula es cierta, y se rechaza cuando:
A)
H 0 : = 0 H1 : 0 H 0 : 0 H1 : > 0 H 0 : 0 H1 : < 0
RECHAZO H0 si
x 0 >t n 1; s/ n 2
x 0 > t n 1; s/ n x 0 < t n1; s/ n
B)
RECHAZO H0 si
C)
RECHAZO H0 si
Podemos hacer tres tipos de contraste. Se presupone que la hiptesis nula es cierta, y se rechaza cuando:
A)
H 0 : P = P0 H 1 : P P0
RECHAZO H0 si
p P0 p0 q0 n
> z
2
66
B)
H 0 : P P0 H 1 : P > P0
RECHAZO H0 si
p P0 > z p0 q0 n p P0 < z p0 q0 n
C)
H 0 : P P0 H 1 : P < P0
RECHAZO H0 si
(n 1)s 2
2 n 1 .
Como en este caso, la distribucin del estadstico no es simtrica, podremos hacer tres mismos tipos de contraste, pero en este caso habr que tener en cuenta esa no simetra. Se presupone que la hiptesis nula es cierta, y se rechaza cuando:
A)
H 0 : 2 = 02
2 H1 : 2 0
RECHAZO H0 si
(n 1)s 2 2 ; 2
2 0
B)
2 H 0 : 2 0
H1 : >
2
2 0
RECHAZO H0
si
(n 1)s 2
2 0
2 >
C)
2 H 0 : 2 0 2 H1 : 2 < 0
RECHAZO H0
si
(n 1)s 2 < 2 1 2
0