You are on page 1of 19

T.

11 Inferencia estadstica



1. La estimacin de parmetros
2. La distribucin muestral de un estadstico
3. Estimacin por intervalos de confianza



La inferencia estadstica es un tipo de razonamiento que procede de lo concreto a lo general: intenta
extraer conclusiones sobre los parmetros de una poblacin a partir de la informacin contenida en
los estadsticos de una muestra de esa poblacin (Pardo y San Martn, 2001).

1. La estimacin de parmetros

La inferencia estadstica asume que se cuenta con datos de una muestra y que se desea conocer
cules son las caractersticas (ya sea la media, la mediana, la curtosis o cualquier otra que nos
interese), no de esa muestra, sino de la poblacin a la que esa muestra pertenece. A los valores de
esas caractersticas a nivel poblacional se les conoce como parmetros y se representan
simblicamente con letras griegas (slo algunos de ellos):
2
0 1
, , , , , , , ...
X X X X XY XY
.

Para conocer los valores de los parmetros podemos plantearnos, bien recoger datos para todos los
elementos de la poblacin, algo que puede resultar poco viable en muchas situaciones prcticas, bien
realizar una estimacin de los mismos a partir de los datos de una muestra. Esta segunda va es
mucho ms habitual en la prctica, si bien, supone asumir cierto riesgo de error pues, en cuanto que
estimacin, el valor que obtengamos no tiene porqu coincidir con el verdadero valor de ese
parmetro.

En la literatura se pueden diferenciar dos grandes aproximaciones a la estimacin de parmetros: la
estimacin puntual y la estimacin por intervalos. La diferencia bsica entre ambas a la hora de
estimar un parmetro es que la primera proporciona una estimacin consistente en un valor concreto
(puntual), mientras que la segunda ofrece como estimacin un rango de valores (intervalo). En
Anlisis y Proceso de Datos en Psicologa: T.11 1 Profs. J. Gabriel Molina y Mara F. Rodrigo
realidad, la segunda aproximacin consiste en una extensin de la primera, por lo que ser la
estimacin puntal la que se abordar a regln seguido.

En el caso que se dispusiese de los datos de una poblacin para una determinada variable X, la
obtencin de los parmetros que nos pudieran interesar sera inmediata, bastara con aplicar los
ndices estadsticos correspondientes para todos los datos de la poblacin. Si, por ejemplo,
estuvisemos interesados en conocer los parmetros de la media, de la moda, de la varianza y el
ndice de asimetra intercuartlico de la variable X, los obtendramos aplicando las frmulas que
representan a estos ndices estadsticos:
3 1
2
2 3 1
3 1
( )
2
/ .
i i
X X i i X Q Q
X X X
Q Q Q
Mo x n Max As
N N

+
= = = = =


2
Q Q


Ahora bien, si lo que disponemos es de datos de una muestra de esa poblacin, cmo se obtiene la
estimacin de cualquiera de los anteriores parmetros? Ello se lleva a cabo a travs de la aplicacin
de un estimador del parmetro correspondiente, esto es, una funcin matemtica que permite obtener
una estimacin del valor del parmetro a partir de los datos de la muestra. Pero, cules son esas
funciones que nos permiten obtener estimaciones de los parmetros?

3 1
2
? ? ? X Q
X X
Mo As ? Q = = = =

Como puede observarse en las expresiones anteriores, la estimacin de un parmetro se representa
con un acento circunflejo sobre la letra del parmetro correspondiente, por ejemplo,
X
simboliza
el valor estimado de la desviacin tpica de la variable X en la poblacin.

En realidad, para un determinado parmetro pueden considerarse diferentes funciones matemticas
que nos ofrezcan estimaciones del mismo. Por ejemplo, las siguientes podran ser hipotticas
candidatas a mejor estimador del parmetro de la media (
X
):
2 2
2

2
i i i i i
X X X X X X
X X X X X
n n n n n n
= = = = = =

i
X



Es considerada como mejor estimador de un parmetro determinado, aquella funcin matemtica
que cumpla las siguientes propiedades: ser insesgado, suficiente, consistente, y ms eficiente que los
otros posibles candidatos a estimador del parmetro. A continuacin se describen brevemente estas
propiedades:

1) Ser insesgado: Un estimador es insesgado cuando el promedio de las estimaciones obtenidas
en diferentes muestras es, precisamente, el valor del parmetro que se pretende estimar.
Anlisis y Proceso de Datos en Psicologa: T.11 2 Profs. J. Gabriel Molina y Mara F. Rodrigo
2) Eficiencia: Es ms eficiente aquel estimador cuya variabilidad alrededor del parmetro (error
tpico de la distribucin muestral) sea menor.
3) Consistencia: Un estimador es consistente si la probabilidad de que el valor estimado
coincida con el del parmetro aumenta a medida que el tamao de la muestra crece.
4) Suficiencia: Un estimador es suficiente respecto a un parmetro si agota la informacin
disponible en la muestra aprovechable para la estimacin.

La siguiente figura simboliza, en forma de diana, el cumplimiento de dos de las propiedades que
debe satisfacer un estimador (figura adaptada de Wonnacott y Wonnacott, 1990):


Para el caso del parmetro de la media (
X
), el mejor estimador es precisamente el ndice estadstico
de la media obtenido a partir de los datos de la muestra, esto es, el estadstico de la media ( X ):

i
X
X
X
n
=


Y, en general, los mejores estimadores de los parmetros correspondientes a los ndices estadsticos
tratados a lo largo del curso son esos propios ndices estadsticos obtenidos a partir de la muestra,
esto es, los estadsticos correspondientes. As:

X
X
Mo Mo = ;

X
X
RIC RIC ;

X
X
Md Md ;
Xi Xi
P ;
XY XY
r ...

Existe sin embargo alguna excepcin a la anterior generalizacin. Veamos tres:

- El mejor estimador del parmetro de la varianza (
2
X
) no es el estadstico de la varianza sino el
de la cuasi-varianza ( ):
2
'
X
S
2
2 2
( )
'
1
i
X X
X X
s
n


Ello es debido a que el estadstico de la varianza no cumple el requisito de ser un estimador
insesgado del parmetro de la varianza, mientras que la cuasi-varianza s -de ah que a sta
tambin se le denomine en algunos textos como varianza insesgada. Anlogamente, el mejor
estimador del parmetro de la desviacin tpica es la cuasi-desviacin tpica.
Anlisis y Proceso de Datos en Psicologa: T.11 3 Profs. J. Gabriel Molina y Mara F. Rodrigo
Dos igualdades que pueden resultar de inters en la prctica son las que ponen en relacin
varianza y desviacin tpica con cuasi-varianza y cuasi-desviacin tpica, respectivamente, pues si
conocemos una podremos obtener la otra fcilmente:
2
2
'
1
X
X
s n
s
n

=


'
1
X
X
s n
s
n



- Anlogamente a la varianza, el mejor estimador de la covarianza (
XY
) no es el estadstico de la
covarianza, sino el de la cuasi-covarianza ( ): '
XY
s
'
( ) ( )

1 1
i i i i
XY XY
X X Y Y X Y
s X
n n


= =


Y
Otra igualdad que puede resultar til en la prctica es la que relaciona la covarianza y la cuasi-
covarianza:
'
1
XY
XY
s n
s
n

=



Ejercicio 1: A partir de los siguientes datos en la variables Edad (X) y N de ataques epilpticos
(Y) en una muestra de jvenes con diagnstico de epilepsia, obtener una estimacin del parmetro de
la media de Edad, de la mediana y de la varianza de N de ataques epilpticos, y de la covarianza
y del coeficiente de correlacin de Pearson entre ambas variables (

2
, , , , Y
X Y XY XY
Md ).
X Y
18 4
19 5
15 3
11 1
17 3
13 2
14 3

A modo de resumen, los estimadores tratados en esta seccin ofrecen una estimacin puntual de un
parmetro, pues se le atribuye al parmetro el valor concreto (puntual) obtenido a partir de la funcin
matemtica utilizada como estimador del mismo. Complementaria a esta estrategia, se abordar en
una seccin posterior la conocida como estimacin por intervalos.

2. La distribucin muestral de un estadstico

La estimacin de un parmetro determinado (por ejemplo, la mediana de una variable X) a partir de
la aplicacin de su mejor estimador sobre los datos de una muestra supone obtener un valor (

X Md )
que no tiene por qu coincidir exactamente con el verdadero valor del parmetro (
X
Md ). A esa
diferencia se le conoce como error muestral.
Anlisis y Proceso de Datos en Psicologa: T.11 4 Profs. J. Gabriel Molina y Mara F. Rodrigo

No hay que olvidar que una muestra es un subconjunto aleatorio (en el mejor de los casos) de
entidades de la poblacin y que, por tanto, puede no ser perfectamente representativo de la
poblacin. Prueba de ese error inherente al muestreo es que para distintas muestras extradas de
una misma poblacin, es ms que probable que para un estadstico determinado se obtenga un
resultado distinto en cada una de esas muestras.

Una limitacin importante de los estimadores puntuales es que no ofrecen ningn tipo de
informacin sobre el nivel de error muestral que puede acompaar al valor estimado obtenido.
Obviamente, no ser igual la incertidumbre asociada a una estimacin de un parmetro obtenida a
partir de una muestra de 5 sujetos, que a partir de una de 50 o una de 500. El concepto de distribucin
muestral va a ofrecernos una aproximacin a la valoracin del error muestral asociado a la estimacin
estadstica.

La distribucin muestral de un estadstico consiste en la funcin de probabilidad de un estadstico
(Pardo y San Martn, 2001). Se trata de una funcin que asigna una probabilidad [ estimacin:
frecuencia relativa] a los distintos valores que toma un estadstico en todas las posibles [muchas]
muestras de un mismo tamao extradas de una determinada poblacin.

Ejemplo de la construccin emprica de la distribucin muestral de un estadstico (de dos, en
realidad: media y varianza):
- Sea el caso de la variable N de horas de estudio al da (X) de la que vamos a recoger datos
para los estudiantes de la UVEG.
(Vamos a suponer que desde el ms all nos llega una revelacin estadstica: X se distribuye en la
UVEG normalmente con
X
= 5,73 y
2
X


= 4,03 [X N (5,73 , 2,01)]. Esta informacin nos ser
til para contrastar a posteriori ciertas propiedades de una distribucin muestral.)
3 4 5 6 7 8 9 10
X
0.0
0.1
0.2
0.3

Anlisis y Proceso de Datos en Psicologa: T.11 5 Profs. J. Gabriel Molina y Mara F. Rodrigo
- Se recogen datos en 100 muestras de 10 estudiantes (n = 10) extradas aleatoriamente de la
poblacin de estudiantes de la UVEG. En cada una de esas 100 muestras se calcul la media y la
varianza de X, obtenindose los siguientes resultados:


Media ( X )* Varianza ( )
2
X
s
Muestra1 5,5 3,3
Muestra2 4,5 3,8
Muestra3 5 3,6
Muestra4 6,5 3,5
Muestra5 5 3,6
Muestra6 4,5 3,7
............. ........... .........
............. ........... .........
Muestra100 6 3,6
* Las medias estn redondeadas con una precisin de 0,5 unidades

- Si consideramos a la columna de las medias como una variable y obtenemos la correspondiente
distribucin de frecuencias relativas, lo que obtendremos ser la distribucin muestral del
estadstico de la media para la variable X en muestras de tamao n = 10. En realidad, se trata de
una estimacin de la distribucin muestral verdadera dado que se ha obtenido con 100 muestras y
no el total de las que se pueden extraer de la poblacin.

Distr. de frecuencias de la variable X
n
i
p
i
( P
i
)
4 1 0,01
4,5 4 0,04
5 13 0,13
5,5 31 0,31
6 32 0,32
6,5 12 0,12
7 5 0,05
7,5 2 0,02
100 1

Distr. muestral [emprica] de la media (n=10)
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
3 4 5 6 7 8 9
Media
F
r
e
c
.

r
e
l
a
t
i
v
a


Anlisis y Proceso de Datos en Psicologa: T.11 6 Profs. J. Gabriel Molina y Mara F. Rodrigo
- Mismo ejemplo con la distribucin muestral de la media obtenida a partir de muestras n = 50:
Distr. muestral [emprica] de la media (n=50)
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
3 4 5 6 7 8 9
Media
F
r
e
c
.

r
e
l
a
t
i
v
a

Qu ha cambiado al aumentar el tamao de muestra?

- Por su parte, si en los datos recogidos nos centramos ahora en la columna de las varianzas y
obtenemos la correspondiente distribucin de frecuencias relativas, lo que obtendremos ser la
distribucin muestral del estadstico de la varianza para la variable X en muestras de tamao n =
10.

Distr. de frecuencias de la variable varianza
n
i
p
i
( P
i
)
3,3 6 0,06
3,4 10 0,1
3,5 15 0,15
3,6 20 0,2
3,7 22 0,22
3,8 13 0,13
3,9 9 0,09
4 5 0,05
100 1

Distribucin muestral emprica de la varianza (n=10)
0
0,05
0,1
0,15
0,2
0,25
3 3,2 3,4 3,6 3,8 4 4,2
Varianza
F
r
e
c
.

r
e
l
a
t
i
v
a


Anlisis y Proceso de Datos en Psicologa: T.11 7 Profs. J. Gabriel Molina y Mara F. Rodrigo
- Tal como se ha obtenido para la media y para la varianza, podramos obtener la distribucin
muestral de otros estadsticos para la variable Horas... con muestras de tamao n = 10. Debe
tenerse en cuenta que se tratara de aproximaciones a la distribucin muestral verdadera, dado
que las frecuencias relativas son estimaciones de los verdaderos valores de probabilidad que
caracterizan la definicin de la distribucin muestral de un estadstico.

Las aspectos principales que caracterizan la distribucin muestral de un estadstico son: (1) la forma
de la distribucin; (2) su media (esperanza); y (3) su varianza, ms habitualmente, la desviacin
tpica/estndar, usualmente referida al hablar de una distribucin muestral como error tpico/estndar
(de estimacin).

Cuanto menor sea el error tpico/estndar de estimacin (EE), ello supondr mayor proximidad
entre los valores obtenidos para un estadstico en las posibles muestras que se extraigan de una
poblacin. As, el EE representa un concepto clave a la hora de valorar el nivel de error muestral que
puede acompaar a las inferencias estadsticas que realicemos.

Ahora bien, para tener un indicador del grado de precisin de un determinado estadstico obtenido a
partir de una muestra como estimacin del parmetro poblacional, se ha de obtener ese mismo
estadstico en 99 muestras ms (tantas como posibles, en realidad) a fin de poder conocer el EE de la
distribucin muestral del estadstico aplicado?

Una propiedad fundamental del concepto de distribucin muestral es que, sea cual sea la variable
considerada, sea cual sea el tamao elegido para las muestras, sea cual sea la poblacin de referencia,
una serie de caractersticas comunes son compartidas por las distintas distribuciones muestrales de un
mismo estadstico y, por lo tanto, stas resultarn conocidas ya a priori sin necesidad de construir
empricamente la distribucin muestral de inters. En la siguiente seccin se describen cules son
esas caractersticas para las distribuciones muestrales de los estadsticos de la media, la varianza y la
proporcin.

2.1. Caractersticas de la distribucin muestral de la media

1. Forma de la distribucin: (a) si una variable (X) se distribuye normalmente en la poblacin, la
distribucin muestral del estadstico de la media para esa variable tambin ser normal; (b) en
caso contrario, de acuerdo al conocido como teorema central del lmite, la distribucin
muestral de la media tambin tiende a distribuirse normalmente cuando sta se obtiene con
muestras de 30 o ms entidades (n 30).
Anlisis y Proceso de Datos en Psicologa: T.11 8 Profs. J. Gabriel Molina y Mara F. Rodrigo
2. ( )
[ ]
X X
E X =

3.
2
2
[ ( )]
X
X
VAR X
n

=
( )
[ ]
X
X
EE X
n

=

Algunas consecuencias:
- Dado que la media de la distribucin muestral del estadstico de la media para una determinada
variable X, coincide con la media de esa variable en la poblacin (
X
=
X
), la primera puede
estimarse a partir del mejor estimador de la segunda, la media muestral:
X
X = .
En nuestro ejemplo de la variable N horas..., dado que se obtuvo la distribucin
muestral de la misma para el estadstico de la media, se podra calcular directamente
X
.
Tras hacerlo ( 5, 7
X
7) = , cul puede ser el motivo de que no coincida exactamente con
el valor de
X
que en el enunciado se nos revela (
X
= 5,73)?
- Dado que el EE de la distribucin muestral del estadstico de la media para una determinada
variable es funcin de la desviacin tpica de esa variable en la poblacin, el primero podr
estimarse a partir del mejor estimador de la segunda, la cuasi-desviacin tpica:
'

X
X
s
n
=
.
De nuevo, en nuestro ejemplo de la variable N horas... se podra calcular directamente
2
[ (
X
VAR X )] a partir de la distribucin muestral obtenida. Pero, tras hacerlo (
2
0, 412
X
= ),
por qu no coincide con el valor de
2
X
que en el enunciado se nos revela (
2
X


= 4,03)
dividido por n (
2
4, 03
0, 403
10
X
n

= =
), tal como cabra esperar?
- El EE de la media ser menor cuanto mayor sea el tamao muestral (n) que se considere.
- El EE de la media ser menor cuanto menor sea la varianza de la variable en la poblacin ( ).
2
X

- Al distribuirse normalmente, se puede aprovechar la tabla de la distribucin normal estndar para


contestar a diferentes preguntas de carcter aplicado. Bsicamente, de dos tipos:

1. Obtener la probabilidad asociada a un valor o a un rango de valores de media Para una
variable (X) de la que se conocen los parmetros de la media (
X
) y la desviacin tpica (
X
),
cul es la probabilidad de que para una muestra extrada al azar de esa poblacin se obtenga
una media ( X ) a un valor determinado (o , o entre tal y tal valor)?

Ejercicio 2: sabiendo que las puntuaciones en un test de rendimiento verbal se distribuyen segn
N(5, 1,8) en la poblacin de adultos, cul es la probabilidad de que una muestra de 25
adultos tenga una puntuacin media en el test inferior o igual a 4?
Anlisis y Proceso de Datos en Psicologa: T.11 9 Profs. J. Gabriel Molina y Mara F. Rodrigo
Utilizar la tabla de la curva normal estandarizada implica que antes tendremos que tipificar
el valor de la media a consultar:
X X
X
X
X
X X
z
n


= =
2. Obtener una media o rango de medias asociado a un determinado valor de probabilidad.
Pregunta ms habitual en la prctica (intervalo de prediccin): Para una variable X con
X
y
X

conocidas, entre qu valores se encontrar, con un determinado valor de probabilidad [nivel de
confianza], la media de una muestra extrada al azar de esa poblacin?

Ejercicio 3: sabiendo que las puntuaciones en un test de rendimiento verbal se distribuyen segn
N(5, 1,8) en la poblacin de adultos, entre qu rango de valores central se encontrar, con
un 90% de probabilidades, la puntuacin media de una muestra de 100 adultos extrada al
azar de esa poblacin?

Expresin formal de clculo del intervalo de prediccin (IP) de la media muestral ( X ) para un
determinado nivel de confianza (1-):
inf sup
(1- )( ) , IP X l l =

( )
( )
( ) ( )
( )
( )
2 2
1
, E X z EE X E X z EE X


= + +


( ) ( )
2 2
1
,
X X
X X
z z
n n





= + +




Los valores de z

van a determinar cuan probable es que el intervalo de prediccin contenga la
media muestral. Cuanto mayor se desee que sea esa probabilidad (nivel de confianza), mayores
en valor absoluto sern los valores de z

y, en consecuencia, la amplitud del intervalo. Ello
implica tambin que el intervalo ser menos informativo, menos preciso. El establecimiento de
un IP supone un compromiso entre el nivel de confianza y de precisin de la informacin
ofrecida.

A modo de resumen, un IP ser ms preciso (informativo) cuanto ms estrecho sea, esto es,
cuanto menor sea la distancia entre l
snf
y l
iup
. De la expresin de clculo del IP se deriva que ste
ser ms estrecho cuanto ms bajos sean, bien los valores de z

(lo cual implica menor
probabilidad de que se encuentra la X en el IP), bien el valor de (
x
/n), o sea, cuanto mayor sea
n o cuanto menor sea
x
. Esta ltima,
x
, es un parmetro intrnseco a la variable de inters, no
Anlisis y Proceso de Datos en Psicologa: T.11 10 Profs. J. Gabriel Molina y Mara F. Rodrigo
dependiendo en principio de ninguna decisin externa, cosa que no ocurre con los otros 2
aspectos.

2.1.1. Acerca de (1-) y de los valores z asociados

Se utiliza la expresin (1-) o nivel de confianza para hacer referencia a la probabilidad de que el
intervalo que obtengamos contenga el valor de inters. En cuanto que probabilidad, 0 (1-) 1, si
bien, suele expresarse tambin como % .

Y se utiliza la letra o nivel de riesgo para hacer referencia a la probabilidad complementaria a la
anterior por ejemplo, en el IP de la media que fue construido anteriormente, 0,10 (= ) representa la
probabilidad de que el IP que se ha construido no contenga el valor de la media de una muestra
extrada al azar de la poblacin. (0 1).

Valores de la distribucin normal estandarizada asociados a niveles de confianza/riesgo concretos:

Z
(/2)
Z
(1 - /2)
/2 (1- )
-1 1 0,16 [16%] 0,32 [32%] 0,68 [68%]
-1,64 1,64 0,05 [5%] 0,10 [10%] 0,90 [90%]
-1,96 1,96 0,025 [2,5%] 0,05 [5%] 0,95 [95%]
-2 2 0,023 [2,3%] 0,046 [4,6%] 0,954 [95,4%]
-2,58 2,58 0,005 [0,5%] 0,01 [1%] 0,99 [99%]
-3 3 0,0013[0,13%] 0,0026 [0,26%] 0,9974 [99,74%]



2.3. Distribucin muestral de la varianza
1. Forma de la distribucin: La de la distribucin
2
con (n-1) grados de libertad, donde n es el
tamao de muestra con que es construida la distribucin muestral.
2. ( ) 2
2 2
-1
[ ]
X
X X
s
n
E S
n


=



3. ( )
( )
2
2 2
2 -1
[ ]
X
X X
s
n
EE S
n
= =
Anlisis y Proceso de Datos en Psicologa: T.11 11 Profs. J. Gabriel Molina y Mara F. Rodrigo
Algunas consecuencias (anlogas a las vistas para la distribucin muestral de la media):
- Dado que la media de la distribucin muestral de la varianza para una determinada variable
(
2
X
s
) es funcin de la varianza de esa variable en la poblacin (
2
X
), la primera podr estimarse
a partir del mejor estimador de la segunda, la cuasi-varianza:
2
2
2 2 1
( )
-1 -1
'
1
X
n
i
i
X X
s
X X
n n
s s
n n n

=


= = =





En nuestro ejemplo de la variable N horas..., dado que se obtuvo la distribucin muestral de la
misma para el estadstico de la varianza, se podra calcular directamente
2
X
s
. Tras hacerlo
2
( 3, 64)
X
s
= , cul puede ser el motivo de que no coincida exactamente con el valor revelado de
2
X
(=4,03), multiplicado por
-1 n
n
[
2
-1 9
4, 03 3, 63
10
X
n
n


= =


], tal como cabra esperar?
- Dado que el EE de la distribucin muestral de la varianza para una determinada variable viene
determinado por la varianza de esa variable en la poblacin, el primero podr estimarse a partir
del mejor estimador de la segunda, la cuasi-varianza:
2
2
2( 1)
'
X
X
s
n
s
n


= .
- Al distribuirse segn la funcin de la distribucin ji-cuadrado, se puede aprovechar la tabla de
esta distribucin para contestar a diferentes preguntas de carcter aplicado. Bsicamente, de dos
tipos:
1. Obtener la probabilidad asociado a un valor o a un rango de valores de la varianzas.
2. Obtener el intervalo de prediccin de la varianza para una muestra extrada al azar de
una poblacin [IP(1-)]. Clculo:
( ) ( ) ( ) ( ) ( )
2 2
2 2 2 2 2 2
( 1)( ) ( 1)(1 )
(1 ) ,
X X X X n n
IP S E S EE S E S EE S



2
X

= + +


( ) ( )
2 2
2 2 2 2 2 2
( 1)( ) ( 1)(1 )
2 -1 2 -1
,
X X X n n
n n
n n

X



= + +



2.3. Distribucin muestral (del estadstico) de la proporcin (asociada a una determinada
categora de una variable nominal)

1. Forma de la distribucin: La de la distribucin binomial, B(n,
Xi
), donde
Xi
es la proporcin
asociada a la categora i de la variable categrica X en la poblacin, y n es el tamao de
muestra con que se ha construido la distribucin muestral.
Anlisis y Proceso de Datos en Psicologa: T.11 12 Profs. J. Gabriel Molina y Mara F. Rodrigo
Si el tamao de muestra es suficientemente grande, la forma de la distribucin muestral de la
proporcin puede considerarse como normal. Criterio de muestra grande que se suele
considerar en la prctica: n
Xi
5 y n(1-
Xi
) 5
2. ( ) [ ]
Xi
P Xi
E p
Xi
=
3. ( )
( )
2
1
[ ]
P
Xi
Xi Xi
Xi
VAR p
n


=
( )
( ) 1
[ ]
P
Xi
Xi Xi
Xi
EE p
n


=

Algunas consecuencias prcticas (anlogas a las de la distribucin muestral de la media):
- Dado que la esperanza de la distribucin muestral del estadstico de la proporcin para una
determinada categora de una variable (
Xi
P
) coincide con el correspondiente parmetro (
Xi
), la
primera puede estimarse a partir del mejor estimador del segundo, la proporcin muestral:

Xi
P Xi
p = .
Sea el caso de la variable Sexo: una estimacin de la media de la distribucin muestral de
la categora Mujer (
mujer
P
) para muestras de tamao, por ejemplo 100, podra obtenerse a
partir del clculo de la proporcin de mujeres en una muestra n = 100.

- Anlogamente, el EE de la distribucin muestral de la proporcin de una variable, para una
determinada categora de esa variable, podr estimarse a partir de la proporcin muestral de esa
categora:
( ) 1

P
Xi
Xi Xi
p p
n


=
Siguiendo con el ejemplo de la variable Sexo, si en una muestra de tamao 100 de la
poblacin de inters obtenemos que la proporcin de mujeres es 0,65, este dato nos
permite realizar una estimacin de las propiedades de la distribucin muestral del
estadstico de la proporcin en la variable Sexo para la categora Mujer:
0, 65 0, 35
0, 65 0, 048
100
mujer mujer
p p


= = =
)

Como adems, 0,65100 > 5 y 0,35100 > 5, entonces tambin podemos asumir que esta
distribucin muestral sigue la curva normal N(0,65 , 0,048)

- Dada la frmula del EE de la distribucin muestral de la proporcin, ste ser menor cuanto
mayor sea el tamao muestral (n) que se considere.

- Tambin ser el EE menor cuanto ms pequeo sea el numerador de EE (= (1
Xi Xi
), esto
es, cuanto ms alejado est
Xi
de 0,5.
Anlisis y Proceso de Datos en Psicologa: T.11 13 Profs. J. Gabriel Molina y Mara F. Rodrigo

- Cuando el tamao de la muestra es lo suficientemente grande, se puede aprovechar la tabla de la
distribucin normal unitaria para contestar a diferentes preguntas de carcter aplicado. En caso
contrario, habra que recurrir a la tabla de la distribucin binomial. Se trata, en esencia, de dos
tipos de preguntas:

1. Obtener la probabilidad asociada a un valor o a un rango de valores de proporcin.
Ejemplo: sabiendo que en la poblacin de estudiantes de la UVEG la proporcin de
estudiantes de sexo femenino es 0,60 (
mujer
= 0,60), cul es la probabilidad de extraer una
muestra de 20 estudiantes de la UVEG y que la mitad o menos sean mujeres (p
mujer
0,50)?
Se puede asumir que la distribucin muestral de la proporcin de mujeres en la UVEG para
muestras de tamao 20 se ajusta a la curva normal?
Criterios: 0,6020 = 12 ( 5) y 0,4020 = 8 ( 5) S que se puede
Utilizar la tabla de la curva normal estandarizada implica que antes tendremos que tipificar el
valor de la proporcin a consultar =>
(1 )
Xi
Xi
Xi
Xi p
Xi Xi
p
p Xi X
p
p
z
n
i


= =


Para nuestro ejemplo:
0, 50 0, 60
0, 91
(1 ) 0, 60 0, 40
20
mujer
mujer mujer
p
mujer mujer
p
z
n


= =

=
Por tanto, P(p
mujer
0,50) = P(z -0,91) = 0,18

2. Obtener una proporcin o rango de proporciones asociado a un determinado valor de
probabilidad.
Pregunta ms habitual en la prctica (intervalo de prediccin): Para la categora i de una
variable nominal X de la que se conoce su proporcin en la poblacin de inters (
Xi
), entre
qu valores se encontrar, con un determinado valor de probabilidad [nivel de confianza], la
proporcin de esa categora en una muestra extrada al azar de esa poblacin (p
Xi
)?
Expresin formal de clculo del intervalo de prediccin (IP) de la proporcin muestral (p
Xi
)
para un determinado nivel de confianza (1-):
( )
( )
( ) ( )
( )
( )
2 2
1
(1 )( ) ,
i i i i
X X X X
IP p E p z EE p E p z EE p



= + +

i
X

( )
( )
( )
( )
2 2
1
1 1
,
i i i
i i
X X X X
X X
z z
n n







= + +



i

Anlisis y Proceso de Datos en Psicologa: T.11 14 Profs. J. Gabriel Molina y Mara F. Rodrigo
Ejercicio 4: siguiendo con el ejemplo de la variable Sexo en la poblacin de la UVEG
(
mujer
= 0,60), entre que valores cabe esperar que se encuentre, con una probabilidad del
99%, la proporcin de mujeres en una muestra aleatoria de 100 estudiantes?

Solucin:
[ ]
0, 60 0, 40 0, 60 0, 40
(0, 99)( ) 0, 60 2, 58 , 0, 60 2, 58 0, 317, 0, 883
20 20
Mujeres
IP p


= + =



Anlisis y Proceso de Datos en Psicologa: T.11 15 Profs. J. Gabriel Molina y Mara F. Rodrigo
3. Estimacin basada en intervalos de confianza

3.1. Intervalos de prediccin vs. intervalos de confianza

Ambos conceptos reflejan la complementariedad de la Probabilidad y de la Estadstica:

La teora de la probabilidad establece los procedimientos que permiten realizar predicciones
acerca de las caractersticas (estadsticos) de una muestra extrada al azar de una poblacin en
que esas caractersticas (parmetros) son conocidas. Una tcnica bsica para realizar tal tipo
de prediccin es el intervalo de prediccin (IP), un intervalo de valores que, con un
determinado nivel de confianza, contendr el valor del estadstico. En la seccin anterior se
vio como obtener los IP de la media, la proporcin y la varianza.

La teora estadstica se centra en el estudio de la realizacin de inferencias acerca de las
caractersticas de una poblacin (parmetros) a partir de las caractersticas de una muestra
extrada al azar de esa poblacin (estadsticos). Un procedimiento bsico para realizar tal tipo
de inferencia es el intervalo de confianza (IC), un intervalo de valores que tiene un
determinado nivel de confianza de contener el valor del parmetro.


Ilustracin perteneciente a Ato y cls. (2000).

Anlisis y Proceso de Datos en Psicologa: T.11 16 Profs. J. Gabriel Molina y Mara F. Rodrigo
La estimacin por intervalos de confianza (IC) de un parmetro consiste en obtener un
intervalo de valores a partir de los datos de una muestra de modo que, con una determinada
probabilidad (nivel de confianza), el verdadero valor del parmetro se encontrara en el
intervalo construido.

La obtencin de esos dos valores supone sumar y restar al estadstico obtenido en una muestra
(estimacin puntual del parmetro objeto de inters), un trmino de error que depende de: (1)
el error estndar de la distribucin muestral del estadstico en cuestin; (2) el nivel de
confianza asumido en la definicin del intervalo.
( ) ( )
2 2
1

(1 )( ) ( ) , ( ) IC z EE z EE


= + +



El nivel de confianza de un IC expresa la probabilidad de construir un IC que contenga el
parmetro de inters. Por ejemplo, si creamos un IC en que (1-) es igual a 0.95, ello supone
que si calculamos un mismo IC a partir de distintas muestras, un 95% de los ICs contendra el
valor del parmetro estimado.

3.2. Intervalo de confianza de la media (
X
)

Dada una muestra de la que se hayan obtenido datos para una variable X y en que se conozca
la varianza de esa variable en la poblacin (algo no habitual):
( ) ( )
2 2
1
(1 )( ) ,
X X
X
IC X z X z
n n





= + +




Dada una muestra de la que se hayan obtenido datos para una variable X y en que no sea
conocida la varianza de esa variable en la poblacin:
( ) ( )
2 2
( 1) ( 1) 1
' '
(1 )( ) ,
X X
X
n n
s s
IC X t X t
n n




= + +




A medida que se considera un mayor nmero de grados de libertad en la distribucin t de
Student, sta converge con la distribucin normal. Las diferencias son ya prcticamente
inexistentes para la distribucin t con 30 grados de libertad. En consecuencia, para muestras
de 30 o ms sujetos, se puede utilizar la curva normal para obtener los valores z asociados al
nivel de confianza elegido:
( ) ( )
2 2
' '
1
(1 )( ) ,
X X
X
s s
IC X z X z
n n




= + +



Anlisis y Proceso de Datos en Psicologa: T.11 17 Profs. J. Gabriel Molina y Mara F. Rodrigo
Ejercicio 5: En una muestra de 40 estudiantes se mide el ritmo cardiaco al comienzo de un
examen, obtenindose un valor medio de 123 p.p.m. (varianza = 47). Entre qu valores se
hallar el verdadero valor de ritmo cardiaco promedio para la poblacin de estudiantes con un
nivel de confianza del 90%?

Solucin: IC = 123 1,646,92/6,32 = [121,2 , 124,8]

3.3. Intervalo de confianza de la proporcin (
i
X
)

Si se han obtenido datos para una variable categrica X en una muestra de tamao grande, el
IC para una categora i de esa variable:
( )
( ) ( )
2 2
1
(1 ) (1 )
(1 ) ,
i i i i
i i i
X X X X
X X X
P P P P
IC P z P z
n n





= + +




La consideracin de tamao grande se basa en el criterio n
Xi
5 y n(1-
Xi
) 5, si bien, dado
que no se conoce
Xi
, se utilizan los lmites del IC en el que se estima que est
Xi
. As, los
criterios a satisfacer pasan a ser cuatro:
inf sup inf sup
( ) 5; ( ) 5; (1 ( )) 5; (1 ( )) 5 n L IC n L IC n L IC n L IC

Ejercicio 6: A la misma muestra del ejercicio anterior (n=40) se le pregunt si utilizaban
alguna tcnica de relajacin, siendo 18 los que contestaron afirmativamente. Obtener el IC de
ese parmetro con un nivel de confianza del 95%.

Solucin: IC = 0,45 1,96
0, 45 0, 55
40

= [0,296 , 0,604]
Criterio tamao satisfecho dado que: 0,19640 = 7,84 5; 0,50440 = 20,2 5;
(1-0,196)40 = 32,2 5; (1-0,504)40 = 19,8 5.

3.4. Intervalo de confianza de la varianza (
2
X
)

Dada una muestra de la que se hayan obtenido datos para una variable X:
2 2
2 2
2
2 2
( 1)(1 ) ( 1)( )
(1 )( ) ,
X X
X
n n
n s n s
IC






=




Anlisis y Proceso de Datos en Psicologa: T.11 18 Profs. J. Gabriel Molina y Mara F. Rodrigo
Ejercicio 7: Obtener el IC para la varianza de la variable p.p.m. a partir de los datos del
ejercicio previo al anterior con un = 0,05. Tras consultar la tabla de la distribucin ji-
cuadrado con 39 grados de libertad, se extrae que = 58,1 y = 23,6.
2
(39)(0,975)

2
(39)(0,025)

Solucin: IC = [4047/58,1 , 4047/23,6] = [32,3 , 79,7]




Referencias:
Pardo, A. y San Martn, R. (2001). Anlisis de datos en psicologa II. Madrid: Pirmide.
Ato, M., Losilla, J. M., Navarro, B., Palmer, A. y Rodrigo, M. F. (2000). Del contraste de hiptesis
al modelado estadstico. Tarrasa: CBS (www.edicionsapeticio.com).
Wonnacott, T. H. y Wonnacott, R. J. (1990). Introductory Statistics. New York: Wiley.
Anlisis y Proceso de Datos en Psicologa: T.11 19 Profs. J. Gabriel Molina y Mara F. Rodrigo

You might also like