Professional Documents
Culture Documents
5 AUTHORS, INCLUDING:
Jose Manuel Magallanes
Pontifical Catholic Univer
4 PUBLICATIONS 4 CITATIONS
SEE PROFILE
Lima, Per
Enero 2012
Tour guiado
Por la estadstica
conceptos, vdeos, mapas y ms
Copyrigth 2012
Pontificia Universidad Catlica del Per y J. M. Magallanes
Pontificia Universidad Catlica del Per
Av. Universitaria 1801, San Miguel, Lima 32, Per
Telfono (511) 626-2000
www.pucp.edu.pe
Primera edicin :
Lima, febrero de 2012
ISBN: XXXXXXXXX
9786124057557
Agradecimientos
Al Departamento de Ciencias Sociales y
al Centro de Investigaciones Sociales, Econmicas,
Polticas y Antropolgicas (CISEPA),
por su apoyo en la gestin de este proyecto.
Contenido
Presentacin
. ...................................................................................................9
Introduccin
. .................................................................................................11
2.1. Codificacin........................................................................................... 20
3.3.1. Dispersin.................................................................................. 30
3.3.3. Curtosis...................................................................................... 33
3.3.2. Asimetra................................................................................... 31
Ejercicios
. ..................................................................................................36
Anlisis inferencial:
qu informacin podemos obtener de los datos?....................................... 39
4. Inferencia univariada....................................................................................... 39
5. Inferencia bivariada......................................................................................... 48
5.1.1. R de Pearson.............................................................................. 48
Resumen
Ejercicios
. .................................................................................................60
. .................................................................................................61
Solucionarios ........................................................................................... 63
Links
........................................................................................... 67
Presentacin
El presente material se ha elaborado gracias al financiamiento obtenido del
fondo concursable 2011 del Vicerrectorado Administrativo de la Pontificia
Universidad Catlica del Per. El objetivo de este material ha sido
acercar, con un lenguaje sencillo, diversos conceptos estadsticos bsicos a
estudiantes de Ciencias Sociales y Humanidades dentro y fuera de la PUCP.
Para esto, se ha tenido como estrategia disear un mapa mental web de la
estadstica bsica, preparar videos para cada rama, y preparar un manual
impreso y una wiki que los acompaen.
Cada parte del trabajo estuvo en manos de un alumno de la especialidad de
Ciencia Poltica y Gobierno y los jefes de prctica que he tenido (quienes son
parte del grupo de investigacin del Laboratorio de Computacin Social), lo
que explica el estilo directo y sencillo de explicacin que se aleja de la mayora
de materiales de estadstica existentes. Este tour representa en s la ruta que
mis alumnos crearon para aprobar el curso de Estadstica para el Anlisis
Poltico 1 (el que tiene cierta fama por su exigencia en nuestra especialidad).
Se notar que hay ausencia de bibliografa y es que este trabajo lo han hecho
utilizando sus notas de clase que an guardan con nostalgia y que revivieron
en este proyecto. Tuvimos adems el agrado de contar con la revisin del doctor
Jorge Aragn, profesor de nuestra especialidad en temas metodolgicos. Sin
embargo, cualquier error que an exista es completamente atribuible a mi
falta de verificacin. En todo caso, esperamos sus recomendaciones a la
direccin electrnica estadstica.virtual@pucp.edu.pe puesto que, el objetivo
de este material es que sea un material vivo, que aunque no pueda fcilmente
modificarse en la versin impresa, si lo sea en la wiki y los dems componentes.
Espero que disfruten este aporte a su entrenamiento estadstico que redunde
en su desempeo acadmico y laboral.
Prof. Jos Manuel Magallanes
Director del CISEPA
10
Introduccin
La estadstica es un rea de estudio que cuenta con diversas tcnicas y
mtodos que sirven de apoyo a distintas disciplinas interesadas en analizar
la regularidad de sus objetos de estudio. Es de suma utilidad para la
construccin de modelos que permiten verificar hiptesis y adems, desde
una perspectiva aplicada, apoyar en la toma de decisiones. El conocimiento
matemtico no es requisito obligatorio, pero s el tiempo suficiente para
practicar con los programas y ejemplos que hemos preparado.
En esta ocasin utilizaremos dos programas: Statistical Package for the
Social Sciences (SPSS)1 y R que sern nuestras principales herramientas
para el anlisis estadstico, las cuales se harn cargo de los clculos
matemticos y de la construccin de los reportes numricos y grficos.2
Los contenidos se presentan en dos partes. La primera de ellas aborda lo
que conocemos como anlisis exploratorio. En esta seccin aclararemos
los conceptos de escala, codificacin, recodificacin, estadsticos y medidas
de representacin. La segunda unidad hace una breve introduccin a la
inferencia, tanto de forma univariada como bivariada.
11
12
ESTADSTICA Y METODOLOGA
DE LA INVESTIGACIN
El objetivo de este material es ayudarte a probar hiptesis simples con la
estadstica, tema que es de considerable relevancia dentro del proceso de la
metodologa de la investigacin. Llegar a probar una hiptesis es sencillo
con la ayuda de los programas estadsticos, pero existe una serie de pasos
previos para lograr la formulacin de una hiptesis adecuada. Esos pasos
previos constituyen el esquema bsico de cualquier investigacin.
13
14
15
16
ANLISIS EXPLORATORIO:
CMO ESTN LOS DATOS CON
LOS QUE VAMOS A TRABAJAR?
Explorar significa conocer el comportamiento de las variables de las unidades
de estudio. Para conocer este comportamiento se tienen pasos sencillos, pero
cada uno amerita mucha paciencia y reflexin, los cuales desarrollamos a
continuacin.
17
Mediana
Cuartil inferior (Q1)
25%
Valor mnimo
Valores extremos
Elaboracin propia.
18
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
Elaboracin propia.
19
Podemos hacer distinciones que nos permitan identificar las distintas variables; sin
embargo, la escala de las variables no est definida a priori. Esto quiere decir que
la escala no es intrnseca a una variable cuantitativa o cualitativa; sino que, esta es
determinada por el propio investigador. Por ejemplo, el concepto educacin, puede
ser medido en las tres escalas que hemos mencionado. Para el caso de la escala
nominal, el concepto educacin
2.1. CODIFICACIN
La codificacin es un paso importante para que los programas informticos
traten los datos. Las computadoras son ms eficientes en el tratamiento
estadstico si los datos que manejan son nmeros. Por ello, cuando se
abren y revisan algunas bases de datos en una computadora, todo lo que se
observa son nmeros, aun cuando solo algunos de esos nmeros representan
variables en escala numrica y las dems representan variables en escala
nominal u ordinal. As, en vez de sealar literalmente el nivel educativo,
aparecen nmeros que indican algn nivel de educacin (1 para primaria,
2 para secundaria, etc.).
20
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
Otro uso particular e importante de los cdigos son los valores perdidos
(missing values), que son los cdigos que se utilizan para indicar respuestas
inadecuadas, inapropiadas o faltantes, pero que se indican de manera explcita.
Estos valores no se utilizan en los clculos, de hecho la codificacin que
tienen permite que los programas informticos los ignoren. Normalmente,
por convencin a los valores perdidos se les otorga el valor 99, 999 o se
deja la celda vaca.
2.2. TRANSFORMACIN
Muchas veces es necesario realizar modificaciones a algunas variables de la
data con la que estamos trabajando. Existen dos casos en los que se emplea
la re-codificacin los cuales sern explicados a continuacin.
21
Por ejemplo, si en una data con 1000 casos contamos con la variable ingresos,
es muy probable que existan tantas respuestas distintas como casos. Entonces,
una alternativa es recodificar la variable en intervalos. Por lo general, al valor
mximo de la variable se le resta el valor mnimo y se divide entre el nmero
de intervalos que el investigador crea conveniente. De esta forma se obtiene
la amplitud intervalar, la cual permite crear intervalos regulares. En el caso
de la variable ingresos, si nuestro mayor valor es 5000 y el menor valor es
1000, tomando en cuenta que deseamos crear 5 intervalos, la amplitud de cada
intervalo ser 800, por lo que los intervalos quedaran de la siguiente manera:
[1000; 1800]
]1800; 2600]
]2600; 3400]
]3400; 4200]
]4200; 5000]
22
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
23
Sexo
Vlidos
Mujer
Hombre
Total
Elaboracin propia.
24
Frecuencia
Porcentaje
53
46
99
53.5
46.5
100.0
53.5
100.0
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
Mujer
Hombre
Elaboracin propia.
que la moda sea ms que el 50%, pero si alguien obtiene 49% y los dems
competidores obtienen 21% y 30%, la normatividad peruana indica que esa
moda, aun cuando representa quin obtuvo ms votos, no cumple con la calidad
representativa necesaria para ser declarado Presidente.
Sexo
Mujer
Hombre
Elaboracin propia.
25
Con estos dos grficos y la tabla de frecuencias, Melissa ya tiene para abrir la
primera parte de su informe sobre la composicin de su muestra estudiantil de
Estudios Generales Letras. Habra ms mujeres que varones, pero no puede inferir
todava porque no sabe si la diferencia existente entre ambos grupos es significativa;
es decir, afirmar con un cierto nivel de confianza que esa diferencia se mantiene
en la poblacin.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Grupo 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 4 4 4 5 5 5 5 6 6 6
Grupo 2 1 1 1 1 1 1 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 6 6 6 6 6
Grupo 3 1 2 2 2 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6
q1 md q3
La moda tambin es calculable aqu, pero se prefiere a la mediana para aprovechar las caractersticas
de las variables ordinales.
9
Inter Quartil Range o Rango intercuartil, que es el cuartil 3 menos el cuartil 1.
8
26
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
Como se aprecia, hay tres grupos de datos con diferentes estados10. Cada
grupo va del 1 al 6 (esto podran ser tres series de respuestas en una escala
Likert), pero cada grupo tiene personas (unidades de estudio) que en
conjunto presentan patrones de respuestas diferentes. Ah sealamos las
medianas con md y como cuartiles11 a q1 y q3 (la mediana tiene la propiedad
de ser tambin el cuartil 2). As, los IQR para cada grupo son 2,1 y 2. Por lo
que la mediana del grupo 2 sera la mejor.
En todo caso, hay que tener siempre en cuenta que la mediana siempre indica
el valor o estado debajo del cual est el 50% de la poblacin en la variable
de anlisis. Eso convertira a la mediana en un estadstico muy robusto,
inclusive para los datos de la escala numrica, salvo que la media, la cual
veremos a continuacin, tenga mejores medidas de calidad.
3.3. PARA DATOS EN ESCALA NUMRICA
En las variables numricas se pueden calcular la moda y la mediana, pero
el valor representativo ms apropiado para esta escala es la media.12 Esta es
calculada sumando los valores de cada unidad de estudio y dividiendo el
resultado obtenido por la cantidad de unidades de estudio. La media es mejor
que la mediana en el sentido que utiliza todos los valores para su clculo y la
mediana utiliza las posiciones para su clculo. Pero la mediana siempre nos
dice el valor a la mitad de la distribucin y la media lo har si es de calidad.
Enfaticemos estas diferencias entre media y mediana, para ello imaginemos
que tenemos cinco grupos (A, B, C, D y E) con 11 casos13 cada uno como se
muestra en la Tabla 3.
27
10 11 Media Mediana
Grupo A 30 30 30 30 30 30
30 30
30
30 31 30.09
30.00
Grupo B 30 30 30 30 30 30
30 30
30
30 50 31.82
30.00
Grupo C 29 30 30 30 30 30
30 30
30
30 30 29.91
30.00
Grupo D 20 20 20 20 20 20
30 30
30
30 30 25.45
20.00
Grupo E 20 20 20 20 20 24
30 30
30
30 30 24.91
24.00
Elaboracin propia.
El ejemplo muestra un nmero impar para hallar la mediana, pero si el nmero fuera par se sacara
el promedio de los dos valores que se encuentran en el centro o se aplicara alguna otra tcnica
alternativa para encontrarlo.
14
28
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
que podemos confiar que el valor de ambos representa bien a ese grupo. Pero
si se alejan cada vez ms quiere decir que hay un sesgo; es decir, el valor
representativo obtenido no es muy informativo. En otras palabras, en caso
de alejarse no hay un valor representativo claro para esa variable, por lo que
apostar por la mediana es ms recomendable.
Grfico 4. Histograma.
Elaboracin propia.
29
Media
Mediana
Desviacin tpica
Varianza
Coeficiente de variacin
Mnimo
Mximo
Asimetra
Error tpico de asimetra
Curtosis
Error tpico de curtosis
19.02
19.00
1.726
2.979
0.095
16
22
-0.105
0.243
-0.826
0.481
Elaboracin propia.
30
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
Asimetra
negativa
Distribucin
simtrica
Asimetra
positiva
Elaboracin propia.
15
16
31
Las tres curvas que mostramos ejemplifican las posibles distribuciones que se
pueden generar.
La primera curva (A) indica que los valores mayores de la variable son los
ms comunes o abundantes. A esta forma, como se ve en el grfico se le
denomina asimetra negativa o a la izquierda. Puede suceder que en una
muestra recogida en una universidad la mayora tenga ms de 15 aos de
educacin y que una minora tenga pocos aos estudiando. Consideraremos
que una variable tiene asimetra negativa cuando el valor obtenido en el
estadgrafo de asimetra lleve un signo negativo. Como dato adicional, ante
esta situacin asimtrica, se cumple que la media es menor que la mediana,
y esta es menor que la moda.
La segunda curva (B) nos muestra una mayor frecuencia de los valores medios
y menor a los extremos. En las distribuciones simtricas, la moda, mediana y
media coinciden. Es un poco difcil encontrar una distribucin perfectamente
simtrica en la vida real aunque podemos hipotetizar que si preguntamos las
edades en un saln de quinto ao de secundaria, las edades oscilarn entre 15
a 17 aos en mayor medida, siendo otras edades de menor ocurrencia. Para
reconocer una variable con distribucin simtrica la medida de simetra tiene
que tender a cero. Tener una distribucin normal nos acerca a contar con una
distribucin especial conocida como la normal, la que es requisito para varias
pruebas estadsticas que veremos ms adelante.
La tercera curva (C) nos indica que los valores ms bajos de la variable son
los ms abundantes. Esta curva representa lo que se denomina tcnicamente
una asimetra positiva (los datos estn sesgados a la derecha). Qu tipo de
variable tendr esta forma? Quiz una muestra recogida de los sueldos de la
gente en un distrito de la sierra de Ayacucho bajo la lnea de pobreza, pues se
espera que en general haya mucha gente que gane poco y que los que ganan
ms que el comn de la gente sean muy pocas personas. Cuando una variable
tiene una distribucin parecida a esta figura, la asimetra sale mayor que cero.
Adems, en la asimetra positiva se cumple que la media es mayor que la
mediana, y esta es mayor que la moda.
32
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
3.3.3. Curtosis
Este es otro estadstico que informa sobre la forma de la distribucin de
la variable y nos indica qu tan aplanada (o empinada) est la curva que
representa esa distribucin (Grfico 6). Si el valor saliera positivo alejndose
mucho del cero estaramos seguros de que se trata de una curva empinada.
Si el valor saliera negativo alejndose mucho del cero esperaremos una
bastante plana.17 Cuando una curva es muy empinada se le dice leptocrtica,
cuando est bien aplanada se le denomina platicrtica, y cuando adquiere
una forma acampanada (cuando el valor del ndice de curtosis es o se acerca
a 0) nos referimos a una curva mesocrtica.
Grfico 6. Tipos de curtosis.
B
A
C
Mesocrtica
Leptocrtica
Platicrtica
Elaboracin propia
La palabra mucho no es concreta y el investigador ver de utilizar pruebas auxiliares para verificar
la Curtosis. En el SPSS, la Curtosis aparece adems con su error tpico, y se suele tener como regla
bsica que s habr desvo considerable si el estadstico de Curtosis dividido entre su error tpico es
mayor que 2 en valor absoluto (sin importar el signo). Lo mismo se aplica los valores del coeficiente
de asimetra.
33
Frecuencia
20
15
10
5
0
14
16
18
20
22
24
Edad
Elaboracin propia.
La media es muy buena cuando el histograma muestra que la distribucin de los valores es simtrica,
mesocrtica y unimodal (una sola moda).
18
34
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
35
Ejercicios 1
1. Cul de los cursos que se llevaron el primer ciclo tiene ms
puntaje en promedio?
2. Marque si es correcto:
a. La media del curso de matemtica 1 es 14.
b. La nota que ms se repite es 16.
c. La mediana es la misma en los 3 cursos de historia de letras.
d. Existe mucha variacin en los cursos de matemtica.
e. Hay ms alumnos en las dos primeras escalas del primer semestre.
f. Hay ms desaprobados en los dos cursos de matemtica que en el resto
de cursos.
g. El curso de apreciacin musical es el que agrupa las mejores calificaciones
en el semestre.
h. El curso de lgica es el que tiene ms desviacin tpica tiene.
3. Qu cursos se distribuyen de manera normal en el primer ciclo?
4. Cuntos cursos del segundo semestre son los que tienen una
distribucin sesgada?
5. Se suele decir que:
a. Los cursos de matemtica tienen cada uno un 30% de alumnos
desaprobados.
b. El curso de Apreciacin Musical es el que tiene ms gente aprobada.
c. Hay ms desaprobados en el primer ciclo comparado con el segundo
6. El coeficiente de variacin y rango son medidas de:
a. Dispersin
b. Centralizacin
36
Anlisis exploratorio: cmo estn los datos con los que vamos a trabajar
c. Posicin
d. Concentracin
7. Con el boxplot podemos ver la de la variable
a. Curtosis y simetra nominal
b. Posicin, simetra, dispersin ordinal y numrica
c. Concentracin, posicin y apuntamiento ordinal y numrica.
d. Dispersin y concentracin ordinal, numrica y nominal
8. La barra de error con la desviacin estndar es una grfica que:
a. Visualiza la distribucin de la variable
b. Visualiza la dispersin de la media de la variable
c. Visualiza la concentracin y dispersin de la variable
d. Visualiza la simetra y dispersin de la variable.
9. El histograma permite ver, marque ms de una:
a. El apuntamiento de la variable ordinal.
b. La concentracin y dispersin de la variable numrica discreta.
c. La simetra y apuntamiento de la variable numrica continua.
d. La concentracin de la variable numrica discreta.
10. El boxplot no muestra, marque ms de una:
a. El rango intercuartlico de la variable ordinal.
b. La simetra de la variable numrica.
c. La mediana como medida de centralizacin.
d. El sesgo de la media
11. De las medidas de centralizacin, marque ms de una:
a. La media es la medida ms sensible a los valores extremos.
b. La mediana es la medida menos sensible a los valores atpicos.
c. La moda es una medida tanto para variables numricas y categricas
d. La media pierde representatividad si la distribucin es sesgada.
37
38
ANLISIS INFERENCIAL:
QU INFORMACIN PODEMOS
OBTENER DE LOS DATOS?
Aqu nos toca introducir temas de estadstica inferencial, lo cual nos
permitir deducir propiedades de una poblacin a partir de una muestra. Es
importante recalcar que los resultados obtenidos a travs de esta tcnica son
probabilsticos por lo que dependen de la representatividad de la informacin
obtenida.19 En lo que queda del material, trabajaremos la inferencia
univariada y bivariada.
4. INFERENCIA UNIVARIADA
Los estadsticos de inferencia univariada permiten saber si lo hallado en una
variable de una muestra es suficiente para conocer mejor el comportamiento
de esa variable en la poblacin de inters.
Bsicamente en la inferencia univariada queremos saber dos cosas:
En este material suponemos que tienes tus datos, y que estos han sido obtenidos de un adecuado
proceso de muestreo.
19
39
Sexo Grupo 1
Mujer 53
Grupo 2 Hombre 46
Total
99
0.54
0.50
0.46
1.00
,547a
Elaboracin propia.
La hiptesis nula de esta prueba es que la proporcin del grupo 1 es igual al valor
de prueba. El grupo 1 es, en todos los casos, aquel cuya codificacin es la menor
de los dos valores posibles (para este caso mujer), y el valor de prueba aqu es
el valor por defecto 0.5. En el caso de la tabla 5, al leer la significancia (0.547),
vemos que no rechazamos la hiptesis nula; es decir, la posibilidad de que los
hombres tengan una proporcin igual al de las mujeres (50% en cada uno).
40
53
46
99
0.5
0.8
0.5
1.00
,000
Elaboracin propia.
Melissa refuerza la idea anterior al proponer que por ms de que haya 7 mujeres
ms que los hombres en la muestra, esta diferencia no la vuelve una proporcin
que equivalga el 80% de la poblacin. De la misma forma prueba con el 70% y
el 60% y aade sus resultados a su informe. Guate de los videos y prueba con
otras proporciones t tambin.
41
N observado
N esperado
5
24.8
26
24.8
61
24.8
7
24.8
99
Residual
-19.8
1.3
36.3
-17.8
Estadsticos de contraste
Chi-cuadrado
Gl
Significancia asinttica
Elaboracin propia.
20
42
X
X 1 68.3%
X 2 95.5%
X 3 99.7%
Elaborado por Jess Garca.
43
Para ver si una variable tiene este comportamiento normal debemos aplicar
una prueba de normalidad, conocida como Shapiro-Wilk u otra llamada
Kolmogorov-Smirnov, las cuales hipotetizan que la variable en cuestin
se distribuye normalmente. Para la variable notas en tica se aplic esta
prueba y se obtuvo (Tabla 8).
Tabla 8. Prueba de normalidad de la variable notas en tica.
Pruebas de normalidad
Kolmogorov-Smirnov
Estadstico
gl
Significancia
tica
0.119
97
0.002
Estadstico
0.963
Shapiro-Wilk
gl
Significancia
97
0.008
Elaboracin propia.
44
Media
Desviacin tpica
Matemtica 1
99
14.08
3.431
0.345
Valor de prueba = 0
t
gl Significancia(bilateral) Diferencia
de medias
Matemtica 1 40.839 98
0.000
14.081
14.77
El valor de 95% es el valor que los programas usan por defecto en general, pero eso se puede alterar
segn desee el investigador.
21
45
Para las variables que no cumplan con la normalidad, Melissa opt por la prueba
Wilcoxon y as termin de hacer su anlisis sobre el rendimiento del alumnado
por curso. Dado que esta opcin en el SPSS no nos ofrece el intervalo para la
media, ella trat de poner valores cercanos a la media y as sugerir los que salan
no significativos. Para acelerar el proceso eligi usar la sintaxis para evitar hacer
varios clicks.
46
Tabla 10. Prueba binomial para la variable escala econmica en el cuarto semestre
(valor de prueba = 3).
Prueba binomial
Categora N
Escala econmica
Grupo 1
< 3
en el cuarto semestre Grupo 2
> 3
Total
88
11
99
,000a
Elaboracin propia
Como podemos ver en las tablas al poner como valor de prueba 3 se rechaza
la hiptesis a diferencia de la Tabla 11 en la que el valor de prueba es 2. Esto
quiere decir que lo ms probable es que en la poblacin la mediana de la
escala econmica en el cuarto semestre sea 2.
Tabla 11. Prueba binomial para la variable escala econmica en el cuarto semestre
(valor de prueba = 2).
Prueba binomial
Categora N
Escala econmica
Grupo 1
< 2
en el cuarto semestre Grupo 2
> 2
Total
46
53
99
Elaboracin propia.
Melissa hizo la prueba binomial para las variables ordinales de su data, tanto para
las que preguntaban sobre la asistencia como para las que preguntaban sobre la
escala econmica de todo el alumnado. As como con el caso de la media no encontr
mucha variacin conforme se avanzaba en el tiempo.
47
5. INFERENCIA BIVARIADA
La inferencia bivariada, como su nombre lo indica, analiza la relacin existente
entre dos variables. Al igual que en la seccin anterior, presentaremos las
relaciones segn tipos de escala que intervengan.
5.1. RELACIN NUMRICA-NUMRICA
Cuando se analizan dos variables numricas podemos plantearnos dos
escenarios:
el primero (y ms difundido) es cuando se analizan dos variables diferentes
en un corte de tiempo;
Este tipo de pruebas, en este caso, tienen como requisito la normalidad y la igualdad de varianzas.
Nos referimos a la curva normal (Gauss).
22
23
48
Matemtica 1
Correlacin de Pearson
1
Significancia (bilateral)
N
99
Correlacin de Pearson
,701**
Significancia (bilateral)
0.000
N
97
Matemtica 2
,701**
0.000
97
1
97
Elaboracin propia.
24
25
49
Matemtica 1
Matemtica 2
Edad
Matemtica 1
Correlacin
Significancia (bilateral)
Gl
1.000
.
0
0.707
0.000
94
Matemtica 2
Correlacin
Significancia (bilateral)
Gl
0.707
0.000
94
1.000
.
0
Elaboracin propia.
50
tica
Matemtica 2
Coeficiente de correlacin
Significancia (bilateral)
N
1.000
.
97
-.038
0.713
95
Matemtica 2
Coeficiente de correlacin
Significancia(bilateral)
N
-.038
0.713
95
1.000
.
97
Elaboracin propia.
51
Inferior Superior
Examen de
Admisin - -60.081 61.148
6.146 -72.277 -47.885 -9.776 98 .000
Examen de
Admitidos
Elaboracin propia
52
El siguiente ejemplo (Tabla 16) informa si hay o no asociacin entre las variables
asistencia en el primer semestre (asistencia 1) y escala en el primer semestre
(escala 1) en el primer semestre (en este caso ambas son ordinales).
Tabla 16. Asociacin entre dos ordinales.
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Razn de verisimilitudes
Asociacin lineal por lineal
N de casos vlidos
a
Valor
gl
29,752a
31.406
16.970
99
12
12
1
.003
.002
.000
13 casillas (65.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es .56.
Elaboracin propia.
53
La relacin es despreciable.
La relacin es medianamente fuerte.
La relacin es fuerte.
54
A Melissa le fue muy til el chi-cuadrado porque su data tiene varias variables
categricas. En un comienzo, ella opt por entablar varias relaciones entre las
variables pero le faltaba el estadstico que le permitiera decir si la relacin era
estadsticamente significativa. A su vez las pruebas auxiliares al chi-cuadrado le
dieron una idea de la intensidad y del sentido de la relacin (si eran ordinales).
Adems del ejemplo anterior, ella encontr que la variable Escala econmica en
el primer semestre se asociaba significativamente con Nivel del Ingls. Dado que
esta ltima tiene una codificacin inversa a la anterior y el estadstico de Gamma
le sali -0.98, ella interpret que a mayor ubicacin en la escala econmica de la
PUCP, el nivel del ingls es mejor.
As como ella, anmate a practicar entablando relaciones entre las variables
categricas. Melissa hizo lo mismo e indag ms sobre el uso del chi-cuadrado y
las medidas auxiliares. Ella encontr que las medidas direccionales que ofrece el
SPSS no son tan robustas, y que en su lugar podra usar las pruebas de regresin,
tema que no vamos a ver en este manual por tener un grado de dificultad mayor.
Pero las medidas simtricas s son muy tiles ya que funcionan como leer los
coeficientes de correlacin tanto de Pearson como de Spearman.
55
Sexo
Media
53
46
653.34
650.35
15.327
15.130
Examen de Admisin
Prueba de
Levene para
Prueba T para la igualdad de medias
la igualdad
de varianza
F Significancia t gl Significancia Diferencia Error
95% intervalo
(bilateral) de medias tpico de la
de confianza
diferencia para la diferencia
Inferior Superior
Se han
asumido
varianzas .541 .464 .138 97
.890
2.992
21.666
-40.009 45.992
iguales
No se han
asumido
.139 96.659 .890
2.992
21.537
-39.755 45.738
varianzas
iguales
Elaboracin propia.
La prueba T para muestras independientes le fue til a Melissa cuando tuvo que
ver si haba diferencia entre las dos categoras de una variable dicotmica. Este
fue el caso cuando quiso ver si haba diferencia entre las notas obtenidas segn la
variable sexo. En lo particular, ella crea que no exista diferencia significativa entre
las medias de las notas de los hombres de los de las mujeres. Esto porque en las
entrevistas que ella haba hecho cuando ingresaron a Estudios Generales Letras vio
que en ambos grupos se presentaban las mismas capacidades analticas y tenan
habilidades parecidas. Anmate a hacer algunas pruebas T usando las variables que
preguntan sobre si le gust la universidad o no, o si se cambiara a Estudios Generales
Ciencias o no, como dicotmicas.
56
gl1
gl2
Significancia
93
0.018
57
Suma de cuadrados
gl
Media cuadrtica
Sig.
338.490
654.417
992.907
3
93
96
112.830
7.037
16.034
0.000
Elaboracin propia.
Estadsticoa
gl1
gl2
Significancia
58.897
20.999
3
3
21.548
19.988
0.000
0.000
a
Distribuidos en F asintticamente.
Elaboracin propia.
58
En este caso, leemos Welch puesto que hay diferente nmero de casos
en las modalidades de la variable asistencia en el primer semestre. La
significancia de este estadstico nos dice que debemos rechazar la hiptesis
de igualdad de medias; por lo que concluimos con mayor seguridad que
las medias son diferentes y que efectivamente hay un efecto de nuestro
factor (Asistencia en el primer semestre) sobre nuestra variable dependiente
(Notas de Matemtica 2).
59
RESUMEN
Grfico 10. Resumen Inferencia bivariada.
Exploracin
Bivariada
Numrica-numrica
Pearson
(paramtrica)
Spearman
(no paramtrica)
Categrica-categrica
Numrica-categrica
Chi-cuadrado
(prueba de
independencia)
Anova
de un factor
Elaboracin propia
Melissa entreg su informe en la ltima semana del tercer mes. Adjunt a las tablas
de frecuencias, los estadsticos y los grficos, un informe de carcter ms cualitativo
sobre los alumnos. Ella lleg entrevistar a los 99 alumnos que fueron parte de su
data y pudo entrar en detalle sobre los motivos por qu faltaban a clases o por
qu no haban obtenido buen puntaje en determinados cursos. Encontr con esta
investigacin que influye mucho la carrera que el alumno o alumna quiera seguir,
ya que le ponen mayor empeo a los cursos afines o estudian ms aquellos cursos
que les servirn de base para aprender otros ms avanzados cuando ingresen a
sus facultades. Melissa sugiri consignar esta pregunta la prxima vez que alguien
armara una data parecida a los que revisaran su informe. Pasada una semana le
dijeron que su trabajo era muy bueno y que deseaban contar con ella durante todo
un ao, pero ella con la modestia del caso rechaz la oferta. Se dio cuenta que poda
aplicar lo que aprendi de estadstica en una investigacin que le llamara ms la
atencin, iba a utilizar la estadstica en su tesis de Licenciatura.
60
Ejercicios 2
1.
2.
61
62
Solucionario
eJERCICIOS 1
1. Cul de los cursos que se llevaron el primer ciclo tiene ms puntaje en promedio?
c. Historia antigua y medieval
2. Marque si es correcto:
a. La media del curso de matemtica 1 es 14.
Correcto, sin contar los decimales.
b. La nota que ms se repite es 16.
Incorrecto, la nota que ms se repite es 13.
c. La mediana es la misma en los 3 cursos de historia de letras.
Correcto, sin contar decimales.
d. Existe mucha variacin en los cursos de matemtica.
Incorrecto, en los dos cursos de matemtica no hay mucha variacin.
e. Hay ms alumnos en las dos primeras escalas del primer semestre.
Incorrecto, hay ms alumnos en las otras tres escalas restantes.
f. Hay ms desaprobados en los dos cursos de matemtica que en el resto de cursos.
Correcto, son los dos cursos que ms desaprobados tienen.
g. El curso de apreciacin musical es el que agrupa las mejores calificaciones en el semestre.
Correcto, contando las frecuencias de las notas 18, 19 y 20, apreciacin musical
concentra las mejores notas.
h. El curso de lgica es el que tiene ms desviacin tpica tiene.
Incorrecto, matemtica 1 y matemtica 2 son los que ms dispersin tienen.
3. Qu cursos se distribuyen de manera normal en el primer ciclo?
4. Cuntos cursos del segundo semestre son los que tienen una distribucin sesgada?
63
Respuestas a, b, c y d.
a. El apuntamiento de la variable numrica discreta.
b. La simetra y apuntamiento de la variable numrica continua.
c. La concentracin y dispersin de la variable numrica discreta.
d. La concentracin de la variable numrica discreta.
Respuestas a, b y c
a. El rango intercuartlico de la variable ordinal.
b. La simetra de la variable numrica.
c. La mediana como medida de centralizacin.
Respuestas a, b, c y d.
a. La media es la medida ms sensible a los valores extremos.
b. La mediana es la medida menos sensible a los valores atpicos.
c. La moda es una medida tanto para variables numricas y categricas
d. La media pierde representatividad si la distribucin es sesgada.
64
Solucionario
EJERCICIOS 2
1. Los que sacaron buena nota en el curso de Teora General del Lenguaje tambin sacaron
buena nota en el curso de Redaccin y Argumentacin.
Respuesta a. Falso. La correlacin de Pearson no es significativa y no podemos sostener
tal afirmacin.
2. El gusto de la carrera en el primer y segundo ao no se asocia con que sea hombre o mujer.
Respuesta a.Verdadero. No existe asociacin entre las dos variables. El chi-cuadrado sale
no significativo.
3. Existe la creencia de que las mujeres asisten con ms frecuencia a clases a comienzos del
segundo ao.
Respuesta a. Falso. Para nuestra muestra podemos afirmar el enunciado, pero no para
toda la poblacin de Letras. El chi-cuadrado sale no significativo
4. Marque si es verdadero:
a. Los hombres tuvieron ms puntaje que las mujeres en el examen de admisin.
Falso. La prueba T para muestras independientes sale no significativa.
b. Los puntajes en el examen de admisin son diferentes segn la escala.
Falso. La prueba anova sale no significativa.
c. A los que les gust ms el primer ao tuvieron ms notas que a los que no les gust la
carrera.
No necesariamente. En varios cursos del primer ao no hay diferencia significativa
entre los dos grupos.
d. No hay diferencia entre los que quieren cambiarse y no a Estudios Generales Ciencias
segn las notas del curso Historia antigua y medieval.
Verdadero. La prueba T sale no significativa.
Respuesta d.
5. Marque la opcin incorrecta, puede marcar ms de una:
Respuestas a, b y c.
a. Hay diferencia en las notas de Fe y Cultura Actual segn la escala de pago del tercer
semestre.
b. La escala de pago que estara originando la diferencia es el quinto.
c. Dado que tenemos homogeneidad de varianzas tenemos que leer la prueba T2 de
Tamhane.
6. Marque la alternativa correcta:
a. No hay diferencia entre el examen de admisin y el examen de admitidos.
Falso. La prueba T para muestras relacionadas sale significativa.
b. No hay diferencia en el puntaje del examen de entrada segn el nivel de ingls.
Verdadero. La prueba anova sale no significativa.
65
66
Links de la gua
Mindmeister:
http://www.mindmeister.com/107137229#
Wiki:
http://wiki.pucp.edu.pe/estadisticavirtual/
VideosPUCP:
http://videos.pucp.edu.pe/usuarios/administrar/3119
67
68