Professional Documents
Culture Documents
INTRODUCCIN
La estadstica es una herramienta que sirve de apoyo a distintas disciplinas interesadas en conocer
regularidades de su objeto de estudio. La estadstica es de suma utilidad para la construccin de modelos
que permitan verificar las hiptesis planteadas, y adems, desde una perspectiva aplicada, brinda soporte
en la toma de decisiones.
Este curso no requiere de mayores conocimientos estadsticos, informticos o matemticos. En esta
oportunidad se har uso del software de IBM Statistical Package for the Social Sciences (SPSS), una de las
principales herramientas en el anlisis estadstico en ciencias sociales. Dicho software se har cargo de los
clculos matemticos y de la construccin de los reportes numricos y grficos. Este curso ser
completamente terico y prctico, y buscar desarrollar los distintos temas de manera incremental para
facilitar el aprendizaje.
El curso se ha dividido en cinco unidades bsicas:
1. Gestin del conocimiento y limpieza de datos
2. Exploracin Univariada
3. Anlisis Bivariado
4. Tcnicas multivariadas bsicas: Anlisis Factorial
5. Tcnicas de regresin: Regresin binomial y logstica
Para el desarrollo del curso, se emplearn datos estadsticos acordes a los procedimientos a tratar.
Adems, cada seccin prctica estar acompaada de videos instructivos que permitan revisar los
procedimientos desarrollados en la clase.
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
MODELO
HIPTESIS
OPERACIONALIZACIN
CONCEPTUAL
ANLISIS DE DATOS
RECOLECCIN DE DATOS
ELECCIN DE DISEO DE
INVESTIGACIN
REPORTE DE HALLAZGOS
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
1.1
Los modelos estadsticos son sumamente tiles para la prueba de hiptesis, etapa importante dentro de
la metodologa de la investigacin. No obstante, llegar a probar una hiptesis no es un proceso sencillo;
puesto que, existe una serie de pasos previos para lograr la formulacin de una hiptesis adecuada. En
este curso solo delinearemos la secuencia de la investigacin para ubicar adecuadamente el momento en
que la estadstica es til como herramienta apoyo.
1.2
Cualquier investigacin comienza cuando se percibe que una explicacin no es satisfactoria. Este
problema no es extrao, sin embargo, no siempre se presta suficiente inters. Es precisamente cuando se
presta mayor atencin que se decide estructurar el problema. Estas etapas son conocidas como los
antecedentes del problema y la formulacin de la pregunta de investigacin.
El desarrollo de una buena pregunta de investigacin es primordial, dado que, ser esta la que oriente el
trabajo. En ella debern estar contenidos los conceptos de inters que luego sern tericamente
analizados. As pues, los conceptos de inters, al igual que las relaciones que se plantean en la pregunta,
sern el punto de partida para confeccionar nuestro marco terico.
Una vez que se haya estructurado el tema de investigacin de manera terica se podr plantear la
hiptesis, que es bsicamente, la respuesta a la pregunta inicialmente formulada. En la hiptesis deben
estar claramente expuestos los conceptos de inters y la relacin existente entre ellos propuesta. A partir
de all solo queda contrastar tal hiptesis con lo que sucede en la realidad. Hecho el anlisis respectivo se
podr reportar si la hiptesis era sostenible y se redactarn las conclusiones.
1.3
Existen algunos conceptos clave en las ciencias sociales: concepto, definicin, variable, caso y valor. Cada
uno de ellos representa ideas bastante complejas. Por ejemplo, diferenciemos el concepto democracia
del concepto temperatura mediante sus definiciones. Empecemos por el concepto temperatura. La
temperatura segn la fsica, es el promedio de energa cintica en la materia. El concepto es entonces un
modelo mental de algo que existe y le damos nombre (el trmino que denota al concepto, o significante)
para conocerlo. Su definicin es la explicitacin del concepto que permite que este se diferencie de lo ya
conocido. De ah que la variable es simplemente una manera en que el concepto se manifiesta en el
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
mundo y que puede tomar diversos valores. El valor se obtiene para cada uno de los casos de estudio
(unidad de anlisis).
Sin embargo, en el caso del concepto democracia enfrentaremos algunos problemas metodolgicos. En
primer lugar, el concepto puede tener diversas definiciones y no una nica universalmente aceptada. Con
la definicin (y postura) de democracia elegida, se querr saber el "nivel de democracia" en los pases.
Pero esta variable tendr algunos problemas (que "temperatura" no tuvo) pues no tiene una nica manera
de ser medida. No existe un instrumento como el termmetro que permita saber el nivel de democracia,
por lo que se recurrir a ms de un valor para medir la variable. Cuando este es el caso, se llama variable
latente a aquella que hace uso de muchos valores. De ah que, segn la definicin por la que optemos
habr que buscar o recolectar varios valores.
Por ejemplo, la revista The Economist tiene una definicin tal de democracia que usa los valores (o ms
propiamente "modalidades") "proceso electoral y pluralismo", "libertades civiles", "funcionamiento real
del gobierno", "participacin poltica" y "cultura poltica". Estos an son constructos abstractos, por lo
que cada uno necesitar de sus propios valores. El resultado es la variable "nivel de democracia". Cuando
una variable se haya construido a partir del clculo de otras, recibe el nombre de ndice. Los valores de
una variable tambin son llamados indicadores.
1.4
Escalas de medicin
Todo lo anterior puede parecer muy complicado, no obstante, son simplemente las pautas de cmo dar
valores a cualquier evento de la realidad. En este caso asumiremos que esto est dado ya que
trabajaremos con datas ya elaboradas. Sin embargo, al observar los datos ser sumamente importante
saber diferenciar las distintas escalas en las que se hicieron las mediciones. En nuestro caso particular,
utilizaremos tres escalas: la nominal, la ordinal y la numrica.
a. La escala nominal
Las modalidades de la variable no presentan un orden entre s, son solo categoras. Un ejemplo puede ser
la variable "pas de nacimiento", "diario favorito", "empresa celular que utiliza". Cada una de estas
variables tendr respuestas como "Per", "Argentina", "El Comercio", "La Repblica, "Movistar", etc. Tal
como podemos observar, estas no provienen de conjuntos de alternativas que deban respetar un orden.
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
b. La escala ordinal
Las modalidades siguen siendo cualitativas; por ejemplo, la variable "nivel educativo" puede referirse a
personas con nivel "primaria", "secundaria", "superior". Sin embargo, el conjunto de todas estas posibles
respuestas tiene un orden particular, que denota un mnimo (primaria) y un mximo, (superior).
c. La escala numrica
Las escalas nominal y ordinal representan estados cualitativos; sin embargo, cuando tratamos la escala
numrica, s estamos haciendo referencia a la idea de magnitud. Cuando hablamos de magnitud podemos
referirnos a cosas tan cotidianas como nuestros "ahorros en soles", "peso", "altura", etc.
1.5
Codificacin
Las escalas no seran muy difciles de entender si no fuera porque la mayora de las veces aparecen
codificadas, lo que puede causar confusin. La codificacin es un paso sumamente necesario para que
cualquier programa informtico sea capaz de procesar la informacin. Es mucho ms sencillo para las
computadoras realizar clculos estadsticos si los datos que manejan son nmeros. Por ello, cuando se
abren y revisan algunas bases de datos en una computadora, lo nico que se observa son caracteres
numricos, aun cuando solo algunos de ellos representan variables en escala numrica y los dems,
variables en escala nominal u ordinal. As, en vez de decir "en letras" el nivel educativo, aparecen nmeros
que indican algn nivel de educacin (1 para primaria, 2 para secundaria, 3 para educacin superior, etc.).
Tal como mencionamos anteriormente, solo en el caso de las variables en escala numrica los nmeros
representan una magnitud. As pues, si la variable "empresa celular preferida" tiene el valor 2 para
movistar y el 1 para "nextel", no implica que la empresa movistar sea el doble o ms importante que la
empresa nextel. En otras palabras, no es ms que una simple etiqueta, un simple rtulo. Es diferente si la
variable fuera "nmero de hijos"; en ese caso, el que tiene 4 hijos posee ms que el que tiene 2 (el doble).
Otro uso particular e importante de los cdigos son los valores perdidos (missing values), que son los
cdigos que se utilizan para indicar respuestas inadecuadas o inapropiadas o faltantes, pero que se
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
sealan de manera explcita. Estos valores no se utilizan en los clculos; ms bien, la codificacin que
tienen permite que los programas informticos los ignoren (99, 999, .)
Una vez que disponemos de las definiciones de los conceptos que vamos a utilizar y habiendo definido
una estrategia de investigacin que nos permita comprobar nuestra hiptesis es necesario pues
operacionalizar nuestras variables para obtener una mejor recoleccin de los datos, lo cual representa el
siguiente paso en el ciclo de investigacin.
En el presente curso abordaremos el rea de anlisis de datos. El anlisis de datos al igual que la
recoleccin de los mismos son ambos trabajados por la estadstica, puesto que esta se define como la
ciencia de la organizacin, anlisis e interpretacin de los datos. Esto nos permite, como vemos en el
ltimo punto; reportar hallazgos, que no es ms que conocimiento producido a partir de los datos
disponibles. En otras palabras, la razn por la que la estadstica es relevante es porque nos permite
producir conocimiento que nos sirve para la toma de decisiones, esto es as, tanto para las ciencias
formales, como para el campo de las ciencias sociales.
Sin embargo, existen diferentes tipos de estadstica. Por un lado tenemos la estadstica matemtica, la
cual se encarga de estudiar y desarrollar la teora existente sobre esta ciencia. Esta rama nos provee de
las herramientas matemticas para desarrollar el anlisis estadstico de los procesos en las ciencias
sociales. Por otro lado, tenemos la estadstica aplicada, la cual se encarga del procesamiento y anlisis de
datos orientado a la toma de decisiones, ser esta la que desarrollaremos en el presente curso. Esta rama
se subdivide en dos campos de estudio. La estadstica descriptiva y la estadstica inferencial.
La estadstica descriptiva, presente en las unidades 2 y 3 se encarga de los mtodos de visualizacin y
resumen numrico o grfico de los datos de la poblacin analizada. Es la rama donde se analiza de manera
unilateral la interaccin de distintas variables. La estadstica descriptiva llega a ver relacin entre variables,
sin embargo, esta relacin es simtrica. (Este concepto se desarrollar con mayor amplitud en la unidad
5).
La estadstica inferencial, por otro lado, se dedica a la generacin de los modelos direccionales, inferencias
y predicciones teniendo en cuenta lo aleatorio en las observaciones de una muestra. Esta rama de la
estadstica ha sido ampliamente desarrollada por la economa, y su uso est en expansin dentro de las
dems ramas de las ciencias sociales.
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
1b) MINERA DE DATOS
1.1 Definicin
La Minera Datos es un sub-campo interdisciplinario de lo que se conoce como ciencias de la computacin.
Es un mecanismo de explotacin consistente con la bsqueda de informacin valiosa en grandes
volmenes de datos. Su principal objetivo es extraer informacin de una base de datos y transformarla
para un uso ms profundo. Involucra aspectos de manejo de bases de datos, procesamiento de data,
modelamiento y consideraciones inferenciales, consideraciones complejas, visualizacin, entre otros. En
ese sentido, y con fines de este curso, llamaremos minera de datos a todo el proceso del curso y en lo
puntual al proceso de organizacin y limpieza de datos.
Para comenzar esta parte del curso se les proveer a los alumnos inscritos de una carpeta en DROPBOX o
un Google Drive de donde podrn descargar softwares libres en versin portable. Los softwares que se
van a utilizar para esta parte son los siguientes:
AbbyyFine Reader V.12
Snagit v.11
Acrobat v.11
Tambin se usar el Excel de Microsoft Office.
El URL de donde se puede descargar los softwares portables es el siguiente:
https://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2M#
La carpeta de Dropbox se compartir con los alumnos a travs de los correos con los que se inscriban en
el curso.
1.2 Caractersticas de los Softwares
El AbbyyFine Reader es un software muy potente que tiene la finalidad de simplificar la conversin de
documentos a una versin editable. Particularmente el Abbyy Fine Reader es un sistema de
reconocimiento ptico de caracteres (OCR) que fcilmente puede convertir cualquier tipo de PDF,
documentos digitales y ficheros de imagen, incluyendo las fotos digitales, en documentos editables que
luego se pueden usar en las aplicaciones y el entorno Office. Este software servir de pivote y se
complementar con los otros tres.
El Snagit es un simple software cuya funcin radica en capturar pantallas e imgenes previa seleccin del
marco. Este software es bastante intuitivo. Luego de capturar la pantalla o la seccin que se quiere se
puede copiar y llevar aun documento. Sin embargo, usaremos este software para grabar las imgenes
como PDFs y llevarlo al Abbyy Fine Reader.
El Acrobat es un software que permite editar PDFs y es de fcil uso para ordenar pginas dentro de un
PDF. No se explorarn mayores funciones.
1.3 ndice de Temas
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
1. Importacin de datos desde documentos PDF.
a. Uso prctico del Abbyy Fine Reader.
b. Uso prctico del Snagit.
2. Importacin de datos desde una pgina web.
a. Copy/Paste
b. Usar el Democracy Index
c. Importacin hacia Excel.
3. Limpieza de Datos
a. Eliminacin de valores repetidos
b. Sustitucin de , por .
c. Separacin de datos en columnas.
d. Eliminacin de espacios dobles.
e. Concatenacin de datos.
f. Filtrar y ordenar
g. Sustitucin sistemtica de caracteres.
h. Transcripcin de datos y extraer valores nicos
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
En la exploracin univariada debemos considerar que vamos a contar siempre con tres categoras de
anlisis. El anlisis de Tablas de frecuencia, medidas y grficos. Estas tres categoras nos presentarn
diversas herramientas dependiendo de la naturaleza de la variable, si es de tipo Nominal, Ordinal o
Escalar.
2.1
Como vimos en la Unidad 1, las variables pueden encontrarse en tres escalas de medicin. Dependiendo
de estas es que vamos a determinar qu tipo de anlisis podemos aplicarle a una variable determinada.
En este caso, vamos a analizar las variables nominales.
a. Tablas de frecuencia
Una variable nominal solo reporta un registro no jerarquizado de categoras. En el ejemplo anterior,
vemos que Ollanta Humala y Keiko Fujimori son dos categoras de una variable nominal, puesto que
ninguno de los dos presentan una jerarqua respecto del otro. Lo que vimos en el ejemplo anterior es una
tabla de frecuencias; ya que, esta presenta la informacin de la variable dividida en sus categoras; y hace
un recuentro de los datos que esta nos ofrece. En una variable nominal, las tablas de frecuencia se
presentan de manera similar a la del ejemplo.
b. Medidas
Adems, tenemos el anlisis de las medidas. Las variables nominales solo presentan una medida de
tendencia central y una de dispersin. Las primeras son llamadas as porque sirven para determinar una
medida que represente un punto principal o estadsticamente relevante dentro de la variable. Para el caso
de la variables nominales, el valor central es la moda.
Moda
La moda es una medida que muestra el valor que ms se repite dentro de los datos que provee una
variable. As, si uno tiene un saln de clases donde la distribucin de notas es la siguiente:
10
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
c. Grficos
Con respecto a los grficos, tenemos al grfico de barras y al grfico de segmentos (Grfico Pie). Estos se
encargan de presentar de manera visual el contenido de la informacin que presenta la variable a analizar.
11
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Ejemplos:
Encuestados
Serie 1
3
Catlico
Evanglico
Judio
2
1
Encuestados
Como vemos en nuestro ejemplo, la categorizacin abarca distintos grupos de clasificacin, los cuales se
presentan en un orden ascendente de inters.
a. Tablas de Frecuencia
La tabla de frecuencias se presenta de manera similar a la de las variables nominales, con la diferencia de
que el orden de aparicin ya no es arbitrario, sino que representa una estratificacin que va desde la
menor intensidad hacia la mayor intensidad.
b. Medidas de tendencia central
En el caso de las medidas, a las ya vistas anteriormente (Moda y variacin modal) se le une unan nueva
medida de valor central: La Mediana.
12
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Mediana
La mediana es una medida de valor central que determina el punto medio de todos los casos que contiene
una variable. En otras palabras, cuando hablamos de mediana, hablamos del valor que dentro de los casos
se ubica en el centro.
Al tener una variable ordinal como Inters en la poltica:
Vemos que hasta el 50% de los valores que muestra la variable (En este ejemplo; el caso 5), la mediana
vendra a ser Inters Moderado. Podra darse el caso que la mediana sea igual a la moda, en la medida
que esta se ubique en el valor central de la distribucin de los datos.
c. Medidas de Dispersin N Tiles.
As como el valor central en una distribucin de los datos es la mediana, existen diferentes divisiones en
la distribucin de los datos, y por ello podemos hablar de toda una rama de divisiones que indican la
dispersin de los datos as como su posicionamiento. Estos son los N- tiles. Algunos de los N-tiles ms
conocidos son los cuartiles y percentiles. Los cuartiles dividen los datos de una variable en tres cortes,
donde el 25%, ser el cuartil 1, el 50% (la mediana) ser el cuartil 2 y el 75% ser el cuartil 3. Normalmente
se asume que los cuartiles indican tres momentos de posicin de los datos, tal como vemos en la seccin
de grficos.
d. Grficos
Adems de los grficos ya mencionados, la escala ordinal presenta los diagramas de caja o boxplots, los
cuales grafican los cuartiles.
13
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Mximo
Q3
Mediana = Q3
Mediana
Q2
Mnimo
BOX PLOT
Q3 = Q2=Mximo
Q1
Q1 = Q2
Q3 = Mxima
Q2
Q3 = Mediana,
mnimo, mximo
Q1 = Mnimo
[Rpts: 1, 1, 1, 1]
14
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
numrica; en la medida que, lo que se recoge son cifras acerca de la variable. Como ejemplo tenemos a
Nmero de casas, Percepcin de ingresos mensuales, etc.
Las tablas de frecuencia en las variables escalares slo tienen sentido cuando esta se agrupa en intervalos.
De otra forma, el hacer una tabla de frecuencias nos da como resultado la presentacin del a variable
caso por caso. Como en este tipo de variables ya no tenemos categoras, vamos a ver que lo que
obtendremos es un recuento de todos los valores que se encuentran en la variable escalar; lo cual podran
ser cientos o miles. Tamaa tabla no solo no es extensa, sino que su utilidad para el anlisis estadstico es
nula.
Las variables escalares logran recuperar todas las medidas vistas anteriormente ms la consideracin de
que ahora entra a tallar la medida de tendencia central Media o promedio.
a. Medidas de tendencia Central
Media
La media es, como ya dijimos, el promedio de los valores que contiene la variable. En este caso, si tenemos
una variable donde se detalla el ingreso anual de una persona, vamos a ver que el promedio es la cifra de
la suma de sus sueldos mensuales, dividida entre el nmero de sueldos recibidos. La media es muy
importante pues este valor central se muestra como homogeneizador de la informacin de la variable. Sin
embargo, como veremos ms adelante, la media no es el nico valor que debe ser tomado en cuenta a la
hora de realizar un anlisis.
Con la media debemos tener en cuenta varios aspectos. Primero, que la suma de los valores dentro de la
media empieza con el valor mnimo y va hasta el mximo. Esto es necesario de saber puesto que estos
valores extremos pueden distorsionar el resultado de la media.
b. Medidas de dispersin
Dentro de las medidas de dispersin, se incorporan la varianza, la desviacin tpica, la amplitud
intercuartil, y los valores mnimos y mximos.
Desviacin tpica y Varianza
La desviacin tpica muestra cun alejados estn los valores de la media. Es por ello que esta medida nos
puede dar una idea acerca de la dispersin de los datos de la variable. Si es que la desviacin estndar/
15
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
tpica es alta, habr mayor dispersin y la media ser ms robusta. Si es que la cifra es baja y se acerca al
0; los valores estn ms prximos a la media y, por ello, habr menor dispersin.
La varianza es la desviacin tpica elevada al cuadrado. Esto se hace con el objetivo de lograr una mayor
precisin a la hora de comparar valores que se pueden diferenciar por milsimas en la desviacin
estndar, pero la distancia se agranda con la comparacin entre varianzas.
Asimetra
La asimetra nos permite observar cual ha sido la naturaleza de la distribucin de los datos. Es decir, cual
ha sido la forma en la que todos los datos se han desplazado a lo largo de la variable.
As, tenemos que esta puede ser negativa, Nula (simtrica) o positiva.
Curtosis
La curtosis se refiere al apuntamiento o concentracin de las variables a lo largo de la data. Ahora ya no
vemos si es que los datos estn concentrados en determinado cuartil de la distribucin, sino cuan
concentrados estn.
16
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Fig 1
ddddddddddd
dddd0
Mesocrtica
Fig 2
Fig. 3
>0
Leptocurtica
<0
Platicrtica
Estimadores M:
Adems de los las medidas de tendencia central clsicas en las variables escalares: Moda, mediana y
media; vemos que existe una serie de pruebas estadsticas para contrastar el valor de la media y tener
una idea acerca de la robustez de la misma. Estos test se llaman los estimadores M y son 4.
-
Onda de Andrews
M de Hampel.
M de Tuckey
M de Huber.
17
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Barras de Error.
Media
18
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Nominal
Ordinal
Nominal
Ordinal
Ordinal
Las tablas de contingencia son matrices donde se visualizan cruces de informacin entre dos variables.
Con esto se pretende analizar la dinmica de la relacin entre las dos variables que estemos analizando.
La forma cmo se presentan las tablas de contingencia es simtrica, es decir, que no importa que variable
vaya en las filas o columnas, ya que la relacin existente entre las dos variables es de doble sentido (Una
afecta a la otra sin estar de por medio un vnculo relacional de causalidad o impacto).
Dentro del anlisis bivariado dentro de las tablas de contingencia, nos podemos permitir la subdivisin de
los resultados de las relaciones de las variables relacionables a travs de la introduccin de variables de
control. Estas generarn un anlisis bivariado, pero dividido de acuerdo a las categoras que la variable de
control necesita. (recurdese que las variables deben ser cualitativas, es decir, nominales, ordinales, o
escalares reconvertidas en intervalos).
19
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Ejemplo: Relacin entre las variables: Politicamente se considera? y Nivel Educativo
% de Nivel Educativo
Nivel Educativo
Politicamente
Total
1. Menos que
2. Secundaria
3. Ms que
Secundaria
Completa
secundaria
1. Muy liberal
3.1%
3.5%
6.0%
5.1%
2. Liberal
7.8%
8.1%
10.7%
9.8%
3. Algo liberal
19.5%
21.9%
21.8%
21.6%
4. Moderado
9.4%
7.4%
6.1%
6.7%
46.1%
36.3%
29.1%
32.5%
8.6%
13.6%
17.0%
15.4%
5.5%
9.2%
9.3%
9.0%
100.0%
100.0%
100.0%
100.0%
se considera?
5. Algo
conservador
6. Conservador
7. Muy
Conservador
Total
3.1
a.
Chi Cuadrado
Chi Cuadrado es un test estadstico que nos permite hallar la relacin entre variables. Este test solo te
permite hallar si es que una variable est relacionada con la otra, sin embargo, para saber ms acerca de
la naturaleza de la relacin, es necesario elaborar algunas pruebas ms. La forma como se debe
interpretar el test de Chi Cuadrado es a travs de la significancia. La significancia es el valor que se debe
considerar para aceptar o rechazar la hiptesis neutra que la prueba tiene como premisa. En el caso de
20
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Chi Cuadrado, la premisa es: Las variables no estn relacionadas entre s. La forma como se intepreta
la significancia es:
Mayor a 0,050
Aceptas la Hiptesis.
Menor a 0,050
Rechazas la Hiptesis.
Chi-cuadrado de
Pearson
Razn de
verosimilitudes
Asociacin lineal por
lineal
N de casos vlidos
Valor
gl
31.812(a)
12
.001
32.298
12
.001
1.052
.305
1619
Pruebas de chi-cuadrado
Vemos la sig. Asinttica (bilateral) para determinar si hay o no hay relacin. Va a haber relacin siempre
y cuando la significancia de la fila del chi-cuadrado de Pearson sea menor a 0.05. Y no habr relacin
cuando sea mayor a 0.05. Por ejemplo, en la tabla anterior, como la significancia es menor a 0.05 s habr
relacin.
3.2
Una vez que confirmamos la relacin entre las variables, conviene analizar la naturaleza de la misma. De
esto se desprenden las medidas de intensidad y Sentido. La primera nos ayudar a ver la fortaleza de la
relacin entre las variables, de manera que:
21
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Si el Coeficiente es Menor que 0,400
La relacin es difusa.
La relacin es fuerte.
Los test estadsticos para este tipo de pruebas varan de acuerdo al tipo de variable.
a. Pruebas de Intensidad para variables Nominales
Las pruebas que miden la intensidad de la relacin entre dos variables nominales con las que vamos a
trabajar son tres: Phi, la V de Crammer y el Coeficiente de Contigencia. Phi se usa para casos en los que
la tabla de contingencia presenta solo dos categoras para cada variable, es decir, tenemos una tabla de 2
x 2. Cuando relacionamos dos variables Nominales con diferentes nmeros de categoras (Es decir, una
tabla distinta de 2 x 2), la prueba estadstica presenta problemas, por lo que es ponderada por la prueba
V de Crammer y por el Coeficiente de Contingencia.
Tanto el primer test como el segundo hacen el mismo trabajo; medir la intensidad de la relacin entre las
variables, pero estos si resisten variables con categoras diversas. La diferencia entre ambos radica en el
hecho de que V de Crammer emplea un algoritmo distinto al del coeficiente de Contingencia, el cual lleva
a que la prueba sea subestimadora para todos los casos. Es decir que la ecuacin de la prueba V de
Crammer tiende a presentar valores bajos de relacin entre variables, pero asegurando un mayor rango
de confiabilidad. El coeficiente de Contingencia implementa un segundo algoritmo que adapta la ecuacin
de Phi, para que pueda soportar valores con ms categoras.
b. Pruebas de Intensidad para variables Ordinales
Para el caso de las variables ordinales, tenemos tres pruebas clsicas y una cuarta que mide de igual
manera intensidad y sentido. Esta ltima ser explicada en la seccin referida a Sentido en variables. En
referencia a las tres pruebas clsicas, tenemos a Tau B, Tau C y Gamma. La primera es usada para casos
en los que la tabla de contingencia presenta variables con un nmero de categoras similar, es decir, tablas
de N x N. Tau C corrige a Tau B, haciendo que se pueda hallar la intensidad de la relacin entre variables
con diferente nmero de categoras; es decir, tablas de N x M. Gamma es usada solamente para tablas de
2 x 2.
c. Pruebas de Sentido / Direccin
22
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Las pruebas de sentido o de direccin de la relacin entre variables sirven para ver la forma cmo vara la
intensidad en la relacin entre las variables. As, podemos hablar de dos conceptos clave. Directamente
proporcional (sentido Positivo) o Inversamente proporcional (sentido Negativo). El primero quiere decir
que a mayor cantidad de uno, mayor cantidad de otro, Mientras que el segundo nos dice que a mayor
cantidad de uno, menor cantidad del otro.
Las pruebas estadsticas que nos presentan la direccin solo se pueden usar para variables ordinales. Esto
es as porque no podemos determinar a mayor cantidad de una y otra categora sin antes asignarle un
valor jerrquico a la variable en s. Como podemos recordar, en las variables nominales no podemos
asignar valores de orden o jerarqua, por lo que la prueba de direccin no puede ser aplicable.
La prueba de sentido de la relacin entre dos variables es la D de Sommers. Esta herramienta permite al
mismo tiempo analizar la fuerza o intensidad y el sentido o direccin de la relacin. Esta se lee
interpretando el coeficiente, de manera que una relacin con sentido directamente proporcional tendr
el signo positivo en el coeficiente que se presenta; mientras que una relacin con sentido inversamente
proporcional mostrar el coeficiente en nmeros negativos. El valor absoluto del coeficiente nos servir
para analizar la fuerza del mismo.
3.3
R de Pearson es una prueba estadstica que mide la correlacin lineal entre variables numricas que se
distribuyen normalmente. La hiptesis nula de R de Pearson es que no existe una correlacin lineal entre
las variables.
Dentro de las correlaciones, tenemos a la correlacin parcial, que es una prueba que permite evaluar el
resultado de una correlacin entre dos variables numricas, teniendo en cuenta el retiro del efecto de
una que puede intervenir. En otras palabras, con la correlacin parcial se puede estimar que hubiera
pasado s dicha variable no estuviera relacionada en lo absoluto con la correlacin inicial.
3.4
La prueba de Kappa se usa para medir el ndice de acuerdo entre dos variables, categrica y politmica en
distintos modelos. Por ejemplo, la aprobacin en un momento dado y la aprobacin en un momento
previo.
23
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
b. Mc Nemar
La prueba de Mc Nemar nos ayuda a comparar el cambio en el tiempo de una variable determinada. Es
considerado un anlisis bivariado porque se tiene una doble medicin de la variable, pero en dos
momentos distintos. Comparas a la Variable Momento N respecto de la variable Momento N + M.
24
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Caractersticas y diferencias
El anlisis de Componente Principales Categricos (CATPCA) convierte a los valores de una variable
cuantitativa en nmeros enteros positivos por orden alfabtico ascendente. Los valores perdidos del
usuario, los valores perdidos del sistema y los valores menores que 1 se consideran valores perdidos. Sin
embargo, se puede aadir una constante o recodificar las variables con valores inferiores a 1 para evitar
que se pierdan los mismos. Para que la prueba pueda ser vlida los datos deben contener al menos tres
casos vlidos, es por ello que si se encuentran casos que necesiten una estandarizacin en sus valores, se
puede aplicar un anlisis de discrecionalizacin, que agrupar las variables al valor entero ms prximo
para rescatar la informacin. El anlisis se basa en datos enteros positivos.
Cmo realizar el Anlisis de Componentes Principales Categricos (CATPCA) en SPSS?
Dentro del Men analizar, seleccionar la opcin Reduccin de datos, y dentro de ellas, Escalamiento
ptimo.
La tcnica de Escalamiento ptimo est diseada para variables categricas. Como mencionamos
inicialmente, existen variables categricas nominales dicotmicas y politmicas; adems de variables
categricas ordinales. Es por ello que para realizar la prueba debemos reconocer dicha diferenciacin.
25
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
La diferencia que establece el SPSS refiere a las variables nominales politmicas y las que no lo son. En
caso se trabaje con variables ordinales se debe seleccionar la segunda opcin. Una vez seleccionadas las
variables de anlisis, se debe definir la escala y ponderacin que esta sigue.
26
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Los resultados del escalamiento ptimo deben estar expresados en funcin de las variables resultantes
que obtendremos, pero para dicho fin no es necesario contar con las correlaciones de las variables
transformadas.
27
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
La lectura se realiza de manera similar al anlisis factorial. Sin embargo existen ciertas diferencias en la
interpretacin de los reclutados en torno al Alfa de Cronbach. Esta prueba debe tener un coeficiente
superior a 0.700, para considerar que la confiabilidad de la operativizacin de las variables es fuerte, y por
lo tanto el nivel de informacin de las variables resultantes es representativo.
28
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
factorial todas las variables del anlisis cumplen el mismo papel: todas ellas son independientes en el
sentido de que no existe a priori una dependencia conceptual de unas variables sobre otras. Vale recordar
por tanto que con el anlisis factorial no estamos planteando un modelo explicativo o causal entre
variables independientes y dependientes.
4.3
Etapas
Para el desarrollo del anlisis factorial en SPSS (PASW) tenemos 4 etapas principales:
4.4
a.
El clculo de una matriz que expresa la variabilidad conjunta de todas las variables
b.
c.
d.
La tabla a continuacin contiene las comunalidades asignadas inicialmente a las variables (inicial) y las
comunalidades reproducidas por la solucin factorial (extraccin). Podemos entender la comunalidad
de una variable como la proporcin de su varianza que puede ser explicada por el modelo factorial
obtenido. Estudiando las comunalidades de la extraccin podemos valorar cules de las variables son
peor explicadas por el modelo. En nuestro ejemplo, la variable nivel educativo es la peor explicada: el
modelo slo es capaz de reproducir el 68,2% de su variabilidad original.
Para hallar estas comunalidades se ha utiliza el mtodo de extraccin denominado componentes
principales. Dicho mtodo de extraccin, activado por defecto, asume que es posible explicar el 100% de
la varianza observada y por tanto considera que todas las comunalidades iniciales son iguales a la unidad
(que es justamente la varianza de una variable en puntuaciones tpicas).
A partir de esta tabla podemos empezar a plantearnos si el nmero de factores obtenidos (enseguida
veremos cules son esos factores) es suficiente para explicar todas y cada una de las variables incluidas en
el anlisis. Tambin podemos empezar a plantearnos en este momento si, dando por bueno el nmero de
factores extrado, alguna de las variables incluidas podra quedar fuera del anlisis.
Nivel educativo
Categora laboral
Salario actual
Salario inicial
Inicial
1.00
1.00
0
1.00
0
1.00
0
0
Extraccin
.682
nn
.782
.901
.887
29
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Meses desde el contrato
1.00
.997
Experiencia previa (meses)
1.00
.894
0
Edad (aos)
1.00
.889
0
Mtodo de extraccin: Anlisis de Componentes principales.
0
La tabla de porcentajes de varianza explicada ofrece un listado de los autovalores de la matriz de varianzas
y del porcentaje de varianza que representa cada uno de ellos. Los autovalores expresan la cantidad de la
varianza total que est explicada por cada factor; y los porcentajes de varianza explicada asociados a cada
factor se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cual coincide
con el nmero de variables). Por defecto, se extraen tantos factores como autovalores mayores que 1
tiene la matriz analizada.
Autovalores iniciales
Componente
Total
% de la
varianza
acumulado
Total
% de la
varianza
acumulado
3.167
45.242
45.242
3.167
45.242
45.242
1.857
26.528
71.769
1.857
26.528
71.769
1.008
14.405
86.174
1.008
14.405
86.174
0.429
6.125
92.299
0.247
3.523
95.822
0.194
2.776
98.598
0.098
1.402
100
La matriz de componentes principales contiene las correlaciones entre las variables originales (o
saturaciones) y cada uno de los factores. Conviene sealar que esta matriz cambia de denominacin
dependiendo del mtodo de extraccin elegido. En este caso se denomina matriz de componentes
porque vamos a utilizar el mtodo de componentes principales como mtodo de extraccin (activado
por defecto en el SPSS).
30
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Componente
1
2
3
Nivel educativo
.806
-.172
.047
Categora laboral
.843
.260
Salario actual
.944
.089
.041
.061
Salario inicial
.910
.232
Meses desde el contrato
.043
.053
.996
.077
Experiencia previa (meses)
-.179
.927
Edad (aos)
-.232
.914
.026
.041
Mtodo de extraccin: Anlisis de componentes principales.
4.5
Requisitos
Grfico
El grfico de sedimentacin sirve para determinar el nmero ptimo de factores y es una representacin
grfica del tamao de los autovalores.
Tanto la tabla de porcentajes de varianza explicada como el grfico de sedimentacin nos ofrecen
autovalores ordenados de mayor a menor. Si un autovalor se aproxima a cero, esto significa que el factor
correspondiente a ese autovalor es incapaz de explicar una cantidad relevante de la varianza total. Por
tanto, un factor al que corresponde un autovalor prximo a cero se considera un factor residual y carente
de sentido en el anlisis.
Los autovalores residuales se encuentran en la parte derecha del grfico formando una planicie de poca
inclinacin frente a la fuerte pendiente formada por los autovalores que explican la mayor parte de la
31
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
varianza disponible. Por ello, es conveniente inspeccionar el grfico de sedimentacin de izquierda a
derecha, buscando el punto de inflexin en el que los autovalores dejan de formar una pendiente
Autovalor
Nmero de factor
4.7 Rotacin.-Con la rotacin se busca interpretar los casos en los que las cargas factoriales no estn
claras. Las rotaciones simplemente son movimientos de los ejes de tal manera que se mantenga la
comunalidad y el porcentaje de varianza explicada por el modelo, aunque no por cada eje. Lo que
buscamos es que cada factor tenga unos pocos pesos altos y el resto cercanos a cero, y que cada
variable este saturada en solo un factor.
El PASW tiene los siguientes tipos de rotacin: varimax, equamax, quartimax, oblimin directo y
promax.
32
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Regresin Lineal
Utilizamos la tcnica de regresin lineal o mnimos cuadrados parciales dado que nos permite explicar un
concepto operacionalizado, como Desarrollo Humano o Calidad de la Democracia, por otros tambin
operacionalizados. Entablar una relacin explicativa amerita que tengamos las denominaciones de
variable dependiente (variable a ser explicada) y variable independiente (variable explicativa). La tcnica
de regresin se denominar regresin lineal simple si tenemos solo una independiente y regresin lineal
multivariante si tenemos ms de una independiente. Las variables independientes pueden ser numricas
(covariables) y
y
Variable
dependiente
z
x
Al formar parte de los modelos lineales tenemos que considerar algunos aspectos a manera de requisitos.
En primer lugar tenemos que explorar nuestras variables y ver cmo se comportan: si es que existen
valores extremos, atpicos, palanca e influyentes.
Valores extremos.- Son aquellos valores lejanos del valor medio.
Valores atpicos.- Son valores extraos para lo normal de la variable.
Valores palanca.- Es un valor que est lejano del centroide. El centroide es el punto donde coinciden las
medias en una regresin.
Valores influyentes.- Estos valores son atpicos y palancas. Los valores atpicos o palanca no tienen que ser
influyentes necesariamente.
33
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
A la hora de correr la regresin debemos a su vez tener en cuenta la relacin entre las variables incluidas
en el modelo. Para afirmar que hay explicacin tenemos que encontrar significancia en las predictoras y
considerar que en el modelo no se presente multicolinealidad, que haya normalidad de los residuos,
homocedasticidad, no autocorrelacin y no espuriedad.
Multicolinealidad.- Mientras se encuentre mayor relacin entre las predictoras, los coeficientes del
modelo sern ms inestables. Cuando tenemos que las predictoras se correlacionan entre s es posible
que diferentes conceptos recojan informacin muy parecida y formen un patrn entre ellos (una recta si
estn fuertemente correlacionados). No hay multicolinealidad si tenemos que el factor de inflacin de
varianza (VIF)
es menor que 4 y los valores de tolerancia son mayores a 0.25. Para evitar la
multicolinealidad se propone usar una tcnica de reduccin de dimensiones como el anlisis factorial.
Normalidad de los residuos.- Los residuos se deben distribuir normalmente, sino la regresin se vuelve
ineficiente y se compromete a la explicacin del modelo. Visualizamos la no normalidad cuando
graficamos un histograma de los residuos estandarizados. Las pruebas estadsticas para deslindar si
estamos ante un caso de normalidad o no son las siguientes: Kolmogorov-Smirnov, Anderson-Darling,
Shapiro-Francia y el Cramer von Misses.
34
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Grficamente no encontramos normalidad, pero para confirmar sacamos la prueba K-S.
No autocorrelacin.- Otro de los requisitos es que no se presente correlacin entre los residuos. Para
afirmar esto vamos a considerar que el coeficiente de Durbin-Watson se encuentre entre 1.5 y 2.5.
35
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
No espuriedad.- Se espera que las correlaciones de orden cero, parcial y semiparcial no decaigan
drsticamente. Si encontrramos tal caso afirmaramos que la correlacin mostrada es esprea, y la
correlacin estara mediada por una tercera variable.
Definicin
La regresin logstica se caracteriza porque la variable respuesta (explicada) es dicotmica, es decir, oscila
entre valores 0 o 1, de manera que se pueda medir el "xito" y "fracaso" de un evento determinado. Se
denota a la ocurrencia del evento como 1 y a la no ocurrencia del evento como 0. Por tanto, el modelo de
regresin logstica permite observar si una variable dicotmica depende o no de, de otra u otras variables
explicativas. . Es importante recordar que la regresin logstica es una tcnica de causalidad que permite
estimar la probabilidad de que ocurra un suceso en funcin de la dependencia de otras variables.
La aplicacin de la regresin logstica tiene mltiples usos en las ciencias sociales, en ciencias naturales,
estudios de opinin pblica, psicolgicos, epistemolgicos, etc.
Ejemplos de variables dependientes: Si /No posee una enfermedad, Aprobacin/Desaprobacin de una
autoridad pblica.
36
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
y
Variable
dependiente
(Dicotmica)
x
5.2
Notacin:
()
) = +
()
Donde, (x) denota el xito de la probabilidad del valor de X. El parmetro determina la velocidad en
que (x) aumenta o disminuye: El signo de indica si la curva est ascendiendo ( > 0) o
descendiendo ( < 0)
La probabilidad de que ocurra el evento en cuestin como funcin de ciertas variables explicativas. Si ese
hecho que queremos modelizar o predecir lo representamos por Y (la variable dependiente), y las k
variables explicativas (independientes y de control) se designan por 1 , 2 , 3 , , la ecuacin general
(o funcin logstica) es:
( = ) =
5.2
+ ( )
Tratamiento de la variable Y:
En caso de no contar con unca variable dicotonima se puede realizar la transformacin de variable a una
variable dicotomica.
Ejemplo: Hablando del distrito donde usted vive, y pensando en la posibilidad de ser vctima de un delito,
Se siente?
Muy seguro
Seguro
Sensacin de seguridad
37
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Inseguro
Muy inseguro
5.3
Sensacin de inseguridad
Log-verosimilitud
El estimador mide hasta qu punto un modelo se ajusta bien a los datos. Cuanto ms pequeo
sea el valor, mejor ser el ajuste.
38
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Se verifica el valor de significancia y la prueba de Ho : No hay relacin, si la significancia de chicuadrado es menor que 0.05 entonces se indica que el modelo ayuda a explicar el evento, es
decir, las variables independientes explican la variable dependiente.
Porcentaje global correctamente clasificado: Este porcentaje indica el nmero de casos que el
modelo es capaz de predecir correctamente. Si es modelo clasifica correctamente ms del 50%
de los casos, el modelo se acepta.
Interpretacin:
39
Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
1
1 + exp( 1 1 2 2 3 3 )
Ejemplo: la ecuacin de regresin logstica del modelo en funcin de las mujeres (SEXO=1)
( = ) =
1
= 0.367
1 + exp(0.318 (0.254) )
40