You are on page 1of 40

Curso-Taller:

ESTADSTICA APLICADA USANDO SPSS

INTRODUCCIN

La estadstica es una herramienta que sirve de apoyo a distintas disciplinas interesadas en conocer
regularidades de su objeto de estudio. La estadstica es de suma utilidad para la construccin de modelos
que permitan verificar las hiptesis planteadas, y adems, desde una perspectiva aplicada, brinda soporte
en la toma de decisiones.
Este curso no requiere de mayores conocimientos estadsticos, informticos o matemticos. En esta
oportunidad se har uso del software de IBM Statistical Package for the Social Sciences (SPSS), una de las
principales herramientas en el anlisis estadstico en ciencias sociales. Dicho software se har cargo de los
clculos matemticos y de la construccin de los reportes numricos y grficos. Este curso ser
completamente terico y prctico, y buscar desarrollar los distintos temas de manera incremental para
facilitar el aprendizaje.
El curso se ha dividido en cinco unidades bsicas:
1. Gestin del conocimiento y limpieza de datos
2. Exploracin Univariada
3. Anlisis Bivariado
4. Tcnicas multivariadas bsicas: Anlisis Factorial
5. Tcnicas de regresin: Regresin binomial y logstica

Para el desarrollo del curso, se emplearn datos estadsticos acordes a los procedimientos a tratar.
Adems, cada seccin prctica estar acompaada de videos instructivos que permitan revisar los
procedimientos desarrollados en la clase.

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

UNIDAD 1: GESTIN DEL CONOCIMIENTO


Para conocer el mundo de la estadstica es necesario concebir en qu parte del proceso de gestin del
conocimiento est contemplada. Cuando nosotros concebimos la realidad, no la vemos tal cual; puesto
que, la complejidad de la misma nos impide tener una concepcin sistmica. Es por ello que nuestro
cerebro procesa la realidad a travs de modelos.
Estos modelos, o teoras, nos crean una concepcin acerca de todo, desde cuestiones tan elementales
como nuestra percepcin acerca de lo bueno y malo, hasta asuntos complejos como lo polticamente
correcto. Este mismo fenmeno se reproduce en las Ciencias Sociales. El ciclo escalonado del
procesamiento de la informacin parte del hecho que los diferentes modelos o teoras pueden interactuar
entre ellos para producir conocimiento. A este proceso se le conoce como gestin del conocimiento.
Un modelo podr ser aceptado dentro de la investigacin cuantitativa cuando ste sea vlido, confiable y
factible. Por vlido entendemos que el modelo puede ser generalizado; por confiable, que puede ser
replicado; y por factible, que puede responder a las interrogantes que el modelo plantea.

MODELO

HIPTESIS

OPERACIONALIZACIN
CONCEPTUAL

ANLISIS DE DATOS

RECOLECCIN DE DATOS

ELECCIN DE DISEO DE
INVESTIGACIN

REPORTE DE HALLAZGOS

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
1.1

Modelamiento estadstico y metodologa de la investigacin

Los modelos estadsticos son sumamente tiles para la prueba de hiptesis, etapa importante dentro de
la metodologa de la investigacin. No obstante, llegar a probar una hiptesis no es un proceso sencillo;
puesto que, existe una serie de pasos previos para lograr la formulacin de una hiptesis adecuada. En
este curso solo delinearemos la secuencia de la investigacin para ubicar adecuadamente el momento en
que la estadstica es til como herramienta apoyo.
1.2

Esquema bsico de investigacin

Cualquier investigacin comienza cuando se percibe que una explicacin no es satisfactoria. Este
problema no es extrao, sin embargo, no siempre se presta suficiente inters. Es precisamente cuando se
presta mayor atencin que se decide estructurar el problema. Estas etapas son conocidas como los
antecedentes del problema y la formulacin de la pregunta de investigacin.
El desarrollo de una buena pregunta de investigacin es primordial, dado que, ser esta la que oriente el
trabajo. En ella debern estar contenidos los conceptos de inters que luego sern tericamente
analizados. As pues, los conceptos de inters, al igual que las relaciones que se plantean en la pregunta,
sern el punto de partida para confeccionar nuestro marco terico.
Una vez que se haya estructurado el tema de investigacin de manera terica se podr plantear la
hiptesis, que es bsicamente, la respuesta a la pregunta inicialmente formulada. En la hiptesis deben
estar claramente expuestos los conceptos de inters y la relacin existente entre ellos propuesta. A partir
de all solo queda contrastar tal hiptesis con lo que sucede en la realidad. Hecho el anlisis respectivo se
podr reportar si la hiptesis era sostenible y se redactarn las conclusiones.
1.3

Concepto, definicin, variable, caso y valor

Existen algunos conceptos clave en las ciencias sociales: concepto, definicin, variable, caso y valor. Cada
uno de ellos representa ideas bastante complejas. Por ejemplo, diferenciemos el concepto democracia
del concepto temperatura mediante sus definiciones. Empecemos por el concepto temperatura. La
temperatura segn la fsica, es el promedio de energa cintica en la materia. El concepto es entonces un
modelo mental de algo que existe y le damos nombre (el trmino que denota al concepto, o significante)
para conocerlo. Su definicin es la explicitacin del concepto que permite que este se diferencie de lo ya
conocido. De ah que la variable es simplemente una manera en que el concepto se manifiesta en el

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
mundo y que puede tomar diversos valores. El valor se obtiene para cada uno de los casos de estudio
(unidad de anlisis).
Sin embargo, en el caso del concepto democracia enfrentaremos algunos problemas metodolgicos. En
primer lugar, el concepto puede tener diversas definiciones y no una nica universalmente aceptada. Con
la definicin (y postura) de democracia elegida, se querr saber el "nivel de democracia" en los pases.
Pero esta variable tendr algunos problemas (que "temperatura" no tuvo) pues no tiene una nica manera
de ser medida. No existe un instrumento como el termmetro que permita saber el nivel de democracia,
por lo que se recurrir a ms de un valor para medir la variable. Cuando este es el caso, se llama variable
latente a aquella que hace uso de muchos valores. De ah que, segn la definicin por la que optemos
habr que buscar o recolectar varios valores.
Por ejemplo, la revista The Economist tiene una definicin tal de democracia que usa los valores (o ms
propiamente "modalidades") "proceso electoral y pluralismo", "libertades civiles", "funcionamiento real
del gobierno", "participacin poltica" y "cultura poltica". Estos an son constructos abstractos, por lo
que cada uno necesitar de sus propios valores. El resultado es la variable "nivel de democracia". Cuando
una variable se haya construido a partir del clculo de otras, recibe el nombre de ndice. Los valores de
una variable tambin son llamados indicadores.
1.4

Escalas de medicin

Todo lo anterior puede parecer muy complicado, no obstante, son simplemente las pautas de cmo dar
valores a cualquier evento de la realidad. En este caso asumiremos que esto est dado ya que
trabajaremos con datas ya elaboradas. Sin embargo, al observar los datos ser sumamente importante
saber diferenciar las distintas escalas en las que se hicieron las mediciones. En nuestro caso particular,
utilizaremos tres escalas: la nominal, la ordinal y la numrica.
a. La escala nominal
Las modalidades de la variable no presentan un orden entre s, son solo categoras. Un ejemplo puede ser
la variable "pas de nacimiento", "diario favorito", "empresa celular que utiliza". Cada una de estas
variables tendr respuestas como "Per", "Argentina", "El Comercio", "La Repblica, "Movistar", etc. Tal
como podemos observar, estas no provienen de conjuntos de alternativas que deban respetar un orden.

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

b. La escala ordinal
Las modalidades siguen siendo cualitativas; por ejemplo, la variable "nivel educativo" puede referirse a
personas con nivel "primaria", "secundaria", "superior". Sin embargo, el conjunto de todas estas posibles
respuestas tiene un orden particular, que denota un mnimo (primaria) y un mximo, (superior).
c. La escala numrica
Las escalas nominal y ordinal representan estados cualitativos; sin embargo, cuando tratamos la escala
numrica, s estamos haciendo referencia a la idea de magnitud. Cuando hablamos de magnitud podemos
referirnos a cosas tan cotidianas como nuestros "ahorros en soles", "peso", "altura", etc.
1.5

Codificacin

Las escalas no seran muy difciles de entender si no fuera porque la mayora de las veces aparecen
codificadas, lo que puede causar confusin. La codificacin es un paso sumamente necesario para que
cualquier programa informtico sea capaz de procesar la informacin. Es mucho ms sencillo para las
computadoras realizar clculos estadsticos si los datos que manejan son nmeros. Por ello, cuando se
abren y revisan algunas bases de datos en una computadora, lo nico que se observa son caracteres
numricos, aun cuando solo algunos de ellos representan variables en escala numrica y los dems,
variables en escala nominal u ordinal. As, en vez de decir "en letras" el nivel educativo, aparecen nmeros
que indican algn nivel de educacin (1 para primaria, 2 para secundaria, 3 para educacin superior, etc.).
Tal como mencionamos anteriormente, solo en el caso de las variables en escala numrica los nmeros
representan una magnitud. As pues, si la variable "empresa celular preferida" tiene el valor 2 para
movistar y el 1 para "nextel", no implica que la empresa movistar sea el doble o ms importante que la
empresa nextel. En otras palabras, no es ms que una simple etiqueta, un simple rtulo. Es diferente si la
variable fuera "nmero de hijos"; en ese caso, el que tiene 4 hijos posee ms que el que tiene 2 (el doble).
Otro uso particular e importante de los cdigos son los valores perdidos (missing values), que son los
cdigos que se utilizan para indicar respuestas inadecuadas o inapropiadas o faltantes, pero que se

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
sealan de manera explcita. Estos valores no se utilizan en los clculos; ms bien, la codificacin que
tienen permite que los programas informticos los ignoren (99, 999, .)
Una vez que disponemos de las definiciones de los conceptos que vamos a utilizar y habiendo definido
una estrategia de investigacin que nos permita comprobar nuestra hiptesis es necesario pues
operacionalizar nuestras variables para obtener una mejor recoleccin de los datos, lo cual representa el
siguiente paso en el ciclo de investigacin.
En el presente curso abordaremos el rea de anlisis de datos. El anlisis de datos al igual que la
recoleccin de los mismos son ambos trabajados por la estadstica, puesto que esta se define como la
ciencia de la organizacin, anlisis e interpretacin de los datos. Esto nos permite, como vemos en el
ltimo punto; reportar hallazgos, que no es ms que conocimiento producido a partir de los datos
disponibles. En otras palabras, la razn por la que la estadstica es relevante es porque nos permite
producir conocimiento que nos sirve para la toma de decisiones, esto es as, tanto para las ciencias
formales, como para el campo de las ciencias sociales.
Sin embargo, existen diferentes tipos de estadstica. Por un lado tenemos la estadstica matemtica, la
cual se encarga de estudiar y desarrollar la teora existente sobre esta ciencia. Esta rama nos provee de
las herramientas matemticas para desarrollar el anlisis estadstico de los procesos en las ciencias
sociales. Por otro lado, tenemos la estadstica aplicada, la cual se encarga del procesamiento y anlisis de
datos orientado a la toma de decisiones, ser esta la que desarrollaremos en el presente curso. Esta rama
se subdivide en dos campos de estudio. La estadstica descriptiva y la estadstica inferencial.
La estadstica descriptiva, presente en las unidades 2 y 3 se encarga de los mtodos de visualizacin y
resumen numrico o grfico de los datos de la poblacin analizada. Es la rama donde se analiza de manera
unilateral la interaccin de distintas variables. La estadstica descriptiva llega a ver relacin entre variables,
sin embargo, esta relacin es simtrica. (Este concepto se desarrollar con mayor amplitud en la unidad
5).
La estadstica inferencial, por otro lado, se dedica a la generacin de los modelos direccionales, inferencias
y predicciones teniendo en cuenta lo aleatorio en las observaciones de una muestra. Esta rama de la
estadstica ha sido ampliamente desarrollada por la economa, y su uso est en expansin dentro de las
dems ramas de las ciencias sociales.

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
1b) MINERA DE DATOS
1.1 Definicin
La Minera Datos es un sub-campo interdisciplinario de lo que se conoce como ciencias de la computacin.
Es un mecanismo de explotacin consistente con la bsqueda de informacin valiosa en grandes
volmenes de datos. Su principal objetivo es extraer informacin de una base de datos y transformarla
para un uso ms profundo. Involucra aspectos de manejo de bases de datos, procesamiento de data,
modelamiento y consideraciones inferenciales, consideraciones complejas, visualizacin, entre otros. En
ese sentido, y con fines de este curso, llamaremos minera de datos a todo el proceso del curso y en lo
puntual al proceso de organizacin y limpieza de datos.
Para comenzar esta parte del curso se les proveer a los alumnos inscritos de una carpeta en DROPBOX o
un Google Drive de donde podrn descargar softwares libres en versin portable. Los softwares que se
van a utilizar para esta parte son los siguientes:
AbbyyFine Reader V.12
Snagit v.11
Acrobat v.11
Tambin se usar el Excel de Microsoft Office.
El URL de donde se puede descargar los softwares portables es el siguiente:
https://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2M#
La carpeta de Dropbox se compartir con los alumnos a travs de los correos con los que se inscriban en
el curso.
1.2 Caractersticas de los Softwares
El AbbyyFine Reader es un software muy potente que tiene la finalidad de simplificar la conversin de
documentos a una versin editable. Particularmente el Abbyy Fine Reader es un sistema de
reconocimiento ptico de caracteres (OCR) que fcilmente puede convertir cualquier tipo de PDF,
documentos digitales y ficheros de imagen, incluyendo las fotos digitales, en documentos editables que
luego se pueden usar en las aplicaciones y el entorno Office. Este software servir de pivote y se
complementar con los otros tres.
El Snagit es un simple software cuya funcin radica en capturar pantallas e imgenes previa seleccin del
marco. Este software es bastante intuitivo. Luego de capturar la pantalla o la seccin que se quiere se
puede copiar y llevar aun documento. Sin embargo, usaremos este software para grabar las imgenes
como PDFs y llevarlo al Abbyy Fine Reader.
El Acrobat es un software que permite editar PDFs y es de fcil uso para ordenar pginas dentro de un
PDF. No se explorarn mayores funciones.
1.3 ndice de Temas

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
1. Importacin de datos desde documentos PDF.
a. Uso prctico del Abbyy Fine Reader.
b. Uso prctico del Snagit.
2. Importacin de datos desde una pgina web.
a. Copy/Paste
b. Usar el Democracy Index
c. Importacin hacia Excel.
3. Limpieza de Datos
a. Eliminacin de valores repetidos
b. Sustitucin de , por .
c. Separacin de datos en columnas.
d. Eliminacin de espacios dobles.
e. Concatenacin de datos.
f. Filtrar y ordenar
g. Sustitucin sistemtica de caracteres.
h. Transcripcin de datos y extraer valores nicos

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

UNIDAD 2: EXPLORACIN UNIVARIADA


La exploracin univariada est comprendida dentro del campo de la estadstica descriptiva. Su uso es uno
de los ms sencillos y a la vez ms usados por los promotores de informacin cuantitativa. As tenemos
que, en la presentacin de una encuesta, lo que se presenta comnmente son estadsticos descriptivos
de variables: resmenes de conteos muestrales. El anlisis puede darse a nivel de la variable misma o a
nivel de categoras, tal como vemos en la imagen.

Fuente: IOP PUCP

En el ejemplo anterior, vemos que la variable es preferencias electorales, y el cuadro presentado es


simplemente el recuento de intencin de voto hacia Ollanta Humala y Keiko Fujimori. En este caso, cada
opcin de las filas: Blanco/ Viciado y No sabe / No responde, ms la preferencia por ambos candidatos,
vendran a ser las categoras de la variable; y las cifras obtenidas son una subdivisin por categoras.

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
En la exploracin univariada debemos considerar que vamos a contar siempre con tres categoras de
anlisis. El anlisis de Tablas de frecuencia, medidas y grficos. Estas tres categoras nos presentarn
diversas herramientas dependiendo de la naturaleza de la variable, si es de tipo Nominal, Ordinal o
Escalar.
2.1

Exploracin de variables Nominales

Como vimos en la Unidad 1, las variables pueden encontrarse en tres escalas de medicin. Dependiendo
de estas es que vamos a determinar qu tipo de anlisis podemos aplicarle a una variable determinada.
En este caso, vamos a analizar las variables nominales.
a. Tablas de frecuencia
Una variable nominal solo reporta un registro no jerarquizado de categoras. En el ejemplo anterior,
vemos que Ollanta Humala y Keiko Fujimori son dos categoras de una variable nominal, puesto que
ninguno de los dos presentan una jerarqua respecto del otro. Lo que vimos en el ejemplo anterior es una
tabla de frecuencias; ya que, esta presenta la informacin de la variable dividida en sus categoras; y hace
un recuentro de los datos que esta nos ofrece. En una variable nominal, las tablas de frecuencia se
presentan de manera similar a la del ejemplo.
b. Medidas
Adems, tenemos el anlisis de las medidas. Las variables nominales solo presentan una medida de
tendencia central y una de dispersin. Las primeras son llamadas as porque sirven para determinar una
medida que represente un punto principal o estadsticamente relevante dentro de la variable. Para el caso
de la variables nominales, el valor central es la moda.
Moda
La moda es una medida que muestra el valor que ms se repite dentro de los datos que provee una
variable. As, si uno tiene un saln de clases donde la distribucin de notas es la siguiente:

10

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

Podemos observar que el valor que ms se repite en este caso es Catlico.


Variacin Modal
La variacin modal es una medida de dispersin aplicable para la exploracin de una variable nominal y
puede entenderse como el porcentaje que no est representado por la moda. As, si tenemos que en
nuestro ejemplo de 5 casos, el 60% tiene una inclinacin hacia una sola categora (en este caso Catlico),
entonces vemos que la variacin modal seran los otros dos casos que son parte de la variable pero no
son parte de la moda (En este caso, es 40%).

c. Grficos
Con respecto a los grficos, tenemos al grfico de barras y al grfico de segmentos (Grfico Pie). Estos se
encargan de presentar de manera visual el contenido de la informacin que presenta la variable a analizar.

11

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Ejemplos:

Encuestados
Serie 1

3
Catlico
Evanglico
Judio

2
1

Encuestados

2.2 Exploracin de variables Ordinales


Las variables ordinales si presentan una diferenciacin jerarquizada de sus categoras, as podemos ver
que en una variable de tipo Inters en la poltica, podemos encontrar una diferenciacin gradual que
puede ir desde Ningn inters, hasta Inters absoluto

Como vemos en nuestro ejemplo, la categorizacin abarca distintos grupos de clasificacin, los cuales se
presentan en un orden ascendente de inters.
a. Tablas de Frecuencia
La tabla de frecuencias se presenta de manera similar a la de las variables nominales, con la diferencia de
que el orden de aparicin ya no es arbitrario, sino que representa una estratificacin que va desde la
menor intensidad hacia la mayor intensidad.
b. Medidas de tendencia central
En el caso de las medidas, a las ya vistas anteriormente (Moda y variacin modal) se le une unan nueva
medida de valor central: La Mediana.

12

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Mediana
La mediana es una medida de valor central que determina el punto medio de todos los casos que contiene
una variable. En otras palabras, cuando hablamos de mediana, hablamos del valor que dentro de los casos
se ubica en el centro.
Al tener una variable ordinal como Inters en la poltica:

Vemos que hasta el 50% de los valores que muestra la variable (En este ejemplo; el caso 5), la mediana
vendra a ser Inters Moderado. Podra darse el caso que la mediana sea igual a la moda, en la medida
que esta se ubique en el valor central de la distribucin de los datos.
c. Medidas de Dispersin N Tiles.
As como el valor central en una distribucin de los datos es la mediana, existen diferentes divisiones en
la distribucin de los datos, y por ello podemos hablar de toda una rama de divisiones que indican la
dispersin de los datos as como su posicionamiento. Estos son los N- tiles. Algunos de los N-tiles ms
conocidos son los cuartiles y percentiles. Los cuartiles dividen los datos de una variable en tres cortes,
donde el 25%, ser el cuartil 1, el 50% (la mediana) ser el cuartil 2 y el 75% ser el cuartil 3. Normalmente
se asume que los cuartiles indican tres momentos de posicin de los datos, tal como vemos en la seccin
de grficos.
d. Grficos
Adems de los grficos ya mencionados, la escala ordinal presenta los diagramas de caja o boxplots, los
cuales grafican los cuartiles.

13

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

Mximo
Q3

Mediana = Q3

Mediana
Q2

Mnimo

Ancho: A ms ancho mayor dispersin


Largo: Relacin con respecto al mximo y al mnimo

Como hemos visto en el ejemplo anterior,


1. Percentiles: 25 - 50 - 75

BOX PLOT
Q3 = Q2=Mximo

Q1

Q1 = Q2

Q3 = Mxima
Q2

Q3 = Mediana,
mnimo, mximo

Q1 = Mnimo

[Rpts: 1, 1, 1, 1]

2.2 Exploracin de variables Escalares


Para el caso de las variables escalares, el valor de los nmeros dejan de tener un valor arbitrario para
pasar a tener un valor efectivo. As, cuando hablamos de variables escalares nos referimos a una variable

14

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
numrica; en la medida que, lo que se recoge son cifras acerca de la variable. Como ejemplo tenemos a
Nmero de casas, Percepcin de ingresos mensuales, etc.
Las tablas de frecuencia en las variables escalares slo tienen sentido cuando esta se agrupa en intervalos.
De otra forma, el hacer una tabla de frecuencias nos da como resultado la presentacin del a variable
caso por caso. Como en este tipo de variables ya no tenemos categoras, vamos a ver que lo que
obtendremos es un recuento de todos los valores que se encuentran en la variable escalar; lo cual podran
ser cientos o miles. Tamaa tabla no solo no es extensa, sino que su utilidad para el anlisis estadstico es
nula.
Las variables escalares logran recuperar todas las medidas vistas anteriormente ms la consideracin de
que ahora entra a tallar la medida de tendencia central Media o promedio.
a. Medidas de tendencia Central
Media
La media es, como ya dijimos, el promedio de los valores que contiene la variable. En este caso, si tenemos
una variable donde se detalla el ingreso anual de una persona, vamos a ver que el promedio es la cifra de
la suma de sus sueldos mensuales, dividida entre el nmero de sueldos recibidos. La media es muy
importante pues este valor central se muestra como homogeneizador de la informacin de la variable. Sin
embargo, como veremos ms adelante, la media no es el nico valor que debe ser tomado en cuenta a la
hora de realizar un anlisis.
Con la media debemos tener en cuenta varios aspectos. Primero, que la suma de los valores dentro de la
media empieza con el valor mnimo y va hasta el mximo. Esto es necesario de saber puesto que estos
valores extremos pueden distorsionar el resultado de la media.
b. Medidas de dispersin
Dentro de las medidas de dispersin, se incorporan la varianza, la desviacin tpica, la amplitud
intercuartil, y los valores mnimos y mximos.
Desviacin tpica y Varianza
La desviacin tpica muestra cun alejados estn los valores de la media. Es por ello que esta medida nos
puede dar una idea acerca de la dispersin de los datos de la variable. Si es que la desviacin estndar/

15

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
tpica es alta, habr mayor dispersin y la media ser ms robusta. Si es que la cifra es baja y se acerca al
0; los valores estn ms prximos a la media y, por ello, habr menor dispersin.
La varianza es la desviacin tpica elevada al cuadrado. Esto se hace con el objetivo de lograr una mayor
precisin a la hora de comparar valores que se pueden diferenciar por milsimas en la desviacin
estndar, pero la distancia se agranda con la comparacin entre varianzas.
Asimetra
La asimetra nos permite observar cual ha sido la naturaleza de la distribucin de los datos. Es decir, cual
ha sido la forma en la que todos los datos se han desplazado a lo largo de la variable.
As, tenemos que esta puede ser negativa, Nula (simtrica) o positiva.

Curtosis
La curtosis se refiere al apuntamiento o concentracin de las variables a lo largo de la data. Ahora ya no
vemos si es que los datos estn concentrados en determinado cuartil de la distribucin, sino cuan
concentrados estn.

16

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

Fig 1
ddddddddddd
dddd0
Mesocrtica

Fig 2

Fig. 3

>0
Leptocurtica

<0
Platicrtica

Una media ser


robusta cuando
tenga dispersin
baja, cuando sea
simtrica y
mesocurtica. El
coeficiente de
Simetra y curtosis
debe acercarse a
0.

Estimadores M:
Adems de los las medidas de tendencia central clsicas en las variables escalares: Moda, mediana y
media; vemos que existe una serie de pruebas estadsticas para contrastar el valor de la media y tener
una idea acerca de la robustez de la misma. Estos test se llaman los estimadores M y son 4.
-

Onda de Andrews

M de Hampel.

M de Tuckey

M de Huber.

Estos cuatro estimadores se leen en simultaneo y la forma correcta de interpretarlos es comparando el


resultado entre los cuatro y con la media. Si la variacin entre los estimadores M y la Media es mnima,
significa que la media es robusta. Sin embargo, si esta es considerable, es mejor guiarse de los estimadores
M ms que de la media, pues existen valores dentro de la variable que estn sesgando la media.
c. Grficos
Barras de Error: Las barras de error se encargan de representar de manera grfica a la media y a la
desviacin estndar. El grfico se interpreta como La media como el centro circular, y el rango en donde
la media se puede desplazar, los bigotes del error bar.

17

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

Barras de Error.

Media

Histogramas: Es la representacin segmentada de la distribucin de


valores numricos. En tal sentido, las barras no representan categoras
como s lo son en el caso de los grficos de barras, sino que
representan un determinado N-til, es decir, cierto sector de la
distribucin de los datos de una variable.

18

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

UNIDAD 3: ANLISIS BIVARIADO


La exploracin de dos variables siempre analiza la interaccin entre las mismas, y es por ello que podemos
ver diferentes tipos de interaccin. Una de ellas nos informa acerca de si existe o no relacin entre dos
variables y cul es la naturaleza de dicha relacin. Por naturaleza de la relacin me refiero a las
caractersticas que esta tiene. Como veremos, la relacin por si misma se ve complementada con medidas
de intensidad y sentido.
Ahora, para empezar a trabajar esta unidad es necesario hacer una precisin metodolgica. El anlisis
bivariado parte de una bsica distincin. Para el caso de las variables cualitativas (Categricas, atributivas,
etc.) vamos a usar el anlisis de las tablas de contingencia, pues esta sirve para analizar variables
nominales y/u ordinales. En el caso que necesite hallar una relacin entre una variable cualitativa y una
cuantitativa o escalar, una forma de analizar esta relacin entre variables es a travs de la recodificacin.
Anlisis entre:
Nominal

Nominal

Ordinal

Nominal

Ordinal

Ordinal

Las tablas de contingencia son matrices donde se visualizan cruces de informacin entre dos variables.
Con esto se pretende analizar la dinmica de la relacin entre las dos variables que estemos analizando.
La forma cmo se presentan las tablas de contingencia es simtrica, es decir, que no importa que variable
vaya en las filas o columnas, ya que la relacin existente entre las dos variables es de doble sentido (Una
afecta a la otra sin estar de por medio un vnculo relacional de causalidad o impacto).
Dentro del anlisis bivariado dentro de las tablas de contingencia, nos podemos permitir la subdivisin de
los resultados de las relaciones de las variables relacionables a travs de la introduccin de variables de
control. Estas generarn un anlisis bivariado, pero dividido de acuerdo a las categoras que la variable de
control necesita. (recurdese que las variables deben ser cualitativas, es decir, nominales, ordinales, o
escalares reconvertidas en intervalos).

19

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Ejemplo: Relacin entre las variables: Politicamente se considera? y Nivel Educativo
% de Nivel Educativo
Nivel Educativo

Politicamente

Total

1. Menos que

2. Secundaria

3. Ms que

Secundaria

Completa

secundaria

1. Muy liberal

3.1%

3.5%

6.0%

5.1%

2. Liberal

7.8%

8.1%

10.7%

9.8%

3. Algo liberal

19.5%

21.9%

21.8%

21.6%

4. Moderado

9.4%

7.4%

6.1%

6.7%

46.1%

36.3%

29.1%

32.5%

8.6%

13.6%

17.0%

15.4%

5.5%

9.2%

9.3%

9.0%

100.0%

100.0%

100.0%

100.0%

se considera?

5. Algo
conservador
6. Conservador
7. Muy
Conservador
Total

3.1

Principales Medidas Estadsticos

a.

Chi Cuadrado

Chi Cuadrado es un test estadstico que nos permite hallar la relacin entre variables. Este test solo te
permite hallar si es que una variable est relacionada con la otra, sin embargo, para saber ms acerca de
la naturaleza de la relacin, es necesario elaborar algunas pruebas ms. La forma como se debe
interpretar el test de Chi Cuadrado es a travs de la significancia. La significancia es el valor que se debe
considerar para aceptar o rechazar la hiptesis neutra que la prueba tiene como premisa. En el caso de

20

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Chi Cuadrado, la premisa es: Las variables no estn relacionadas entre s. La forma como se intepreta
la significancia es:
Mayor a 0,050

Aceptas la Hiptesis.

Menor a 0,050

Rechazas la Hiptesis.

Chi-cuadrado de
Pearson
Razn de
verosimilitudes
Asociacin lineal por
lineal

N de casos vlidos

Valor

gl

Sig. asinttica (bilateral)

31.812(a)

12

.001

32.298

12

.001

1.052

.305

1619

Pruebas de chi-cuadrado
Vemos la sig. Asinttica (bilateral) para determinar si hay o no hay relacin. Va a haber relacin siempre
y cuando la significancia de la fila del chi-cuadrado de Pearson sea menor a 0.05. Y no habr relacin
cuando sea mayor a 0.05. Por ejemplo, en la tabla anterior, como la significancia es menor a 0.05 s habr
relacin.
3.2

Medidas de Intensidad y Sentido

Una vez que confirmamos la relacin entre las variables, conviene analizar la naturaleza de la misma. De
esto se desprenden las medidas de intensidad y Sentido. La primera nos ayudar a ver la fortaleza de la
relacin entre las variables, de manera que:

21

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Si el Coeficiente es Menor que 0,400

La relacin es difusa.

Si el Coeficiente est entre 0,400 y 0,600

La relacin es medianamente fuerte.

Si el coeficiente es Mayor que 0,600

La relacin es fuerte.

Los test estadsticos para este tipo de pruebas varan de acuerdo al tipo de variable.
a. Pruebas de Intensidad para variables Nominales
Las pruebas que miden la intensidad de la relacin entre dos variables nominales con las que vamos a
trabajar son tres: Phi, la V de Crammer y el Coeficiente de Contigencia. Phi se usa para casos en los que
la tabla de contingencia presenta solo dos categoras para cada variable, es decir, tenemos una tabla de 2
x 2. Cuando relacionamos dos variables Nominales con diferentes nmeros de categoras (Es decir, una
tabla distinta de 2 x 2), la prueba estadstica presenta problemas, por lo que es ponderada por la prueba
V de Crammer y por el Coeficiente de Contingencia.
Tanto el primer test como el segundo hacen el mismo trabajo; medir la intensidad de la relacin entre las
variables, pero estos si resisten variables con categoras diversas. La diferencia entre ambos radica en el
hecho de que V de Crammer emplea un algoritmo distinto al del coeficiente de Contingencia, el cual lleva
a que la prueba sea subestimadora para todos los casos. Es decir que la ecuacin de la prueba V de
Crammer tiende a presentar valores bajos de relacin entre variables, pero asegurando un mayor rango
de confiabilidad. El coeficiente de Contingencia implementa un segundo algoritmo que adapta la ecuacin
de Phi, para que pueda soportar valores con ms categoras.
b. Pruebas de Intensidad para variables Ordinales
Para el caso de las variables ordinales, tenemos tres pruebas clsicas y una cuarta que mide de igual
manera intensidad y sentido. Esta ltima ser explicada en la seccin referida a Sentido en variables. En
referencia a las tres pruebas clsicas, tenemos a Tau B, Tau C y Gamma. La primera es usada para casos
en los que la tabla de contingencia presenta variables con un nmero de categoras similar, es decir, tablas
de N x N. Tau C corrige a Tau B, haciendo que se pueda hallar la intensidad de la relacin entre variables
con diferente nmero de categoras; es decir, tablas de N x M. Gamma es usada solamente para tablas de
2 x 2.
c. Pruebas de Sentido / Direccin

22

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Las pruebas de sentido o de direccin de la relacin entre variables sirven para ver la forma cmo vara la
intensidad en la relacin entre las variables. As, podemos hablar de dos conceptos clave. Directamente
proporcional (sentido Positivo) o Inversamente proporcional (sentido Negativo). El primero quiere decir
que a mayor cantidad de uno, mayor cantidad de otro, Mientras que el segundo nos dice que a mayor
cantidad de uno, menor cantidad del otro.
Las pruebas estadsticas que nos presentan la direccin solo se pueden usar para variables ordinales. Esto
es as porque no podemos determinar a mayor cantidad de una y otra categora sin antes asignarle un
valor jerrquico a la variable en s. Como podemos recordar, en las variables nominales no podemos
asignar valores de orden o jerarqua, por lo que la prueba de direccin no puede ser aplicable.
La prueba de sentido de la relacin entre dos variables es la D de Sommers. Esta herramienta permite al
mismo tiempo analizar la fuerza o intensidad y el sentido o direccin de la relacin. Esta se lee
interpretando el coeficiente, de manera que una relacin con sentido directamente proporcional tendr
el signo positivo en el coeficiente que se presenta; mientras que una relacin con sentido inversamente
proporcional mostrar el coeficiente en nmeros negativos. El valor absoluto del coeficiente nos servir
para analizar la fuerza del mismo.
3.3

R de Pearson y Correlacin Parcial

R de Pearson es una prueba estadstica que mide la correlacin lineal entre variables numricas que se
distribuyen normalmente. La hiptesis nula de R de Pearson es que no existe una correlacin lineal entre
las variables.
Dentro de las correlaciones, tenemos a la correlacin parcial, que es una prueba que permite evaluar el
resultado de una correlacin entre dos variables numricas, teniendo en cuenta el retiro del efecto de
una que puede intervenir. En otras palabras, con la correlacin parcial se puede estimar que hubiera
pasado s dicha variable no estuviera relacionada en lo absoluto con la correlacin inicial.
3.4

Notas adicionales Otros tipos de Interaccin entre dos variables


a. Kappa

La prueba de Kappa se usa para medir el ndice de acuerdo entre dos variables, categrica y politmica en
distintos modelos. Por ejemplo, la aprobacin en un momento dado y la aprobacin en un momento
previo.

23

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
b. Mc Nemar
La prueba de Mc Nemar nos ayuda a comparar el cambio en el tiempo de una variable determinada. Es
considerado un anlisis bivariado porque se tiene una doble medicin de la variable, pero en dos
momentos distintos. Comparas a la Variable Momento N respecto de la variable Momento N + M.

UNIDAD 4: ESCALAMIENTO PTICO Y TCNICAS MULTIVARIADAS BSICAS


ANLISIS FACTORIAL
4.1 Escalamiento ptimo: Anlisis de Componentes Principales Categricos - CATPCA
Definicin
El anlisis de Componentes Principales Categricos (tambin por el acrnimo CATPCA, del ingls
CATegorical Principal Components Analysis) es una tcnica de reduccin de dimensiones, que por medio
del escalamiento ptimo obtiene, de un conjunto de variables con determinadas caractersticas o
propiedades especficas, un nmero menor de variables generales, las cuales agrupan un porcentaje de
las propiedades de cada variable especfica en trminos de medida mixtos. Este procedimiento cuantifica
simultneamente las variables categricas a la vez que reduce la dimensionalidad de los datos.
El objetivo de los anlisis de componentes principales es la reduccin de un conjunto original de variables
en un conjunto ms pequeo de componentes no correlacionados que representen la mayor parte de la
informacin encontrada en las variables originales. La tcnica es ms til cuando un extenso nmero de
variables impide una interpretacin eficaz de las relaciones entre los objetos (sujetos y unidades). Al
reducir la dimensionalidad, se interpreta un pequeo nmero de componentes en lugar de un extenso
nmero de variables.
A diferencia del Anlisis Factorial, en donde se realiza un anlisis de relaciones lineales entre variables
numricas; el mtodo de escalamiento ptimo permite escalar las variables a diferentes niveles, siendo
posible en anlisis para variables cualitativas. Las variables categricas se cuantifican de forma ptima
bajo una dimensionalidad especificada.
Dentro de los casos en donde se usa esta prueba estadstica con mayor frecuencia tenemos a la creacin
de indicadores a partir de un conjunto determinado de variables, as como la verificacin estadstica de
indicadores creados previamente. Se puede utilizar tambin para representar grficamente la relacin
entre la categora laboral de un ciudadano, la regin a la que pertenece, el nmero de desplazamientos
(alto, medio y bajo) y la satisfaccin laboral. Al usar la prueba se puede apreciar que cuantificando las
variables a dos dimensiones, se puede explicar una gran cantidad de varianza. La primera dimensin
podra separar la categora laboral de la regin, mientras que la segunda dimensin podra separar la
divisin laboral del nmero de desplazamientos. Tambin podr observar que la alta satisfaccin laboral
est relacionada con un nmero medio de desplazamientos.

24

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

Caractersticas y diferencias
El anlisis de Componente Principales Categricos (CATPCA) convierte a los valores de una variable
cuantitativa en nmeros enteros positivos por orden alfabtico ascendente. Los valores perdidos del
usuario, los valores perdidos del sistema y los valores menores que 1 se consideran valores perdidos. Sin
embargo, se puede aadir una constante o recodificar las variables con valores inferiores a 1 para evitar
que se pierdan los mismos. Para que la prueba pueda ser vlida los datos deben contener al menos tres
casos vlidos, es por ello que si se encuentran casos que necesiten una estandarizacin en sus valores, se
puede aplicar un anlisis de discrecionalizacin, que agrupar las variables al valor entero ms prximo
para rescatar la informacin. El anlisis se basa en datos enteros positivos.
Cmo realizar el Anlisis de Componentes Principales Categricos (CATPCA) en SPSS?
Dentro del Men analizar, seleccionar la opcin Reduccin de datos, y dentro de ellas, Escalamiento
ptimo.

La tcnica de Escalamiento ptimo est diseada para variables categricas. Como mencionamos
inicialmente, existen variables categricas nominales dicotmicas y politmicas; adems de variables
categricas ordinales. Es por ello que para realizar la prueba debemos reconocer dicha diferenciacin.

25

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

La diferencia que establece el SPSS refiere a las variables nominales politmicas y las que no lo son. En
caso se trabaje con variables ordinales se debe seleccionar la segunda opcin. Una vez seleccionadas las
variables de anlisis, se debe definir la escala y ponderacin que esta sigue.

En caso el anlisis de las variables no considera la ponderacin de variables, mantendr un valor de


ponderacin 1. Asimismo, se puede establecer el nivel de escalamiento ptimo de acuerdo al tipo de
variable.

26

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

El escalamiento ptimo es sensible a analizar la informacin en funcin a los valores identificados,


independientemente de si estos han sido vlidos o perdidos. Para ello es importante recalcar que los
valores perdidos deben ser excludos.

Los resultados del escalamiento ptimo deben estar expresados en funcin de las variables resultantes
que obtendremos, pero para dicho fin no es necesario contar con las correlaciones de las variables
transformadas.

27

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
La lectura se realiza de manera similar al anlisis factorial. Sin embargo existen ciertas diferencias en la
interpretacin de los reclutados en torno al Alfa de Cronbach. Esta prueba debe tener un coeficiente
superior a 0.700, para considerar que la confiabilidad de la operativizacin de las variables es fuerte, y por
lo tanto el nivel de informacin de las variables resultantes es representativo.

4.2 Qu es el anlisis factorial?


El anlisis factorial es una tcnica de reduccin de datos que sirve para encontrar grupos homogneos de
variables a partir de un conjunto numeroso de variables. Esos grupos homogneos se forman con las
variables que se correlacionan mucho entre s y que los grupos sean independientes de otros.
Cuando recogemos un gran nmero de variables de forma simultnea, como en una encuesta sobre el
nivel de gobernabilidad, podemos estar interesados en averiguar si las preguntas del cuestionario se
agrupan de alguna forma caracterstica. Aplicando un anlisis factorial a las respuestas de los individuos
podemos encontrar grupos de variables con significado comn y conseguir de esta manera reducir el
nmero de dimensiones necesarias para explicar las respuestas de los sujetos.
A diferencia de lo que ocurre en otras tcnicas como el anlisis de varianza o el de regresin, en el anlisis

28

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
factorial todas las variables del anlisis cumplen el mismo papel: todas ellas son independientes en el
sentido de que no existe a priori una dependencia conceptual de unas variables sobre otras. Vale recordar
por tanto que con el anlisis factorial no estamos planteando un modelo explicativo o causal entre
variables independientes y dependientes.
4.3

Etapas

Para el desarrollo del anlisis factorial en SPSS (PASW) tenemos 4 etapas principales:

4.4

a.

El clculo de una matriz que expresa la variabilidad conjunta de todas las variables

b.

La extraccin del nmero ptimo de factores

c.

La rotacin de la solucin para facilitar la interpretacin

d.

La estimacin de las puntuaciones de los sujetos en las nuevas dimensiones

Leyendo los resultados

La tabla a continuacin contiene las comunalidades asignadas inicialmente a las variables (inicial) y las
comunalidades reproducidas por la solucin factorial (extraccin). Podemos entender la comunalidad
de una variable como la proporcin de su varianza que puede ser explicada por el modelo factorial
obtenido. Estudiando las comunalidades de la extraccin podemos valorar cules de las variables son
peor explicadas por el modelo. En nuestro ejemplo, la variable nivel educativo es la peor explicada: el
modelo slo es capaz de reproducir el 68,2% de su variabilidad original.
Para hallar estas comunalidades se ha utiliza el mtodo de extraccin denominado componentes
principales. Dicho mtodo de extraccin, activado por defecto, asume que es posible explicar el 100% de
la varianza observada y por tanto considera que todas las comunalidades iniciales son iguales a la unidad
(que es justamente la varianza de una variable en puntuaciones tpicas).
A partir de esta tabla podemos empezar a plantearnos si el nmero de factores obtenidos (enseguida
veremos cules son esos factores) es suficiente para explicar todas y cada una de las variables incluidas en
el anlisis. Tambin podemos empezar a plantearnos en este momento si, dando por bueno el nmero de
factores extrado, alguna de las variables incluidas podra quedar fuera del anlisis.

Nivel educativo
Categora laboral
Salario actual
Salario inicial

Inicial
1.00
1.00
0
1.00
0
1.00
0
0

Extraccin
.682
nn
.782
.901
.887

29

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Meses desde el contrato
1.00
.997
Experiencia previa (meses)
1.00
.894
0
Edad (aos)
1.00
.889
0
Mtodo de extraccin: Anlisis de Componentes principales.
0
La tabla de porcentajes de varianza explicada ofrece un listado de los autovalores de la matriz de varianzas
y del porcentaje de varianza que representa cada uno de ellos. Los autovalores expresan la cantidad de la
varianza total que est explicada por cada factor; y los porcentajes de varianza explicada asociados a cada
factor se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cual coincide
con el nmero de variables). Por defecto, se extraen tantos factores como autovalores mayores que 1
tiene la matriz analizada.
Autovalores iniciales

Sumas de las saturaciones al


cuadrado de la extraccin

Componente

Total

% de la

varianza

acumulado

Total

% de la

varianza

acumulado

3.167

45.242

45.242

3.167

45.242

45.242

1.857

26.528

71.769

1.857

26.528

71.769

1.008

14.405

86.174

1.008

14.405

86.174

0.429

6.125

92.299

0.247

3.523

95.822

0.194

2.776

98.598

0.098

1.402

100

La matriz de componentes principales contiene las correlaciones entre las variables originales (o
saturaciones) y cada uno de los factores. Conviene sealar que esta matriz cambia de denominacin
dependiendo del mtodo de extraccin elegido. En este caso se denomina matriz de componentes
porque vamos a utilizar el mtodo de componentes principales como mtodo de extraccin (activado
por defecto en el SPSS).

30

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

Componente
1
2
3
Nivel educativo
.806
-.172
.047
Categora laboral
.843
.260
Salario actual
.944
.089
.041
.061
Salario inicial
.910
.232
Meses desde el contrato
.043
.053
.996
.077
Experiencia previa (meses)
-.179
.927
Edad (aos)
-.232
.914
.026
.041
Mtodo de extraccin: Anlisis de componentes principales.
4.5

Requisitos

KMO y prueba de esfericidad de Bartlett. La medida de adecuacin muestral KMO (Kaiser-Meyer-Olkin)


contrasta si las correlaciones parciales entre las variables son suficientemente pequeas. Permite
comparar la magnitud de los coeficientes de correlacin observados con la magnitud de los coeficientes de
correlacin parcial. El esta dstico KMO vara entre 0 y 1. Los valores pequeos indican que el anlisis
factorial no es confiable; mientras ms se acerque a 1 la cantidad de muestra es suficiente y las
correlaciones parciales son pequeas.
La prueba de esfericidad de Bartlett contrasta la hiptesis nula de que la matriz de correlaciones es una
matriz identidad, en cuyo caso no existiran correlaciones significativas entre las variables y el modelo
factorial no sera pertinente.
4.6

Grfico

El grfico de sedimentacin sirve para determinar el nmero ptimo de factores y es una representacin
grfica del tamao de los autovalores.
Tanto la tabla de porcentajes de varianza explicada como el grfico de sedimentacin nos ofrecen
autovalores ordenados de mayor a menor. Si un autovalor se aproxima a cero, esto significa que el factor
correspondiente a ese autovalor es incapaz de explicar una cantidad relevante de la varianza total. Por
tanto, un factor al que corresponde un autovalor prximo a cero se considera un factor residual y carente
de sentido en el anlisis.
Los autovalores residuales se encuentran en la parte derecha del grfico formando una planicie de poca
inclinacin frente a la fuerte pendiente formada por los autovalores que explican la mayor parte de la

31

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
varianza disponible. Por ello, es conveniente inspeccionar el grfico de sedimentacin de izquierda a
derecha, buscando el punto de inflexin en el que los autovalores dejan de formar una pendiente

Autovalor

significativa y comienzan a describir una cada de poca inclinacin.

Nmero de factor

4.7 Rotacin.-Con la rotacin se busca interpretar los casos en los que las cargas factoriales no estn
claras. Las rotaciones simplemente son movimientos de los ejes de tal manera que se mantenga la
comunalidad y el porcentaje de varianza explicada por el modelo, aunque no por cada eje. Lo que
buscamos es que cada factor tenga unos pocos pesos altos y el resto cercanos a cero, y que cada
variable este saturada en solo un factor.
El PASW tiene los siguientes tipos de rotacin: varimax, equamax, quartimax, oblimin directo y
promax.

32

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

UNIDAD 5: MODELO LINEAL GENERAL


5.1

Regresin Lineal

Utilizamos la tcnica de regresin lineal o mnimos cuadrados parciales dado que nos permite explicar un
concepto operacionalizado, como Desarrollo Humano o Calidad de la Democracia, por otros tambin
operacionalizados. Entablar una relacin explicativa amerita que tengamos las denominaciones de
variable dependiente (variable a ser explicada) y variable independiente (variable explicativa). La tcnica
de regresin se denominar regresin lineal simple si tenemos solo una independiente y regresin lineal
multivariante si tenemos ms de una independiente. Las variables independientes pueden ser numricas
(covariables) y

categricas (factores), cumpliendo estas ltimas un rol de control; las variables

dependientes deben ser numricas continuas, normales y no acotadas.

y
Variable
dependiente

z
x

Al formar parte de los modelos lineales tenemos que considerar algunos aspectos a manera de requisitos.
En primer lugar tenemos que explorar nuestras variables y ver cmo se comportan: si es que existen
valores extremos, atpicos, palanca e influyentes.
Valores extremos.- Son aquellos valores lejanos del valor medio.
Valores atpicos.- Son valores extraos para lo normal de la variable.
Valores palanca.- Es un valor que est lejano del centroide. El centroide es el punto donde coinciden las
medias en una regresin.
Valores influyentes.- Estos valores son atpicos y palancas. Los valores atpicos o palanca no tienen que ser
influyentes necesariamente.

33

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

A la hora de correr la regresin debemos a su vez tener en cuenta la relacin entre las variables incluidas
en el modelo. Para afirmar que hay explicacin tenemos que encontrar significancia en las predictoras y
considerar que en el modelo no se presente multicolinealidad, que haya normalidad de los residuos,
homocedasticidad, no autocorrelacin y no espuriedad.
Multicolinealidad.- Mientras se encuentre mayor relacin entre las predictoras, los coeficientes del
modelo sern ms inestables. Cuando tenemos que las predictoras se correlacionan entre s es posible
que diferentes conceptos recojan informacin muy parecida y formen un patrn entre ellos (una recta si
estn fuertemente correlacionados). No hay multicolinealidad si tenemos que el factor de inflacin de
varianza (VIF)

es menor que 4 y los valores de tolerancia son mayores a 0.25. Para evitar la

multicolinealidad se propone usar una tcnica de reduccin de dimensiones como el anlisis factorial.
Normalidad de los residuos.- Los residuos se deben distribuir normalmente, sino la regresin se vuelve
ineficiente y se compromete a la explicacin del modelo. Visualizamos la no normalidad cuando
graficamos un histograma de los residuos estandarizados. Las pruebas estadsticas para deslindar si
estamos ante un caso de normalidad o no son las siguientes: Kolmogorov-Smirnov, Anderson-Darling,
Shapiro-Francia y el Cramer von Misses.

34

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Grficamente no encontramos normalidad, pero para confirmar sacamos la prueba K-S.

Heterocedasticidad.- Tenemos heterocedasticidad cuando los errores se incrementan conforme vara la


variable de respuesta (Y). Se visualiza e en un grfico de dispersin de puntos ntrelos residuos
estandarizados y los valores pronosticados tipificados. Cuando hay una forma en la dispersin diremos
que estamos ante un caso de heterocedasticidad; mientras que si tenemos una dispersin aleatoria (no
se presenta ninguna forma) diremos que estamos ante un caso de homocedasticidad. En otros paquetes
estadsticos como el R y el STATA podemos hallar el coeficiente de Breusch-Pagan que nos permite
deslindar si estamos ante un caso u otro. Si tenemos heterocedasticidad se recomienda hacer uso de la
regresin ponderada.

No autocorrelacin.- Otro de los requisitos es que no se presente correlacin entre los residuos. Para
afirmar esto vamos a considerar que el coeficiente de Durbin-Watson se encuentre entre 1.5 y 2.5.

35

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

No espuriedad.- Se espera que las correlaciones de orden cero, parcial y semiparcial no decaigan
drsticamente. Si encontrramos tal caso afirmaramos que la correlacin mostrada es esprea, y la
correlacin estara mediada por una tercera variable.

UNIDAD 6: MODELO DE REGRESIN LOGSTICA BINARIA


5.1

Definicin

La regresin logstica se caracteriza porque la variable respuesta (explicada) es dicotmica, es decir, oscila
entre valores 0 o 1, de manera que se pueda medir el "xito" y "fracaso" de un evento determinado. Se
denota a la ocurrencia del evento como 1 y a la no ocurrencia del evento como 0. Por tanto, el modelo de
regresin logstica permite observar si una variable dicotmica depende o no de, de otra u otras variables
explicativas. . Es importante recordar que la regresin logstica es una tcnica de causalidad que permite
estimar la probabilidad de que ocurra un suceso en funcin de la dependencia de otras variables.
La aplicacin de la regresin logstica tiene mltiples usos en las ciencias sociales, en ciencias naturales,
estudios de opinin pblica, psicolgicos, epistemolgicos, etc.
Ejemplos de variables dependientes: Si /No posee una enfermedad, Aprobacin/Desaprobacin de una
autoridad pblica.

36

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

y
Variable
dependiente

(Dicotmica)

x
5.2

Notacin:

El modelo de regresin logstica tiene la siguiente forma:


[()] = (

()
) = +
()

Donde, (x) denota el xito de la probabilidad del valor de X. El parmetro determina la velocidad en
que (x) aumenta o disminuye: El signo de indica si la curva est ascendiendo ( > 0) o
descendiendo ( < 0)
La probabilidad de que ocurra el evento en cuestin como funcin de ciertas variables explicativas. Si ese
hecho que queremos modelizar o predecir lo representamos por Y (la variable dependiente), y las k
variables explicativas (independientes y de control) se designan por 1 , 2 , 3 , , la ecuacin general
(o funcin logstica) es:
( = ) =
5.2

+ ( )

Tratamiento de la variable Y:

En caso de no contar con unca variable dicotonima se puede realizar la transformacin de variable a una
variable dicotomica.
Ejemplo: Hablando del distrito donde usted vive, y pensando en la posibilidad de ser vctima de un delito,
Se siente?
Muy seguro
Seguro

Sensacin de seguridad

37

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS
Inseguro
Muy inseguro

5.3

Sensacin de inseguridad

Descripcin del Modelo (Estdisticos del modelo):

Log-verosimilitud
El estimador mide hasta qu punto un modelo se ajusta bien a los datos. Cuanto ms pequeo
sea el valor, mejor ser el ajuste.

R-cuadrado de Cox y Snell, y R-cuadrado de Nagelkerke:


Indica la varianza de la variable dependiente explicada por el modelo. En general, la variable
dependiente explicada por el modelo oscila entre la R-cuadrado de Cox y Snell y la R-cuadrado de
Nagelkerke. Cuanto ms alto es la R-cuadrado ms explicativo es el modelo, es decir, las variables
independientes explican la variable dependiente. El R cuadrado de Cox y Snell se basa en la
comparacin del log de la verosimilitud (LL) para el modelo respecto al log de la verosimilitud (LL)
para un modelo de lnea base. Sus valores oscilan entre 0 y 1. En nuestro caso es el valor (0,124)
que indica que slo el 12,4% de la variacin de la variable dependiente es explicada por la variable
incluida en el modelo. El R cuadrado de Nagelkerke es una versin corregida de la R cuadrado de
Cox y Snell. La R cuadrado de Cox y Snell tiene un valor mximo inferior a 1, incluso para un modelo
"perfecto". La R cuadrado de Nagelkerke corrige la escala del estadstico para cubrir el rango
completo de 0 a 1, en este caso, el valor es 0.172 que indica que el 17,2% de la variacin de la
variable dependiente es explicada por la variable incluida en el modelo.

Significacin de chi-cuadrado del modelo en la prueba mnibus:

38

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

Se verifica el valor de significancia y la prueba de Ho : No hay relacin, si la significancia de chicuadrado es menor que 0.05 entonces se indica que el modelo ayuda a explicar el evento, es
decir, las variables independientes explican la variable dependiente.

Porcentaje global correctamente clasificado: Este porcentaje indica el nmero de casos que el
modelo es capaz de predecir correctamente. Si es modelo clasifica correctamente ms del 50%
de los casos, el modelo se acepta.

Interpretacin:

39

Curso-Taller:
ESTADSTICA APLICADA USANDO SPSS

Significacin de b: si es menor de 0,05 esa variable independiente explica la variable


dependiente
Signo de b: indica la direccin de la relacin. Por ejemplo, a ms nivel de ingresos
mayor probabilidad de nivel educativo.
Exp(b) exponencial de b: indica la fortaleza de la relacin. Cuanto ms alejada de 1
est ms fuerte es la relacin.
( = 1) =

1
1 + exp( 1 1 2 2 3 3 )

Ejemplo: la ecuacin de regresin logstica del modelo en funcin de las mujeres (SEXO=1)
( = ) =

1
= 0.367
1 + exp(0.318 (0.254) )

40

You might also like