Professional Documents
Culture Documents
UNIVERSIDAD DE ANTIOQUIA
ESCUELA DE NUTRICIÓN Y DIETÉTICA
MEDELLÍN, 2002
1
Diseñado por Alejandro Estrada Restrepo
1
INTRODUCCIÓN
Para tal fin tendremos entre otros el apoyo del SPSS. Este es un software que se
utiliza para cálculos estadísticos, aunque incluye un sin número de utilidades.
Actualmente, la estadística ha adquirido, de manera progresiva, una mayor relevancia
en todos los sectores universitarios y, en general, en la sociedad. Es por ello, por lo
que se pretende adquirir los conocimientos necesarios para comprender diversas
técnicas estadísticas y el uso de este paquete estadístico.
2
1. GENERALIDADES SPSS 102
La interfaz del entorno de ventanas proporciona una relación con el sistema rápida y
cómoda, pero internamente funciona mediante comandos.
Para ejecutar SPSS se accederá al botón Inicio y desde allí a Programas / SPSS for
Windows / SPSS 10.0 para Windows. Aparece la presentación del programa con el
Editor de datos al fondo: A continuación nos preguntará cómo queremos comenzar:
ejecutando el tutorial, introduciendo datos nuevos, abriendo datos de disco, etc. Una
vez hecho esto, nos dejará con el Editor de datos. Se pueden abrir varias sesiones de
SPSS independientes para poder trabajar con diferentes ficheros de datos.
3
La segunda forma de obtener datos es extrayéndolos de un archivo de disco. Éste
puede ser de formato SPSS (*.sav); de formato Excel, Lotus, texto, etc.; o de formato
de base de datos como Access, dBase, FoxPro, etc. Si los datos son nuevos o los
hemos modificado es conveniente almacenarlos en disco a través del menú Archivo.
Una vez tenemos los datos en el Editor de datos, debemos elegir un procedimiento en
el menú Analizar para poder obtener resultados. El sistema nos permite realizar
informes, estadísticos descriptivos, tablas, correlaciones, análisis de regresión, etc.
Asimismo si deseamos un gráfico descriptivo de los datos, elegiremos uno de los
existentes en el menú Gráficos. Éste puede ser normal o interactivo, en cuyo caso
podremos modificar posteriormente las variables usadas y los parámetros del mismo.
El último paso es el examen de resultados en una nueva ventana llamada Visor. Esta
ventana nos muestra dos paneles. El de la izquierda es el conjunto de los titulares de
los elementos gráficos situados en el panel de la derecha. Su apariencia y
funcionamiento es similar al del explorador de Windows. El de la derecha muestra los
elementos gráficos, que pueden ser textos, tablas o gráficos.
En terminos generales en una sesión tipica con SPSS se puede trabajar con tres tipos
de ventanas y tener la posibilidad de guardar los contenidas de cada una. El editor de
datos, la cual es la primera ventana que usted encuentra, usada para definir y entrar
sus datos y para ejecutar los procedimientos estadísticos. Los resultados de los
procedimientos estadísticos aparecen en la ventana de resultados. La ventana de
sintaxis puede ser usada para tener un registro de las operaciones que usted ejecuta
con sus datos, esta ventana se abre automáticamente cuando usted da clic en el botón
pegar. Así, por ejemplo cuando usted selecciona ciertos casos para el análisis o
transforma sus datos o calcula una correlación, dando clic en el botón pegar, esta
almacenara un registro de lo que fue ejecutado (en lenguaje de comandos). Mas allá
de servir como un registro para sus operaciones, es posible correr comandos desde la
ventana sintaxis.
Se puede guardar cualquiera de las ventanas. Una vez que tenga la ventana deseada
activa, de clic en Save del menú File. SPSS automáticamente adiciona la extensión al
nombre del archivo (.SAV para archivos del editor de datos; .SPO para archivos de
resultados y .SPS para archivos de sintaxis)
Por otro lado, la interfaz de SPSS incorpora una o varias barras de herramientas según
la ventana en la que nos encontremos. Estas barras contienen las funciones más
usadas en el trabajo usual para facilitar el acceso a ellas.
4
Si detenemos el puntero del ratón unos segundos sobre una de las herramientas (o
botones) nos presentará un pequeño cuadro con una breve descripción de la utilidad
del mismo: Las barras, además, son personalizables, pudiendo añadir o eliminar los
botones que queramos así como moverlos; incluso permite cambiar de sitio la barra o
borrarla completamente. A continuación se realiza una breve descripción de la barra
de herramientas de la ventana de datos del SPSS.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Figura 2
1. El primer icono es: Abrir archivo, muestra la ventana Open File. Según el tipo de
ventana que esté activa, se puede utilizar este icono para abrir un archivo de datos, de
resultados, de sintaxis o uno de gráficas.
2. Guardar archivo: Guarda el archivo de la ventana que está activa. Puede guardar el
documento completo o las líneas de texto seleccionadas.
3. Imprimir archivo: Muestra la ventana de Imprimir para el tipo de documento que
esté en la ventana activa. En el caso de archivos de resultados, sintaxis y datos, puede
imprimir el documento completo o un área seleccionada.
4. Recuperar ventana. Muestra una lista de las últimas ventanas abiertas (aunque no
se hayan abierto en la misma sesión).
5. Deshacer escritura: Como el nombre lo dice deshace los datos incorporados y todo
lo que respete a lo anterior.
6. Recorrer gráficas. Este icono se utiliza para activar la ventana de gráficos.
7. Ir a caso. Este icono se utiliza para desplazarse a un caso en el Editor de datos.
8. Información de variables. Muestra una ventana que contiene la lista de variables y
la información de la variable seleccionada. Este icono también se utiliza para posicionar
el cursor en dicha variable.
9. Busca: Busca lo deseado en la variable que usted halla seleccionado.
10. Insertar caso. En el Editor de datos, al pinchar en este icono se inserta un caso por
encima del caso que contenga la celda activa. Tiene el mismo efecto que la selección
de Insertar caso del menú Datos.
11. Insertar variable. En el Editor de datos, al pinchar en este icono se inserta una
variable a la izquierda de la variable que contenga la celda activa. Tiene el mismo
efecto que la selección de Insertar variable del menú Datos.
15. Etiquetas de valores. Conmuta entre los valores actuales y las etiquetas de valores
en el Editor de datos. Tiene el mismo efecto que la selección de Etiquetas de valores
del menú Útil
16. Usar conjuntos. Aquí se puede seleccionar los conjuntos de variables que van a
aparecer en las ventanas que se utilizan para realizar los análisis estadísticos o
transformaciones. Los conjuntos de variables que aparecen aquí son los que se crean
seleccionando la opción Definir conjuntos del menú Util. Tiene el mismo efecto que la
selección de Usar conjuntos del menú Útil.
Obtención de datos
La matriz que nos presenta el Editor de datos contiene todos las observaciones de las
variables que necesitamos para poder realizar el análisis estadístico. Cada columna
representa una variable única y cada fila un caso individual de cada variable. Para
introducir datos basta con pinchar sobre una casilla y teclear el dato. Si donde
tecleamos el dato la variable no está definida, SPSS asigna automáticamente un
5
nombre de variable a la columna y la define con sus parámetros por defecto.
Nombre:
Debemos introducir el nombre de la variable, de 8 caracteres como máximo, que
pueden ser letras, números o el símbolo de subrayado ( _ ). El primer carácter
únicamente puede ser una letra, y no se hacen distinciones entre mayúsculas y
minúsculas.
Tipo:
A través del botón que aparece al lado del tipo se accede a un panel donde seleccionar
el tipo de variable: numérica, coma, fecha, moneda, cadena, etc., su anchura y los
decimales (que también se pueden seleccionar mediante las columnas siguientes).
Además, dentro del tipo cadena debemos distinguir entre la corta
Decimales:
Número de decimales si la variable es de tipo contable (numérico, moneda, etc.).
Etiqueta:
Dada la imposibilidad de dar un nombre de variable mayor de 8 caracteres, se usan
etiquetas para describir la variable de una forma más clara. Aunque internamente se
trabaje con los nombres de las variables, en la presentación de resultados podremos
utilizar las etiquetas.
Valores:
Permite asignar etiquetas a determinados valores de las variables. Por ejemplo, una
variable numérica puede contener valores de los datos que sean: 0 si es mujer y 1 si
es hombre, entonces asignamos a los valores 0 y
1 las etiquetas de valor mujer y hombre respectivamente. De esta forma cuando
trabajemos con ellos, nos aparecerá mujer y hombre en lugar de 0 y 1.
6
Perdidos:
Nos permite definir los valores que se tratarán como perdidos. Hemos de distinguir
entre los valores declarados por el sistema (ausencia de dato) y los valores declarados
como perdidos por nosotros mismos. Columnas ¾ Es la anchura de la columna en la
Vista de datos.
Medida: Permite especificar el nivel de medida como escala (datos numéricos de una
escala de intervalo o de razón), ordinal (representan categorías ordenadas) o nominal
(representan categorías sin orden alguno). Esta especificación sólo se usa en
procedimientos gráficos. En general, es importante saber distinguir entre variable
categórica y variable de escala. Una variable categórica es aquella que tiene un
número limitado de valores o categorías distintas. Todas las variables de cadena y las
variables numéricas con etiquetas de valor definidas, o las variables numéricas
definidas como nominales u ordinales, se tratan como categóricas. El resto se tratarán
como de escala.
Introducción de datos
Los datos pueden introducirse en la ventana de datos, bien caso a caso (por filas) o
bien variable a variable (por columnas). Si se introducen casos, será necesario pulsar
el tabulador tras escribir cada dato; si se introducen variables, pulsaremos la tecla de
retorno <Enter> después de cada dato. Al término del proceso de introducción de
7
datos, la ventana de datos mostrará un aspecto similar al que se muestra en la
pantalla siguiente.
8
para efectos prácticos y sin desconocer la utilidad que prestan los demás menús del
SPSS, se procederá a explicar el menú Analizar, puesto que este resulta ser la columna
vertebral del análisis de datos mediante esta herramienta. En este menú encontramos
entonces:
Dentro del menú Analizar encontramos todos los procedimientos de análisis estadístico
(exceptuando los gráficos) de SPSS.
Informes
Cubos OLAP ® (Procedimiento analítico interactivo).
Crea una tabla con varias capas que contienen totales,
medias y otros estadísticos univariados para variables
de resumen continuas según una o más variables
categóricas de agrupación. En la tabla se creará una
nueva capa para cada categoría de cada variable de
agrupación.
Resúmenes de casos ® Calcula estadísticos de
subgrupo para las variables dentro de las categorías de
una o más variables de agrupación. Se cruzan todos los
niveles de las variables de agrupación. Permite elegir el
orden en el que se mostrarán los estadísticos. También
se muestran estadísticos de resumen para cada variable
a través de todas las categorías. Los valores de los
datos en cada categoría pueden mostrarse en una lista o suprimirse. Con grandes
conjuntos de datos se pueden listar sólo los primeros n casos.
Informe de estadísticos en filas ® Genera informes en los cuales se presentan
distintos estadísticos de resumen en filas. También se encuentran disponibles listados
de los casos, con o sin estadísticos de resumen.
Estadísticos descriptivos
Frecuencias ® Proporciona estadísticos y representaciones gráficas útiles para
describir o inspeccionar muchos tipos de variables. Los valores pueden organizarse en
orden ascendente o descendente, y se pueden ordenar las categorías por sus
frecuencias. Se puede suprimir el informe de frecuencias cuando una variable posee
muchos valores diferentes, y permite etiquetar los gráficos con las frecuencias o con
los porcentajes.
Descriptivos ® Muestra estadísticos de resumen para varias variables en una única
tabla y calcula valores tipificados (puntuaciones z). Las variables se pueden ordenar
por el tamaño de sus medias (en orden ascendente o descendente), alfabéticamente o
por el orden en el que se seleccionen (por defecto). Se pueden guardar las
puntuaciones z, añadiéndose al Editor de datos, para su posterior utilización. Cuando
las variables se registran en unidades de medida diferentes (que no tengan nada que
ver), una transformación de puntuación z pondrá las variables en una escala común
para una comparación visual más fácil.
Explorar ® Genera estadísticos de resumen y representaciones gráficas, bien para
todos los casos o bien de forma separada para grupos de casos. Este procedimiento se
puede usar para inspeccionar los datos, identificar valores atípicos o extremos,
descubrir discontinuidades, obtener descripciones, comprobar supuestos y caracterizar
diferencias entre subpoblaciones (grupos de casos), etc. La exploración de los datos
puede ayudar a determinar si son adecuadas las técnicas de análisis que se están
empleando.
9
Tablas de contingencia ® Crea tablas de clasificación doble y múltiple, y además
proporciona una serie de pruebas y medidas de asociación para las tablas de doble
clasificación. La estructura de la tabla y el hecho de que las categorías estén
ordenadas o no determinan las pruebas o medidas que se utilizan. Los estadísticos de
tablas de contingencia y las medidas de asociación sólo se calculan para las tablas de
doble clasificación. Si especifica una fila, una columna y un factor de capa (variable de
control), se creará un panel de medidas y estadísticos asociados para cada valor del
factor de capa (o una combinación de valores para dos o más variables de control).
Tablas personalizadas
Tablas básicas ® Genera tablas que muestran estadísticos de clasificación cruzada y
de subgrupo. Las variables de resumen seleccionadas se resumen en las casillas
definidas por las variables de subgrupo. Para todas las variables resumidas se emplean
los mismos estadísticos (la media por defecto). Si no existen variables de resumen, se
muestran los recuentos. Los nombres de las variables de resumen se muestran a lo
largo de la parte izquierda de la tabla. Se pueden definir casillas para mostrar
subgrupos de casos empleando las combinaciones:
Hacia abajo de la página (como filas distintas).
A través de la página (como columnas distintas). La combinación de Hacia abajo y A
través genera una presentación en forma de tabla de contingencia.
Repartidas en Tablas distintas. Las variables de esta lista subdividen la tabla en
capas o en grupos de capas, de manera que sólo puede verse una capa de la tabla
cada vez.. Una vez en el Visor, para ver las otras capas se deben pivotar. Anidar
significa que se muestran las categorías de una variable bajo cada una de las
categorías de la variable anterior. La apilación muestra las categorías de cada variable
como un bloque; se puede entender como la extracción de tablas diferentes y su unión
en la misma presentación.
Tablas generales ® Genera tablas con estadísticos de clasificación cruzada y de
subgrupo. Se pueden generar tablas que muestren diferentes estadísticos para
distintas variables, variables de respuestas múltiples, anidación y apilación mixta o
totales complejos. En la mayoría de las circunstancias es necesario seleccionar una
variable de fila.
También se puede seleccionar una o más variables para definir columnas o capas. Por
ejemplo, para generar una tabla de contingencia simple debemos seleccionar una
variable para definir las filas y otra para definir las columnas. Si tiene una variable de
capa, también es necesario tener una variable de fila y una de columna.. Cada variable
seleccionada se debe especificar si es de agrupación para definir casillas o si es una
variable de resumen. También se pueden especificar diferentes estadísticos para cada
variable. Si seleccionamos más de una variable para una dimensión dada, deberemos
especificar si deben estar apiladas o anidadas en la dimensión.. La mayoría de las
tablas que muestran los mismos estadísticos de resumen para cada variable se pueden
obtener más fácilmente utilizando el procedimiento Tablas básicas o de respuestas
múltiples. Se pueden mostrar los estadísticos (Las etiquetas de los estadísticos
aparecen) en la parte superior (columnas), en el lateral (filas) o en capas separadas.
Para cada variable seleccionada, se puede especificar si es de agrupación o de
resumen. Los estadísticos asociados a una variable que define casillas son los
recuentos y porcentajes. La primera variable de resumen que se especifique definirá la
dimensión de resumen. Las palabras Dimensión resumen aparecerán sobre la lista de
variables para esa dimensión, por lo que no se podrán resumir variables en otra
dimensión.. Los estadísticos seleccionados en la edición de estadísticos se aplican sólo
a la variable seleccionada. La primera vez que se editen los estadísticos de una
variable, se definirá la dimensión de los estadísticos. Insertar total inserta una variable
10
de total después de la variable seleccionada. No se puede obtener un total de otro total
o de una variable que tiene un total anidado debajo de ella. Respuestas múltiples
muestra una lista de los conjuntos de respuestas múltiples definidos y permite definir
otros.
Tablas de respuestas múltiples ® Crea tablas de frecuencia y de contingencia
básicas en las que una o más variables es un conjunto de respuestas múltiples (si no,
sería conveniente utilizar Tablas básicas).. Si no seleccionamos la opción Anidar para
una dimensión, se producirán tablas separadas para cada variable pero conectadas
físicamente (concatenadas). Las restantes opciones son similares a las descritas
anteriormente.
Tablas de frecuencias ® Genera tablas especiales que contienen varias variables con
los mismos valores. Por defecto, las variables forman columnas y las categorías filas
(todas las variables de Frecuencias para deben tener las mismas categorías). Cada
casilla muestra el número de casos en esa categoría. Permite variables de subgrupo.
Mediante Subgrupos se puede dividir la tabla en columnas dentro de cada tabla o en
tablas diferentes (capas). Al dividirla se mostrarán todas las variables para cada
subgrupo. Si hay diversas variables en una de las listas de la sección Subgrupos, se
puede elegir entre anidarlas o apilarlas (se crean las tablas por separado pero se unen
en la presentación).
Comparar medias
Medias ® Calcula medias de subgrupo y estadísticos univariados relacionados para
variables dependientes dentro de las categorías de una o más variables
independientes. Pueden obtenerse el análisis de varianza de un factor, la eta y pruebas
de linealidad.
Prueba T para una muestra ® Contrasta si la media de una sola variable difiere de
una constante especificada.
Prueba T para muestras independientes ® Compara las medias de dos grupos de
casos. Los sujetos deben asignarse aleatoriamente a dos grupos, de forma que
cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento)
y no a otros factores. Cuando esto no es posible (por ejemplo comparando una
variable entre hombres y mujeres ya que el sexo de una persona no se asigna
aleatoriamente), debemos asegurarnos de que las diferencias en otros factores no
enmascaren o resalten una diferencia significativa entre las medias (por ejemplo los
estudios respecto al sexo).
Prueba T para muestras relacionadas ® Compara las medias de dos variables de
un solo grupo. Calcula las diferencias entre los valores de las dos variables de cada
caso y contrasta si la media difiere de 0.
ANOVA de un factor ® Genera un análisis de varianza de un factor para una variable
dependiente cuantitativa respecto a una única variable de factor (la variable
independiente). El análisis de varianza se utiliza para contrastar la hipótesis de que
varias medias son iguales. Esta técnica es una extensión de la prueba t para dos
muestras. Además de determinar que existen diferencias entre las medias, es posible
que se desee saber qué medias difieren. Existen dos tipos de contrastes para comparar
medias: los contrastes a priori y las pruebas post hoc. Los contrastes a priori se
plantean antes de ejecutar el experimento y las pruebas post hoc se realizan después
de haber llevado a cabo el experimento. También se pueden contrastar las tendencias
existentes a través de las categorías.
11
Modelo lineal general
Univariante ® Proporciona un análisis de regresión y un análisis de varianza para una
variable dependiente mediante uno o más factores o variables. Las variables de factor
dividen la población en grupos. Con este procedimiento se pueden contrastar hipótesis
nulas sobre los efectos de otras variables en las medias de varias agrupaciones de una
única variable dependiente. Se pueden investigar las interacciones entre los factores
así como los efectos de los factores individuales, algunos de los cuales pueden ser
aleatorios. Además, se pueden incluir los efectos de las covariables y las interacciones
de covariables con los factores. Para el análisis de regresión, las variables
independientes (predictoras) se especifican como covariables. Se pueden contrastar
tanto los modelos equilibrados como los no equilibrados. Se considera que un diseño
está equilibrado si cada casilla del modelo contiene el mismo número de casos.
Además de contrastar hipótesis se generan estimaciones de los parámetros. También
se encuentran disponibles los contrastes de hipótesis de uso más habitual. Además, si
una prueba F global ha mostrado cierta significación, pueden emplearse las pruebas
post hoc para evaluar las diferencias entre las medias específicas. Las medias
marginales estimadas ofrecen estimaciones de valores de las medias pronosticados
para las casillas del modelo; los gráficos de perfil (gráficos de interacciones) de estas
medias permiten observar fácilmente algunas de estas relaciones.
Multivariante ® Proporciona un análisis de regresión y un análisis de varianza para
variables dependientes múltiples por una o más covariables o variables de factor. Las
variables de factor dividen la población en grupos. Con este procedimiento es posible
contrastar hipótesis nulas sobre los efectos de las variables de factor sobre las medias
de varias agrupaciones de una distribución conjunta de variables dependientes. En un
modelo multivariado, las sumas de cuadrados debidas a los efectos del modelo y las
sumas de cuadrados error se encuentran en forma de matriz en lugar de en la forma
escalar del análisis univariado. Estas matrices se denominan matrices SCPC (sumas de
cuadrados y productos cruzados).
Las pruebas de comparaciones múltiples post hoc se realizan por separado para cada
variable dependiente.
También se hallan disponibles: una matriz SCPC residual, que es una matriz cuadrada
de las sumas de cuadrados y los productos cruzados de los residuos; una matriz de
covarianza residual, que es la matriz SCPC residual dividida por los grados de libertad
de los residuos; y la matriz de correlaciones residual, que es la forma tipificada de la
matriz de covarianza residual. El resto es similar al procedimiento anterior.
Medidas repetidas ® Analiza grupos de variables dependientes relacionadas que
representan diferentes medidas del mismo atributo. Permite definir uno o varios
factores intrasujetos (no confundir con las variables existentes), donde cada factor
constituye un nivel dentro del factor precedente. Si los sujetos se comparan en más de
una medida cada vez, hemos de seleccionar Medida para definirlas. El nombre de las
medidas no existe como un nombre de variable en el propio archivo de datos sino que
se define aquí.
Correlaciones
Bivariadas ® Calcula el coeficiente de correlación de Pearson, la rho de Spearman y
la tau-b de Kendall con sus niveles de significación. Las correlaciones miden cómo
están relacionadas las variables o los órdenes de los rangos. Antes de calcular un
coeficiente de correlación, se deben inspeccionar los datos para detectar valores
atípicos (que pueden producir resultados equívocos) y evidencias de una relación
lineal. Las correlaciones son medidas de asociación lineal. Dos variables pueden estar
perfectamente relacionadas, pero si la relación no es lineal, el coeficiente de
12
correlación no es un estadístico adecuado para medir su asociación. Parciales ®
Calcula los coeficientes de correlación parcial, los cuales describen la relación lineal
existente entre dos variables mientras se controlan los efectos de una o más variables
adicionales.
Regresión
Lineal ® Estima los coeficientes de la ecuación lineal, con una o más variables
independientes, que mejor prediga el valor de la variable dependiente.
Logística binaria ® Es útil cuando se desea predecir la presencia o ausencia de una
característica o resultado según los valores de un conjunto de variables predictoras. Es
similar a un modelo de regresión lineal pero está adaptado para modelos en los que la
variable dependiente es dicotómica. Los coeficientes pueden utilizarse para estimar la
razón de las ventajas (odds ratio) de cada variable independiente del modelo. La
regresión logística se puede aplicar a un rango más amplio de situaciones de
investigación que el análisis discriminante. Se pueden estimar modelos utilizando la
entrada en bloque de las variables o cualquiera de los siguientes métodos por pasos:
Condicional hacia adelante.
LR hacia adelante.
Wald hacia adelante.
Condicional hacia atrás.
LR hacia atrás.
Wald hacia atrás.
Logística multinomial ® Resulta útil si se desea clasificar a los sujetos según los
valores de un conjunto de variables predictoras. Este tipo de regresión es similar a la
regresión logística, pero más general, ya que la variable dependiente no está
restringida a dos categorías. Se ajusta un modelo logit multinomial para el modelo
factorial completo o para un modelo especificado por el usuario. La estimación de los
parámetros se realiza a través de un algoritmo iterativo de máxima verosimilitud.
Escalamiento óptimo ® Cuantifica los datos categóricos mediante la asignación de
valores numéricos a las categorías, obteniéndose una ecuación de regresión lineal
óptima para las variables transformadas. El análisis de regresión lineal ordinario
implica minimizar las diferencias de la suma de los cuadrados entre una variable de
respuesta (la dependiente) y una combinación ponderada de las variables predictoras
(las independientes). Las variables son normalmente cuantitativas, con los datos
categóricos (nominales) recodificados como variables binarias o de contraste. Como
resultado, las variables categóricas sirven para separar grupos de casos y la técnica
estima conjuntos separados de parámetros para cada grupo. Los coeficientes
estimados reflejan cómo los cambios en los predictores afectan a la respuesta. El
pronóstico de la respuesta es posible para cualquier combinación de los valores
predictores. Una aproximación alternativa incluye la regresión de la respuesta respecto
a los propios valores predictores categóricos. Como consecuencia, se estima un
coeficiente para cada variable. Sin embargo, para las variables categóricas, los valores
categóricos son arbitrarios. La codificación de las categorías de diferentes maneras
proporciona diferentes coeficientes, dificultando las comparaciones entre los análisis
de las mismas variables.
CATREG (regresión categórica mediante escalamiento óptimo) amplía la aproximación
típica mediante un escalamiento de las variables nominales, ordinales y numéricas
simultáneamente. El procedimiento cuantifica las variables categóricas de manera que
las cuantificaciones reflejen las características de las categorías originales. Además,
trata a las variables categóricas cuantificadas como si fueran variables numéricas. La
utilización de transformaciones no lineales permite a las variables ser analizadas en
13
varios niveles para encontrar el modelo que más se ajusta.
Reducción de datos
Análisis factorial ® Intenta identificar variables subyacentes, o factores, que
expliquen la configuración de las correlaciones dentro de un conjunto de variables
observadas. Se suele utilizar en la reducción de los datos para identificar un pequeño
número de factores que explique la mayoría de la varianza observada en un número
mayor de variables manifiestas. También puede utilizarse para generar hipótesis
relacionadas con los mecanismos causales o para inspeccionar las variables para
análisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar un
análisis de regresión lineal). Este procedimiento dispone de 7 métodos de extracción
factorial; 5 métodos de rotación, entre ellos el oblimin directo y el promax para
rotaciones no ortogonales; y 3 métodos para calcular las puntuaciones factoriales, que
pueden guardarse como variables para análisis adicionales.
Análisis de correspondencias ® Describe las relaciones existentes entre dos
variables nominales, recogidas en una tabla de correspondencias, sobre un espacio de
pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las
categorías de cada variable. Para cada variable, las distancias sobre un gráfico entre
los puntos de categorías reflejan las relaciones entre las categorías, con las categorías
similares representadas próximas unas a otras. La proyección de los puntos de una
variable sobre el vector desde el origen hasta un punto de categoría de la otra variable
describe la relación entre ambas variables.
El análisis de las tablas de contingencia a menudo incluye examinar los perfiles de fila
y de columna, así como contrastar la independencia a través del estadístico de chi-
cuadrado. Sin embargo, el número de perfiles puede ser bastante grande y la prueba
de chi-cuadrado no revelará la estructura de la dependencia. El procedimiento Tablas
de contingencia ofrece varias medidas y pruebas de asociación pero no puede
representar gráficamente ninguna
relación entre las variables.
El análisis factorial es una técnica típica para describir las relaciones existentes entre
variables en un espacio de pocas dimensiones. Sin embargo, requiere datos de
intervalo y el número de observaciones debe ser cinco veces el número de variables.
Por su parte, el análisis de correspondencias asume que las variables son nominales y
permite describir las relaciones entre las categorías de cada variable, así como la
relación entre las variables. Además, el análisis de correspondencias se puede utilizar
para analizar cualquier tabla de medidas de correspondencia que sean positivas.
Escalamiento óptimo ® La combinación del nivel de medida y el número de conjunto
seleccionado determina este procedimiento mediante mínimos cuadrados alternantes
que realiza. Nivel de medida. Permite especificar el nivel correspondiente a las
variables utilizadas en el análisis:
Todas las variables son nominales múltiples. Todas las variables tienen
cuantificaciones de categorías que pueden diferir para cada dimensión.
Alguna variable no es nominal múltiple. Una o más variables se escalan a un nivel
diferente del nominal múltiple. Otros niveles de escala posibles son: nominal simple,
ordinal y numérica discreta.
Número de conjuntos de variables. Permite especificar cuántos grupos de variables se
van a comparar con otros grupos de variables:
Un conjunto. Los datos contienen un grupo de variables.
Múltiples conjuntos. Los datos contienen más de un grupo de variables. Si se
selecciona esta opción, se elegirá Correlación canónica no-lineal (OVERALS).
Análisis seleccionado. Las opciones para Nivel de medida y Número de conjuntos de
14
variables deciden el análisis según las combinaciones.
Análisis de homogeneidad (HOMALS). Seleccionando Todas las variables son
nominales múltiples y Un conjunto:
Análisis de componentes principales categóricos (CATPCA). Seleccionando Alguna
variable no es nominal múltiple y Un conjunto.
Análisis de correlación canónica no lineal (OVERALS). Seleccionando Múltiples
conjuntos.
Pruebas no paramétricas
Chi-cuadrado ® Tabula una variable en categorías y calcula un estadístico de
chicuadrado. Esta prueba de bondad de ajuste compara las frecuencias observadas y
esperadas en cada categoría para contrastar si todas las categorías contienen la misma
proporción de valores o si cada categoría contiene una proporción de valores
especificada por el usuario.
Binomial ® Compara las frecuencias observadas de las dos categorías de una variable
dicotómica con las frecuencias esperadas en una distribución binomial con un
parámetro de probabilidad especificado. Por defecto, el parámetro de probabilidad para
ambos grupos es 0,5. Para cambiar las probabilidades, puede introducirse una
proporción de prueba para el primer grupo. La probabilidad del segundo grupo será 1
menos la probabilidad especificada
para el primer grupo.
Rachas ® Contrasta si es aleatorio el orden de aparición de dos valores de una
variable. Una racha es una secuencia de observaciones similares. Una muestra con un
número excesivamente grande o pequeño de rachas sugiere que la muestra no es
aleatoria.
K-S de 1 muestra ® La prueba de Kolmogorov-Smirnov para una muestra compara
la función de distribución acumulada observada de una variable con una distribución
teórica determinada, que puede ser la normal, la uniforme, la de Poisson o la
exponencial. La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia mayor
(en valor absoluto) entre las funciones de distribución acumuladas teórica y observada.
Esta prueba de bondad de ajuste
contrasta si las observaciones podrían razonablemente proceder de la distribución
especificada.
2 muestras independientes ® Compara dos grupos de casos existentes en una
variable.
K muestras independientes ® Compara dos o más grupos de casos respecto a una
variable.
2 muestras relacionadas ® Compara las distribuciones de dos variables.
K muestras relacionadas ® Compara las distribuciones de dos o más variables.
Series temporales
Suavizado exponencial ® Suaviza componentes irregulares de datos de series
temporales, para ello hace uso de una variedad de modelos que incorporan diferentes
supuestos acerca de la tendencia y la estacionalidad. Seleccionando un modelo
estacional y definiendo la periodicidad mediante Definir fechas, se puede seleccionar
una variable que represente los factores estacionales. Los modelos difieren en los
componentes estacionales y de tendencia. Se dispone de los modelos Simple, Holt,
Winters y Personalizado.
15
Supervivencia
Tablas de mortalidad ® Existen muchas situaciones en las se desea examinar la
distribución de un periodo entre dos eventos, como la duración del empleo (tiempo
transcurrido entre el contrato y el abandono de la empresa). Sin embargo, este tipo de
datos suele incluir algunos casos para los que no se registra el segundo evento
(censurados); por ejemplo, la gente que todavía trabaja en la empresa al final del
estudio. Las razones para que no se verifique el segundo evento pueden ser muy
variadas: en algunos casos, el evento simplemente no tiene lugar antes de que finalice
el estudio; en otros, el investigador puede haber perdido el seguimiento de su estado
en algún momento anterior a que finalice el estudio; y existen además casos que no
pueden continuar por razones ajenas al estudio (como el caso en que un empleado
caiga enfermo y se acoja a una baja laboral). Estos casos se conocen globalmente
como casos censurados y hacen que el uso de técnicas tradicionales como las pruebas
t o la regresión lineal sea inapropiado para este tipo de estudio. Existe una técnica
estadística útil para este tipo de datos llamada tabla de mortalidad de “seguimiento”.
La idea básica de la tabla de mortalidad es subdividir el periodo de observación en
intervalos de tiempo más pequeños. En cada intervalo, se utiliza toda la gente que se
ha observado como mínimo durante ese periodo de tiempo para calcular la
probabilidad de que un evento terminal tenga lugar dentro de ese intervalo. Las
probabilidades estimadas para cada intervalo se utilizan para estimar la probabilidad
global de que el evento tenga lugar en diferentes puntos temporales.
Kaplan-Meier ® Es un método de estimación de modelos hasta el evento en
presencia de casos censurados. Se basa en la estimación de las probabilidades
condicionales en cada punto temporal cuando tiene lugar un evento y en tomar el
límite del producto de esas probabilidades para estimar la tasa de supervivencia en
cada punto temporal.
Regresión de Cox ® Del mismo modo que los anteriores, la Regresión de Cox es un
método para crear modelos para datos de tiempos de espera hasta un evento con
casos censurados presentes. Sin embargo, la regresión de Cox permite incluir en los
modelos variables predictoras (covariables). Por ejemplo, permite construir un modelo
de la duración en el empleo como función del nivel educativo y de la categoría laboral.
Gestiona los casos censurados correctamente y proporciona las estimaciones de los
coeficientes para cada una de las covariables, permitiendo evaluar el impacto de
múltiples covariables en el mismo modelo. Además, es posible utilizar este método
para examinar el efecto de covariables continuas.
Cox con covariable dep. del tiempo ® Existen ciertas situaciones en las que
interesa calcular un modelo de regresión de Cox, pero no se cumple el supuesto de
tasas de impacto proporcionales. Es decir, que las tasas de impacto cambian con el
tiempo: los valores de una (o de varias) de las covariables son diferentes en los
distintos puntos del tiempo. En esos casos, es necesario utilizar un modelo de
regresión de Cox extendido, que permita especificar covariables dependientes del
tiempo (T_COV_). Con el fin de analizar dicho modelo, se debe definir primero una
covariable dependiente del tiempo. Para facilitar esta tarea contamos con una variable
del sistema, llamada T_, que representa el tiempo. Se utiliza para definir covariables
dependientes del tiempo empleando dos métodos generales:
Para contrastar el supuesto de tasas de impacto proporcionales con respecto a una
covariable particular, o para estimar un modelo de regresión de Cox extendido que
permita impactos no proporcionales, se define la covariable dependiente del tiempo
como una función de la variable de tiempo T_ y la covariable en cuestión.
Algunas variables pueden tener valores distintos en periodos diferentes del tiempo,
pero no están sistemáticamente relacionadas con el tiempo. En tales casos es
16
necesario definir una covariable dependiente del tiempo segmentada, lo cual puede
llevarse a cabo a partir de un conjunto de medidas usando las expresiones lógicas
(1:verdadero, 0:falso).
Para las covariables dependientes del tiempo segmentadas, los casos en los que falte
cualquiera de los valores quedarán eliminados del análisis. Por tanto, todos los casos
deben tener valores para todos los puntos del tiempo medidos en la covariable, incluso
para los puntos del tiempo posteriores a la eliminación del caso del conjunto bajo
riesgo (ya sea por el evento o por la censura).
Respuestas múltiples
Definir conjuntos ® Agrupa variables elementales en conjuntos de categorías
múltiples y de dicotomías múltiples, para los que se pueden obtener tablas de
frecuencias y tablas de contingencia. Se pueden definir hasta 20 conjuntos de
respuestas múltiples. Cada conjunto debe tener un nombre exclusivo. Las variables
elementales se pueden codificar como dicotomías o categorías: Dicotomías. En Valor
contado debe introducirse un entero. Cada variable que tenga al menos una aparición
del valor contado se convierte en una categoría del conjunto de dicotomías múltiples.
Categorías. Crear un conjunto de categorías múltiples con el mismo rango de
valores que las variables que lo componen. Deben introducirse dos enteros como
valores máximo y mínimo del rango para las categorías del conjunto de categorías
múltiples. El procedimiento suma cada valor entero distinto en el rango inclusivo para
todas las variables que lo componen. Las categorías vacías no se tabulan. A cada
conjunto de respuestas múltiples se le debe asignar un nombre exclusivo de hasta 7
caracteres. El procedimiento coloca delante del nombre asignado un signo dólar ($)..
El nombre del conjunto de respuestas múltiples sólo se encuentra disponible para su
uso en los procedimientos de respuestas múltiples.
Frecuencias ® Produce tablas de frecuencias para conjuntos de respuestas múltiples.
Es necesario definir previamente uno o más conjuntos de respuestas múltiples. Para
los conjuntos de dicotomías múltiples, los nombres de categorías que se muestran en
los resultados proceden de etiquetas de variable definidas para variables elementales
del grupo. Para los conjuntos de categorías múltiples, las etiquetas de categoría
proceden de las etiquetas de valor de la primera variable del grupo. Si las categorías
perdidas para la primera variable están presentes para otras variables del grupo, debe
definirse una etiqueta de valor para las categorías perdidas.
Los casos con Valores perdidos se excluyen en base a tabla por tabla. Un caso se
considera perdido para un conjunto de dicotomías (o categorías múltiples) sólo si
ninguno de sus componentes contiene el valor (o tiene valores válidos en el rango). Se
pueden excluir los casos con valores perdidos en cualquier variable de la tabulación del
conjunto de dicotomías, o categorías, o ambas.
Tablas de contingencia ® Presenta, en forma de tabla de contingencia, conjuntos de
respuestas múltiples, variables elementales o una combinación. También permite
obtener porcentajes de casilla basados en casos o respuestas, modificar la gestión de
los valores perdidos u obtener tablas de contingencia emparejadas. Es necesario
definir previamente uno o más conjuntos de respuestas múltiples. Los nombres en los
resultados se muestran de la misma forma que en el procedimiento anterior. Las
etiquetas de categoría por columnas se muestran en tres líneas, con un máximo de 8
caracteres por línea. Para evitar la división de palabras, se pueden invertir los
elementos de las filas y las columnas o volver a definir las etiquetas.
17
Por otro lado, el menú Gráficos permite realizar una gran cantidad
de gráficos orientados al análisis de los datos. La primera opción,
Galería, no realiza un gráfico en sí, sino que nos traslada
directamente a un tema de la ayuda que nos presenta una galería
de gráficos.
La segunda opción es la de gráficos Interactivos. Con esta opción se
generan gráficos que podrán ser modificados posteriormente, en
cuanto a variables y elementos gráficos, de forma mucho más
efectiva que los gráficos normales. Sin embargo sólo son
convenientes cuando se trabaje con archivos de datos pequeños o
subconjuntos de otros archivos mayores ya que los requerimientos
de recursos son enormes.
Las restantes opciones de este menú son una lista de todos los
gráficos posibles (no interactivos). Posteriormente se podrán
modificar, pero sólo a nivel de formato y de una forma más
precaria.
Una vez seleccionado uno de los tipos, pasamos a otra pantalla de ayuda que nos
muestra los subtipos existentes. De cada subtipo nos presenta un ejemplo de lo que se
puede hacer y de cómo hacerlo.
18
2. GENERALIDADES ESTADÍSTICA
Se puede definir la estadística de varias formas, podemos comenzar por una definición
de diccionario, el cual la define como "La ciencia que se ocupa de la colección,
clasificación, análisis e interpretación de hechos o datos numéricos. En pocas palabras
la Estadística es la ciencia de los datos
LA INVESTIGACIÓN ESTADÍSTICA
19
• Paso 2. Diseño de la Investigación: Es necesario conocer si la investigación
es o no controlada. El control puede hacerse por experimentación directa, donde el
investigador controla y manipula los resultados que afectan las variables de interés.
Un buen diseño debe acoger la máxima información y el mínimo error.
• Paso 3. Muestreo: Es la parte de la investigación que se relaciona con la forma
de obtener los datos de modo que sean aleatorios (provenientes del azar),
significativos y confiables.
• Paso 4. Presentación y Análisis de los Datos: Una vez se tenga toda la
información esta se condensa por medio de tablas, gráficas, figuras, de modo que
pueda ser publicada y entendida.
• Paso 5. Inferencia y Toma de Decisiones: Este es el paso más importante.
La inferencia estadística se ocupa de la forma de tomar conclusiones o
generalizaciones sobre una población que ha sido examinada con base en una
muestra extraída de ella.
Los anteriores pasos dan origen a diferentes ramas de la estadística. Los métodos
estadísticos estudian estas ramas con las nombres de estadística descriptiva, diseño de
experimentos, muestreo probabilístico, inferencia estadística y la teoría de decisiones.
CONCEPTOS BÁSICOS
20
• Unidad de muestreo: Subconjunto mínimo en el cual se puede subdividir el
universo para efectuar el proceso de toma de muestra. Es cada una de las
unidades que conforman el marco de muestreo. Puede ser igual a la unidad de
análisis o estan integradas por dos o más unidades de análisis en cuyo recibe el
nombre de conglomerado.
• Unidad de medida: Son las unidades en las cuales se intenta medir la variable
• Dato: Valor que se obtiene a partir de una unidad de análisis.
• Medir: Es comparar con un patrón. Siendo el patrón una serie de características,
cualidades que tienen los objetos o las diversas magnitudes asociadas con una
escala numérica.
• Valor: Son los diversos atributos o diversas magnitudes de la medición que
caracterizan al sujeto observado.
• Encuesta: Es el proceso de obtención de datos cuando no se tiene control sobre
los agentes que afectan las características de la población.
• Experimento Aleatorio: Es la información obtenida mediante un estudio al azar.
• Experimento Estadístico: Es la obtención de la información acerca de una
característica de interés.
VARIABLES ESTADISTICAS
21
Ejemplo: Los siguientes datos representan los requisitos del tipo de sangre de 200
científicos.
TIPO O A B AB TOTAL
Frecuencia 90 80 20 10 200
Pasando a porcentajes tenemos:
Porcentaje 45% 40% 10% 5% 100.0%
Escalas de Medición
Las variables estadísticas pertenecen a una de las cuatro escalas siguientes de medida:
Nominal, ordinal, de intervalo ó de razón.
22
el más preferido y 4 el menos favorecido; grados de desnutrición, tipos de
quemaduras.
• Escala de Intervalos: Los valores numéricos asociados con esta escala son
cuantitativos y por lo tanto permiten el uso de las operaciones aritméticas
fundamentales. En esta escala se tiene en cuenta tanto la diferencia entre sus
medidas como en su ordenación. Exige un punto de referencia fijo (cero arbitrario)
y una unidad de distancia para medir las diferencias. Debe entenderse que el cero
arbitrario en ningún momento indica ausencia del atributo. Ejemplo: temperatura
en grados centígrados, cociente de inteligencia, índice apgar.
• Escala de Razón: Se aplica cuando son importantes el orden, la distancia y la
razón entre dos medidas. Se utiliza un cero real (absoluto), siendo esta la única
diferencia con la escala anterior, este cero indica ausencia del atributo. Así la
característica operativa de este nivel es la de que las razones establecidas con los
valores de una variable guardan una correspondencia con las razones existentes
entre las cantidades de la variable medida. Debe existir la unidad de medida como
centímetros, metros, años, días de estancia.
DISTRIBUCIÓN DE FRECUENCIAS
• Representación de Datos
Ejemplo:
Se desea tener información sobre la presión sistólica por individuo en una región de
Colombia, se tomo una muestra de 40 personas obteniéndose los siguientes
resultados.
23
98, 120, 200, 122, 176, 123, 135, 102, 119, 110, 135, 124, 135, 128, 98, 135, 128,
122, 130, 136, 123, 124, 120, 135, 127, 120, 98, 111, 136, 128, 128, 185, 188, 120,
130, 135, 135, 138, 135, 102.
La frecuencia absoluta ni es el número de veces que se repite cada dato, así n2=2,
indica que el dato 102 se repite 2 veces, con ni, i=1...19. La suma de frecuencias
absolutas ni es igual al total de datos, esto es, ∑ n = 40 = n, en general si se tienen K
i =1
i
K
datos diferentes ∑ n = n.
i =1
i
24
La frecuencia absoluta acumulada, Ni, es la suma de las i frecuencias absolutas
i 3
anteriores, esto es, Ni = ∑ n j , por ejemplo, N3=
j =1
∑n j =n1+n2+n3=3+2+1=6
j =1
i
datos menores constituyen el 17.5% de la muestra. Nótese que ∑F =
j =1
j 1 (si
k
multiplicamos por 100% la cuarta columna, ∑ F = 100
j =1
j
Los gráficos tienen por finalidad dar una información general de un conjunto de datos.
Se busca con ellos que el lector se forme una idea rápida y global del comportamiento
de la característica en estudio, ya sea en la muestra como en la población. Un gráfico
no intenta mostrar información detallada, sino hechos sobresalientes de un conjunto
de datos.
Entre los gráficos estadísticos más comúnes, mencionaremos los gráficos de barras
simples y compuestos, los gráficos de sectores (tortas), los histogramas, los polígonos
de frecuencias, los polígonos de frecuencias acumuladas u ojivas, los gráficos de
líneas, los gráficos de barras dirigidos (pirámides), y los gráficos de dispersión.
Gráfico de Barras
Se usa para descripciones de conjunto de datos cualitativos, los cuales indican la
frecuencia o frecuencia relativa correspondiente a cada categoría, siendo la altura de la
barra proporcional a la frecuencia o frecuencia relativa de la categoría. Estas pueden
ser simples o compuestas. Las simples son aquellas que muestran el comportamiento
de una sola variable, mientras que las compuestas son aquellas que muestran el
comportamiento de 2 o más variables.
25
Distribución
Distribución porcentual
porcentual por
por grupos
grupos de
de edad
edad en
en el
el municipio
municipio
del
del Retiro
Retiro -- Antioquia,
Antioquia, 1998
1998
Porcentaje
60 51,9
50
40
30
19,1
20 12,6
8,8 7,5
10
0
0-4 '5 - 14 15 - 44 45 - 69 60 y Más
Grupos de Edad
Distribución
Distribución de
de lesiones
lesiones en
en las
las manos
manos según
según sexo
sexo en
en un
un
estudio
estudio sobre
sobre salud
salud ocupacional
ocupacional
Porcentaje
100 No
Sí
78,1
80
60
60
40
40
21,8
20
0
FEMENINO MASCULINO
Sexo
26
LUGAR DE OCURRENCIA DE LA DEFUNCION POR SEXO.
MEDELLIN, 1987-
1987-1996
70
60
50
P orc e ntaje 40
30
20 S E XO
10 M u je r
0 H o m b re
H o s p ital o clín ic a O tro lu g a r
Casa S in info rm a ció n
L u g ar d e la d efun c ión
Localización
Localización geográfica
geográfica de
de las
las personas
personas del
del Municipio
Municipio del
del
Retiro.
Retiro. Antioquia,
Antioquia, 1998
1998
Rural
59,4%
Urbana
40,6%
27
Gráfico de Barras Horizontal Dirigido
Es aquel que utiliza barras horizontales en lugar de verticales, esta dirigido porque el
lado izquierdo del eje se usa para dibujar un conjunto de datos y el derecho para
dibujar el otro.
DISTRIBUCION
DISTRIBUCION PORCENTUAL
PORCENTUAL DE
DE LAS
LAS LESIONES
LESIONES
OCULARES
OCULARES POR GRUPOS DE EDAD SEGUN SEXO.
POR GRUPOS DE EDAD SEGUN SEXO.
GRUPOS DE EDAD
HOMBRES
HOMBRES MUJERES
MUJERES
0 3
>50
20 22
>50
91 82
30 - 50
45 55
30 - 50
9 15
<30
35 22
<30
100 80 60 40 20 0 20 40 60 80 100
GRAVES
GRAVES NO
NOGRAVES
GRAVES
Pirámide de Población
Este gráfico es muy similar al de barras horizontal dirigido, solo que en este, en el lado
derecho estarán las mujeres en grupos de edad quinquenales y en el lado izquierdo los
hombres con igual composición de edad.
Piramide
Piramide poblacional
poblacional por
por edad
edad yy sexo.
sexo.
Medellín,
Medellín, 1996
1996
3,7 2,8
70 y Más 2,06 1,78
65 a 69 2,9 2,45
60 a 64 3,15 2,82
55 a 59 3,97 3,68
50 a 54 4,65 4,51
45 a 49 6,28 6,06
40 a 44 8,01 7,46
35 a 39 9,67 9,38
30 a 34 10,42 9,95
25 a 29 9,69 8,97
20 a 24 8,82 8,71
15 a 19 9,17 10,62
10 a 14 9,1 10,79
5a9 8,42 10
0a4
12 10 8 6 4 2 0 2 4 6 8 10 12 14
Mujeres Hombres
Cronología
Cronología de
de la
la atención
atención de
de salud
salud en
en Medellín
Medellín 1986
1986 -- 1996
1996
28
Histograma de Frecuencias
Es un conjunto de rectángulos contiguos cuya base son los intervalos de clase sobre el
eje horizontal y alturas iguales a las frecuencias absolutas o relativas asociadas a cada
clase y sobre el eje vertical. El histograma es en esencia una gráfica de barras en las
que las categorías son clases. El histograma no nos dice como están distribuidos los
datos dentro de los intervalos, además las apariencias de simetría deben ser aceptadas
con cuidado. Este se aplica para variables de naturaleza cuantitativa y esta dada en
intervalos de clase.
Polígono de Frecuencias
Se aplica cuando la variable objeto de estudio es cuantitativa y esta dada en intervalos
de clase. Se construye graficando las respectivas marcas de clase de cada intervalo.
El polígono de frecuencias presenta una imagen más real de los datos por cuanto los
valores individuales en cada intervalo son gradualmente más frecuentes a medida que
se acercan al punto medio o marca de clase. Es usual "dibujarse" este sobre el
histograma de frecuencias.
29
Peso (en onzas) de los tumores malignos extirpados del abdomen de
de las
personas encuestadas. El Retiro, Antioquia. 1998
30
Gráfica de Líneas
Se utiliza para variables de naturaleza cuantitativa, y cuando estas son analizadas en
función del tiempo y se pretende mostrar las variaciones de esta en el tiempo.
Nacimientos
Nacimientos vivos.
vivos.
Medellín
Medellín 1986 - 1996
1986 - 1996
Miles
37
36
35
34
33
32
31
30
1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
Años
Nacimientos vivos
Cronología
Cronología de
de lala atención
atención en
en salud
salud en
en Medellín
Medellín 1986
1986 -- 1996
1996
1000
800
Ingresos en diez miles
600
400
200
0
-10 0 10 20 30 40
Años de antiguedad
31
MEDIDAS DESCRIPTIVAS DE UNA MUESTRA
a). Media aritmética: Es la suma de todos los datos dividida entre el total de ellos,
esto es, si X1, X2,..., Xn son los datos, la media aritmética, denotada X , esta dado
n
∑ Xi
i =1
por X =
n
n
∑ Xini
i =1
Cuando hay datos repetidos, la media aritmética puede calcularse así: X = ,
n
donde ni es la frecuencia absoluta del dato Xi, muchos la llaman media aritmética
ponderada. La media aritmética también es llamada Promedio Aritmético Simple,
Valor Medio o simplemente Media.
Ejemplo:
Calcule la Media del conjunto de n = 5 determinaciones de muestra: 4, 6, 1, 2, 3; la
aplicación de la fórmula X nos da:
n
∑ Xi
i =1 4 + 6 +1+ 2 + 3
X= = = 3.2
n 5
Ahora si hubiesen datos repetidos el desarrollo de fórmula seria como sigue:
Xi ni Xini
15 7 105
20 4 80
25 6 150
30 3 90
Total 20 425
∑ Xini
i =1 105 + 80 + 150 + 90
X= = = 21.25 Min.
n 20
32
Ventajas:
• Fácil comprensión
• Rapidez de cálculo
• Presenta estabilidad a las fluctuaciones al azar
Desventajas:
• Dependiendo de la naturaleza de los datos y de la muestra puede ser poco
confiable
• Es afectada por la presencia de valores extremos (ya sea pequeños o grandes), en
tal situación debe utilizarse otro tipo de promedio.
b). Media Geométrica: Se obtiene multiplicando todos los datos y luego se extrae
la raíz n-esima a tal producto, esto es, X1, X2, ..., Xn son los datos y n es el
tamaño de la muestra, entonces la media geométrica, que denotaremos X g, esta
dada por X g= n
X 1, X 2,..., Xn , esta fórmula es fácil de calcular cuando n ≤ 3, n ε
N, si n ≥ 4 se debe usar la siguiente fórmula:
n
∑ LogXi
Simbólicamente la fórmula será: X g= Antilog i =1
n
Ejemplo:
Considérese los números 5, 6, 9, 10, 15, 40, hallaremos la media aritmética y la media
geométrica.
∑ Xi
i =1 5 + 6 + 9 + 10 + 15 + 40
X = = = 14.16
n 6
n
∑ LogXi
X g= Antilog i =1 = 10.83 , así:
n
33
0.6989 + 0.7781 + 0.9542 + 1 + 1.1760 + 1.6020
X g= Antilog = 10.83
6
Cabe recordar, que se deben sumar todos los logaritmos y se divide por el número de
datos, para posteriormente extraer el antilogaritmo a dicho resultado.
Nota:
• Si n ≤ 3 y alguno de los datos es cero X g = 0
• Si n ≥ 4 y algún dato es negativo, no se puede hallar X g (Solución imaginaria)
La media geométrica es muy útil ya que esta no se encuentra influenciada por valores
extremos, es esta la que debe usar cuando estos valores se detectan dentro de un
conjunto de datos. Para efectos de calculo de esta medida a partir de cualquier
programa estadístico y del Excel, su interpretación es idéntica a la media aritmética.
∑ Xi
1 ∑ ( Xi)−1
i =1
d). Mediana: Es el valor tal que al menos el 50% de los valores están por encima de
él y el otro 50% de los valores están por debajo de este. Ocupa una posición
central en la serie cuando los datos están ordenados. Si el número de datos es
impar la mediana es el dato del centro. Si por el contrario el número de datos es
par la mediana puede ser cualquier valor intermedio central. La mediana se denota
con Me.
n +1
Posición de la Mediana:
2
Ejemplo:
Dada una serie de datos, calcular la mediana
3, 2, 7, 4, 9, 15, 15, 14, 13, 12, 4, 5, 7, 9, 7, 11, 8, 9, 6, 5, 10
n +1 21 + 1
Posición de la mediana: = = 11
2 2
34
Dato 11: Me = 8
Para el cálculo de la mediana con conjuntos pares de datos, trabajaremos con el
ejemplo anterior, suprimiendo uno de los números 15, hallar la mediana.
n +1 20 + 1
Posición de la mediana: = = 10.5
2 2
7+8
Me = = 7.5
2
Características de la Mediana:
• Es menos aplicada que el promedio
• Se requiere para su cálculo ordenar los datos
• En series de datos poco simétricas con valores atípicos, esta es la medida ideal
• La mediana es realmente una medida de posición
Ventajas:
• No se deja influenciar por valores extremos
• Fácil de calcular
Desventajas:
• Se aplica generalmente en datos agrupados
e). Moda: Es el dato que presenta la frecuencia absoluta más alta o mayor, se
denota por Mo. Realmente al igual que la mediana es más una medida de posición.
Si la frecuencia de los datos es unitaria se dice que no existe moda. Si existen dos
datos que tienen las frecuencias más altas, se dice que el conjunto de datos es
Bimodal.
Ventajas:
• Es independiente de los valores extremos
• Es el dato más descriptivo de la serie
Desventajas:
• Puede no existir
35
• Primer Cuartil: Es el valor en el cual o por debajo del cual se encuentra el
25% de todos los valores de la serie. Se denotará con Q1.
N +1
Posición Q1 =
4
N +1
Posición Q2 =
2
3( N + 1)
Posición Q3 =
4
Ejemplo:
Si hacemos una observación del tiempo transcurrido entre el contacto de un enfermo
contagioso y la aparición de la enfermedad, tenemos que los resultados son:
5, 5, 6, 6, 7, 8, 8, 8, 9, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17, 17, 18, 18, 20 días.
A partir de estos datos hallaremos el Primer (Q1), Segundo (Q2) y Tercer (Q3) Cuartil.
36
Tercer cuartil (Q3):
3(24 + 1)
Posición Q3 = = 18.75
4
Para hallar el tercer cuartil, debemos promediar los datos de
15 + 16
los posiciones 18 y 19, así: Q3 = = 15.5
2
Interpretación: El 75% de las personas en contacto con los enfermos, adquirieron la
enfermedad en a lo más 15.5 días, el otro 25% se encuentran por encima de este
valor.
N +1 N +1
D1 = D2 =
10 5
3( N + 1) 9( N + 1)
D3 = .......................... D9 =
10 10
24 + 1
D1 : Posición = = 2.5
10
5+6
Ahora, deberemos de promediar las posiciones 2 y 3, así: = 5.5
2
9(24 + 1)
D9: Posición = = 22.5
10
18 + 18
Ahora, deberemos de promediar los posiciones 22 y 23, así: = 18
2
37
99( N + 1)
Posición P99 =
100
Obsérvese que en ambas ciudades los promedios de temperatura y las medianas son
iguales, lo cual nos puede llevar a pensar erróneamente, que existe gran similitud en
la temperatura en ambas ciudades. Debe tenerse en cuenta que las medidas de
tendencia central y las de posición no nos dice nada sobre la variabilidad de los datos,
los cuales en el ejemplo siguiente presentan tal característica.
38
Ejemplo:
Los siguientes datos corresponden a una muestra de 40 familias sobre el número de
hijos en una región de Colombia.
Se hallaran R, Q, Qd
R = 11 - 1 = 10
Q = Q3 - Q1
N +1 40 + 1 41
Q1 = = = = 10.25
4 4 4
2+3
Así se deben promediar las posiciones 10 y 11, = 2.5
2
3( N + 1)
Q3 = = 30.75
4
7+7
Q3 = =7
2
Ahora, Q3 - Q1 = 7 - 2.5 = 4.5
Q 3 − Q1 4.5
Qd = = = 2.25
2 2
Interpretación: Más o menos la mitad de las familias tienen una desviación con
respecto al 50% central de 2.25 hijos
39
d). Desviación Media: Para que una medida sea indicativa de la variabilidad debe
tenerse en cuenta todos los datos. La distancia de cada dato Xi con respecto a un
valor (medida de tendencia central), se llama Desviación ó error. Si tomamos
como medida central la media aritmética y sumamos los resultados obtenidos al
hallar la distancia de cada dato con respecto a la media aritmética la suma da cero.
k
Esto es, ∑i =1
(Xi- X ) = 0, luego esto no representa una medida de dispersión.
∑ Xi − X
i =1
Desviación Media (DM) =
n
Ejemplo:
Hallar la Desviación media de los siguientes números:
10, 12, 2, 9, 15, 6, 7, 8, 12, 9
La media de estos datos será X = 9
k
∑ Xi − X
i =1
DM = =
n
∑ ( Xi − X )
2
i =1
La varianza muestral esta dada por: S2 =
n −1
∑ ( Xi − X )
2
i =1
S=
n −1
40
g). Coeficiente de Variación: Mide la variabilidad de un conjunto de datos. Es
utilizado básicamente para comparaciones de muestras. No tiene unidades, esta
S
dado por: CV = *100 (Se da en porcentaje)
X
• Coeficientes
∑ ( Xi − X )
3
i =1
g1 =
nS 3
3( X − Me )
Cp =
S
41
Este coeficiente tiene la ventaja de utilizar la mediana, la cual es resistente a la
presencia de valores extremos. De allí podemos decir que, una curva con asimetría
entre -0.37 y +0.37 puede considerarse simétrica. Si dicho coeficiente es menor que -
1 ó mayor que 1, la asimetría será pronunciada.
Para el ejemplo que se ha venido desarrollando, sobre las horas-obrero para realizar
una tarea en específico, tenemos:
3( X − Me ) 3(117.8 − 117.5)
Cp = = = 0.059
S 15.01
∑ ( Xi − X )
4
i =1
g2 =
nS 4
tras desarrollar la fórmula, el resultado de g2, nos indicará:
∗ Si g2 < 3, la curva es platicurtica (Aplanada)
∗ Si g2 > 3, la curva es leptocurtica (Delgada)
∗ Si g2 = 3, la curva es mesocurtica (Normal)
Q = Es el rango intercuartilico
D9 = Es el noveno decil, y
D1 = Es el primer decil
42
0.26 -
Para el ejemplo que se ha venido desarrollando, sobre las horas-obrero para realizar
una tarea en específico, tenemos:
Q 23
K= = = 0.29
2(D 9 − D1) 2(138 − 98.25)
Interpretación: Como K > 0.26, esto es, 0.29 > 0.26, entonces la
curva es leptocurtica (delgada).
43
9 9 .7 %
95%
µ - 3σ µ -σ µ µ + σ µ + 3σ
µ - 2σ µ + 2σ
44
En el cuadro de variable dependiente se debe de colocar la variable numérica, y si es
necesario en la variable factor se puede colocar una variable cualitativa categórica para
poder determinar el comportamiento de la variable dependiente de acuerdo a las
categorías de la variable cualitativa. Luego, se debe de dar clic en el botón
estadísticas, para determinar que medidas de resumen desea; y en el botón gráficos
se puede seleccionar el gráfico con test de normalidad para determinar si la variable
cuantitativa sigue un comportamiento normal, en su conjunto o por cada categoría de
la variable cualitativa. Una vez que pulse continuar y Aceptar, se mostraran en la
ventana de resultados las estadísticas de resumen, las pruebas y los gráficos de
normalidad.
45
Puede seleccionar la o las variables
cuantitativas a ser resumidas, una
vez que las halla pasado del cuadro
de la izquierda al de la derecha, pulse
en el botón estadísticas y en el
cuadro que emerge seleccione las
estadísticas de resumen que desee
obtener, por ultimo en el botón
gráficos, puede seleccionar entre un
gráfico de barras simples, pastel o
histograma según la variable.
Recuerde que si desea tener un
registro de todas las operaciones que
realice, para posteriormente no
repetir los procesos puede Pegar los
comandos en la ventana de sintaxis.
46
Si se quisiera editar esta información, se pudiera hacer de forma muy simple, para ello
pulse doble clic en el cuadro (ventana de resultados), con lo cual se activara el cuadro
para poder ser pivotado (editado).
47
Si se quisiera editar (pivotar)
el gráfico, se da doble clic en el
(en la ventana de resultados),
con lo cual se abre una
ventana nueva llamada editor
de gráficos. Allí se podrán
cambiar los colores, los textos,
las líneas, dependiendo del tipo
de gráficos colocar efectos de
tercera dimensión, entre otros.
Para ello se cuenta con una
barra de herramientas que
facilita todas estas
operaciones.
donde,
3. REGRESIÓN Y CORRELACIÓN
La existencia de algún grado de asociación entre las variables nos dirán que están
correlacionadas. Se considerara una relación funcional entre las variables X e Y,
suponiendo que X toma valores asignados o controlados por el investigador e Y
depende de X a traves de la relación Y = F(x).
48
La pregunta que surge entonces es como podemos establecer este tipo de
dependencia?. Dado un valor X, es posible hallar el valor correspondiente de Y,
mediante una ecuación definida por Y = F(x), si la función es de la forma Y = α + βx ,
se trata de una regresión lineal.
En la practica se cuenta como primer indicio para saber si existe alguna relación lineal
entre las variables es el análisis del diagrama de dispersión o nube de puntos. Este
consiste en una gráfica donde se relacionan las puntuaciones de una muestra en dos
variables, o dicho de otra forma, se obtiene graficando los pares (Xi, Yi) en los ejes
cartesianos.
200
180
Tensión Arterial Sistólica
160
140
120
100
40 50 60 70 80 90 100
Peso en Kgs
Nótese que los valores de la presión sistólica aumentan a medida que aumenta el peso
de las personas. La idea central de este tipo de gráficos es que los diferentes puntos
tiendan a colocarse sobre la línea diagonal. Esta información así colocada permite
pensar que las dos variables están correlacionadas linealmente.
Las formas que pueden tomar este gráfico son las siguientes:
49
Y Y Si b es > 0, o sea positivo, nos
indica que hay una relación entre
b>0 b<0
las variables y que esta es positiva
o directa; si por el contrario b es <
0, nos indica que la relación es
0 X 0 X
negativa o inversa; pero si b es
igual a 0, nos indica que las dos
Y variables están incorrelacionadas,
o sea que no existe asociación
entre X e Y.
b=0
0 X
n
n n
n∑ XiYi − ∑ Xi ∑ Yi
i =1 i =1
βˆ =
i =1
2
Estimador de la pendiente
n
n
n∑ X i − ∑ Xi
2
i =1 i =1
50
n n
∑ Yi − βˆ ∑ Xi
i =1 i =1
αˆ = = yˆ = β̂x Estimador del intercepto
n
Correlación Simple:
Estudia la asociación entre variable cuantitativas con el fin de dar medida de esta
asociación sin distinguir entre variables dependientes e independientes. Si solo
participan dos variables la correlación será simple, si participan mas de 2 será
múltiple. Para medir la correlación se utilizan varios coeficientes, utilizaremos el
coeficiente de correlación de pearson r (lease ro). Este coeficiente siempre esta entre
–1 y 1, esto es, -1 ≤ r ≤ 1. si r > 0 y ≤ 1, diremos que la correlación es positiva; si r es
< 0 la correlación es negativa; si r = 0 las variables están incorrelacionadas.
∑ i
∑
∑ i
∑
i =1 i =1
Para el calculo de estos estimadores por medio del spss, se debe de seguir los
siguientes pasos:
1. En analizar, dar clic en Regresión y allí seleccionar Lineal
51
2. En el cuadro que aparece, colocar en dependiente, la variable dependiente (Y) y en
independientes, colocar la variable independiente (X).
4. Una vez que se haya terminado el proceso de seleccionar las opciones adecuadas,
de clic en aceptar, aparecerá en la ventana de resultados la siguiente información:
52
Model Summaryb
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 7978,987 1 7978,987 30,388 ,000a
Residual 17329,881 66 262,574
Total 25308,868 67
a. Predictors: (Constant), Peso en Kgs
b. Dependent Variable: Tensión Arterial Sistólica
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts 95% Confidence Interval for B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) 76,397 11,712 6,523 ,000 53,014 99,781
Peso en Kgs ,905 ,164 ,561 5,512 ,000 ,577 1,233
a. Dependent Variable: Tensión Arterial Sistólica
Residuals Statisticsa
Interpretación:
53
Para explicar la real relación de la presión y el peso, se evalua la prueba de hipótesis
para β, en la cual las hipótesis constitutivas son:
Ho: X e Y no están relacionadas linealmente → β1 = 0
Ha: X e Y están relacionadas linealmente → β1 ≠ 0
Esta valoración se logra a partir del análisis de varianza. Para el ejemplo en cuestión,
se observa que el valor P para β1 es 0.000, lo cual indica que el peso y la presión
sistólica están relacionadas linealmente.
Por ultimo al analizar los coeficientes β, se observa como el valor P para β1 (Peso) es
estadísticamente significativo, P=0.0000, lo cual indica que existen evidencias
estadísticamente significas que el coeficiente β1 es diferente de 0, esto se corrobora al
obtener los intervalos de confianza, los cuales no pasan por el cero. en caso que este
supuesto no se cumpla, esto indica que el modelo no es el mas apropiado para
expresar el comportamiento de la variable dependiente.
54
4. MANEJO DEL SPSS
En todo proceso investigativo resulta necesario realizar algunas operaciones con los
datos, tales como seleccionar un conjunto especifico de datos, calcular valores a partir
de otras variables, recodificar o reagrupar la información, ordenar y resumir la
información.
Este apartado se centrará en estos aspectos con el fin de poder manejar con mayor
profundidad la herramienta SPSS.
El primer paso es poder abrir bases de datos realizadas en otros programas como
Excel, Dbase, entre otros. Para ello, se procede a ir al Menú File – Open –Data.
Posteriormente se abre el cuadro de dialogo Abrir, allí podrá seleccionar la carpeta
(directorio) donde se encuentra el archivo en el cuadro combinado Buscar en:, en la
opción Tipo de archivos podrá seleccionar el tipo de formato que tiene el archivo que
desea abrir, por ultimo de clic en abrir. En algunas ocasiones cuando SPSS abre el
archivo crea una variable nueva llamada d_r, esta variable puede ser borrara por el
visor de variables.
Una vez abierta la base de datos, podrá guardarla en la carpeta que usted desee,
recuerde que para los nombres de las variables de spss, estas no podrán ser de mas
de ocho caracteres, y deberán ser en minúsculas.
Una vez introducidos los datos, podemos hacer ciertas transformaciones de los mismos
con la finalidad de crear nuevas variables o recodificar valores para variables ya
definidas. Revisaremos aquí las vías para la recodificación y para la creación de nuevas
variables, en cálculos realizados a partir de los mismos.
55
Para Calcular variables a partir de otras, proceda a realizar los siguientes pasos:
1. Elija Calcular del menú Transformar
Recodificación de valores.
56
elija el menú Into same variables del comando Recode del menú Transform.
Seleccione la(s) variable(s) que desea recodificar. Si se seleccionan múltiples
variables, deberán ser del mismo tipo (numéricas o de cadena); pulse en valores
antiguos o nuevos y especifique como recodificar los valores, en este cuadro de dialogo
se pueden definir los valores que se van a recodificar. Todas las especificaciones de
valores deben pertenecer al mismo tipo de datos que las variables seleccionadas en el
cuadro de dialogo principal.
57
Una forma alternativa para
reagrupar los valores de una
variable es mediante la opción de
Categorize del menú Transform.
Esta forma de recategorizar es
automáticamente realizada por el
SPSS, a partir del número de
categorías definidos por el
investigador. Para ello, del cuadro
de la izquierda pase la variable
para el de la derecha y en el
cuadro Número de categorías
(number categories) colocar el
numero de categorías deseado. En términos generales este tipo de categorización se
obtiene a partir de los cuartiles, deciles o mediana.
Seleccionar casos.
Este proporciona varios métodos para seleccionar un subgrupo de casos basados en los
criterios que incluyen variables y expresiones complejas. También se puede
seleccionar una muestra aleatoria de casos. Los criterios usados para definir un
subgrupo pueden incluir: Valores y rangos de variables, rangos de fechas, Numero de
casos (filas), expresiones aritméticas, expresiones lógicas y funciones.
58
Para seleccionar los casos vaya al Menú Datos – Seleccionar casos..., seleccione uno
de los métodos de selección de casos y especifique los criterios para la selección de los
mismos.
Puede filtrar o eliminar casos que no reúnen los criterios de selección. Los casos
filtrado permanecen en el archivo de datos pero se excluyen del análisis. SPSS crea
una variable de filtro, filter_$, para indicar el estado del filtro. Los casos seleccionados
tienen un valor de 1; los casos filtrados tienen un valor de 0. los casos filtrados
también están indicados con una barra transversal sobre el número de la fila en el
editor de datos. Para desactivar el filtrado e incluir todos los casos en el análisis
seleccione todos los casos.
Para seleccionar los casos por un criterio en especifico, por ejemplo para seleccionar el
sexo femenino, debe seleccionar la opción If condition is satisfied (si se satisface la
condición), y dar clic en el botón If. En el cuadro que aparece, del cuadro de la
izquierda pasar la variable y colocar cual es el criterio, si el criterio es cadena o
carácter, este debe de ir encomillado, si es numérico no; así para seleccionar a las
mujeres en el cuadro de la derecha debe de aparecer algo similar a esto
Sexo=”Femenino”, pero si las categorías estuviesen numéricas y femenino fuera el
uno, el criterio cambiaria a Sexo=1. la mayoría de las expresiones condicionales
utilizan uno o mas de los seis operadores relacionales (<, >, <=, >=, =, ≠) del teclado
de la calculadora. Estas expresiones condicionales pueden incluir nombres de
variables, constantes, operadores aritméticos, funciones numéricas y otros variables
lógicas y operadores relacionales.
Si en vez de filtrar los datos, escoge eliminarlos, los registros que no cumplan la
condición se borraran, y si después de haberlos eliminado, guarda los cambios en el
archivo de datos de trabajo (con el mismo nombre), entonces no podrá recuperar los
casos eliminados.
59
Seleccionar casos: Muestra aleatoria.
60
5. INFERENCIA ESTADÍSTICA
ESTIMACIÓN DE PARAMETROS
• ESTIMACIÓN PUNTUAL
Es la escogencia de un estimador que proporcione un valor tan cerca como sea posible
al valor esperado del parámetro. La situación ideal seria disponer de un estadístico tal
que su valor, para todas las muestras, fuese igual al valor del parámetro. Dicho
estadístico no existe. Por lo tanto, la búsqueda de estadísticos debe orientarse hacia
aquellos que proporcionen valores razonablemente cercanos al valor real del
parámetro.
Una estimación puntual es una regla o fórmula que nos dice como calcular una
estimación numérica con base en las determinaciones contenidas en una muestra. El
número que resulta del cálculo es una estimación puntual.
61
Los parámetros que se estiman más frecuentemente:
Un estimador de intervalo es una regla, casi siempre expresada como una fórmula, que
nos permite calcular dos puntos a partir de los datos de la muestra. El objetivo es
formar un intervalo que contenga a el parámetro con un grado de confianza elevado.
Una estimación por intervalos de confianza consta de dos valores numéricos que
definen un intervalo que con un grado de confianza, se considera incluye el parámetro
que se está estimando (µ,δ²,P)
0.90 = 90%
0.95 = 95%
0.99 = 99%
Una confianza del 95%, por ejemplo, significa que de cada 100 intervalos construidos a
partir de 100 muestras diferentes, encontramos que 95 de ellos contienen el
parámetro y los otros no lo contienen. En la práctica, no se tiene más que una
muestra, y el intervalo de confianza construido a partir de esa muestra contiene el
valor del parámetro o no lo contiene. Como no es posible conocer cual alternativa es
la correcta, se asume o se confía en que el intervalo se encuentra entre aquellos 95
que contienen el valor real del parámetro cada vez que se construyan 100 en las
mismas condiciones.
62
Se supone que la aproximación es suficientemente buena cuando n ≥ 30. A la
distribución normal se le llama a veces distribución Z.
δ
Cálculo del intervalo de confianza: X ± Zα/2
n
Esta fórmula cuenta con cuatro variables. Los valores de la X y n se obtienen a partir
de la muestra. en algunas investigaciones es posible que se conozca el valor de δ.
Nos queda por calcular el valor de Zα/2. Este valor se obtiene de la tabla de la
distribución normal conociendo el valor de 1 - α.
Los valores de la curva normal estandarizada (Z) para cada grado de confianza son los
siguientes:
1-α Z
0.90 = 90% 1.645
0.95 = 95% 1.96
0.99 = 99% 2.58
63
c). Muestras pequeñas, población normal y varianza δ2 desconocida
hay ocasiones en que las restricciones de tiempo o costo pueden restringir el número
de observaciones de muestra que se pueden obtener para estimar µ. En el caso de
muestras pequeñas n < 30, surgen dos problemas. El primero consiste en que el
teorema central del límite solo se aplica a muestras grandes, no se puede suponer que
la distribución de muestreo de X es aproximadamente normal; el segundo problema
radica en que la desviación estándar de la muestra S podría no ser una aproximación
satisfactoria a la desviación estándar de la población δ si el tamaño de la muestra es
pequeño.
S
X ± tα/2 ; donde la distribución de t se basa en (n - 1) grados de libertad.
n
( X 1- X 2) ± Zα/2 * δ 12 / n1 + δ 22 / n2
En este punto debemos considerar varios casos dependiendo del conocimiento que
tengamos de las varianzas δ 1 y δ 2 y de los tamaños muestrales n1 y n2.
2 2
son desconocidas pero los tamaños muestrales son grandes (n1 ≥ 30 y n2 ≥ 30),
podemos reemplazar δ 1 por S1 y δ 2 por
2 2 2
S 22 en el intervalo sin afectar
apreciablemente la confiabilidad del intervalo.
Si un intervalo de confianza contiene el cero, se puede concluir que las medias de las
dos poblaciones son iguales. Si el intervalo es negativo, la media de la población B es
superior a la dieta de la población A. Si el intervalo es positivo, la media de la
población A es superior a la media de la población B.
64
b). Varianzas iguales pero desconocidas y n1 y n2 pequeñas
Este es el caso más común en las situaciones practicas. Con base en lo anterior
tenemos que un intervalo para muestras pequeñas debe calcularse a partir de la
distribución t de student, así:
g.l. =
(S 1
2
/ n1 + S 22 / n2 )
2
(S
1
2
/ n1 ) (
2
S2 /n
+ 2 2
)
2
n1 − 1 n2 − 1
En términos generales la decisión que se tome con las pruebas de hipótesis debe ser la
misma a la que se llegue con los intervalos de confianza. Así, si en la diferencia de
medias el intervalo de confianza es positivo en ambos limites, quiere decir que no
pasa por cero, se puede decir que hay diferencias estadísticamente significativas y
dicha diferencias son a favor de la población 1, o sea que el promedio de la población 1
es significativamente mayor que el de la población 2; si por el contrario ambos limites
son negativos y mayores de cero, existen diferencias estadísticamente significativas y
dichas diferencias son a favor de la población 2, o sea que el promedio de la población
2 es significativamente mayor que el de la población 1. si el intervalo contiene el cero
se puede decir que no existen diferencias estadísticamente significativas, esto es, los
promedios son iguales.
65
de una población aproximadamente normal. Entonces, el intervalo de (1-α)100% para
la diferencias de medias es:
Sd Sd
d ± Zα/2 d ± t1-α/2
n n
Representamos con d1, d2, ..., dn las diferencias entre las observaciones por pares en
una muestra aleatoria de n pares coincidentes, d = media de las n diferencias de
muestra y Sd = desviación estándar de las n diferencias de muestra.
Si se desconoce δd (como suele suceder), utilice Sd para aproximar δd.
Ejemplos:
Ejemplo 1:
Supóngase que un investigador, interesado en obtener una estimación de la edad
promedio en cierta población, toma una muestra de 10 individuos, indaga sobre la
edad en años de cada uno y calcula la media muestra X = 22 años. Supóngase que se
sabe que la variable de interés presenta una distribución aproximadamente normal con
una varianza de 45. Calcular el intervalo para µ, con un grado de confianza del 95%.
S 6.71
El intervalo es: X ± Z1-α/2 * = 22 ± 1.96 * = (17.84 ; 26.16)
n 10
Es decir: 17.84 < µ < 26.16
Con una confianza del 95%, la edad promedio de las personas en la población se
encuentra entre 17.84 y 26.16 años.
Ejemplo 2:
En un estudio de flujo de pacientes a través de la oficina de grupos generales, se
encontró que en promedio, una muestra de 35 personas llegaban 17.2 minutos tarde a
las citas. Una investigación previa había demostrado que la desviación estándar era
de 8 minutos aproximadamente. Cual es el intervalo del 90% para la cantidad del
tiempo promedio verdadera de llegadas tarde a las citas?
S 8
El intervalo es: X ± Z1-α/2 * = 17.2 ± 1.64 * = (15 ; 19.4)
n 35
66
Es decir: 15 < µ < 19.4
Podemos decir con una confianza del 90% que la cantidad promedio de tiempo
verdadera de llegada tarde a las citas en la población esta entre 15 y 19.4 minutos.
P *Q
El intervalo es = P ± Zα/2 ; donde P es la proporción en la muestra de
n
observaciones con la característica de interés, Q = 1- P .
Ejemplo:
Se tomo una muestra de 120 interruptores eléctricos de un lote que fue despachado a
un almacén de ventas al menudeo y se encontraron 10 defectuosos. Hallar un
intervalo de confianza del 90% para estimar la proporción de interruptores defectuosos
en la fabricación de estos aparatos.
X 10
P= = = 0.083 Z1-α/2 = 1.64
n 120
0.083 * 0.917
Ahora el intervalo es: 0.083 ± 1.64 = 0.083 ± 1.64 (0.02518)
120
0.041 < P < 0.124
67
artículos defectuosos producidos por la maquina 1 con la proporción P2 de artículos
defectuosos producidos por la maquina 2.
Para estimar la diferencia (P1 - P2), donde P1 y P2 son parámetros binomiales; es decir,
las probabilidades de éxito en los experimentos binomiales independientes,
consideraremos la siguiente fórmula:
p1q1 p2 q2
(P 1 - P 2) + Zα/2 + ; donde P 1 - P 2 son las proporciones de
n1 n2
observaciones con la característica de interés en las muestras.
Notas importantes:
La palabra docimar significa probar. Para tomar una decisión se hace ante todo
plantear posibilidades acerca de la característica o características a estudiar en una
población determinada. La suposición puede ser cierta o falsa. Estas suposiciones se
llaman hipótesis estadísticas. Las hipótesis estadísticas Ayudan al Investigador a
tomar una decisión entorno a una población, examinando una muestra de ella.
Tipos de Hipótesis:
68
2. Estadísticas: Establecidas de tal forma que puedan ser evaluadas a través de
técnicas estadísticas apropiadas. Devienen directamente de las de investigación.
Las hipótesis pueden ser formuladas con el fin de rechazarlas de acuerdo con el
análisis estadístico. Esta clase de hipótesis se denomina hipótesis nula y se representa
por Ho; estas son aquellas por medio de las cuales se hace una afirmación sobre un
parámetro que se va a constatar con el resultado muestral. Se tiene también la
hipótesis alternativa representada por Ha; esta es toda aquella hipótesis que difiere de
la hipótesis nula, es decir, ofrece una alternativa, afirmando que la hipótesis nula es
falsa.
Es así como, la teoría que queremos apoyar (o detectar si es verdadera) por lo regular
se escoge como hipótesis alternativa.
Las hipótesis nula y alternativa se establecen de tal manera que sean mutuamente
excluyentes y complementarias. Por lo tanto, cuando rechazamos la hipótesis nula
estamos aceptando a la vez la hipótesis alternativa como verdadera y lo contrario.
Generalmente, pero no siempre, la hipótesis alternativa es la misma hipótesis de
investigación y en el proceso de prueba se espera negar o rechazar la hipótesis nula de
modo que se concluya la hipótesis alternativa o de investigación.
Hay cuatro resultados posibles según la decisión que se tome y el valor que tenga Ho,
así:
D VERDADERA FALSA
E
ACEPTAR Decisión Error
C
Correcta Tipo II
I
S RECHAZAR Error Decisión
I Tipo I Correcta
O
N
E
S
69
Las hipótesis se debe formular en forma correcta o lógica y debe ser enunciada antes
de obtener los datos muestrales. Son ejemplos de hipótesis estadísticas:
• El administrador de un hospital puede suponer que el promedio de días de estancia
de los pacientes internados es de 5 días.
• El promedio de calificación que tendrán los alumnos en un curso de estadística será
superior a 4
• El 5% de las unidades producidas por una máquina serán defectuosas
Región de
Rechazo Región de Región de
Aceptación Rechazo
α/2
α/2
Región de
Rechazo Región de
Aceptación
α
1-α
Región de Región de
Aceptación Rechazo
70
Nivel de Significancia
En las pruebas unilaterales se tomara el valor total de alfa (α); para las pruebas
bilaterales alfa se dividirá por dos. La región no sombreada o no cubierta por el nivel
de significancia, se denominara zona de aceptación o de no rechazo.
2. Elegir el riesgo: α = %
Los niveles de significancia más utilizados son:
α = 0.05 ó 5%
α = 0.01 ó 1%
α = 0.10 ó 10%
71
3. Se establecen ciertos supuestos:
a). La muestra es aleatoria
b). La población es normal
c). La varianza poblacional es conocida (en la mayoría de los casos como no se
conoce es estimada)
Y - µo Y - µo Y - µo Y - µo
Z = δY = S / √n Z = δY = S / √n
Región de rechazo: Región de rechazo:
Z > Zα ( o sea Z < -Zα) Z > Zα/2
Nota: µo es el símbolo para el valor numérico particular especificado para µ en la
hipótesis nula.
72
• Prueba de hipótesis con muestra pequeña (n < 30)
estadístico de prueba:
Y - µo
t = S / √n
estadístico de prueba:
(Y1 - Y2) - Do (Y1 - Y2) - Do
=
δ(Y1-Y2) S 12
+
S 2
2
n1 n
Z = 2
Nota: Do es el símbolo para el valor numérico en particular especificado para (µ1 - µ2)
en la hipótesis nula. En muchas aplicaciones prácticas queremos hacer la hipótesis de
que no hay diferencias entre las medias de la población; en tales casos, Do = 0
73
En términos generales la decisión que se tome con las pruebas de hipótesis debe ser la
misma a la que se llegue con los intervalos de confianza. Así, si en la diferencia de
medias el intervalo de confianza es positivo en ambos limites, quiere decir que no
pasa por cero, se puede decir que hay diferencias estadísticamente significativas y
dicha diferencias son a favor de la población 1, o sea que el promedio de la población 1
es significativamente mayor que el de la población 2; si por el contrario ambos limites
son negativos y mayores de cero, existen diferencias estadísticamente significativas y
dichas diferencias son a favor de la población 2, o sea que el promedio de la población
2 es significativamente mayor que el de la población 1. si el intervalo contiene el cero
se puede decir que no existen diferencias estadísticamente significativas, esto es, los
promedios son iguales.
Estadístico de prueba:
(Y1 - Y2) - Do
1 1
S p2 +
Z = n1 n 2
2
Donde: S p =
(n1 − 1)S12 + (n2 − 1)S22 ; y la distribución t se basa en n1 + n2 - 2
n1 + n2 − 2
74
Estadístico de prueba:
d - Do ≈ d - Do
Z =
δd / √n Sd / √n
Donde d y Sd representan la media y la desviación estándar de la muestra de
diferencias.
Región de rechazo: Región de rechazo:
Z > Zα ( o sea Z < -Zα) Z > Zα/2
Nota: Do es nuestro símbolo para el valor numérico en particular especificado para (µ1
- µ2) en Ho. En muchas aplicaciones prácticas queremos postular la hipótesis de que
no hay diferencia entre las medias de población; en tales casos, Do = 0
Estadístico de prueba:
d - Do ≈ d - Do
t =
δd / √n Sd / √n
Donde d y Sd representan la media y la desviación estándar de la muestra de
diferencias.
Región de rechazo: Región de rechazo:
t > tα ( o sea t < -tα) t > tα/2
Nota: Do es nuestro símbolo para el valor numérico en particular especificado para (µ1
- µ2) en Ho. En muchas aplicaciones prácticas queremos postular la hipótesis de que
no hay diferencia entre las medias de población; en tales casos, Do = 0
75
Pruebas de Hipótesis de la Proporción de una Población
estadístico de prueba:
^p- po
po qo / n
Z =
Donde qo = 1 - po
Región de rechazo: Región de rechazo:
Z > Zα ( o sea Z < -Zα) Z > Zα/2
estadístico de prueba:
^ - p2)
(p1 ^ - Do
Z = δ (p^1 - p^2)
76
Cuando Do ≈ 0
δ ^ ^
(p1 - p2) ≈
pˆ1qˆ1 pˆ 2 qˆ2
+
n1 n2
donde q̂1 = 1 - p̂1 y q̂2 = 1 - p̂2
cuando Do = 0
δ ^ ^ 1
(p1 - p2) ≈ pˆ qˆ +
1
n1 n2
donde el número total de éxitos en la muestra combinada es (y1 + y2) y p̂ =
y1 + y2
n1 + n2
los tamaños de las muestras n1 y n2 son suficientemente grandes.
En términos generales la decisión que se tome con las pruebas de hipótesis debe ser la
misma a la que se llegue con los intervalos de confianza. Así, si en la diferencia de
proporciones el intervalo de confianza es positivo en ambos limites, quiere decir que no
pasa por cero, se puede decir que hay diferencias estadísticamente significativas y
dicha diferencias son a favor de la población 1, o sea que la proporción de la población
1 es significativamente mayor que la de la población 2; si por el contrario ambos
limites son negativos y mayores de cero, existen diferencias estadísticamente
significativas y dichas diferencias son a favor de la población 2, o sea que la proporción
de la población 2 es significativamente mayor que la de la población 1. si el intervalo
contiene el cero se puede decir que no existen diferencias estadísticamente
significativas, esto es, las proporciones son iguales.
77
VALOR P
En el caso de una prueba de una cola, cuya región crítica se ubique completamente en
la cola derecha de una distribución normal estándar, el valor p es solamente el área
bajo la curva a la derecha del valor de Z calculado a partir de los datos disponibles.
Mientas más pequeño sea el valor de p, habrá menor probabilidad de observar tal valor
extremo y el resultado será más significativo. Por lo tanto, si p = 0.03 aparece en los
resultados, el valor observado del estadístico de prueba es significativo para toda α ≥
0.03 y de esta forma será ciertamente significativo al nivel 0.05 pero no al nivel 0.01.
Ho: µ ≥ 25
Ha: µ < 25 α = 0.05
Ho: µ = 70
Ha: µ > 70 α = 0.05
Ho: µ = 8
Ha: µ ≠ 8 α = 0.01
78
Para el calculo de pruebas de hipótesis e intervalos de confianza con la ayuda del
SPSS, se cuentan con algunas restricciones, esto en el sentido que algunos de estos
cálculos no se pueden realizar con esta herramienta, para ello se procederá a explicar
su calculo con otro paquete como es el epidat, recordando que este paquete funciona
como una calculadora estadística, en la cual se deben de llevar los valores ya
calculados y no se puede trabajar con las bases de datos en su totalidad, como si
sucede con el SPSS.
El abordaje que se realizará estará enfocado a los procesos que se puedan obtener en
la herramienta SPSS, para ello se trabaja básicamente con pruebas de hipótesis e
intervalos de confianza para dos muestras independientes y dos muestras relacionadas
(pareadas), además de la prueba para una muestra.
Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a los dos
grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento
(o falta del tratamiento) y no a otros factores.
79
Con ello en la ventana de resultados aparecerán algunos datos, pero para efectos
del supuesto de normalidad nos interesa únicamente el test de normalidad:
Tests of Normality
a
Kolmogorov-Smirnov
Statistic df Sig.
Edad en años cumplidos ,096 70 ,177
a. Lilliefors Significance Correction
Observen que acá la mejor decisión sería aceptar la hipótesis nula, a diferencia de las
otras pruebas de hipótesis.
Para tomar la decisión entonces, procedemos a confrontar el Valor de P con el valor del
nivel de significancia (α), si el primero es menor que el segundo se rechaza Ho, en
caso contrario se Acepta. Ara nuestro ejemplo supongamos que el nivel de
80
significancia (α) es del 5% (0.05), como P = 0.2 es mayor que α se acepta Ho, o sea
que la edad sigue un comportamiento normal. Al ser la variable normal se puede
realizar la prueba de diferencias de medias para poblaciones independientes, en caso
que la variable no siga un comportamiento normal se debe proceder a realizar la
prueba no paramétrica U de Mann Whitney.
81
Independent Samples Test
En donde, lo primero que se debe de analizar es el test de Levene, este tiene las
siguientes hipótesis:
Recordar que para la decisión se compara el Valor de P con el valor del nivel de
significancia α, si el primero es menor que el segundo se rechaza Ho, en caso contrario
se Acepta Ho. Acá también lo ideal es Aceptar Ho, para cumplir con el segundo
supuesto que es el de Homocedasticidad de varianzas, pero en caso de no cumplirse,
el SPSS nos ofrece la alternativa de analizar los datos cuando las varianzas no son
iguales. En el ejemplo en cuestión observamos que el valor P para Levene (Sig.) es de
0.371, como este es mayor que el alfa (α), se acepta Ho, por lo tanto las varianzas son
iguales.
Ho: Los promedios de ambas poblaciones son iguales, en otras palabras, los
promedios de la edad son iguales según habito de fumar.
Ho: No Existen diferencias estadísticamente significativas que los promedios de la
edad son diferentes para el habito de fumar
Ha: Los promedios de ambas poblaciones son diferentes, en otras palabras, los
promedios de la edad son diferentes según habito de fumar.
Ha: existen diferencias estadísticamente significativas que los promedios de la edad
difieren según el habito de fumar
Para el ejemplo como el valor de P es mayor del nivel de significancia (α), que había
sido definido del 5% (0.05), se rechaza Ho, esto es, los promedios de la edad son
iguales para fumadores y no fumadores. Esta información es la misma que se obtiene
al mirar los intervalos de confianza, se observa que dicho intervalo pasa por cero, -
2.34 – 4.46. este Valor P observado y los intervalos de confianza, deben de ser los
que corresponde a la fila de varianzas iguales del test de Levene.
82
2. Prueba para muestras relacionadas (pareadas): compara las medias de dos
variables en un solo grupo. Esta prueba también es para pares relacionados o
diseños de control de casos. El resultado incluye estadísticos descriptivos de las
variables que se van a contrastar, la correlación entre ellas, estadísticos
descriptivos de las diferencias emparejadas, la prueba t y un intervalo de confianza
Paired Differences
95% Confidence
Std. Interval of the
Std. Error Difference Sig.
Mean Deviation Mean Lower Upper t df (2-tailed)
Pair ANTES -
16,1733 33,1336 8,5550 -2,1754 34,5221 1,891 14 ,080
1 DESPUES
Ho: El promedio del primer momento es igual al promedio del segundo momento
Ho: No existen diferencias estadísticamente significativas entre los promedios del
antes y del después
Ha: El promedio del primer momento es diferente al promedio del segundo momento
83
Ha: Existen diferencias estadísticamente significativas entre los promedios del antes y
del después
3. Prueba para una muestra: Compara la media de una variable con un valor
conocido o referente o hipotetizado. Se muestran estadísticos descriptivos de las
variables que se desean contrastar junto con la prueba t. Un intervalo de confianza
del 95% para la diferencia de la media de la variable que se desea contrastar y el
valor de contraste hipotetizado.
Se parte del mismo supuesto de normalidad. Una vez que se corroboro el supuesto de
normalidad para la variable, se selecciona el comando Comparar medias (Compare
means) en el menú Analizar, y allí dar clic en One-Sample T-test. Allí se debe
seleccionar la variable cuantitativa a evaluar y se pasa al lado derecho, en el cuadro
Test Value colocar el valor contra el cual se va a contrastar la variable, el valor
hipotetizado con el cual se va a comparar (este valor lo define el investigador), por
ultimo dar clic en el botón Aceptar.
84
One-Sample Test
Test Value = 65
95% Confidence
Interval of the
Sig. Mean Difference
t df (2-tailed) Difference Lower Upper
Edad en años
-11,510 69 ,000 -9,76 -11,45 -8,07
cumplidos
Para este tipo de análisis se debe partir de los mismos supuestos que se han
venido trabajado, tanto el supuesto de normalidad como el de varianzas iguales.
En caso que los datos de la variable cuantitativa no sigan un comportamiento
normal se debe realizar la prueba no paramétrica de Kruskal Wallis.
85
Ho: No existen diferencias estadísticamente significativas entre las medias de las K
poblaciones o tratamientos
Ha: Por lo menos una de las K medias poblacionales es diferente
Con ello en la ventana de resultados aparecerán algunos datos, pero para efectos
del supuesto de normalidad nos interesa únicamente el test de normalidad.
Para tomar la decisión entonces, procedemos a confrontar el Valor de P con el valor del
nivel de significancia (α), si el primero es menor que el segundo se rechaza Ho, en
caso contrario se Acepta. Ara nuestro ejemplo supongamos que el nivel de
significancia (α) es del 5% (0.05), como P = 0.2 es mayor que α se acepta Ho, o sea
que los ingresos siguen un comportamiento normal. Al ser la variable normal se puede
realizar la prueba de Análisis de varianza de un factor, en caso que la variable no siga
un comportamiento normal se debe proceder a realizar la prueba no paramétrica de
Kruskal Wallis.
Una vez cumplido el supuesto se procede a realizar la prueba para análisis de varianza.
Para ello, seleccionamos Comparar medias (Compare means) del menú Analizar, y allí
dar clic en One-Way Anova (Anova de una vía). En el cuadro que aparece, se debe
86
colocar en Dependent list la variable cuantitativa y en Factor la variable categórica que
hace las veces de poblaciones, en otras palabras la variable a la cual le queremos
determinar si para cada categoría de ella, los promedios de la variable cuantitativa son
diferentes. Para el ejemplo, la variable cuantitativa será el ingreso familiar y la
variable categórica (o las diferentes poblaciones) será deporte que practica, por ultimo
entrar a las pruebas post-hoc y escoger el método para poder determinar cual o cuales
promedios son los diferentes, si llegasen a existir diferencias estadísticamente
significativas entre los promedios, luego continuar y Aceptar.
ANOVA
Dependent Variable
Sum of Squares df Mean Square F Sig.
Between Groups 52753148809,5 2 26376574404,762 3,859 ,027
Within Groups 362264976190 53 6835188230,009
Total 415018125000 55
Acá se puede tomar la decisión contrastando el Valor P con el nivel de significancia (α),
así, como P es menor que el α se rechaza la hipótesis nula, esto es, existen evidencias
estadísticamente significativa para determinar que los promedios del ingreso familiar
es diferente según deporte practicado.
Una vez que se determino la existencia de las diferencias entre las medias, las pruebas
post hoc, pueden determinar las medias que difieren. Las comparaciones múltiples por
parejas contrastan las diferencias entre cada pareja de medias y dan lugar a una
matriz donde los asteriscos indican las medias de grupo significativamente diferentes a
un nivel de α de 0.05.
Para el ejemplo se selecciona la prueba post hoc de scheffe, la cual nos muestra los
siguientes resultados:
87
Multiple Comparisons
Dependent Variable
Test
95% Confidence
Mean Interval
(I) Deporte (J) Deporte Differenc Std. Lower Upper
practicado practicado e (I-J) Error Sig. Bound Bound
Caminar Gimnasia 8880,95 33752 ,966 -76126,22 93888,13
Otro -91119,05* 33752 ,033 -176126 -6111,87
Gimnasia Caminar -8880,95 33752 ,966 -93888,13 76126,22
Otro -100000 44192 ,087 -211301 11300,52
Otro Caminar 91119,05* 33752 ,033 6111,87 176126
Gimnasia 100000,0 44192 ,087 -11300,52 211301
*. The mean difference is significant at the .05 level.
Acá las medidas que tienen asterisco (*), son los grupos en los cuales los promedios
de los ingresos presentan diferencias estadísticamente significativas. Se puede
observar entonces que existen diferencias en los promedios de ingresos entre los que
caminan y los que hacen otro deporte, determinándose además que dicha diferencia es
a favor a las personas que practican otro deporte, pues el intervalo de confianza en
ambos extremos es menor que cero (0).
88
Sin pérdida de generalidad, se asumirá que la variable X tiene 3 categorías y que la
variable Y tiene 2, con el fin de hacer más fácil y asequible la explicación de la técnica.
La estructura de la tabla se expone a continuación:
En la tabla anterior, los valores entre paréntesis representan las frecuencias esperadas,
así:
Para calcular las frecuencias esperadas basta multiplicar los totales de las filas por los
totales de las columnas y luego dividir entre el gran total, esto es,
Eij = Frecuencia total observada en la fila i por Frecuencia total observada en la columna j
Gran total (Suma de todas las frecuencias observadas)
E32 = Frecuencia total observada en la fila 3 (O3.) × Frecuencia total observada en la columna 2(O.2)
Gran total (Suma de todas las frecuencias observadas)(O)
89
Bajo la hipótesis nula, esto es, si no existe relación entre X e Y (independencia), se
esperaría que los valores de las categorías de la variable X se repartirían
homogéneamente en cada una de las categorías de la variable Y. Por lo tanto, si no existe
relación, bajo la hipótesis nula, las frecuencias observadas en la tabla serían similares a
las esperadas bajo la hipótesis nula.
χ2
m n (Oij − Eij )2
( f −1 )( c −1 )
= ∑ ∑ Eij
i =1 j =1
A continuación se determina el valor teórico de la Chi-cuadrado, mediante los valores de
los percentiles de la distribución mencionada, a un α determinado por el investigador y
con los grados de libertad calculados a partir del número de filas y columnas de la tabla
múltiple. Si el valor teórico χα ,v es menor que el valor del estadístico Chi-cuadrado
2
calculado, se puede rechazar la hipótesis nula. Los programas estadísticos calculan antes
que el valor teórico el valor de p el cual se compara con el nivel de significación
establecido antes de hacer la recolección de la información. En caso de que el valor de p
sea menor que el nivel de significación α , se rechazará la hipótesis nula de
independencia.
Cuando las dos variables son de naturaleza cualitativa y bicategóricas, se tiene una tabla
de contingencia que consta de dos filas y dos columnas. Dicha tabla suele conocerse
como tabla de 2 por 2. La estructura de una tabla de contingencia se expone a
continuación:
Enfermedad
Tabla de contingencia Si No Total
Si a b a+b
Exposición No c d c+d
Total a+c b+d a+b+c+d
Al aplicar la regla (Número de filas -1)(Número de columnas -1) para encontrar los
grados de libertad, el resultado es un grado de libertad. En ésta situación deben hacerse
algunas consideraciones para la elección del estadístico de prueba, fundamental para
tomar la decisión3:
3
Se advierte que la expresión del cálculo del estadístico de prueba en una tabla de contingencia (las dos
variables bicategóricas) se conoce como fórmula abreviada. No obstante, también se podría utilizar la
fórmula general planteada para el cálculo del estadístico de prueba en la tabla de contingencia múltiple y los
resultados serían consistentes.
90
Estadístico de prueba no corregido: Usual cuando las frecuencias observadas en cada
celda son “grandes”. Usual cuando todas las frecuencias esperadas son mayores de cinco.
n(ad − bc )2
χ2 =
NO CORREGIDO (a + b )(a + c )(b + d )(c + d )
n(ad − bc − 0.5n )2
χ2 =
YATES (a + b )(a + c )(b + d )(c + d )
χ2 =
(n − 1)(ad − bc )2
M − H (a + b )(a + c )(b + d )(c + d )
Cuando se obtienen una o varias frecuencias esperadas menores que cinco, debe
utilizarse la Prueba Exacta de Fisher, de la cual se hablará más adelante, después de
exponer algunas aplicaciones de ésta en la investigación de tipo epidemiológica.
91
Tabla de contingencia Enfermedad Total
+ -
Exposición + a b a+b
- c d c+d
Total a+c b+d a+b+c+d
Si la hipótesis nula es verdadera, esto es, H0: OR=1, se puede demostrar que si se
condiciona la selección de a+c casos y b+d controles con a+b total de expuestos, la
probabilidad de observar a casos expuestos y b controles expuestos sigue una
distribución hipergeométrica esto es:
a + c b + d
a b (a + b )! (a + c )! (c + d )! (b + d )!
p= =
n n! a! b! c! d !
a + b
esto es, la probabilidad exacta de la frecuencia observada, se encuentra dividiendo el
producto de los factoriales de los cuatro totales marginales por el factorial de n
(a+b+c+d).
92
4. Una vez que se hallan dado estas opciones, se pulsa continuar y Aceptar, el SPSS
mostrará el la ventana de resultados lo siguiente:
Estadísticos
Enfermedad Coronaria
Si No Total
Sedentarismo Si 15 15 30
No 4 36 40
Total 19 51 70
93
Pruebas de chi-cuadrado
Estimación de riesgo
Intervalo de confianza
al 95%
Valor Inferior Superior
Razón de las ventajas
para Sedentarismo (Si 9.000 2.561 31.624
/ No)
Para la cohorte
Enfermedad Coronaria 5.000 1.846 13.540
= Si
Para la cohorte
Enfermedad Coronaria .556 .383 .806
= No
N de casos válidos 70
94
MUESTREO BASICO
El objetivo del muestreo es contar con el mayor número de unidades, con la mayor
cantidad de información, pero con el menor costo posible; además este tiene por
objeto seleccionar una parte representativa de la población con el fin de obtener
estimadores de los parámetros. Para lograrlo existen varios métodos y en cada uno de
ellos se puede establecer:
• CONCEPTOS BÁSICOS:
• En la muestra se habla de las unidades muestrales que son los elementos que
permiten cuantificar la unidad de observación, y en general son elementos que
constituyen la muestra, ejm: familias, viviendas; y las unidades de observación
(unidades de análisis) son aquellas a las que se les aplica el instrumento de
medición (formularios)
95
• Marco de Muestreo: Lista, mapa , directorio detallado de todos los elementos
que forman la población, en los cuales se encuentran claramente especificados las
unidades correspondientes. Así, el marco es aquella parte de la población que
puede ser muestreada, no es necesariamente igual a la población original. Como el
marco representa a toda la población, deberá ser tan cercano a esta como sea
posible.
• MUESTRA
96
definiendo las características de la población, el tamaño de la muestra y a través de
una selección aleatoria y/o mecánica de las unidades de análisis.
Las muestras probabilísticas tienen muchas ventajas, quizás la principal es que puede
medirse el tamaño de error en nuestras predicciones. Puede decirse incluso que el
principal objetivo en el diseño de una muestra probabilística es el de reducir este error
al que se llama error estándar. Las muestras probabilísticas son esenciales en los
diseños de investigación por encuestas donde se pretende generalizar los resultados a
una población. La característica de este tipo de muestra, es que todos los elementos
de la población tienen al inicio la misma probabilidad de ser elegidos, de esa manera
los elementos muestrales tendrán valores muy aproximados a los valores de la
población, ya que las mediciones del subconjunto, serán estimaciones muy precisas del
conjunto mayor. Esta precisión depende del error de muestreo o estándar.
• Ventajas de la muestra
• Desventajas de la muestra
97
• Razones para muestrear
Por lo económico
Por el tiempo
Porque la población es infinita
Por la naturaleza misma de la variable
Z 2α / 2 * σ 2
n=
l2
∗ Si la investigación apunta a estimar una proporción el tamaño de la muestra será:
Z 2α / 2 * ( P * Q)
n= ⇒ Q=1-P
l2
Z 2α / 2 * σ 2
n=
Z 2α / 2 * σ 2
l2 +
N
98
∗ Si se apunta a estimar una proporción será:
Z 2α / 2 * ( P * Q)
n=
Z 2α / 2 * ( P * Q)
l2 +
N
99
funciones RAND# (Random Generation) de calculadoras, o en un computador mediante
una hoja de cálculo.
Muestreo sistemático:
N 1500
K= ; Reemplazando se tiene: K= = 8.52 ≈ 9
n 176
Muestreo estratificado:
100
Cuando la población es demasiado heterogénea con respecto a las características que
se desean estudiar, esto podía conducir a una gran variabilidad. Con el objeto de
mejorar las estimaciones y disminuir el error que pudiera presentarse, se organizan
los denominados estratos, donde los componentes (unidades) de cada estrato son
homogéneos entre si, y entre estrato y estrato existe heterogeneidad.
Este método es más eficiente que el muestreo aleatorio simple, pese al grado de
heterogeneidad y dispersión que puede presentar la característica, con la ventaja de
que al formar grupos más o menos homogéneos, las muestras resultantes son más
pequeñas y representativas.
Es necesario entender que un estrato es una subpoblación y, como tal, cada uno se
constituye como un dominio de estudio.
1. Asignación igual: Este método implica que los tamaños muestrales en cada
estrato sean iguales. n1 = n2 = n3 etc. Después de determinar el tamaño de la
muestra, se debe elaborar la estratificación de la población a analizar.
Identificando primeramente la característica que se tendrá en cuenta para
conformar los grupos o estratos. Para lograr esta estraificación se procede a
dividir la muestra por la cantidad de estratos que se tenga.
101
En el siguiente cuadro se observa el procedimiento para hallar el tamaño de la
muestra de los estratos por este método.
N → 100 n *100
= = X, esto se multiplica por la muestra
N
n → X de ese estrato, o sea, n * X, y así para cada estrato;
asumiéndose n como la muestra de cada estrato.
102
a) En el caso de que tan solo se consideren como factores para el calculo de n, el
costo total de la investigación (C), el costo fijo (Co) y el costo unitario por estrato
(Ch), se debe aplicar la siguiente fórmula:
C − CO
n=
Ch
(C − CO ) ∑ N h S h
Ch
n=
∑ N h S h Ch
Esto nos obliga a sustituir las unidades físicas o elementales, por grupos de unidades,
que llamaremos conglomerados; generalmente son superficies o áreas en las que se ha
dividido el espacio ocupado por la población. Supongamos que se desean realizar
estudios a familias en una ciudad. Cada unidad o familia se constituye en un
conglomerado, por tal razón se aplica el muestreo aleatorio monoetápico, es decir, se
realiza la investigación en una sola etapa.
103
Los conglomerados son unidades que contienen unidades o elementos, es de anotar,
que en la aplicación del muestreo por etapas la unidad cambia en cada una de ellas,
por lo tanto se requiere de varios marcos o listados, ya que se tienen varias
poblaciones.
Muestreo Doble
104
6. ESTADÍSTICA NO PARAMETRICA
105
por textura, coloración, sabor, olor (magnitudes organolépticas), clasificar por infección
con cierto tipo de virus, y otros casos donde no se cumpla el supuesto de
homogeneidad de varianzas; acá el modelo de rangos puede ser la salida. Cuando se
comparan dos muestras, los modelos paramétricos hacen hincapié en la comparación
de las medias, mientras que los no paramétricos fijan su atención en comparar
medianas.
La primera racha empieza con una serie de 2 símbolos positivos, la segunda racha con
3 negativos, la tercera con un positivo, y así sucesivamente hasta la séptima racha con
un positivo. El número de rachas es r = 7. El número total de rachas indica si una
muestra es o no aleatoria. Si se da un número pequeño de rachas puede deberse a
una falta de independencia o a una tendencia temporal. Mientras que si por el
contrario hay un número muy grande de rachas, las fluctuaciones cíclicas sistemáticas,
en un período corto de tiempo, pueden causar influencia en los valores asignados por
el investigador. Por ejemplo, si se lanza al aire una moneda 30 veces y se obtienen 30
rachas es razonable dudar de esa moneda, son demasiadas. Lo mismo ocurriría si se
obtienen únicamente dos rachas, como primero todas caras y luego sellos.
106
Para ilustrar mejor estas ideas, se presentan dos problemas resueltos, uno para
muestras pequeñas y el otro para las grandes.
Se usa un test dos colas porque no se predice la dirección de la desviación que supone.
El tamaño de cada muestra es 12. Usando ambas tablas del apéndice se determina la
zona de rechazo de la hipótesis nula cuando r es menor o igual a 7 o cuando r es
mayor o igual a 19; con esto se define:
Zona de aceptación: 7 < r < 19 y como r = 10 cae dentro de esta zona y no se
rechaza (Ho). Se concluye que se deben suponer aleatorias a las muestras tomadas.
Caso 2 - Muestras Grandes: en un hospital se forma todas las mañanas temprano, una
cola de pacientes esperando su turno para la extracción de sangre. La bioquímica a
cargo decide verificar si la colocación de hombres y mujeres es al azar. Anota el sexo
de cada uno de los primeros 50 pacientes que entraron al laboratorio. Los resultados
fueron:
Sucesos : HH M H M HHH MM H MM H M HH MMM HH MM HH
Rachas : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Sucesos : MM H M H M H MM H M HH M HH M H M H M H MM
Rachas : 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Se rechaza la hipótesis de que los sexos guardan un orden aleatorio al formar la fila.
Se encontró evidencia significativa para rechazarla. Si se calcula la probabilidad
gaussiana para Z = 2,29 resulta p = 0,011; esto es, más cerca del rechazo al 99% que
al 95% de nivel de confianza.
107
La prueba de rangos de Wilcoxon
En la prueba del Signo se utiliza la información acerca de la dirección de las diferencias
encontradas en la pareja de muestras. Pero no se considera la magnitud relativa de
tales diferencias. En cambio, en el modelo de Wilcoxon se toma en cuenta ambas cosas
y por eso es más poderoso que el del Signo. Acá se le da un peso a cada signo,
relativo a la magnitud de la diferencia encontrada. Se la denomina también: Prueba de
rangos señalados y pares encontrados. El investigador debe hacer dos cosas básicas al
examinar una pareja de datos:
1) determinar en la pareja cual es el "mayor" de ambos;
2) ordenar por rango las diferencias halladas.
Entonces puede usar este test para validar la hipótesis nula de que no hay diferencias
entre los pares debido al tratamiento aplicado. En casos donde la valoración se hace en
forma subjetiva, usando puntajes, también se puede aplicar el modelo de Wilcoxon
(Psicología, Sociología, etc.).
La hipótesis nula es que los tratamientos aplicados son equivalentes. Esto es, la suma
de los rangos positivos y negativos son aproximadamente iguales. Habrá diferencias de
ambos signos pero con valoraciones que se equiparan. En cambio, si las sumas de
rangos son muy diferentes, se puede deducir que el efecto del factor analizado no es
despreciable ni producto del azar.
En este modelo puede haber dos tipos de situaciones. La primera ocurre cuando no se
aprecia diferencia entre la pareja analizada ( Di = 0 ) y se deja de lado en los cálculos,
al igual que en el caso del modelo anterior. La segunda ocurre cuando se produce un
empate en el valor de las diferencias ( Di = Dj = …= Dk ). O sea, la diferencia de
rangos no es nula sino que tiene el mismo módulo que otra diferencia. Es posible hallar
108
1, 2, 3, …, k empates.
Este mismo problema se puede resolver con el modelo del signo. Para ello, se calcula
un valor de x = 2 y de la tabla respectiva se obtiene una posibilidad asociada Bx = 2p
= 2 (0,145) = 0,029 para una prueba de dos colas. Acá no se puede rechazar la
hipótesis nula (Ho) x = 2 para un valor de á = 0,05. A primera vista se tienen
entonces dos resultados diferentes usando estos dos modelos.
Es importante destacar que no son contradictorios entre sí. El modelo del Signo tiene
menor sensibilidad y no puede detectar diferencia alguna entre ambos métodos
clínicos. No puede discriminar la pequeña diferencia que implica cambiar el
espectrofotómetro en la técnica realizada. En cambio, el modelo de Wilcoxon, más
sensible, ya detecta diferencias entre ambos. Si bien en el límite, pero suficiente para
tener una prueba científica. Esto no es extraño pues este modelo, además de emplear
la información del signo, agrega más información con los rangos. Es una especie de
moderación o prorrateo de los signos: no todos pesan igual a la hora de contarlos.
109
Modelo U de Mann-Whitney
Este modelo U sirve para testear si dos muestras independientes han sido tomadas de
la misma población. Se tiene, por lo menos, una magnitud ordinal de la misma. Este es
el modelo no-paramétrico más poderoso para comparar dos muestras cuando no son
apareadas. Es para el caso donde se tiene dudas acerca de la verificación de los
supuestos que piden el modelo Student, o cuando las medidas son ordinales. La
hipótesis de trabajo (Ho), siempre es que ambas muestras provienen de la misma
población.
Hay dos tipos de tablas para el modelo U. Para muestras pequeñas (ninguna de las
muestras es mayor que 9), y arroja el valor de la probabilidad del estadígrafo
U calculado en el Paso 4. Para tamaño mediano de las muestras (entre 9 y 20 cada
una), y da un valor crítico Uá que se debe comparar con el obtenido
experimentalmente. Para n > 20 se usa la aproximación con la función de Gauss.
110
BIBLIOGRAFÍA
Díaz cadavid. Abel. Gutiérrez Arias, Armando. Estadística general. Medellín, Alas
libres, 1995.
111