You are on page 1of 111

FUNDAMENTOS DEL ANÁLISIS ESTADÍSTICO DE DATOS CON LA AYUDA DEL

SPSS1 (Statistical Package for the Social Sciences)

UNIVERSIDAD DE ANTIOQUIA
ESCUELA DE NUTRICIÓN Y DIETÉTICA
MEDELLÍN, 2002

1
Diseñado por Alejandro Estrada Restrepo

1
INTRODUCCIÓN

La estadística generalmente es considerada como la rama de las matemáticas que se


ocupa de reunir, organizar y analizar datos numéricos y así mismo que ayuda a
resolver problemas como el diseño de experimentos y la toma de decisiones. Pero en
realidad, lo que se busca, no es simplemente cubrir un tema, sino hacer que a
nuestros conocimientos se arraiguen las definiciones básicas de lo que es la
estadística y que no simplemente quede allí, en la teoría, sino que aprendamos a
aprovecharlo en nuestra vida cotidiana.

Para tal fin tendremos entre otros el apoyo del SPSS. Este es un software que se
utiliza para cálculos estadísticos, aunque incluye un sin número de utilidades.
Actualmente, la estadística ha adquirido, de manera progresiva, una mayor relevancia
en todos los sectores universitarios y, en general, en la sociedad. Es por ello, por lo
que se pretende adquirir los conocimientos necesarios para comprender diversas
técnicas estadísticas y el uso de este paquete estadístico.

2
1. GENERALIDADES SPSS 102

SPSS es un potente sistema de análisis estadístico y gestión de datos. Ofrece un rápido


entorno de modelización visual que abarca desde lo más simple hasta lo más complejo
para crear modelos de manera interactiva y realizar cambios utilizando técnicas
analíticas probadas y acreditadas.

La interfaz del entorno de ventanas proporciona una relación con el sistema rápida y
cómoda, pero internamente funciona mediante comandos.

Para ejecutar SPSS se accederá al botón Inicio y desde allí a Programas / SPSS for
Windows / SPSS 10.0 para Windows. Aparece la presentación del programa con el
Editor de datos al fondo: A continuación nos preguntará cómo queremos comenzar:
ejecutando el tutorial, introduciendo datos nuevos, abriendo datos de disco, etc. Una
vez hecho esto, nos dejará con el Editor de datos. Se pueden abrir varias sesiones de
SPSS independientes para poder trabajar con diferentes ficheros de datos.

Existen dos formas de obtener datos en SPSS. La primera es la introducción directa de


los datos en las casillas que nos muestra el Editor de datos. Las columnas nos indican
las variables que tenemos, y las filas los casos de las variables. Al introducir un dato
en una casilla, se activa la variable de la columna donde nos encontremos y se define
automáticamente según el tipo de dato que hayamos introducido. Si queremos definir
las variables nosotros mismos, debemos seleccionar la Vista de variables donde
podremos especificar su nombre, tipo, tamaño y otros atributos.

2 Diseñado por Alejandro Estrada Restrepo

3
La segunda forma de obtener datos es extrayéndolos de un archivo de disco. Éste
puede ser de formato SPSS (*.sav); de formato Excel, Lotus, texto, etc.; o de formato
de base de datos como Access, dBase, FoxPro, etc. Si los datos son nuevos o los
hemos modificado es conveniente almacenarlos en disco a través del menú Archivo.
Una vez tenemos los datos en el Editor de datos, debemos elegir un procedimiento en
el menú Analizar para poder obtener resultados. El sistema nos permite realizar
informes, estadísticos descriptivos, tablas, correlaciones, análisis de regresión, etc.
Asimismo si deseamos un gráfico descriptivo de los datos, elegiremos uno de los
existentes en el menú Gráficos. Éste puede ser normal o interactivo, en cuyo caso
podremos modificar posteriormente las variables usadas y los parámetros del mismo.

Ahora se nos solicita la selección de las variables que queremos usar en el


procedimiento de análisis o en el gráfico. El cuadro de selección de variables es similar
en todos los procedimientos: nos muestra una lista de todas las variables y una o
varias casillas de destino donde debemos introducirlas para que el sistema pueda
calcular los estadísticos o valores que precise para la presentación de resultados.

El último paso es el examen de resultados en una nueva ventana llamada Visor. Esta
ventana nos muestra dos paneles. El de la izquierda es el conjunto de los titulares de
los elementos gráficos situados en el panel de la derecha. Su apariencia y
funcionamiento es similar al del explorador de Windows. El de la derecha muestra los
elementos gráficos, que pueden ser textos, tablas o gráficos.

Los resultados o elementos gráficos que vayamos generando no se sustituyen, sino


que se van acumulando en el visor donde les podremos dar formato para su posterior
impresión, así como para su almacenamiento en disco. En el caso de los gráficos
interactivos podremos modificarlos directamente, sin necesidad de volver a generarlos
de nuevo.

En terminos generales en una sesión tipica con SPSS se puede trabajar con tres tipos
de ventanas y tener la posibilidad de guardar los contenidas de cada una. El editor de
datos, la cual es la primera ventana que usted encuentra, usada para definir y entrar
sus datos y para ejecutar los procedimientos estadísticos. Los resultados de los
procedimientos estadísticos aparecen en la ventana de resultados. La ventana de
sintaxis puede ser usada para tener un registro de las operaciones que usted ejecuta
con sus datos, esta ventana se abre automáticamente cuando usted da clic en el botón
pegar. Así, por ejemplo cuando usted selecciona ciertos casos para el análisis o
transforma sus datos o calcula una correlación, dando clic en el botón pegar, esta
almacenara un registro de lo que fue ejecutado (en lenguaje de comandos). Mas allá
de servir como un registro para sus operaciones, es posible correr comandos desde la
ventana sintaxis.

Se puede guardar cualquiera de las ventanas. Una vez que tenga la ventana deseada
activa, de clic en Save del menú File. SPSS automáticamente adiciona la extensión al
nombre del archivo (.SAV para archivos del editor de datos; .SPO para archivos de
resultados y .SPS para archivos de sintaxis)

Por otro lado, la interfaz de SPSS incorpora una o varias barras de herramientas según
la ventana en la que nos encontremos. Estas barras contienen las funciones más
usadas en el trabajo usual para facilitar el acceso a ellas.

4
Si detenemos el puntero del ratón unos segundos sobre una de las herramientas (o
botones) nos presentará un pequeño cuadro con una breve descripción de la utilidad
del mismo: Las barras, además, son personalizables, pudiendo añadir o eliminar los
botones que queramos así como moverlos; incluso permite cambiar de sitio la barra o
borrarla completamente. A continuación se realiza una breve descripción de la barra
de herramientas de la ventana de datos del SPSS.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Figura 2
1. El primer icono es: Abrir archivo, muestra la ventana Open File. Según el tipo de
ventana que esté activa, se puede utilizar este icono para abrir un archivo de datos, de
resultados, de sintaxis o uno de gráficas.
2. Guardar archivo: Guarda el archivo de la ventana que está activa. Puede guardar el
documento completo o las líneas de texto seleccionadas.
3. Imprimir archivo: Muestra la ventana de Imprimir para el tipo de documento que
esté en la ventana activa. En el caso de archivos de resultados, sintaxis y datos, puede
imprimir el documento completo o un área seleccionada.
4. Recuperar ventana. Muestra una lista de las últimas ventanas abiertas (aunque no
se hayan abierto en la misma sesión).
5. Deshacer escritura: Como el nombre lo dice deshace los datos incorporados y todo
lo que respete a lo anterior.
6. Recorrer gráficas. Este icono se utiliza para activar la ventana de gráficos.
7. Ir a caso. Este icono se utiliza para desplazarse a un caso en el Editor de datos.
8. Información de variables. Muestra una ventana que contiene la lista de variables y
la información de la variable seleccionada. Este icono también se utiliza para posicionar
el cursor en dicha variable.
9. Busca: Busca lo deseado en la variable que usted halla seleccionado.
10. Insertar caso. En el Editor de datos, al pinchar en este icono se inserta un caso por
encima del caso que contenga la celda activa. Tiene el mismo efecto que la selección
de Insertar caso del menú Datos.
11. Insertar variable. En el Editor de datos, al pinchar en este icono se inserta una
variable a la izquierda de la variable que contenga la celda activa. Tiene el mismo
efecto que la selección de Insertar variable del menú Datos.
15. Etiquetas de valores. Conmuta entre los valores actuales y las etiquetas de valores
en el Editor de datos. Tiene el mismo efecto que la selección de Etiquetas de valores
del menú Útil
16. Usar conjuntos. Aquí se puede seleccionar los conjuntos de variables que van a
aparecer en las ventanas que se utilizan para realizar los análisis estadísticos o
transformaciones. Los conjuntos de variables que aparecen aquí son los que se crean
seleccionando la opción Definir conjuntos del menú Util. Tiene el mismo efecto que la
selección de Usar conjuntos del menú Útil.

Obtención de datos

La matriz que nos presenta el Editor de datos contiene todos las observaciones de las
variables que necesitamos para poder realizar el análisis estadístico. Cada columna
representa una variable única y cada fila un caso individual de cada variable. Para
introducir datos basta con pinchar sobre una casilla y teclear el dato. Si donde
tecleamos el dato la variable no está definida, SPSS asigna automáticamente un

5
nombre de variable a la columna y la define con sus parámetros por defecto.

Para la definición de variables se debe pulsar la pestaña Vista de variables


accederemos a una matriz similar a la de datos, pero en este caso contiene las
variables definidas. Cada fila representa una variable y cada columna un parámetro o
especificación de esa variable. Éstos se asignan por defecto, pero podemos
modificarlos a nuestra conveniencia. La lista de parámetros es:

Nombre:
Debemos introducir el nombre de la variable, de 8 caracteres como máximo, que
pueden ser letras, números o el símbolo de subrayado ( _ ). El primer carácter
únicamente puede ser una letra, y no se hacen distinciones entre mayúsculas y
minúsculas.

Tipo:
A través del botón que aparece al lado del tipo se accede a un panel donde seleccionar
el tipo de variable: numérica, coma, fecha, moneda, cadena, etc., su anchura y los
decimales (que también se pueden seleccionar mediante las columnas siguientes).
Además, dentro del tipo cadena debemos distinguir entre la corta

Anchura : Número de caracteres o dígitos de la variable.

Decimales:
Número de decimales si la variable es de tipo contable (numérico, moneda, etc.).

Etiqueta:
Dada la imposibilidad de dar un nombre de variable mayor de 8 caracteres, se usan
etiquetas para describir la variable de una forma más clara. Aunque internamente se
trabaje con los nombres de las variables, en la presentación de resultados podremos
utilizar las etiquetas.

Valores:
Permite asignar etiquetas a determinados valores de las variables. Por ejemplo, una
variable numérica puede contener valores de los datos que sean: 0 si es mujer y 1 si
es hombre, entonces asignamos a los valores 0 y
1 las etiquetas de valor mujer y hombre respectivamente. De esta forma cuando
trabajemos con ellos, nos aparecerá mujer y hombre en lugar de 0 y 1.

6
Perdidos:
Nos permite definir los valores que se tratarán como perdidos. Hemos de distinguir
entre los valores declarados por el sistema (ausencia de dato) y los valores declarados
como perdidos por nosotros mismos. Columnas ¾ Es la anchura de la columna en la
Vista de datos.

Alineación : Posición del dato en la casilla en la Vista de datos.

Medida: Permite especificar el nivel de medida como escala (datos numéricos de una
escala de intervalo o de razón), ordinal (representan categorías ordenadas) o nominal
(representan categorías sin orden alguno). Esta especificación sólo se usa en
procedimientos gráficos. En general, es importante saber distinguir entre variable
categórica y variable de escala. Una variable categórica es aquella que tiene un
número limitado de valores o categorías distintas. Todas las variables de cadena y las
variables numéricas con etiquetas de valor definidas, o las variables numéricas
definidas como nominales u ordinales, se tratan como categóricas. El resto se tratarán
como de escala.

Introducción de datos

Cuando hayamos acabado de definir las variables pasaremos a la ventana de datos,


haciendo clic sobre la pestaña inferior Vista de datos. El aspecto de esta ventana es el
de una matriz de datos, es decir, una matriz de doble entrada donde las filas
representan casos o individuos y las columnas variables. En nuestra ventana de datos
figurarán las columnas correspondientes a las variables definidas.

Los datos pueden introducirse en la ventana de datos, bien caso a caso (por filas) o
bien variable a variable (por columnas). Si se introducen casos, será necesario pulsar
el tabulador tras escribir cada dato; si se introducen variables, pulsaremos la tecla de
retorno <Enter> después de cada dato. Al término del proceso de introducción de

7
datos, la ventana de datos mostrará un aspecto similar al que se muestra en la
pantalla siguiente.

Si nuestra sesión de trabajo finalizara aquí, deberíamos


salvar la definición de variables y los datos introducidos
para continuar en otro momento. Incluso aunque
vayamos a seguir trabajando, puede ser conveniente
salvar lo hecho hasta ahora en un fichero, de tal modo
que podamos recuperarlo cuando sea preciso. Para
realizar esta operación, basta elegir en la barra de
menú la opción Archivo y posteriormente Guardar o
bien Guardar como... En ambos casos se nos pedirá un
nombre de fichero. Aunque no es imprescindible,
conviene mantener para estos archivos la extensión
.SAV que por defecto nos propone el programa.

En una nueva sesión de trabajo, para recuperar el


fichero de datos y variables será necesario partir de la
barra de menú y seguir la secuencia de opciones
Archivo, Abrir y Datos... Con ello accederíamos a una ventana de diálogo, análoga a
las que suelen mostrarse en los programas diseñados para Windows, donde podremos
seleccionar la unidad, la carpeta y el fichero que nos interesa abrir, que será aquel en
el que quedaron almacenados los datos y la correspondiente definición de variables.

8
para efectos prácticos y sin desconocer la utilidad que prestan los demás menús del
SPSS, se procederá a explicar el menú Analizar, puesto que este resulta ser la columna
vertebral del análisis de datos mediante esta herramienta. En este menú encontramos
entonces:

Dentro del menú Analizar encontramos todos los procedimientos de análisis estadístico
(exceptuando los gráficos) de SPSS.

Informes
Cubos OLAP ® (Procedimiento analítico interactivo).
Crea una tabla con varias capas que contienen totales,
medias y otros estadísticos univariados para variables
de resumen continuas según una o más variables
categóricas de agrupación. En la tabla se creará una
nueva capa para cada categoría de cada variable de
agrupación.
Resúmenes de casos ® Calcula estadísticos de
subgrupo para las variables dentro de las categorías de
una o más variables de agrupación. Se cruzan todos los
niveles de las variables de agrupación. Permite elegir el
orden en el que se mostrarán los estadísticos. También
se muestran estadísticos de resumen para cada variable
a través de todas las categorías. Los valores de los
datos en cada categoría pueden mostrarse en una lista o suprimirse. Con grandes
conjuntos de datos se pueden listar sólo los primeros n casos.
Informe de estadísticos en filas ® Genera informes en los cuales se presentan
distintos estadísticos de resumen en filas. También se encuentran disponibles listados
de los casos, con o sin estadísticos de resumen.

Estadísticos descriptivos
Frecuencias ® Proporciona estadísticos y representaciones gráficas útiles para
describir o inspeccionar muchos tipos de variables. Los valores pueden organizarse en
orden ascendente o descendente, y se pueden ordenar las categorías por sus
frecuencias. Se puede suprimir el informe de frecuencias cuando una variable posee
muchos valores diferentes, y permite etiquetar los gráficos con las frecuencias o con
los porcentajes.
Descriptivos ® Muestra estadísticos de resumen para varias variables en una única
tabla y calcula valores tipificados (puntuaciones z). Las variables se pueden ordenar
por el tamaño de sus medias (en orden ascendente o descendente), alfabéticamente o
por el orden en el que se seleccionen (por defecto). Se pueden guardar las
puntuaciones z, añadiéndose al Editor de datos, para su posterior utilización. Cuando
las variables se registran en unidades de medida diferentes (que no tengan nada que
ver), una transformación de puntuación z pondrá las variables en una escala común
para una comparación visual más fácil.
Explorar ® Genera estadísticos de resumen y representaciones gráficas, bien para
todos los casos o bien de forma separada para grupos de casos. Este procedimiento se
puede usar para inspeccionar los datos, identificar valores atípicos o extremos,
descubrir discontinuidades, obtener descripciones, comprobar supuestos y caracterizar
diferencias entre subpoblaciones (grupos de casos), etc. La exploración de los datos
puede ayudar a determinar si son adecuadas las técnicas de análisis que se están
empleando.

9
Tablas de contingencia ® Crea tablas de clasificación doble y múltiple, y además
proporciona una serie de pruebas y medidas de asociación para las tablas de doble
clasificación. La estructura de la tabla y el hecho de que las categorías estén
ordenadas o no determinan las pruebas o medidas que se utilizan. Los estadísticos de
tablas de contingencia y las medidas de asociación sólo se calculan para las tablas de
doble clasificación. Si especifica una fila, una columna y un factor de capa (variable de
control), se creará un panel de medidas y estadísticos asociados para cada valor del
factor de capa (o una combinación de valores para dos o más variables de control).
Tablas personalizadas
Tablas básicas ® Genera tablas que muestran estadísticos de clasificación cruzada y
de subgrupo. Las variables de resumen seleccionadas se resumen en las casillas
definidas por las variables de subgrupo. Para todas las variables resumidas se emplean
los mismos estadísticos (la media por defecto). Si no existen variables de resumen, se
muestran los recuentos. Los nombres de las variables de resumen se muestran a lo
largo de la parte izquierda de la tabla. Se pueden definir casillas para mostrar
subgrupos de casos empleando las combinaciones:
Hacia abajo de la página (como filas distintas).
A través de la página (como columnas distintas). La combinación de Hacia abajo y A
través genera una presentación en forma de tabla de contingencia.
Repartidas en Tablas distintas. Las variables de esta lista subdividen la tabla en
capas o en grupos de capas, de manera que sólo puede verse una capa de la tabla
cada vez.. Una vez en el Visor, para ver las otras capas se deben pivotar. Anidar
significa que se muestran las categorías de una variable bajo cada una de las
categorías de la variable anterior. La apilación muestra las categorías de cada variable
como un bloque; se puede entender como la extracción de tablas diferentes y su unión
en la misma presentación.
Tablas generales ® Genera tablas con estadísticos de clasificación cruzada y de
subgrupo. Se pueden generar tablas que muestren diferentes estadísticos para
distintas variables, variables de respuestas múltiples, anidación y apilación mixta o
totales complejos. En la mayoría de las circunstancias es necesario seleccionar una
variable de fila.
También se puede seleccionar una o más variables para definir columnas o capas. Por
ejemplo, para generar una tabla de contingencia simple debemos seleccionar una
variable para definir las filas y otra para definir las columnas. Si tiene una variable de
capa, también es necesario tener una variable de fila y una de columna.. Cada variable
seleccionada se debe especificar si es de agrupación para definir casillas o si es una
variable de resumen. También se pueden especificar diferentes estadísticos para cada
variable. Si seleccionamos más de una variable para una dimensión dada, deberemos
especificar si deben estar apiladas o anidadas en la dimensión.. La mayoría de las
tablas que muestran los mismos estadísticos de resumen para cada variable se pueden
obtener más fácilmente utilizando el procedimiento Tablas básicas o de respuestas
múltiples. Se pueden mostrar los estadísticos (Las etiquetas de los estadísticos
aparecen) en la parte superior (columnas), en el lateral (filas) o en capas separadas.
Para cada variable seleccionada, se puede especificar si es de agrupación o de
resumen. Los estadísticos asociados a una variable que define casillas son los
recuentos y porcentajes. La primera variable de resumen que se especifique definirá la
dimensión de resumen. Las palabras Dimensión resumen aparecerán sobre la lista de
variables para esa dimensión, por lo que no se podrán resumir variables en otra
dimensión.. Los estadísticos seleccionados en la edición de estadísticos se aplican sólo
a la variable seleccionada. La primera vez que se editen los estadísticos de una
variable, se definirá la dimensión de los estadísticos. Insertar total inserta una variable

10
de total después de la variable seleccionada. No se puede obtener un total de otro total
o de una variable que tiene un total anidado debajo de ella. Respuestas múltiples
muestra una lista de los conjuntos de respuestas múltiples definidos y permite definir
otros.
Tablas de respuestas múltiples ® Crea tablas de frecuencia y de contingencia
básicas en las que una o más variables es un conjunto de respuestas múltiples (si no,
sería conveniente utilizar Tablas básicas).. Si no seleccionamos la opción Anidar para
una dimensión, se producirán tablas separadas para cada variable pero conectadas
físicamente (concatenadas). Las restantes opciones son similares a las descritas
anteriormente.
Tablas de frecuencias ® Genera tablas especiales que contienen varias variables con
los mismos valores. Por defecto, las variables forman columnas y las categorías filas
(todas las variables de Frecuencias para deben tener las mismas categorías). Cada
casilla muestra el número de casos en esa categoría. Permite variables de subgrupo.
Mediante Subgrupos se puede dividir la tabla en columnas dentro de cada tabla o en
tablas diferentes (capas). Al dividirla se mostrarán todas las variables para cada
subgrupo. Si hay diversas variables en una de las listas de la sección Subgrupos, se
puede elegir entre anidarlas o apilarlas (se crean las tablas por separado pero se unen
en la presentación).
Comparar medias
Medias ® Calcula medias de subgrupo y estadísticos univariados relacionados para
variables dependientes dentro de las categorías de una o más variables
independientes. Pueden obtenerse el análisis de varianza de un factor, la eta y pruebas
de linealidad.
Prueba T para una muestra ® Contrasta si la media de una sola variable difiere de
una constante especificada.
Prueba T para muestras independientes ® Compara las medias de dos grupos de
casos. Los sujetos deben asignarse aleatoriamente a dos grupos, de forma que
cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento)
y no a otros factores. Cuando esto no es posible (por ejemplo comparando una
variable entre hombres y mujeres ya que el sexo de una persona no se asigna
aleatoriamente), debemos asegurarnos de que las diferencias en otros factores no
enmascaren o resalten una diferencia significativa entre las medias (por ejemplo los
estudios respecto al sexo).
Prueba T para muestras relacionadas ® Compara las medias de dos variables de
un solo grupo. Calcula las diferencias entre los valores de las dos variables de cada
caso y contrasta si la media difiere de 0.
ANOVA de un factor ® Genera un análisis de varianza de un factor para una variable
dependiente cuantitativa respecto a una única variable de factor (la variable
independiente). El análisis de varianza se utiliza para contrastar la hipótesis de que
varias medias son iguales. Esta técnica es una extensión de la prueba t para dos
muestras. Además de determinar que existen diferencias entre las medias, es posible
que se desee saber qué medias difieren. Existen dos tipos de contrastes para comparar
medias: los contrastes a priori y las pruebas post hoc. Los contrastes a priori se
plantean antes de ejecutar el experimento y las pruebas post hoc se realizan después
de haber llevado a cabo el experimento. También se pueden contrastar las tendencias
existentes a través de las categorías.

11
Modelo lineal general
Univariante ® Proporciona un análisis de regresión y un análisis de varianza para una
variable dependiente mediante uno o más factores o variables. Las variables de factor
dividen la población en grupos. Con este procedimiento se pueden contrastar hipótesis
nulas sobre los efectos de otras variables en las medias de varias agrupaciones de una
única variable dependiente. Se pueden investigar las interacciones entre los factores
así como los efectos de los factores individuales, algunos de los cuales pueden ser
aleatorios. Además, se pueden incluir los efectos de las covariables y las interacciones
de covariables con los factores. Para el análisis de regresión, las variables
independientes (predictoras) se especifican como covariables. Se pueden contrastar
tanto los modelos equilibrados como los no equilibrados. Se considera que un diseño
está equilibrado si cada casilla del modelo contiene el mismo número de casos.
Además de contrastar hipótesis se generan estimaciones de los parámetros. También
se encuentran disponibles los contrastes de hipótesis de uso más habitual. Además, si
una prueba F global ha mostrado cierta significación, pueden emplearse las pruebas
post hoc para evaluar las diferencias entre las medias específicas. Las medias
marginales estimadas ofrecen estimaciones de valores de las medias pronosticados
para las casillas del modelo; los gráficos de perfil (gráficos de interacciones) de estas
medias permiten observar fácilmente algunas de estas relaciones.
Multivariante ® Proporciona un análisis de regresión y un análisis de varianza para
variables dependientes múltiples por una o más covariables o variables de factor. Las
variables de factor dividen la población en grupos. Con este procedimiento es posible
contrastar hipótesis nulas sobre los efectos de las variables de factor sobre las medias
de varias agrupaciones de una distribución conjunta de variables dependientes. En un
modelo multivariado, las sumas de cuadrados debidas a los efectos del modelo y las
sumas de cuadrados error se encuentran en forma de matriz en lugar de en la forma
escalar del análisis univariado. Estas matrices se denominan matrices SCPC (sumas de
cuadrados y productos cruzados).
Las pruebas de comparaciones múltiples post hoc se realizan por separado para cada
variable dependiente.
También se hallan disponibles: una matriz SCPC residual, que es una matriz cuadrada
de las sumas de cuadrados y los productos cruzados de los residuos; una matriz de
covarianza residual, que es la matriz SCPC residual dividida por los grados de libertad
de los residuos; y la matriz de correlaciones residual, que es la forma tipificada de la
matriz de covarianza residual. El resto es similar al procedimiento anterior.
Medidas repetidas ® Analiza grupos de variables dependientes relacionadas que
representan diferentes medidas del mismo atributo. Permite definir uno o varios
factores intrasujetos (no confundir con las variables existentes), donde cada factor
constituye un nivel dentro del factor precedente. Si los sujetos se comparan en más de
una medida cada vez, hemos de seleccionar Medida para definirlas. El nombre de las
medidas no existe como un nombre de variable en el propio archivo de datos sino que
se define aquí.

Correlaciones
Bivariadas ® Calcula el coeficiente de correlación de Pearson, la rho de Spearman y
la tau-b de Kendall con sus niveles de significación. Las correlaciones miden cómo
están relacionadas las variables o los órdenes de los rangos. Antes de calcular un
coeficiente de correlación, se deben inspeccionar los datos para detectar valores
atípicos (que pueden producir resultados equívocos) y evidencias de una relación
lineal. Las correlaciones son medidas de asociación lineal. Dos variables pueden estar
perfectamente relacionadas, pero si la relación no es lineal, el coeficiente de

12
correlación no es un estadístico adecuado para medir su asociación. Parciales ®
Calcula los coeficientes de correlación parcial, los cuales describen la relación lineal
existente entre dos variables mientras se controlan los efectos de una o más variables
adicionales.

Regresión
Lineal ® Estima los coeficientes de la ecuación lineal, con una o más variables
independientes, que mejor prediga el valor de la variable dependiente.
Logística binaria ® Es útil cuando se desea predecir la presencia o ausencia de una
característica o resultado según los valores de un conjunto de variables predictoras. Es
similar a un modelo de regresión lineal pero está adaptado para modelos en los que la
variable dependiente es dicotómica. Los coeficientes pueden utilizarse para estimar la
razón de las ventajas (odds ratio) de cada variable independiente del modelo. La
regresión logística se puede aplicar a un rango más amplio de situaciones de
investigación que el análisis discriminante. Se pueden estimar modelos utilizando la
entrada en bloque de las variables o cualquiera de los siguientes métodos por pasos:
Condicional hacia adelante.
LR hacia adelante.
Wald hacia adelante.
Condicional hacia atrás.
LR hacia atrás.
Wald hacia atrás.
Logística multinomial ® Resulta útil si se desea clasificar a los sujetos según los
valores de un conjunto de variables predictoras. Este tipo de regresión es similar a la
regresión logística, pero más general, ya que la variable dependiente no está
restringida a dos categorías. Se ajusta un modelo logit multinomial para el modelo
factorial completo o para un modelo especificado por el usuario. La estimación de los
parámetros se realiza a través de un algoritmo iterativo de máxima verosimilitud.
Escalamiento óptimo ® Cuantifica los datos categóricos mediante la asignación de
valores numéricos a las categorías, obteniéndose una ecuación de regresión lineal
óptima para las variables transformadas. El análisis de regresión lineal ordinario
implica minimizar las diferencias de la suma de los cuadrados entre una variable de
respuesta (la dependiente) y una combinación ponderada de las variables predictoras
(las independientes). Las variables son normalmente cuantitativas, con los datos
categóricos (nominales) recodificados como variables binarias o de contraste. Como
resultado, las variables categóricas sirven para separar grupos de casos y la técnica
estima conjuntos separados de parámetros para cada grupo. Los coeficientes
estimados reflejan cómo los cambios en los predictores afectan a la respuesta. El
pronóstico de la respuesta es posible para cualquier combinación de los valores
predictores. Una aproximación alternativa incluye la regresión de la respuesta respecto
a los propios valores predictores categóricos. Como consecuencia, se estima un
coeficiente para cada variable. Sin embargo, para las variables categóricas, los valores
categóricos son arbitrarios. La codificación de las categorías de diferentes maneras
proporciona diferentes coeficientes, dificultando las comparaciones entre los análisis
de las mismas variables.
CATREG (regresión categórica mediante escalamiento óptimo) amplía la aproximación
típica mediante un escalamiento de las variables nominales, ordinales y numéricas
simultáneamente. El procedimiento cuantifica las variables categóricas de manera que
las cuantificaciones reflejen las características de las categorías originales. Además,
trata a las variables categóricas cuantificadas como si fueran variables numéricas. La
utilización de transformaciones no lineales permite a las variables ser analizadas en

13
varios niveles para encontrar el modelo que más se ajusta.

Reducción de datos
Análisis factorial ® Intenta identificar variables subyacentes, o factores, que
expliquen la configuración de las correlaciones dentro de un conjunto de variables
observadas. Se suele utilizar en la reducción de los datos para identificar un pequeño
número de factores que explique la mayoría de la varianza observada en un número
mayor de variables manifiestas. También puede utilizarse para generar hipótesis
relacionadas con los mecanismos causales o para inspeccionar las variables para
análisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar un
análisis de regresión lineal). Este procedimiento dispone de 7 métodos de extracción
factorial; 5 métodos de rotación, entre ellos el oblimin directo y el promax para
rotaciones no ortogonales; y 3 métodos para calcular las puntuaciones factoriales, que
pueden guardarse como variables para análisis adicionales.
Análisis de correspondencias ® Describe las relaciones existentes entre dos
variables nominales, recogidas en una tabla de correspondencias, sobre un espacio de
pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las
categorías de cada variable. Para cada variable, las distancias sobre un gráfico entre
los puntos de categorías reflejan las relaciones entre las categorías, con las categorías
similares representadas próximas unas a otras. La proyección de los puntos de una
variable sobre el vector desde el origen hasta un punto de categoría de la otra variable
describe la relación entre ambas variables.
El análisis de las tablas de contingencia a menudo incluye examinar los perfiles de fila
y de columna, así como contrastar la independencia a través del estadístico de chi-
cuadrado. Sin embargo, el número de perfiles puede ser bastante grande y la prueba
de chi-cuadrado no revelará la estructura de la dependencia. El procedimiento Tablas
de contingencia ofrece varias medidas y pruebas de asociación pero no puede
representar gráficamente ninguna
relación entre las variables.
El análisis factorial es una técnica típica para describir las relaciones existentes entre
variables en un espacio de pocas dimensiones. Sin embargo, requiere datos de
intervalo y el número de observaciones debe ser cinco veces el número de variables.
Por su parte, el análisis de correspondencias asume que las variables son nominales y
permite describir las relaciones entre las categorías de cada variable, así como la
relación entre las variables. Además, el análisis de correspondencias se puede utilizar
para analizar cualquier tabla de medidas de correspondencia que sean positivas.
Escalamiento óptimo ® La combinación del nivel de medida y el número de conjunto
seleccionado determina este procedimiento mediante mínimos cuadrados alternantes
que realiza. Nivel de medida. Permite especificar el nivel correspondiente a las
variables utilizadas en el análisis:
Todas las variables son nominales múltiples. Todas las variables tienen
cuantificaciones de categorías que pueden diferir para cada dimensión.
Alguna variable no es nominal múltiple. Una o más variables se escalan a un nivel
diferente del nominal múltiple. Otros niveles de escala posibles son: nominal simple,
ordinal y numérica discreta.
Número de conjuntos de variables. Permite especificar cuántos grupos de variables se
van a comparar con otros grupos de variables:
Un conjunto. Los datos contienen un grupo de variables.
Múltiples conjuntos. Los datos contienen más de un grupo de variables. Si se
selecciona esta opción, se elegirá Correlación canónica no-lineal (OVERALS).
Análisis seleccionado. Las opciones para Nivel de medida y Número de conjuntos de

14
variables deciden el análisis según las combinaciones.
Análisis de homogeneidad (HOMALS). Seleccionando Todas las variables son
nominales múltiples y Un conjunto:
Análisis de componentes principales categóricos (CATPCA). Seleccionando Alguna
variable no es nominal múltiple y Un conjunto.
Análisis de correlación canónica no lineal (OVERALS). Seleccionando Múltiples
conjuntos.

Pruebas no paramétricas
Chi-cuadrado ® Tabula una variable en categorías y calcula un estadístico de
chicuadrado. Esta prueba de bondad de ajuste compara las frecuencias observadas y
esperadas en cada categoría para contrastar si todas las categorías contienen la misma
proporción de valores o si cada categoría contiene una proporción de valores
especificada por el usuario.
Binomial ® Compara las frecuencias observadas de las dos categorías de una variable
dicotómica con las frecuencias esperadas en una distribución binomial con un
parámetro de probabilidad especificado. Por defecto, el parámetro de probabilidad para
ambos grupos es 0,5. Para cambiar las probabilidades, puede introducirse una
proporción de prueba para el primer grupo. La probabilidad del segundo grupo será 1
menos la probabilidad especificada
para el primer grupo.
Rachas ® Contrasta si es aleatorio el orden de aparición de dos valores de una
variable. Una racha es una secuencia de observaciones similares. Una muestra con un
número excesivamente grande o pequeño de rachas sugiere que la muestra no es
aleatoria.
K-S de 1 muestra ® La prueba de Kolmogorov-Smirnov para una muestra compara
la función de distribución acumulada observada de una variable con una distribución
teórica determinada, que puede ser la normal, la uniforme, la de Poisson o la
exponencial. La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia mayor
(en valor absoluto) entre las funciones de distribución acumuladas teórica y observada.
Esta prueba de bondad de ajuste
contrasta si las observaciones podrían razonablemente proceder de la distribución
especificada.
2 muestras independientes ® Compara dos grupos de casos existentes en una
variable.
K muestras independientes ® Compara dos o más grupos de casos respecto a una
variable.
2 muestras relacionadas ® Compara las distribuciones de dos variables.
K muestras relacionadas ® Compara las distribuciones de dos o más variables.

Series temporales
Suavizado exponencial ® Suaviza componentes irregulares de datos de series
temporales, para ello hace uso de una variedad de modelos que incorporan diferentes
supuestos acerca de la tendencia y la estacionalidad. Seleccionando un modelo
estacional y definiendo la periodicidad mediante Definir fechas, se puede seleccionar
una variable que represente los factores estacionales. Los modelos difieren en los
componentes estacionales y de tendencia. Se dispone de los modelos Simple, Holt,
Winters y Personalizado.

15
Supervivencia
Tablas de mortalidad ® Existen muchas situaciones en las se desea examinar la
distribución de un periodo entre dos eventos, como la duración del empleo (tiempo
transcurrido entre el contrato y el abandono de la empresa). Sin embargo, este tipo de
datos suele incluir algunos casos para los que no se registra el segundo evento
(censurados); por ejemplo, la gente que todavía trabaja en la empresa al final del
estudio. Las razones para que no se verifique el segundo evento pueden ser muy
variadas: en algunos casos, el evento simplemente no tiene lugar antes de que finalice
el estudio; en otros, el investigador puede haber perdido el seguimiento de su estado
en algún momento anterior a que finalice el estudio; y existen además casos que no
pueden continuar por razones ajenas al estudio (como el caso en que un empleado
caiga enfermo y se acoja a una baja laboral). Estos casos se conocen globalmente
como casos censurados y hacen que el uso de técnicas tradicionales como las pruebas
t o la regresión lineal sea inapropiado para este tipo de estudio. Existe una técnica
estadística útil para este tipo de datos llamada tabla de mortalidad de “seguimiento”.
La idea básica de la tabla de mortalidad es subdividir el periodo de observación en
intervalos de tiempo más pequeños. En cada intervalo, se utiliza toda la gente que se
ha observado como mínimo durante ese periodo de tiempo para calcular la
probabilidad de que un evento terminal tenga lugar dentro de ese intervalo. Las
probabilidades estimadas para cada intervalo se utilizan para estimar la probabilidad
global de que el evento tenga lugar en diferentes puntos temporales.
Kaplan-Meier ® Es un método de estimación de modelos hasta el evento en
presencia de casos censurados. Se basa en la estimación de las probabilidades
condicionales en cada punto temporal cuando tiene lugar un evento y en tomar el
límite del producto de esas probabilidades para estimar la tasa de supervivencia en
cada punto temporal.
Regresión de Cox ® Del mismo modo que los anteriores, la Regresión de Cox es un
método para crear modelos para datos de tiempos de espera hasta un evento con
casos censurados presentes. Sin embargo, la regresión de Cox permite incluir en los
modelos variables predictoras (covariables). Por ejemplo, permite construir un modelo
de la duración en el empleo como función del nivel educativo y de la categoría laboral.
Gestiona los casos censurados correctamente y proporciona las estimaciones de los
coeficientes para cada una de las covariables, permitiendo evaluar el impacto de
múltiples covariables en el mismo modelo. Además, es posible utilizar este método
para examinar el efecto de covariables continuas.
Cox con covariable dep. del tiempo ® Existen ciertas situaciones en las que
interesa calcular un modelo de regresión de Cox, pero no se cumple el supuesto de
tasas de impacto proporcionales. Es decir, que las tasas de impacto cambian con el
tiempo: los valores de una (o de varias) de las covariables son diferentes en los
distintos puntos del tiempo. En esos casos, es necesario utilizar un modelo de
regresión de Cox extendido, que permita especificar covariables dependientes del
tiempo (T_COV_). Con el fin de analizar dicho modelo, se debe definir primero una
covariable dependiente del tiempo. Para facilitar esta tarea contamos con una variable
del sistema, llamada T_, que representa el tiempo. Se utiliza para definir covariables
dependientes del tiempo empleando dos métodos generales:
Para contrastar el supuesto de tasas de impacto proporcionales con respecto a una
covariable particular, o para estimar un modelo de regresión de Cox extendido que
permita impactos no proporcionales, se define la covariable dependiente del tiempo
como una función de la variable de tiempo T_ y la covariable en cuestión.
Algunas variables pueden tener valores distintos en periodos diferentes del tiempo,
pero no están sistemáticamente relacionadas con el tiempo. En tales casos es

16
necesario definir una covariable dependiente del tiempo segmentada, lo cual puede
llevarse a cabo a partir de un conjunto de medidas usando las expresiones lógicas
(1:verdadero, 0:falso).
Para las covariables dependientes del tiempo segmentadas, los casos en los que falte
cualquiera de los valores quedarán eliminados del análisis. Por tanto, todos los casos
deben tener valores para todos los puntos del tiempo medidos en la covariable, incluso
para los puntos del tiempo posteriores a la eliminación del caso del conjunto bajo
riesgo (ya sea por el evento o por la censura).

Respuestas múltiples
Definir conjuntos ® Agrupa variables elementales en conjuntos de categorías
múltiples y de dicotomías múltiples, para los que se pueden obtener tablas de
frecuencias y tablas de contingencia. Se pueden definir hasta 20 conjuntos de
respuestas múltiples. Cada conjunto debe tener un nombre exclusivo. Las variables
elementales se pueden codificar como dicotomías o categorías: Dicotomías. En Valor
contado debe introducirse un entero. Cada variable que tenga al menos una aparición
del valor contado se convierte en una categoría del conjunto de dicotomías múltiples.
Categorías. Crear un conjunto de categorías múltiples con el mismo rango de
valores que las variables que lo componen. Deben introducirse dos enteros como
valores máximo y mínimo del rango para las categorías del conjunto de categorías
múltiples. El procedimiento suma cada valor entero distinto en el rango inclusivo para
todas las variables que lo componen. Las categorías vacías no se tabulan. A cada
conjunto de respuestas múltiples se le debe asignar un nombre exclusivo de hasta 7
caracteres. El procedimiento coloca delante del nombre asignado un signo dólar ($)..
El nombre del conjunto de respuestas múltiples sólo se encuentra disponible para su
uso en los procedimientos de respuestas múltiples.
Frecuencias ® Produce tablas de frecuencias para conjuntos de respuestas múltiples.
Es necesario definir previamente uno o más conjuntos de respuestas múltiples. Para
los conjuntos de dicotomías múltiples, los nombres de categorías que se muestran en
los resultados proceden de etiquetas de variable definidas para variables elementales
del grupo. Para los conjuntos de categorías múltiples, las etiquetas de categoría
proceden de las etiquetas de valor de la primera variable del grupo. Si las categorías
perdidas para la primera variable están presentes para otras variables del grupo, debe
definirse una etiqueta de valor para las categorías perdidas.
Los casos con Valores perdidos se excluyen en base a tabla por tabla. Un caso se
considera perdido para un conjunto de dicotomías (o categorías múltiples) sólo si
ninguno de sus componentes contiene el valor (o tiene valores válidos en el rango). Se
pueden excluir los casos con valores perdidos en cualquier variable de la tabulación del
conjunto de dicotomías, o categorías, o ambas.
Tablas de contingencia ® Presenta, en forma de tabla de contingencia, conjuntos de
respuestas múltiples, variables elementales o una combinación. También permite
obtener porcentajes de casilla basados en casos o respuestas, modificar la gestión de
los valores perdidos u obtener tablas de contingencia emparejadas. Es necesario
definir previamente uno o más conjuntos de respuestas múltiples. Los nombres en los
resultados se muestran de la misma forma que en el procedimiento anterior. Las
etiquetas de categoría por columnas se muestran en tres líneas, con un máximo de 8
caracteres por línea. Para evitar la división de palabras, se pueden invertir los
elementos de las filas y las columnas o volver a definir las etiquetas.

17
Por otro lado, el menú Gráficos permite realizar una gran cantidad
de gráficos orientados al análisis de los datos. La primera opción,
Galería, no realiza un gráfico en sí, sino que nos traslada
directamente a un tema de la ayuda que nos presenta una galería
de gráficos.
La segunda opción es la de gráficos Interactivos. Con esta opción se
generan gráficos que podrán ser modificados posteriormente, en
cuanto a variables y elementos gráficos, de forma mucho más
efectiva que los gráficos normales. Sin embargo sólo son
convenientes cuando se trabaje con archivos de datos pequeños o
subconjuntos de otros archivos mayores ya que los requerimientos
de recursos son enormes.
Las restantes opciones de este menú son una lista de todos los
gráficos posibles (no interactivos). Posteriormente se podrán
modificar, pero sólo a nivel de formato y de una forma más
precaria.

Dentro de este menú, encontramos la siguiente galería de gráficos: Barras,


Líneas, Áreas, Sectores, Máximos-mínimos, Pareto, Control, Diagramas de caja, Barras
de error, Dispersión, Histograma, P-P, Q-Q, Secuencia, Curvas ROC, Serie temporal:
Autocorrelaciones, Serie temporal: Correlaciones cruzadas, Serie temporal: Análisis
espectral.

Una vez seleccionado uno de los tipos, pasamos a otra pantalla de ayuda que nos
muestra los subtipos existentes. De cada subtipo nos presenta un ejemplo de lo que se
puede hacer y de cómo hacerlo.

Para la creación de un gráfico se nos muestra, generalmente, un cuadro de diálogo


inicial de selección del gráfico deseado. Esto es debido a que la mayoría de tipos de
gráfico están disponibles en varios subtipos y configuraciones.
Ejemplo: Una vez elegido el gráfico en cuestión, pasamos al cuadro de diálogo usual
que aparece cuando realizamos un análisis.

18
2. GENERALIDADES ESTADÍSTICA

Se puede definir la estadística de varias formas, podemos comenzar por una definición
de diccionario, el cual la define como "La ciencia que se ocupa de la colección,
clasificación, análisis e interpretación de hechos o datos numéricos. En pocas palabras
la Estadística es la ciencia de los datos

Existiendo igualmente diversas definiciones que se pueden encontrar en los libros de


estadística, de los cuales podemos traer a colación 2 de ellas. La primera nos dice que
"es un campo del estudio relacionado con la recopilación, organización y resumen de
los datos, además de la obtención de inferencias acerca de un conjunto de datos
cuando solo se observa una parte de ellos" Wayne W. Daniel. Y la segunda nos la
define como "un conjunto de métodos y teorías desarrolladas para recolectar,
describir, analizar e interpretar fenómenos y poder tomar decisiones racionales, los
cuales están sujetos a la incertidumbre, ya que la información de la cual se deriva la
conclusión es incompleta" Abel Díaz Cadavid et al.

En este orden de ideas, la estadística suele aplicarse a dos tipos de problemas:


1. Resumir, describir y explorar datos
2. Utilizar datos de muestra para inferir la naturaleza del conjunto de datos del que se
escogió la muestra

Es así como la rama de la estadística que se dedica a la organización, síntesis y


descripción de conjuntos de datos es la estadística descriptiva.

Hay ocasiones en que el fenómeno de interés se caracteriza por un conjunto de datos


cuya obtención es o bien físicamente imposible o requeriría un gasto excesivo de
dinero o de tiempo. En tales situaciones se muestrea el conjunto de datos y se utiliza
la información de muestra para inferir la naturaleza del conjunto. De esta forma, la
rama de la estadística que utilizamos para resolver este problema es la estadística
inferencial. Es decir es la que nos permite inferir a partir de una muestra, algo
acerca de una población.

LA INVESTIGACIÓN ESTADÍSTICA

La estadística es un conjunto de métodos usados para obtener conocimientos.


Realmente es parte integrante del método general del conocimiento, establecido como
método científico.

Se conocen 4 etapas en el proceso de solución de un problema científico:


Observación, hipótesis, predicción y verificación. La estadística trabaja especialmente
con la primera y cuarta etapa. La predicción va ligada a la lógica y conocimiento del
fenómeno que se esta trabajando.

Toda investigación estadística deberá utilizar los siguientes pasos:

• Paso 1. Formulación del Problema: El propósito de una investigación es


determinar el tipo de estudio que debe realizarse. En síntesis la especificación del
problema conllevará a trazar pautas y objetivos en el estudio.

19
• Paso 2. Diseño de la Investigación: Es necesario conocer si la investigación
es o no controlada. El control puede hacerse por experimentación directa, donde el
investigador controla y manipula los resultados que afectan las variables de interés.
Un buen diseño debe acoger la máxima información y el mínimo error.
• Paso 3. Muestreo: Es la parte de la investigación que se relaciona con la forma
de obtener los datos de modo que sean aleatorios (provenientes del azar),
significativos y confiables.
• Paso 4. Presentación y Análisis de los Datos: Una vez se tenga toda la
información esta se condensa por medio de tablas, gráficas, figuras, de modo que
pueda ser publicada y entendida.
• Paso 5. Inferencia y Toma de Decisiones: Este es el paso más importante.
La inferencia estadística se ocupa de la forma de tomar conclusiones o
generalizaciones sobre una población que ha sido examinada con base en una
muestra extraída de ella.

Los anteriores pasos dan origen a diferentes ramas de la estadística. Los métodos
estadísticos estudian estas ramas con las nombres de estadística descriptiva, diseño de
experimentos, muestreo probabilístico, inferencia estadística y la teoría de decisiones.

CONCEPTOS BÁSICOS

• Bioestadística: Cuando los datos que se están analizando se obtienen de las


ciencias biológicas y de la medicina, se utiliza el término bioestadística para
diferenciar a esta aplicación particular de herramientas y conceptos estadísticos.
• Población: Se refiere al agregado o totalidad de unidades individuales acerca de
las cuales se desea tener información. El mayor grupo de elementos por los cuales
se tienen un cierto interés en un momento dado. Si una población de valores
consta de un número fijo de estos, se dice que la población es finita. Por otra
parte, si una población consta de una sucesión sin fin de valores, dicha población
es infinita.
• Muestra: Es el subconjunto de datos seleccionados de una población.
• Muestreo: Es el proceso de obtención de datos de una población o de varias
realizaciones de un experimento.
• Variable: Son aquellas características o propiedades existentes en los elementos
de la muestra o la población.
• Parámetro: Son todas aquellas medidas que describen numéricamente la
característica de una población. También se les denomina valor verdadero, ya que
una característica poblacional tendrá un solo parámetro (media, varianza, etc). Sin
embargo una población puede tener varias características y, por tanto, varios
parámetros.
• Estimador o estadígrafo: La descripción numérica de una característica
correspondiente a los elementos de una muestra, se denomina estadígrafo. De
una población se pueden obtener M número de muestras posibles y en cada uno de
ellas se puede cuantificar la característica, obteniéndose por lo general, valores
diferentes para cada muestra, a pesar de ser utilizado el mismo estadígrafo o
medida.
• Unidades Individuales: Las llamaremos unidades elementales o unidades de
análisis. Son aquellos elementos o unidades sobre los cuales se concentra el
estudio, quienes suministran la información que luego va a ser analizada a fin de
obtener conclusiones. Son aquellas que conforman la población y/o la muestra.

20
• Unidad de muestreo: Subconjunto mínimo en el cual se puede subdividir el
universo para efectuar el proceso de toma de muestra. Es cada una de las
unidades que conforman el marco de muestreo. Puede ser igual a la unidad de
análisis o estan integradas por dos o más unidades de análisis en cuyo recibe el
nombre de conglomerado.

• Unidad de medida: Son las unidades en las cuales se intenta medir la variable
• Dato: Valor que se obtiene a partir de una unidad de análisis.
• Medir: Es comparar con un patrón. Siendo el patrón una serie de características,
cualidades que tienen los objetos o las diversas magnitudes asociadas con una
escala numérica.
• Valor: Son los diversos atributos o diversas magnitudes de la medición que
caracterizan al sujeto observado.
• Encuesta: Es el proceso de obtención de datos cuando no se tiene control sobre
los agentes que afectan las características de la población.
• Experimento Aleatorio: Es la información obtenida mediante un estudio al azar.
• Experimento Estadístico: Es la obtención de la información acerca de una
característica de interés.

VARIABLES ESTADISTICAS

Se llaman variables estadísticas aquellas propiedades o características de las unidades


de análisis cuya variación se debe al azar.

Las variables estadísticas deben tener las siguientes características o condiciones:


• Exhaustividad: Comprende todas las alternativas o respuestas frente a una
situación dada.
• Un solo criterio: Se debe relacionar estrictamente a la formulación con la
variable
• Discriminante: Todas las posibles alternativas de respuesta identifican
claramente el comportamiento del fenómeno que se estudia.

Naturaleza de las Variables

Las variables pueden dividirse en variables cuantitativas y cualitativas. Los datos


cuantitativos son aquellos que representan la cantidad de algo, medida en una escala
numérica, por ejemplo, número de hijos, edad, peso, talla. Los datos cualitativos o
categóricos son aquellos que solo pueden clasificarse, estos no tienen una
interpretación cuantitativa, características tales como el color de los ojos, color del
cabello, tipo de sangre, comportamiento psicológico, no pueden medirse
numéricamente, sino tratadas descriptiva o cualitativamente. Estas características o
propiedades reciben el nombre de atributos. Los atributos deben combinarse en forma
de frecuencias de tal modo que puedan ser analizados estadísticamente. En muchas
ocasiones los atributos pueden reemplazarse por valores numéricos. Por ejemplo, en
una máquina, condiciones óptimas de funcionamiento, condiciones leves de
funcionamiento y falta de funcionamiento, pueden codificarse con los números 1, 2 y
3, donde dichos números representan el rango de funcionamiento y no magnitudes
físicas. Si lo que se desea es hacer comparaciones entre características, es necesario
llevar las frecuencias a porcentajes.

21
Ejemplo: Los siguientes datos representan los requisitos del tipo de sangre de 200
científicos.

TIPO O A B AB TOTAL
Frecuencia 90 80 20 10 200
Pasando a porcentajes tenemos:
Porcentaje 45% 40% 10% 5% 100.0%

Obsérvese que el tipo A es 4 veces más frecuente que el tipo B.

NOTA: No debe presentarse la tabla de porcentajes a no ser que esté


acompañada de los datos originales. Pues esto llevaría a interpretaciones
inverosímiles.

Clasificación de las Variables Según Naturaleza

Las variables cuantitativas se dividen en DISCRETAS y CONTINUAS. Así, si la


observación de las características de interés exige la acción de medir, esta
característica es una variable continua, y el resultado de la medición será un número
real. Ejemplo de variables continuas: estatura, peso, cantidad de liquido en un
beaker, temperatura, tiempo.

De otra forma si la observación de la característica de interés exige la acción de contar,


esta característica es una variable discreta, y el resultado del conteo es un número
entero. Ejemplo de variables discretas: número de hijos por familia, número de
accidentes por hora, número de pacientes que ingresan por día a un hospital, número
de años.

Los datos pueden clasificarse en Univariados, Bivariados ó Multivariados. Los


univariados son aquellos que se refieren a una sola variable. En algunos estudios es
deseable observar dos propiedades o características diferentes en una misma unidad
de análisis, tales como el peso y la estatura en personas adultas, cada observación
consta de un par de números y se dice que son datos bivariados. Simultáneamente, la
observación de tres o más propiedades en cada unidad de análisis con el fin de
estudiarlas conjuntamente, origina datos multivariados.

Escalas de Medición

Las variables estadísticas pertenecen a una de las cuatro escalas siguientes de medida:
Nominal, ordinal, de intervalo ó de razón.

• Escala Nominal: Es aquella en la cual los números no representan magnitudes,


sino categorías. Igualmente podríamos decir, que son datos cualitativos con
categorías que no pueden ordenarse de forma significativa. Si consideramos el
sexo, este tiene dos categorías ó atributos: hombre ó mujer, si rotulamos 1 para
hombre y 2 para mujer, entonces estamos aplicando la escala nominal.
• Escala Ordinal: Es aquella que tiene el orden de los números, no así sus
magnitudes. Igualmente se puede decir, son datos cualitativos, los cuales tienen
un claro ordenamiento de los grupos del más alto al más bajo. Por ejemplo, la
preferencia de 4 candidatos puede ordenarse de 1 a 4, en donde: 1 representaría

22
el más preferido y 4 el menos favorecido; grados de desnutrición, tipos de
quemaduras.
• Escala de Intervalos: Los valores numéricos asociados con esta escala son
cuantitativos y por lo tanto permiten el uso de las operaciones aritméticas
fundamentales. En esta escala se tiene en cuenta tanto la diferencia entre sus
medidas como en su ordenación. Exige un punto de referencia fijo (cero arbitrario)
y una unidad de distancia para medir las diferencias. Debe entenderse que el cero
arbitrario en ningún momento indica ausencia del atributo. Ejemplo: temperatura
en grados centígrados, cociente de inteligencia, índice apgar.
• Escala de Razón: Se aplica cuando son importantes el orden, la distancia y la
razón entre dos medidas. Se utiliza un cero real (absoluto), siendo esta la única
diferencia con la escala anterior, este cero indica ausencia del atributo. Así la
característica operativa de este nivel es la de que las razones establecidas con los
valores de una variable guardan una correspondencia con las razones existentes
entre las cantidades de la variable medida. Debe existir la unidad de medida como
centímetros, metros, años, días de estancia.

DISTRIBUCIÓN DE FRECUENCIAS

• Representación de Datos

Los datos numéricos provenientes de un experimento o encuesta, aparecen


inicialmente en el orden en que fueron obtenidos. En un principio, disponemos de un
extenso listado de datos que en si mismo ofrecen muy escasa información acerca de
las características de interés que queremos conocer a través de ellos. Ya sea que los
datos representen una muestra o toda la población, es necesario organizarlos,
resumirlos y presentarlos en una forma apropiada para su análisis e interpretación.
Existen básicamente dos formas de presentar ó describir datos: mediante gráficos y
mediante tablas. La estadística descriptiva se ocupa de todo aquello relacionado con el
procesamiento de los datos originales para poner de manifiesto sus características
esenciales, el propósito de llegar a conclusiones es una etapa posterior.

• Representación Tabular de un Conjunto de Datos

La materia prima de toda investigación estadística es el conjunto de datos u


observaciones que constituyen una muestra o población completa. Este conjunto o
serie de datos debe organizarse en alguna forma comprensible, de modo que pueda
hacerse uso de ellos. La representación más usual es la tabular, o sea la tabla de
frecuencias. Una tabla de frecuencias es un cuadro con título y leyenda explicativa en
el cual aparecen los datos en forma organizada y bien discriminada, incluyendo totales,
frecuencias, porcentajes.

Ejemplo:
Se desea tener información sobre la presión sistólica por individuo en una región de
Colombia, se tomo una muestra de 40 personas obteniéndose los siguientes
resultados.

23
98, 120, 200, 122, 176, 123, 135, 102, 119, 110, 135, 124, 135, 128, 98, 135, 128,
122, 130, 136, 123, 124, 120, 135, 127, 120, 98, 111, 136, 128, 128, 185, 188, 120,
130, 135, 135, 138, 135, 102.

No obstante que la muestra es relativamente pequeña, este conjunto de datos así


presentado, no ofrece una información clara al investigador. La siguiente tabla
muestra estos mismos datos en forma ordenada, y se llama tabla de frecuencias ,
porque en ella aparecen las frecuencias con las cuales las personas presentaron una
determinada presión sistólica.

PRESIÓN SISTOLICA POR INDIVIDUOS EN UNA REGIÓN DE COLOMBIA

Presión Frecuencia Frecuencia Frecuencia Frecuencia


sistólica por Absoluta Absoluta Relativa Relativa
individuo (ni) Acumulada (fi) Acumulada (Fi)
(Ni) Fi * 100
98 3 3 0.075 7.5
102 2 5 0.05 12.5
110 1 6 0.025 15.0
111 1 7 0.025 17.5
119 1 8 0.025 20.0
120 4 12 0.10 30.0
122 2 14 0.05 35.0
123 2 16 0.05 40.0
124 2 18 0.05 45.0
127 1 19 0.025 47.5
128 4 23 0.10 57.5
130 2 25 0.05 62.5
135 8 33 0.20 82.5
136 2 35 0.05 87.5
138 1 36 0.025 90.0
176 1 37 0.025 92.5
185 1 38 0.025 95.0
188 1 39 0.025 97.5
200 1 40 0.025 100.0

Explicación a la tabla anterior:

Cada dato se presenta por Xi, así:


X1=98 , X19=200

La frecuencia absoluta ni es el número de veces que se repite cada dato, así n2=2,
indica que el dato 102 se repite 2 veces, con ni, i=1...19. La suma de frecuencias
absolutas ni es igual al total de datos, esto es, ∑ n = 40 = n, en general si se tienen K
i =1
i

K
datos diferentes ∑ n = n.
i =1
i

24
La frecuencia absoluta acumulada, Ni, es la suma de las i frecuencias absolutas
i 3
anteriores, esto es, Ni = ∑ n j , por ejemplo, N3=
j =1
∑n j =n1+n2+n3=3+2+1=6
j =1

La frecuencia relativa fi representa la proporción de veces que ocurre el dato i-esimo


con respecto al total, esto es, fi = ni/n*100 (usualmente se da en porcentajes). Por
ejemplo f5 = n5/40*100 = 1/40*100=2.5%.
Lo anterior significa que X5=119 representa un 2.5% de datos de la muestra. La
frecuencia relativa acumulada Fi es la suma de las i frecuencias relativas anteriores,
i
esto es, Fi = ∑F .
j =1
j Por ejemplo F4 = F3 + F4 = 17.5, lo cual significa que los cuatro

i
datos menores constituyen el 17.5% de la muestra. Nótese que ∑F =
j =1
j 1 (si

k
multiplicamos por 100% la cuarta columna, ∑ F = 100
j =1
j

• Representación Gráfica de un Conjunto de Datos

Los gráficos tienen por finalidad dar una información general de un conjunto de datos.
Se busca con ellos que el lector se forme una idea rápida y global del comportamiento
de la característica en estudio, ya sea en la muestra como en la población. Un gráfico
no intenta mostrar información detallada, sino hechos sobresalientes de un conjunto
de datos.

Entre los gráficos estadísticos más comúnes, mencionaremos los gráficos de barras
simples y compuestos, los gráficos de sectores (tortas), los histogramas, los polígonos
de frecuencias, los polígonos de frecuencias acumuladas u ojivas, los gráficos de
líneas, los gráficos de barras dirigidos (pirámides), y los gráficos de dispersión.

Gráfico de Barras
Se usa para descripciones de conjunto de datos cualitativos, los cuales indican la
frecuencia o frecuencia relativa correspondiente a cada categoría, siendo la altura de la
barra proporcional a la frecuencia o frecuencia relativa de la categoría. Estas pueden
ser simples o compuestas. Las simples son aquellas que muestran el comportamiento
de una sola variable, mientras que las compuestas son aquellas que muestran el
comportamiento de 2 o más variables.

25
Distribución
Distribución porcentual
porcentual por
por grupos
grupos de
de edad
edad en
en el
el municipio
municipio
del
del Retiro
Retiro -- Antioquia,
Antioquia, 1998
1998

Porcentaje

60 51,9

50

40

30
19,1
20 12,6
8,8 7,5
10

0
0-4 '5 - 14 15 - 44 45 - 69 60 y Más
Grupos de Edad

Distribución
Distribución de
de lesiones
lesiones en
en las
las manos
manos según
según sexo
sexo en
en un
un
estudio
estudio sobre
sobre salud
salud ocupacional
ocupacional
Porcentaje

100 No

78,1
80
60
60
40
40
21,8

20

0
FEMENINO MASCULINO
Sexo

26
LUGAR DE OCURRENCIA DE LA DEFUNCION POR SEXO.
MEDELLIN, 1987-
1987-1996
70

60

50

P orc e ntaje 40

30

20 S E XO

10 M u je r

0 H o m b re
H o s p ital o clín ic a O tro lu g a r
Casa S in info rm a ció n

L u g ar d e la d efun c ión

Gráfico de Sectores (Torta)


Se utilizan igualmente para variables de naturaleza cualitativa, y consiste en dividir un
círculo completo (pastel) en tajadas, donde cada tajada corresponde a una categoría.
El ángulo central de cada rebanada es proporcional a la frecuencia relativa de esa
categoría. Permitiendo comparar parte con parte y partes con el total.

Localización
Localización geográfica
geográfica de
de las
las personas
personas del
del Municipio
Municipio del
del
Retiro.
Retiro. Antioquia,
Antioquia, 1998
1998

Rural
59,4%

Urbana
40,6%

27
Gráfico de Barras Horizontal Dirigido
Es aquel que utiliza barras horizontales en lugar de verticales, esta dirigido porque el
lado izquierdo del eje se usa para dibujar un conjunto de datos y el derecho para
dibujar el otro.

DISTRIBUCION
DISTRIBUCION PORCENTUAL
PORCENTUAL DE
DE LAS
LAS LESIONES
LESIONES
OCULARES
OCULARES POR GRUPOS DE EDAD SEGUN SEXO.
POR GRUPOS DE EDAD SEGUN SEXO.

GRUPOS DE EDAD

HOMBRES
HOMBRES MUJERES
MUJERES
0 3
>50

20 22
>50

91 82
30 - 50

45 55
30 - 50

9 15
<30

35 22
<30

100 80 60 40 20 0 20 40 60 80 100
GRAVES
GRAVES NO
NOGRAVES
GRAVES

Pirámide de Población
Este gráfico es muy similar al de barras horizontal dirigido, solo que en este, en el lado
derecho estarán las mujeres en grupos de edad quinquenales y en el lado izquierdo los
hombres con igual composición de edad.

Piramide
Piramide poblacional
poblacional por
por edad
edad yy sexo.
sexo.
Medellín,
Medellín, 1996
1996

3,7 2,8
70 y Más 2,06 1,78
65 a 69 2,9 2,45
60 a 64 3,15 2,82
55 a 59 3,97 3,68
50 a 54 4,65 4,51
45 a 49 6,28 6,06
40 a 44 8,01 7,46
35 a 39 9,67 9,38
30 a 34 10,42 9,95
25 a 29 9,69 8,97
20 a 24 8,82 8,71
15 a 19 9,17 10,62
10 a 14 9,1 10,79
5a9 8,42 10
0a4
12 10 8 6 4 2 0 2 4 6 8 10 12 14
Mujeres Hombres

Cronología
Cronología de
de la
la atención
atención de
de salud
salud en
en Medellín
Medellín 1986
1986 -- 1996
1996

28
Histograma de Frecuencias
Es un conjunto de rectángulos contiguos cuya base son los intervalos de clase sobre el
eje horizontal y alturas iguales a las frecuencias absolutas o relativas asociadas a cada
clase y sobre el eje vertical. El histograma es en esencia una gráfica de barras en las
que las categorías son clases. El histograma no nos dice como están distribuidos los
datos dentro de los intervalos, además las apariencias de simetría deben ser aceptadas
con cuidado. Este se aplica para variables de naturaleza cuantitativa y esta dada en
intervalos de clase.

Peso (en onzas) de los tumores malignos extirpados del abdomen de


de las
personas encuestadas. El Retiro, Antioquia. 1998

Polígono de Frecuencias
Se aplica cuando la variable objeto de estudio es cuantitativa y esta dada en intervalos
de clase. Se construye graficando las respectivas marcas de clase de cada intervalo.
El polígono de frecuencias presenta una imagen más real de los datos por cuanto los
valores individuales en cada intervalo son gradualmente más frecuentes a medida que
se acercan al punto medio o marca de clase. Es usual "dibujarse" este sobre el
histograma de frecuencias.

29
Peso (en onzas) de los tumores malignos extirpados del abdomen de
de las
personas encuestadas. El Retiro, Antioquia. 1998

Polígono de Frecuencias Acumuladas (Ojiva)


Acá como su nombre lo indica lo que se grafica son las frecuencias acumuladas.
Cuando los datos son continuos, la gráfica tiene una forma típica y más o menos
definida llamada comúnmente Curva u Ojiva. Cuando los datos son discretos, la
gráfica tiene una forma escalonada y los saltos ocurren en los puntos donde la
característica asume sus respectivos valores.
Distribución acumulada del peso (en onzas) de los tumores malignos
malignos
extirpados del abdomen de las personas encuestadas. El Retiro, Antioquia.
1998

30
Gráfica de Líneas
Se utiliza para variables de naturaleza cuantitativa, y cuando estas son analizadas en
función del tiempo y se pretende mostrar las variaciones de esta en el tiempo.

Nacimientos
Nacimientos vivos.
vivos.
Medellín
Medellín 1986 - 1996
1986 - 1996

Miles
37

36

35

34

33

32

31

30
1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
Años
Nacimientos vivos
Cronología
Cronología de
de lala atención
atención en
en salud
salud en
en Medellín
Medellín 1986
1986 -- 1996
1996

Gráfico de dispersión o Nube de puntos


Utilizado para relacionar dos variables de naturaleza cuantitativa. Su uso es adecuado
cuando se trata de establecer si existe asociación entre dos variables tendiente a
establecer un modelo de regresión que explique la relación funcional de una variable
que se llamara dependiente en función de otra que será la independiente.

INGRESO EN FUNCIÓN DE LOS AÑOS DE ANTIGÜEDAD.


ODONTÓLOGOS DE LA CIUDAD DE MEDELLÍN. 1999

1000

800
Ingresos en diez miles

600

400

200

0
-10 0 10 20 30 40

Años de antiguedad

31
MEDIDAS DESCRIPTIVAS DE UNA MUESTRA

• Medidas de Tendencia Central

Son medidas que proporcionan información acerca de ciertos promedios o valores


centrales de nuestros datos. Las más usadas son: Media aritmética, Media
geométrica, Media armónica, La mediana y La moda. Realmente estas dos últimas
medidas, en el sentido estricto de la estadística son medidas de posición.

a). Media aritmética: Es la suma de todos los datos dividida entre el total de ellos,
esto es, si X1, X2,..., Xn son los datos, la media aritmética, denotada X , esta dado
n

∑ Xi
i =1
por X =
n
n

∑ Xini
i =1
Cuando hay datos repetidos, la media aritmética puede calcularse así: X = ,
n
donde ni es la frecuencia absoluta del dato Xi, muchos la llaman media aritmética
ponderada. La media aritmética también es llamada Promedio Aritmético Simple,
Valor Medio o simplemente Media.

Ejemplo:
Calcule la Media del conjunto de n = 5 determinaciones de muestra: 4, 6, 1, 2, 3; la
aplicación de la fórmula X nos da:
n

∑ Xi
i =1 4 + 6 +1+ 2 + 3
X= = = 3.2
n 5
Ahora si hubiesen datos repetidos el desarrollo de fórmula seria como sigue:

Distribución del tiempo de efecto


de una droga en 20 pacientes

Xi ni Xini
15 7 105
20 4 80
25 6 150
30 3 90
Total 20 425

∑ Xini
i =1 105 + 80 + 150 + 90
X= = = 21.25 Min.
n 20

Interpretación: En promedio el tiempo que tarda en hacer efecto la droga


suministrada es de 21.25 minutos.

32
Ventajas:
• Fácil comprensión
• Rapidez de cálculo
• Presenta estabilidad a las fluctuaciones al azar

Desventajas:
• Dependiendo de la naturaleza de los datos y de la muestra puede ser poco
confiable
• Es afectada por la presencia de valores extremos (ya sea pequeños o grandes), en
tal situación debe utilizarse otro tipo de promedio.

b). Media Geométrica: Se obtiene multiplicando todos los datos y luego se extrae
la raíz n-esima a tal producto, esto es, X1, X2, ..., Xn son los datos y n es el
tamaño de la muestra, entonces la media geométrica, que denotaremos X g, esta
dada por X g= n
X 1, X 2,..., Xn , esta fórmula es fácil de calcular cuando n ≤ 3, n ε
N, si n ≥ 4 se debe usar la siguiente fórmula:

• Se toma el logaritmo en Base 10 de cada uno de los datos


• Se suman los logaritmos de los datos dados en el paso anterior y se divide entre el
total de los datos
• Se extrae el antilogaritmo a la expresión anterior, el resultado será la media
geométrica

 n 
 ∑ LogXi 
Simbólicamente la fórmula será: X g= Antilog  i =1 
 n 
 
 

Ejemplo:
Considérese los números 5, 6, 9, 10, 15, 40, hallaremos la media aritmética y la media
geométrica.

∑ Xi
i =1 5 + 6 + 9 + 10 + 15 + 40
X = = = 14.16
n 6

 n 
 ∑ LogXi 
X g= Antilog  i =1  = 10.83 , así:
 n 
 
 

Log 5 = 0.6989 Log 6 = 0.7781 Log 9 = 0.9542


Log 10 = 1 Log 15 = 1.1760 Log 40 = 1.6020

33
 0.6989 + 0.7781 + 0.9542 + 1 + 1.1760 + 1.6020 
X g= Antilog   = 10.83
 6 

Cabe recordar, que se deben sumar todos los logaritmos y se divide por el número de
datos, para posteriormente extraer el antilogaritmo a dicho resultado.

Nota:
• Si n ≤ 3 y alguno de los datos es cero X g = 0
• Si n ≥ 4 y algún dato es negativo, no se puede hallar X g (Solución imaginaria)

La media geométrica es muy útil ya que esta no se encuentra influenciada por valores
extremos, es esta la que debe usar cuando estos valores se detectan dentro de un
conjunto de datos. Para efectos de calculo de esta medida a partir de cualquier
programa estadístico y del Excel, su interpretación es idéntica a la media aritmética.

c). Media armónica: Es el recíproco de la Media aritmética o en otras palabras, el


recíproco de los términos de la media aritmética. Su fórmula es: X armónica =
n n

n

∑ Xi
1 ∑ ( Xi)−1
i =1

Se usa generalmente cuando se van a promediar relaciones que son inversamente


proporcionales, como lo es el tiempo con relación a la velocidad.
La magnitud de la media armónica es menor que la media aritmética y geométrica, de
gran utilidad cuando la variable esta dada en forma de tasa.

d). Mediana: Es el valor tal que al menos el 50% de los valores están por encima de
él y el otro 50% de los valores están por debajo de este. Ocupa una posición
central en la serie cuando los datos están ordenados. Si el número de datos es
impar la mediana es el dato del centro. Si por el contrario el número de datos es
par la mediana puede ser cualquier valor intermedio central. La mediana se denota
con Me.

n +1
Posición de la Mediana:
2

Ejemplo:
Dada una serie de datos, calcular la mediana
3, 2, 7, 4, 9, 15, 15, 14, 13, 12, 4, 5, 7, 9, 7, 11, 8, 9, 6, 5, 10

n +1 21 + 1
Posición de la mediana: = = 11
2 2

Luego de obtener la posición de la mediana, el paso a seguir es ordenar los datos


en orden ascendente y, la mediana será el dato que ocupe la posición número 11:

2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 9, 9, 9, 10, 11, 12, 13, 14, 15, 15

34
Dato 11: Me = 8
Para el cálculo de la mediana con conjuntos pares de datos, trabajaremos con el
ejemplo anterior, suprimiendo uno de los números 15, hallar la mediana.

n +1 20 + 1
Posición de la mediana: = = 10.5
2 2
7+8
Me = = 7.5
2

Interpretación: Supongamos que los datos anteriores son edades de


un grupo de personas, la mediana se interpretaría entonces de la
siguiente manera: El 50% de las personas tienen edades
inferiores o iguales a 7.5 años, el otro 50% presentan edades
superiores a esta.

Características de la Mediana:
• Es menos aplicada que el promedio
• Se requiere para su cálculo ordenar los datos
• En series de datos poco simétricas con valores atípicos, esta es la medida ideal
• La mediana es realmente una medida de posición

Ventajas:
• No se deja influenciar por valores extremos
• Fácil de calcular

Desventajas:
• Se aplica generalmente en datos agrupados

e). Moda: Es el dato que presenta la frecuencia absoluta más alta o mayor, se
denota por Mo. Realmente al igual que la mediana es más una medida de posición.
Si la frecuencia de los datos es unitaria se dice que no existe moda. Si existen dos
datos que tienen las frecuencias más altas, se dice que el conjunto de datos es
Bimodal.

Ventajas:
• Es independiente de los valores extremos
• Es el dato más descriptivo de la serie

Desventajas:
• Puede no existir

• Medidas de Posición (Datos sin agrupar)

Son valores que dividen la distribución ordenada en cualquier número de partes.


Veremos entonces Los Cuartiles, Deciles y Percentiles.

a). Cuartiles: Son aquellos que dividen la distribución ordenada en


cuatro (4) partes iguales.

35
• Primer Cuartil: Es el valor en el cual o por debajo del cual se encuentra el
25% de todos los valores de la serie. Se denotará con Q1.

N +1
Posición Q1 =
4

• Segundo Cuartil: Es el valor en el cual o por debajo del cual se encuentra el


50% de los datos de la serie. Ocupa una posición central, es igual a la
mediana. Se denotará con Q2.
Entonces, Q2 = Me.

N +1
Posición Q2 =
2

• Tercer Cuartil: Es el valor en el cual o por debajo del cual se encuentra el


75% de todos los valores de la serie. Se denotará con Q3.

3( N + 1)
Posición Q3 =
4

Ejemplo:
Si hacemos una observación del tiempo transcurrido entre el contacto de un enfermo
contagioso y la aparición de la enfermedad, tenemos que los resultados son:

5, 5, 6, 6, 7, 8, 8, 8, 9, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17, 17, 18, 18, 20 días.

A partir de estos datos hallaremos el Primer (Q1), Segundo (Q2) y Tercer (Q3) Cuartil.

Primer cuartil (Q1):


24 + 1
Posición Q1 = = 6.25
4
Para hallar el primer cuartil, debemos promediar los datos de
8+8
los posiciones 6 y 7, así: Q1 = =8
2
Interpretación: El 25% de las personas se contagian en un tiempo inferior o igual a
los 8 días.

Segundo cuartil (Q2):


24 + 1
Posición Q2 = = 12.5
2
Para hallar el segundo cuartil, debemos promediar los datos de
11 + 11
los posiciones 12 y 13, así: Q2 = Me = = 11
2
Interpretación: El 50% de las personas en contacto con los enfermos, se contagian
a lo más en 11 días, el otro 50% están por encima de este valor.

36
Tercer cuartil (Q3):
3(24 + 1)
Posición Q3 = = 18.75
4
Para hallar el tercer cuartil, debemos promediar los datos de
15 + 16
los posiciones 18 y 19, así: Q3 = = 15.5
2
Interpretación: El 75% de las personas en contacto con los enfermos, adquirieron la
enfermedad en a lo más 15.5 días, el otro 25% se encuentran por encima de este
valor.

b). Deciles: Dividen la distribución ordenada en 10 partes iguales. Por ejemplo,


D1= Primer decil, es el valor en el cual o por debajo del cual se encuentra el 10%
de todos los valores de la serie.

Posiciones de los deciles:

N +1 N +1
D1 = D2 =
10 5

3( N + 1) 9( N + 1)
D3 = .......................... D9 =
10 10

Donde D1 es el primer decil y D9 es el noveno decil.

Siguiendo con el ejemplo anterior, hallaremos los D1 y D9.

24 + 1
D1 : Posición = = 2.5
10
5+6
Ahora, deberemos de promediar las posiciones 2 y 3, así: = 5.5
2

Interpretación: El 10% de las personas en contacto con los enfermos, se


contagiaron en un periodo inferior o igual a 5.5 días.

9(24 + 1)
D9: Posición = = 22.5
10
18 + 18
Ahora, deberemos de promediar los posiciones 22 y 23, así: = 18
2

c). Percentiles: Dividen la distribución ordenada en 100 partes iguales, así:

Percentil uno (P1)


N +1
Posición P1 =
100

37
99( N + 1)
Posición P99 =
100

• Medidas de Dispersión (Datos sin agrupar)

La variabilidad de un conjunto de datos es tan importante como la tendencia a


concentrarse en un valor particular. Los valores centrales por si solos, no describen
adecuadamente un conjunto de datos. Son necesarias otras medidas para poder
obtener información sobre la variabilidad o dispersión de los datos, esto es, medidas
que indiquen que tan esparcidos o distanciados están los datos con referencia a un
valor particular. Estas medidas son:

a). Rango: Diferencia existente entre el valor máximo y mínimo de la muestra.


Tiene la gran desventaja de que solo toma en cuenta los valores extremos,
olvidando los valores centrales de la serie de datos. Este se denotará con la letra
R. Con el siguiente ejemplo se mostrará la importancia relativa del rango y como
una sola medida de tendencia central y otra de posición no dan información alguna
(o si la dan es equivocada), al considerarlas como únicas fuentes de análisis.

Los registros diarios de temperaturas en grados centígrados en las ciudades A y B


durante la misma semana fueron.
Ciudad A: 16, 16, 18, 17, 22, 19, 18 X A = 18 Me = 18
Ciudad B: 16, 12, 15, 18, 21, 25, 19 X B = 18 Me = 18

Obsérvese que en ambas ciudades los promedios de temperatura y las medianas son
iguales, lo cual nos puede llevar a pensar erróneamente, que existe gran similitud en
la temperatura en ambas ciudades. Debe tenerse en cuenta que las medidas de
tendencia central y las de posición no nos dice nada sobre la variabilidad de los datos,
los cuales en el ejemplo siguiente presentan tal característica.

Hallemos el rango para nuestros datos:


RA= 22 - 16 = 6
RB= 25 - 12 = 13
Por lo tanto, podemos observar como el rango de temperatura en las ciudades es muy
diferente, pues vemos como en la Ciudad B la temperatura es más del doble que en la
Ciudad A, existiendo entonces una gran variabilidad.

b). Rango Intercuartil: Denotado por Q, esta dado por Q = Q3 - Q1,


donde Q3 es el tercer cuartil y Q1 el primer cuartil. Da una idea de la variabilidad
del 50% central, pero olvida los valores extremos.

c). Rango Semi-intercuartil ó Desviación Central: Se denota por Qd y esta dado


Q 3 − Q1
por Qd = , (es la mitad del rango intercuartilico)
2

No toma en consideración todos los valores de la distribución, ya que puede haber


valores inferiores a Q1 o superiores a Q3, que estén muy dispersos.

38
Ejemplo:
Los siguientes datos corresponden a una muestra de 40 familias sobre el número de
hijos en una región de Colombia.

Número de hijos por Frecuencia


familia
1 5
2 5
3 4
4 7
5 3
6 4
7 4
8 2
9 4
10 0
11 2

Se hallaran R, Q, Qd

R = 11 - 1 = 10

Interpretación: La diferencia entre el número máximo y mínimo de hijos en las


familias es de 10 hijos.

Q = Q3 - Q1
N +1 40 + 1 41
Q1 = = = = 10.25
4 4 4

2+3
Así se deben promediar las posiciones 10 y 11, = 2.5
2

3( N + 1)
Q3 = = 30.75
4
7+7
Q3 = =7
2
Ahora, Q3 - Q1 = 7 - 2.5 = 4.5

Interpretación: La variabilidad en el 50% central de los datos es de 4.5 hijos.

Q 3 − Q1 4.5
Qd = = = 2.25
2 2

Interpretación: Más o menos la mitad de las familias tienen una desviación con
respecto al 50% central de 2.25 hijos

39
d). Desviación Media: Para que una medida sea indicativa de la variabilidad debe
tenerse en cuenta todos los datos. La distancia de cada dato Xi con respecto a un
valor (medida de tendencia central), se llama Desviación ó error. Si tomamos
como medida central la media aritmética y sumamos los resultados obtenidos al
hallar la distancia de cada dato con respecto a la media aritmética la suma da cero.
k
Esto es, ∑i =1
(Xi- X ) = 0, luego esto no representa una medida de dispersión.

Sin embargo si consideramos la suma de la desviación de los datos con respecto a


la media aritmética en valor absoluto tenemos:
k

∑ Xi − X
i =1
Desviación Media (DM) =
n

Ejemplo:
Hallar la Desviación media de los siguientes números:
10, 12, 2, 9, 15, 6, 7, 8, 12, 9
La media de estos datos será X = 9
k

∑ Xi − X
i =1
DM = =
n

((10 − 9) + (12 − 3) + (2 − 9) + (9 − 9) + (15 − 9) + (6 − 9) + (7 − 9) + (8 − 9) + (12 − 9) + (9 − 9))


10
= 2.6; se debe tener en cuenta que son valores absolutos

e). Varianza: Considera la posición de cada observación en relación con la media de


la muestra.

∑ ( Xi − X )
2

i =1
La varianza muestral esta dada por: S2 =
n −1

f). Desviación Estándar ó típica: Es la raíz cuadrada de la varianza, esto es:


n

∑ ( Xi − X )
2

i =1
S=
n −1

La desviación típica no es fácil de interpretar individualmente. Es muy significativo


para comparar conjuntos de datos que tengan las mismas unidades de medida. La
desviación estándar tiene la ventaja de considerar todos los datos en su cálculo. Se
utiliza cuando en la serie de observaciones la medida central elegida es la media
aritmética.

40
g). Coeficiente de Variación: Mide la variabilidad de un conjunto de datos. Es
utilizado básicamente para comparaciones de muestras. No tiene unidades, esta
S
dado por: CV = *100 (Se da en porcentaje)
X

• Coeficientes

Los coeficientes que veremos de Asimetría y Curtosis, se refieren a la forma


geométrica de la curva de frecuencias. Estos coeficientes se compararán con los de la
distribución normal, considerada la distribución más importante en la estadística y
cuya gráfica es llamada la Campana de Gauss.

• Coeficiente de Asimetría: Mide las desviaciones de nuestro conjunto de datos en


sentido horizontal con respecto a la normal, esto es, nos dice si la distribución de
nuestros datos es asimétrica a la derecha, a la izquierda, o en el mejor de los casos
simétrica.

El Coeficiente de Asimetría denotado por g1, esta dado por:


n

∑ ( Xi − X )
3

i =1
g1 =
nS 3

tras desarrollar la fórmula, el resultado de g1, nos indicará:


∗ Si g1 > 0, la curva es asimétrica a la derecha
∗ Si g1 < 0, la curva es asimétrica a la izquierda
∗ Si g1 =0, la curva es simétrica o normal

Otra forma alternativa de hallar el coeficiente de asimetría se debe a Pearson, quien


estableció que dicho coeficiente, puede hallarse utilizando la siguiente fórmula:

3( X − Me )
Cp =
S

41
Este coeficiente tiene la ventaja de utilizar la mediana, la cual es resistente a la
presencia de valores extremos. De allí podemos decir que, una curva con asimetría
entre -0.37 y +0.37 puede considerarse simétrica. Si dicho coeficiente es menor que -
1 ó mayor que 1, la asimetría será pronunciada.

Para el ejemplo que se ha venido desarrollando, sobre las horas-obrero para realizar
una tarea en específico, tenemos:

3( X − Me ) 3(117.8 − 117.5)
Cp = = = 0.059
S 15.01

Interpretación: Como CP se encuentra entre -0.37 y 0.37 existe simetría o


normalidad en los datos

• Coeficiente de Curtosis: Este al igual que el coeficiente de asimetría, se refiere a


la forma geométrica de la curva de frecuencias. Mide las frecuencias en sentido
vertical con respecto a la curva normal, esto es, nos dice si la curva es más
"puntiaguda" ó plana que la normal (grado de apuntamiento)

El coeficiente de curtosis se denota por g2 y esta dado por:


n

∑ ( Xi − X )
4

i =1
g2 =
nS 4
tras desarrollar la fórmula, el resultado de g2, nos indicará:
∗ Si g2 < 3, la curva es platicurtica (Aplanada)
∗ Si g2 > 3, la curva es leptocurtica (Delgada)
∗ Si g2 = 3, la curva es mesocurtica (Normal)

Una forma alternativa de hallar el coeficiente de curtosis, esta dado por:


Q
K= , donde
2(D 9 − D1)

Q = Es el rango intercuartilico
D9 = Es el noveno decil, y
D1 = Es el primer decil

El resultado obtenido con K, se comparará con 0.26, valor de la distribución normal.

42
0.26 -

∗ Si K < 0.26, la curva es platicurtica (Aplanada)


∗ Si K > 0.26, la curva es leptocurtica (Delgada)
∗ Si K = 0.26, la curva es mesocurtica (Normal)

Para el ejemplo que se ha venido desarrollando, sobre las horas-obrero para realizar
una tarea en específico, tenemos:

Q 23
K= = = 0.29
2(D 9 − D1) 2(138 − 98.25)

Interpretación: Como K > 0.26, esto es, 0.29 > 0.26, entonces la
curva es leptocurtica (delgada).

Notas a Tener Presente Sobre la Estadística Descriptiva

1. Si una variable es de naturaleza cuantitativa, la representación gráfica más


apropiada para observar su comportamiento es el Histograma de Frecuencias
2. Cuando una variable es de naturaleza cuantitativa medida a nivel de razón, el
indicador de tendencia central más apropiado es la Media Aritmética
3. Siempre las estadísticas de resumen deben expresarse en sus respectivas unidades
de medida
4. La media aritmética debe encontrase en el rango de variación de los datos de la
variable
5. Los cuartiles, deciles y percentiles, deben estar en el rango de distribución de la
variable
6. La única estadística de resumen que no lleva unidad de medida es el Coeficiente
de Variación
7. La Desviación Estándar o Típica siempre será un número no negativo

43
9 9 .7 %

95%

µ - 3σ µ -σ µ µ + σ µ + 3σ
µ - 2σ µ + 2σ

En el intervalo µ ± σ se encuentra el 68.26% de los datos. En el intervalo µ ± 2σ se


encuentra el 95% de los datos. En µ ± 3σ se encuentra el 99.72%

Luego de realizar el abordaje por las generalidades de la estadística descriptiva, se


procederá a partir de una base de datos a ejemplificar la obtención de estas medidas
con la ayuda del SPSS, así como la generación de tablas y gráficos a partir de esta
herramienta. Para ello se tomará una base de datos sobre factores de riesgo en
personas hipertensas, investigación realizada por la Facultad de Enfermería de la
Universidad de Antioquia.

Antes de obtener las estadísticas descriptivas propiamente dichas, es aconsejable


realizar una exploración de los datos, con el fin de poder ir detectando “basura” en los
datos, datos ilógicos, atípicos o los datos faltantes dentro de las bases de datos,
ademas de poder determinar si las variables cuantitativas siguen o no un
comportamiento normal. Para realizar esto, se procede a explorar los datos en el
menú Analizar – Estadísticas descriptivas – Explorar..., con lo cual aparece el
siguiente cuadro de dialogo:

44
En el cuadro de variable dependiente se debe de colocar la variable numérica, y si es
necesario en la variable factor se puede colocar una variable cualitativa categórica para
poder determinar el comportamiento de la variable dependiente de acuerdo a las
categorías de la variable cualitativa. Luego, se debe de dar clic en el botón
estadísticas, para determinar que medidas de resumen desea; y en el botón gráficos
se puede seleccionar el gráfico con test de normalidad para determinar si la variable
cuantitativa sigue un comportamiento normal, en su conjunto o por cada categoría de
la variable cualitativa. Una vez que pulse continuar y Aceptar, se mostraran en la
ventana de resultados las estadísticas de resumen, las pruebas y los gráficos de
normalidad.

Si no encuentran inconsistencias en los datos se puede proceder a realizar las


estadísticas descriptivas de las variables. Para ello, se debe de ir a Analizar –
Estadísticas descriptivas – Frecuencias..., en el cuadro que aparece:

45
Puede seleccionar la o las variables
cuantitativas a ser resumidas, una
vez que las halla pasado del cuadro
de la izquierda al de la derecha, pulse
en el botón estadísticas y en el
cuadro que emerge seleccione las
estadísticas de resumen que desee
obtener, por ultimo en el botón
gráficos, puede seleccionar entre un
gráfico de barras simples, pastel o
histograma según la variable.
Recuerde que si desea tener un
registro de todas las operaciones que
realice, para posteriormente no
repetir los procesos puede Pegar los
comandos en la ventana de sintaxis.

Una vez hecho esto y de que halla


pulsado aceptar, se abre la ventana
de resultados con una salida como la
siguiente:

46
Si se quisiera editar esta información, se pudiera hacer de forma muy simple, para ello
pulse doble clic en el cuadro (ventana de resultados), con lo cual se activara el cuadro
para poder ser pivotado (editado).

Ahora, la diferencia entre esta orden (frecuencias...) y la orden descriptivas..., radica


fundamentalmente en que la segunda no genera una tabla de frecuencias, además de
no generar algunas medidas de resumen como la mediana.

Si además de la tabla de frecuencias, se


deseara crear un gráfico para representar
los datos, el procedimiento es como sigue:
en el menú gráficos se debe seleccionar el
tipo de gráfico deseado, para efectos de
ejemplificar se realizará un gráfico de
sectores. Luego de seleccionar en el menú
gráficos la opción Pie (sectores), aparece el
siguiente cuadro de dialogo. En el debe
seleccionar Resúmenes para grupos de
casos y dar clic en definir. Con lo cual emerge el cuadro de dialogo siguiente:

En este debe definir como desea


que se consoliden los daros si en
valores absolutos o en
porcentajes, posteriormente se
debe pasar del lateral izquierdo
la variable al cajón de la derecha
rotulado con Definir sectores
por:, para este caso se paso la
variable sexo, luego dar clic en
Aceptar y el gráfico aparecerá en
la ventana de resultados.

47
Si se quisiera editar (pivotar)
el gráfico, se da doble clic en el
(en la ventana de resultados),
con lo cual se abre una
ventana nueva llamada editor
de gráficos. Allí se podrán
cambiar los colores, los textos,
las líneas, dependiendo del tipo
de gráficos colocar efectos de
tercera dimensión, entre otros.
Para ello se cuenta con una
barra de herramientas que
facilita todas estas
operaciones.

donde,

1. Trama de relleno 7. Estilo de la interpolación


2. Color 8. Texto
3. Tipo de marca o viñeta 9. Rotación 3-D
4. Estilo de la línea 10. Invertir ejes
5. Estilo de la barra 11. Sacar porción
6. Estilo del rotulo de la barra 12. Romper líneas de valores perdidos
13. Opciones del gráfico

3. REGRESIÓN Y CORRELACIÓN

La existencia de algún grado de asociación entre las variables nos dirán que están
correlacionadas. Se considerara una relación funcional entre las variables X e Y,
suponiendo que X toma valores asignados o controlados por el investigador e Y
depende de X a traves de la relación Y = F(x).

Regresión Lineal Simple:

El análisis se regresión suele realizarse con la intención de predecir el comportamiento


de algún fenómeno. Se parte de una variable independiente (X), para predecir una
variable dependiente (Y). Dichas variables en el análisis de regresión y correlación son
cuantitativas.

48
La pregunta que surge entonces es como podemos establecer este tipo de
dependencia?. Dado un valor X, es posible hallar el valor correspondiente de Y,
mediante una ecuación definida por Y = F(x), si la función es de la forma Y = α + βx ,
se trata de una regresión lineal.

En la practica se cuenta como primer indicio para saber si existe alguna relación lineal
entre las variables es el análisis del diagrama de dispersión o nube de puntos. Este
consiste en una gráfica donde se relacionan las puntuaciones de una muestra en dos
variables, o dicho de otra forma, se obtiene graficando los pares (Xi, Yi) en los ejes
cartesianos.

200

180
Tensión Arterial Sistólica

160

140

120

100
40 50 60 70 80 90 100

Peso en Kgs

Nótese que los valores de la presión sistólica aumentan a medida que aumenta el peso
de las personas. La idea central de este tipo de gráficos es que los diferentes puntos
tiendan a colocarse sobre la línea diagonal. Esta información así colocada permite
pensar que las dos variables están correlacionadas linealmente.

Después de observar la nube de puntos, se debe hallar la ecuación de la recta que


mejor se “ajuste” a los puntos o datos, O sea, que la que mejor represente la relación
existente entre las variables. Para hallar la ecuación de la recta se utiliza el método de
los mínimos cuadrados. Debemos entonces asumir que la relación entre X, Y, no es
una relación lineal perfecta ya que Y es aleatoria, cuyos valores reales son
impredecibles.

Las formas que pueden tomar este gráfico son las siguientes:

49
Y Y Si b es > 0, o sea positivo, nos
indica que hay una relación entre
b>0 b<0
las variables y que esta es positiva
o directa; si por el contrario b es <
0, nos indica que la relación es
0 X 0 X
negativa o inversa; pero si b es
igual a 0, nos indica que las dos
Y variables están incorrelacionadas,
o sea que no existe asociación
entre X e Y.
b=0

0 X

El valor de Y puede expresarse como Y = α + βx + ei , donde α y β son parámetros


desconocidos y ei es el error que se comete al querer expresar el valor de Y mediante
una relación lineal con X (error aleatorio). Esta ecuación es el modelo poblacional,
pero para que este modelo sea adecuado desde el punto de vista estadístico es
necesario que se cumpla con las siguientes asunciones:
a. Y es una variable aleatoria cuyo valor depende de X, y los valores de X
están controlados por el investigador
b. Los errores son independientes y tienen una distribución normal.

El modelo de regresión lineal simple cuenta con los siguientes parámetros:


a. El parámetro α que representa el intercepto sobre el eje vertical, o sea, es
el valor medio de Y cuando X vale 0. este valor no tiene interpretación
práctica sino en regresiones donde X puede tomar el valor 0 o valores
cercanos a 0
b. El parámetro β es la pendiente de la recta de regresión, y expresa en cuanto
aumenta o disminuye Y por cada unidad de cambio en X

El modelo muestral conocido como ecuación de regresión muestral o ecuación de


regresión ajustada queda entonces yˆ = αˆ + βˆx

Formulas para hallar α y β.

n
 n  n 
n∑ XiYi −  ∑ Xi  ∑ Yi 
 i =1  i =1 
βˆ =
i =1
2
Estimador de la pendiente
n
 n 
n∑ X i −  ∑ Xi 
2

i =1  i =1 

50
n n

∑ Yi − βˆ ∑ Xi
i =1 i =1
αˆ = = yˆ = β̂x Estimador del intercepto
n

Correlación Simple:

Estudia la asociación entre variable cuantitativas con el fin de dar medida de esta
asociación sin distinguir entre variables dependientes e independientes. Si solo
participan dos variables la correlación será simple, si participan mas de 2 será
múltiple. Para medir la correlación se utilizan varios coeficientes, utilizaremos el
coeficiente de correlación de pearson r (lease ro). Este coeficiente siempre esta entre
–1 y 1, esto es, -1 ≤ r ≤ 1. si r > 0 y ≤ 1, diremos que la correlación es positiva; si r es
< 0 la correlación es negativa; si r = 0 las variables están incorrelacionadas.

Formula para hallar r.


n
 n  n 
n∑ XiYi −  ∑ Xi  ∑ Yi 
i =1  i =1  i =1 
r= 1/ 2
 n 2  2

 n X 2 −  Xi   n Y 2 −  Yi   
n

  ∑ i

∑ 
 ∑ i
  ∑   
 i =1 i =1 
   

El coeficiente de correlación no tiene una interpretación mas directa en la regresión,


pero su cuadrado r2, llamado el coeficiente de determinación indica la variación en Y
debido a su relación con X. En otras palabras, en cuanto explica X la variabilidad en Y
porcentualmente. Por lo tanto r2 varia entre 0 y 1 ó entre 0 y 100%. Esta medida es
importante para determinar la precisión en un modelo de regresión.

Para el calculo de estos estimadores por medio del spss, se debe de seguir los
siguientes pasos:
1. En analizar, dar clic en Regresión y allí seleccionar Lineal

51
2. En el cuadro que aparece, colocar en dependiente, la variable dependiente (Y) y en
independientes, colocar la variable independiente (X).

3. Posteriormente de clic en el botón estadísticas. En este se podrá ajustar el modelo,


obtener los coeficientes de regresión estimados, sus respectivos intervalos de
confianza y el coeficiente de durbin-watson, este último permite evaluar uno de los
supuestos del modelo de regresión, el cual es que los errores sean
incorrelacionados.

4. Una vez que se haya terminado el proceso de seleccionar las opciones adecuadas,
de clic en aceptar, aparecerá en la ventana de resultados la siguiente información:

52
Model Summaryb

Std. Error of Durbin-W


Model R R Square the Estimate atson
1 ,561a ,315 16,20 2,198
a. Predictors: (Constant), Peso en Kgs
b. Dependent Variable: Tensión Arterial Sistólica

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 7978,987 1 7978,987 30,388 ,000a
Residual 17329,881 66 262,574
Total 25308,868 67
a. Predictors: (Constant), Peso en Kgs
b. Dependent Variable: Tensión Arterial Sistólica

Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts 95% Confidence Interval for B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) 76,397 11,712 6,523 ,000 53,014 99,781
Peso en Kgs ,905 ,164 ,561 5,512 ,000 ,577 1,233
a. Dependent Variable: Tensión Arterial Sistólica

Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N


Predicted Value 121,65 165,09 140,04 10,91 68
Residual -36,99 44,77 1,59E-14 16,08 68
Std. Predicted Value -1,686 2,295 ,000 1,000 68
Std. Residual -2,283 2,763 ,000 ,993 68
a. Dependent Variable: Tensión Arterial Sistólica

Interpretación:

Al observar el resumen del modelo de regresión, se tiene que la presión arterial


sistólica y el peso están correlacionados, o sea existe asociación entre las dos
variables. Pero al obtener el coeficiente de determinación (r2), se encuentra que el
peso explica en muy poco la variabilidad existente en la presión arterial sistólica,
puesto que el peso explica solo en un 31.5% la variabilidad existente en la presión
arterial sistólica, el resto es explicado por otros factores (multicausalidad).

53
Para explicar la real relación de la presión y el peso, se evalua la prueba de hipótesis
para β, en la cual las hipótesis constitutivas son:
Ho: X e Y no están relacionadas linealmente → β1 = 0
Ha: X e Y están relacionadas linealmente → β1 ≠ 0

Esta valoración se logra a partir del análisis de varianza. Para el ejemplo en cuestión,
se observa que el valor P para β1 es 0.000, lo cual indica que el peso y la presión
sistólica están relacionadas linealmente.

Así mismo al observar el coeficiente de durbin-watson se puede determinar si los


errores son correlacionados o no, si estos son correlacionados el modelo no es
adecuado. Para dicho análisis se toman valores de 2 ó cercanos a 2 para poder
decidir. Así, si durbin es 2 ó cercano indica que no hay evidencias significativas para
afirmar que los errores son correlacionados. Las hipótesis para este coeficiente son:
Ho: Los errores son independientes (No correlacionados)
Ha: Los errores son dependientes (correlacionados)

Para el ejemplo en cuestión, al ser el coeficiente de durbin de 2.198, cercano a 2, no


existen evidencias significativas para rechazar Ho.

Por ultimo al analizar los coeficientes β, se observa como el valor P para β1 (Peso) es
estadísticamente significativo, P=0.0000, lo cual indica que existen evidencias
estadísticamente significas que el coeficiente β1 es diferente de 0, esto se corrobora al
obtener los intervalos de confianza, los cuales no pasan por el cero. en caso que este
supuesto no se cumpla, esto indica que el modelo no es el mas apropiado para
expresar el comportamiento de la variable dependiente.

El modelo de regresión que surge entonces para predecir el comportamiento de la


presión sistólica a partir del peso es: y = 76.397 + 0.905 x , donde:
ˆ
β0 (76.397), indica que el valor medio de la presión es 76.397 cuando el peso es cero.
Lo cual es ilógico, como se menciono en un apartado anterior de este capitulo, puesto
que la variable peso no puede tomar valores de 0.
β1 (0.905), indica que el valor estimado del coeficiente de regresión es 0.905, y se
tiene una confianza del 95% de que ese valor se encuentra entre 0.577 y 1.233. este
valor de la pendiente, indica además que por cada kilogramo que aumente el peso de
la persona, la presión sistólica aumentará en un 0.905.

54
4. MANEJO DEL SPSS

En todo proceso investigativo resulta necesario realizar algunas operaciones con los
datos, tales como seleccionar un conjunto especifico de datos, calcular valores a partir
de otras variables, recodificar o reagrupar la información, ordenar y resumir la
información.

Este apartado se centrará en estos aspectos con el fin de poder manejar con mayor
profundidad la herramienta SPSS.

El primer paso es poder abrir bases de datos realizadas en otros programas como
Excel, Dbase, entre otros. Para ello, se procede a ir al Menú File – Open –Data.
Posteriormente se abre el cuadro de dialogo Abrir, allí podrá seleccionar la carpeta
(directorio) donde se encuentra el archivo en el cuadro combinado Buscar en:, en la
opción Tipo de archivos podrá seleccionar el tipo de formato que tiene el archivo que
desea abrir, por ultimo de clic en abrir. En algunas ocasiones cuando SPSS abre el
archivo crea una variable nueva llamada d_r, esta variable puede ser borrara por el
visor de variables.

Una vez abierta la base de datos, podrá guardarla en la carpeta que usted desee,
recuerde que para los nombres de las variables de spss, estas no podrán ser de mas
de ocho caracteres, y deberán ser en minúsculas.

Transformación de los datos:

Una vez introducidos los datos, podemos hacer ciertas transformaciones de los mismos
con la finalidad de crear nuevas variables o recodificar valores para variables ya
definidas. Revisaremos aquí las vías para la recodificación y para la creación de nuevas
variables, en cálculos realizados a partir de los mismos.

55
Para Calcular variables a partir de otras, proceda a realizar los siguientes pasos:
1. Elija Calcular del menú Transformar

2. En el cuadro que aparece, de el nombre de la nueva variable a calcular en el lateral


izquierdo (Target variable), puede ser el nombre de una nueva variable o el de una
ya existente, si desea puede colocarle etiqueta y definirle tipo de datos en el botón
Type & Label. En el recuadro de la derecha debe de colocar las variables y las
constantes necesarias para calcular la nueva variable. Para construir la expresión
en el recuadro de la derecha puede pegar las funciones de la lista de funciones y
rellenar los parámetros, además tenga presente que las constantes de texto o
cadena deben estar entre comillas “ “, y que para nuevas variables de cadena
también deberá seleccionar el tipo y la etiqueta para especificar el tipo de datos.
Así para calcular por ejemplo el índice de masa corporal, en el lado izquierdo se
nombraría la nueva variable como IMC, y en el panel derecho la expresión quedaría
así: (peso/(talla*talla))

Recodificación de valores.

Los valores de daos se pueden


modificar mediante recodificación.
Esto es particularmente útil para
agrupar o combinar categorías. Se
pueden recodificar los valores de
variables existentes o crear nuevas
variables basándose en los valores
recodificados de variables
existentes.

Recodificar en la misma variable:


Este proceso reasigna los valores de
variables existentes o agrupa rangos
de valores existentes en nuevos valores. Para recodificar los valores de una variable,

56
elija el menú Into same variables del comando Recode del menú Transform.
Seleccione la(s) variable(s) que desea recodificar. Si se seleccionan múltiples
variables, deberán ser del mismo tipo (numéricas o de cadena); pulse en valores
antiguos o nuevos y especifique como recodificar los valores, en este cuadro de dialogo
se pueden definir los valores que se van a recodificar. Todas las especificaciones de
valores deben pertenecer al mismo tipo de datos que las variables seleccionadas en el
cuadro de dialogo principal.

Valor antiguo: El valor o valores que se van a recodificar. Se pueden recodificar


valores individuales, rangos de valores y valores perdidos.
Valor nuevo: El valor individual en el que se recodifica cada valor antiguo o rango de
valores. Se puede introducir un valor o asignar el valor perdido por el sistema.
Antiguo→Nuevo: la lista de valores que se van a utilizar para recodificar la variable o
variables. Se pueden añadir, modificar y borrar especificaciones de la lista

Recodificar en distintas variables: Este proceso reasigna los valores de variables


existentes o agrupa rangos de valores existentes en nuevos valores para una nueva
variable. Para recodificar los valores de una variable, elija el menú Into different
variables del comando Recode del menú Transform. Seleccione la(s) variable(s) que
desea recodificar. Si se seleccionan múltiples variables, deberán ser del mismo tipo
(numéricas o de cadena); introduzca el nombre de una nueva variable de los
resultados para cada nueva variable (Output variable) y pulse en Cambiar; pulse en
valores antiguos o nuevos y especifique como recodificar los valores, en este cuadro
de dialogo se pueden definir los valores que se van a recodificar.

57
Una forma alternativa para
reagrupar los valores de una
variable es mediante la opción de
Categorize del menú Transform.
Esta forma de recategorizar es
automáticamente realizada por el
SPSS, a partir del número de
categorías definidos por el
investigador. Para ello, del cuadro
de la izquierda pase la variable
para el de la derecha y en el
cuadro Número de categorías
(number categories) colocar el
numero de categorías deseado. En términos generales este tipo de categorización se
obtiene a partir de los cuartiles, deciles o mediana.

Seleccionar casos.

Este proporciona varios métodos para seleccionar un subgrupo de casos basados en los
criterios que incluyen variables y expresiones complejas. También se puede
seleccionar una muestra aleatoria de casos. Los criterios usados para definir un
subgrupo pueden incluir: Valores y rangos de variables, rangos de fechas, Numero de
casos (filas), expresiones aritméticas, expresiones lógicas y funciones.

58
Para seleccionar los casos vaya al Menú Datos – Seleccionar casos..., seleccione uno
de los métodos de selección de casos y especifique los criterios para la selección de los
mismos.

Puede filtrar o eliminar casos que no reúnen los criterios de selección. Los casos
filtrado permanecen en el archivo de datos pero se excluyen del análisis. SPSS crea
una variable de filtro, filter_$, para indicar el estado del filtro. Los casos seleccionados
tienen un valor de 1; los casos filtrados tienen un valor de 0. los casos filtrados
también están indicados con una barra transversal sobre el número de la fila en el
editor de datos. Para desactivar el filtrado e incluir todos los casos en el análisis
seleccione todos los casos.

Para seleccionar los casos por un criterio en especifico, por ejemplo para seleccionar el
sexo femenino, debe seleccionar la opción If condition is satisfied (si se satisface la
condición), y dar clic en el botón If. En el cuadro que aparece, del cuadro de la
izquierda pasar la variable y colocar cual es el criterio, si el criterio es cadena o
carácter, este debe de ir encomillado, si es numérico no; así para seleccionar a las
mujeres en el cuadro de la derecha debe de aparecer algo similar a esto
Sexo=”Femenino”, pero si las categorías estuviesen numéricas y femenino fuera el
uno, el criterio cambiaria a Sexo=1. la mayoría de las expresiones condicionales
utilizan uno o mas de los seis operadores relacionales (<, >, <=, >=, =, ≠) del teclado
de la calculadora. Estas expresiones condicionales pueden incluir nombres de
variables, constantes, operadores aritméticos, funciones numéricas y otros variables
lógicas y operadores relacionales.

Si en vez de filtrar los datos, escoge eliminarlos, los registros que no cumplan la
condición se borraran, y si después de haberlos eliminado, guarda los cambios en el
archivo de datos de trabajo (con el mismo nombre), entonces no podrá recuperar los
casos eliminados.

59
Seleccionar casos: Muestra aleatoria.

Este cuadro de dialogo le permite seleccionar una muestra aleatoria basándose en un


porcentaje aproximado o en un número exacto de casos.

Aproximadamente: SPSS genera una muestra aleatoria con el porcentaje aproximado


de casos especificado. Este porcentaje realmente resulta aproximado, y en algunos
casos solo se acerca al porcentaje especificado.

Exactamente: Un número de casos especificado por el usuario.

60
5. INFERENCIA ESTADÍSTICA

La inferencia estadística es el procedimiento por medio del cuál, se llega a conclusiones


acerca de las características de una población mediante los resultados que se obtienen
a partir de una muestra extraída de esa población.

La inferencia estadística es entonces un proceso que nos permite emitir juicios


probabilísticos sobre una población cuando solo disponemos de la información parcial
contenida en una muestra.

La inferencia estadística tiene metodologías confiables que permiten analizar si la


muestra tiene las mismas características de la población. Si esto ocurre podemos
estimar por medio de una medida muestral (estadístico) un parámetro infiriendo sus
resultados a la población.

Los procedimientos de inferencia estadística permiten inferir respecto a las poblaciones


muestreadas (siempre y cuando se hayan utilizado los métodos de muestreo
correctos). Sólo cuando la población objetivo (N) y la población muestreada (n) son las
mismas, se pueden utilizar los procedimientos de inferencia estadística para llegar a
conclusiones acerca de la población objetivo (N).

La inferencia estadística se divide en dos problemas fundamentales: Estimación de


parámetros y pruebas de hipótesis estadísticas. A la vez, la teoría de la estimación se
subdivide en estimación puntual y estimación por intervalos de confianza.

ESTIMACIÓN DE PARAMETROS

El problema de especificar el valor de un parámetro es un problema de estimación


puntual (hallar un número o un punto sobre la recta real). El problema de especificar
la precisión de una estimación es un problema de estimación de intervalos de
confianza. El problema de decidir si se acepta o se rechaza un valor dado del
parámetro es un problema de pruebas de hipótesis.

• ESTIMACIÓN PUNTUAL

Es la escogencia de un estimador que proporcione un valor tan cerca como sea posible
al valor esperado del parámetro. La situación ideal seria disponer de un estadístico tal
que su valor, para todas las muestras, fuese igual al valor del parámetro. Dicho
estadístico no existe. Por lo tanto, la búsqueda de estadísticos debe orientarse hacia
aquellos que proporcionen valores razonablemente cercanos al valor real del
parámetro.

Una estimación puntual es una regla o fórmula que nos dice como calcular una
estimación numérica con base en las determinaciones contenidas en una muestra. El
número que resulta del cálculo es una estimación puntual.

La estimación puntual es la que se utilizó en la estadística descriptiva, cuando


calculamos las medidas (tendencia central, posición y variación).

61
Los parámetros que se estiman más frecuentemente:

µ buen estimado es X (media muestral)


δ² buen estimador es S² (varianza muestral)
δ buen estimador es S (desviación muestral)
P buen estimador es P (proporción muestral)

• ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Un estimador de intervalo es una regla, casi siempre expresada como una fórmula, que
nos permite calcular dos puntos a partir de los datos de la muestra. El objetivo es
formar un intervalo que contenga a el parámetro con un grado de confianza elevado.

Una estimación por intervalos de confianza consta de dos valores numéricos que
definen un intervalo que con un grado de confianza, se considera incluye el parámetro
que se está estimando (µ,δ²,P)

Este coeficiente de confianza para un intervalo es la probabilidad (antes del muestreo)


de que el intervalo aleatorio contenga el parámetro estimado. Es así como, si un
intervalo de confianza tiene un coeficiente de confianza igual a 0.95, decimos que es
un intervalo de confianza del 95%. Si el coeficiente de confianza es 0.99, decimos que
el intervalo de confianza es del 99%.

La confianza alta o probabilidad alta se escribe como 1 - α y se denomina coeficiente,


grado o nivel de confianza del intervalo. α se denomina como grado de significación.

Las probabilidades o confianzas 1 - α más utilizadas son:

0.90 = 90%
0.95 = 95%
0.99 = 99%

Una confianza del 95%, por ejemplo, significa que de cada 100 intervalos construidos a
partir de 100 muestras diferentes, encontramos que 95 de ellos contienen el
parámetro y los otros no lo contienen. En la práctica, no se tiene más que una
muestra, y el intervalo de confianza construido a partir de esa muestra contiene el
valor del parámetro o no lo contiene. Como no es posible conocer cual alternativa es
la correcta, se asume o se confía en que el intervalo se encuentra entre aquellos 95
que contienen el valor real del parámetro cada vez que se construyan 100 en las
mismas condiciones.

• Teorema Central del Límite


La esencia del teorema central del límite radica en que la X tiene una distribución
aproximadamente normal si el tamaño de la muestra es grande. Sea X una variable
aleatoria de una población cualquiera con media µ y varianza δ2 y sea X la media de
la muestra de tamaño n extraída de esa población. Entonces la variable aleatoria Z =
n * ( X − µ ) / δ tiene una distribución que se aproxima a la normal estandarizada
cuando n tiende a infinito.

62
Se supone que la aproximación es suficientemente buena cuando n ≥ 30. A la
distribución normal se le llama a veces distribución Z.

Intervalos de confianza para la media de una población (µ)

a). Población normal con varianza δ2 desconocida

La estimación de la media poblacional µ por intervalos de confianza consiste en el


cálculo de dos límites aleatorios a y b, tales que el evento a < µ < b tenga una
probabilidad alta de ocurrencia. Para hallar a y b se debe razonar de la forma
siguiente: si la población es normal, la media muestral X también se distribuye como
una normal.

Normalmente el valor puntual X = µ (Media muestral es igual a media poblacional),


pero no siempre el valor es exacto debido a errores en el muestreo o porque la
población y muestra tienen algunas diferencias. Por lo tanto hayamos con un grado de
confianza de que µ (media real) esté en un intervalo dado.

 δ 
Cálculo del intervalo de confianza: X ± Zα/2  
 n

Esta fórmula cuenta con cuatro variables. Los valores de la X y n se obtienen a partir
de la muestra. en algunas investigaciones es posible que se conozca el valor de δ.
Nos queda por calcular el valor de Zα/2. Este valor se obtiene de la tabla de la
distribución normal conociendo el valor de 1 - α.

Los valores de la curva normal estandarizada (Z) para cada grado de confianza son los
siguientes:

1-α Z
0.90 = 90% 1.645
0.95 = 95% 1.96
0.99 = 99% 2.58

Un intervalo dado me dice que se tiene un 100(1 - α) de confianza de que la media de


la población está entre (a y b) valores de la variable.

b). Muestras grandes, cualquier población y varianza δ2 desconocida


para cualquier población normal o no normal sabemos por el teorema central del
límite, que la variable Z = n * ( X − µ ) / δ tiene una distribución aproximadamente
normal y la aproximación es mejor a medida que crece n. En estadística se considera
que n es grande, para asumir normalidad, cuando n ≥ 30. Además se presenta un
problema adicional, y es el de que desconocemos el valor de δ, pero se puede estimar
δ mediante S cuando la muestra es grande, ya que S es un estimador consistente para
δ.
 S 
Es así como el cálculo del intervalo de confianza sería: X ± Zα/2  .
 n

63
c). Muestras pequeñas, población normal y varianza δ2 desconocida
hay ocasiones en que las restricciones de tiempo o costo pueden restringir el número
de observaciones de muestra que se pueden obtener para estimar µ. En el caso de
muestras pequeñas n < 30, surgen dos problemas. El primero consiste en que el
teorema central del límite solo se aplica a muestras grandes, no se puede suponer que
la distribución de muestreo de X es aproximadamente normal; el segundo problema
radica en que la desviación estándar de la muestra S podría no ser una aproximación
satisfactoria a la desviación estándar de la población δ si el tamaño de la muestra es
pequeño.

Para lo anteriormente planteado se pueden aplicar técnicas de estimación basadas en


muestras pequeñas si podemos suponer que la población de la cual de seleccionó la
muestra tiene una distribución normal aproximada. De esta forma para muestras
pequeñas el cociente T = n * ( X − µ ) / S no sigue una distribución normal sino una
distribución t de student. Así, la forma general de un intervalo de confianza de
muestra pequeña para µ con base en la distribución t de student será como sigue:

 S 
X ± tα/2   ; donde la distribución de t se basa en (n - 1) grados de libertad.
 n

Intervalos de confianza para la diferencia de medias (µ1-µ2)


Un problema frecuente en estadística es el de comparar dos muestras independientes
obtenidas de la misma población o de poblaciones diferentes. Por ejemplo dos
procedimientos de producción para la misma clase de articulo. De esta forma el
intervalo del (1-α)100% de confianza para la diferencia de medias µ1 - µ2 de las dos
poblaciones será:

( X 1- X 2) ± Zα/2 * δ 12 / n1 + δ 22 / n2
En este punto debemos considerar varios casos dependiendo del conocimiento que
tengamos de las varianzas δ 1 y δ 2 y de los tamaños muestrales n1 y n2.
2 2

a). Varianzas desconocidas y n1 y n2 grandes


El intervalo ( X 1- X 2) ± Zα/2 * δ 12 / n1 + δ 22 / n2 , es aplicable únicamente cuando se
conocen δ 1 y δ 2 lo cual ocurre en muy raras ocasiones. Si las varianzas poblaciones
2 2

son desconocidas pero los tamaños muestrales son grandes (n1 ≥ 30 y n2 ≥ 30),
podemos reemplazar δ 1 por S1 y δ 2 por
2 2 2
S 22 en el intervalo sin afectar
apreciablemente la confiabilidad del intervalo.

Si un intervalo de confianza contiene el cero, se puede concluir que las medias de las
dos poblaciones son iguales. Si el intervalo es negativo, la media de la población B es
superior a la dieta de la población A. Si el intervalo es positivo, la media de la
población A es superior a la media de la población B.

64
b). Varianzas iguales pero desconocidas y n1 y n2 pequeñas
Este es el caso más común en las situaciones practicas. Con base en lo anterior
tenemos que un intervalo para muestras pequeñas debe calcularse a partir de la
distribución t de student, así:

( X 1- X 2) ± t1-α/2 * Sp 1 / n1 + 1 / n2 ; donde Sp es igual a δ2.


Aunque las varianzas sean diferentes, si las poblaciones son normales y n1 = n2, el
intervalo anterior nos proporciona un resultado muy satisfactorio. De aquí que en el
diseño de los experimentos debe tratarse, en lo posible, de tomar muestras de igual
tamaño.

c). Varianzas desiguales desconocidas y muestras pequeñas


Cuando las muestras son pequeñas y δ 1 ≠ δ 2 , no existen intervalos exactos para
2 2

estimar las diferencias de medias. En este caso se usan métodos aproximados


conocidos como "problema de Behrens-Fisher"y una de las soluciones más seguidas es
la sugerida por Smith y Satterthwaite, que consiste en calcular el intervalo de la
siguiente forma:

( X 1- X 2) ± t1-α/2 * S12 / n1 + S 22 / n2 ; en donde el número de grados de libertad de la


variable t esta dado por:

g.l. =
(S 1
2
/ n1 + S 22 / n2 )
2

(S
1
2
/ n1 ) (
2
S2 /n
+ 2 2
)
2

n1 − 1 n2 − 1

En términos generales la decisión que se tome con las pruebas de hipótesis debe ser la
misma a la que se llegue con los intervalos de confianza. Así, si en la diferencia de
medias el intervalo de confianza es positivo en ambos limites, quiere decir que no
pasa por cero, se puede decir que hay diferencias estadísticamente significativas y
dicha diferencias son a favor de la población 1, o sea que el promedio de la población 1
es significativamente mayor que el de la población 2; si por el contrario ambos limites
son negativos y mayores de cero, existen diferencias estadísticamente significativas y
dichas diferencias son a favor de la población 2, o sea que el promedio de la población
2 es significativamente mayor que el de la población 1. si el intervalo contiene el cero
se puede decir que no existen diferencias estadísticamente significativas, esto es, los
promedios son iguales.

Intervalos de confianza para la diferencia de medias en muestras pareadas


En algunas ocasiones, la naturaleza del experimento producen muestras que resultan
dependientes y en otros casos es necesario diseñar los experimentos de tal manera
que las muestras sean dependientes. Por ejemplo, la reacción de un sujeto antes y
después de ser sometido a un tratamiento. Aquí una muestra seria el antes y la otra el
después. Estas muestras son dependientes ya que es el mismo sujeto el que
suministra cada par de datos. Para analizar la diferencia entre las medias de las dos
poblaciones, cuando las muestras son dependientes, se calculan las diferencias di entre
las observaciones pareadas y se asume que estas diferencias constituyen una muestra

65
de una población aproximadamente normal. Entonces, el intervalo de (1-α)100% para
la diferencias de medias es:

Para muestras grandes Para muestras pequeñas

Sd Sd
d ± Zα/2 d ± t1-α/2
n n

donde t1-α/2 se basa en (n - 1) grados de libertad; y δd es la desviación de diferencias


de la población

Representamos con d1, d2, ..., dn las diferencias entre las observaciones por pares en
una muestra aleatoria de n pares coincidentes, d = media de las n diferencias de
muestra y Sd = desviación estándar de las n diferencias de muestra.
Si se desconoce δd (como suele suceder), utilice Sd para aproximar δd.

Ejemplos:

Ejemplo 1:
Supóngase que un investigador, interesado en obtener una estimación de la edad
promedio en cierta población, toma una muestra de 10 individuos, indaga sobre la
edad en años de cada uno y calcula la media muestra X = 22 años. Supóngase que se
sabe que la variable de interés presenta una distribución aproximadamente normal con
una varianza de 45. Calcular el intervalo para µ, con un grado de confianza del 95%.

n= 10 media= 22 años σ2= 45 Zα/2=1.96

S 6.71
El intervalo es: X ± Z1-α/2 * = 22 ± 1.96 * = (17.84 ; 26.16)
n 10
Es decir: 17.84 < µ < 26.16

Con una confianza del 95%, la edad promedio de las personas en la población se
encuentra entre 17.84 y 26.16 años.

Ejemplo 2:
En un estudio de flujo de pacientes a través de la oficina de grupos generales, se
encontró que en promedio, una muestra de 35 personas llegaban 17.2 minutos tarde a
las citas. Una investigación previa había demostrado que la desviación estándar era
de 8 minutos aproximadamente. Cual es el intervalo del 90% para la cantidad del
tiempo promedio verdadera de llegadas tarde a las citas?

n= 35 media= 17.2 minutos σ= 8 minutos Z1-α/2=1.64

S 8
El intervalo es: X ± Z1-α/2 * = 17.2 ± 1.64 * = (15 ; 19.4)
n 35

66
Es decir: 15 < µ < 19.4
Podemos decir con una confianza del 90% que la cantidad promedio de tiempo
verdadera de llegada tarde a las citas en la población esta entre 15 y 19.4 minutos.

Intervalos de confianza para una proporción P

Se considerará ahora un método para estimar la proporción binomial P de éxitos; es


decir, la proporción de elementos de una población que tienen cierta característica. Se
originan de una población bicategórica, dicotómica, binomial. Un candidato lógico
como estimador puntual de la proporción de la población P es la proporción de la
X
muestra P = , donde X = número de observaciones de una muestra de tamaño
n
que tiene la característica de interés (es decir X es el número de éxitos); n = tamaño
de muestra.

Acá consideraremos muestras grandes (n ≥ 100)

P *Q
El intervalo es = P ± Zα/2 ; donde P es la proporción en la muestra de
n
observaciones con la característica de interés, Q = 1- P .

Nota: Cuando n < 100, debe utilizarse la distribución Binomial

Ejemplo:

Se tomo una muestra de 120 interruptores eléctricos de un lote que fue despachado a
un almacén de ventas al menudeo y se encontraron 10 defectuosos. Hallar un
intervalo de confianza del 90% para estimar la proporción de interruptores defectuosos
en la fabricación de estos aparatos.

X 10
P= = = 0.083 Z1-α/2 = 1.64
n 120

0.083 * 0.917
Ahora el intervalo es: 0.083 ± 1.64 = 0.083 ± 1.64 (0.02518)
120
0.041 < P < 0.124

La proporción de interruptores defectuosos en los lotes fabricados se encuentra entre


un 4.1% y 12.4% con un 90% de confianza.

Intervalos de confianza para la diferencia de proporciones P1-P2


Aquí se tratara el caso en que se quiera estimar la diferencia entre dos poblaciones
binomiales. Por ejemplo se podría estar interesado en comparar la proporción P1 de

67
artículos defectuosos producidos por la maquina 1 con la proporción P2 de artículos
defectuosos producidos por la maquina 2.
Para estimar la diferencia (P1 - P2), donde P1 y P2 son parámetros binomiales; es decir,
las probabilidades de éxito en los experimentos binomiales independientes,
consideraremos la siguiente fórmula:

p1q1 p2 q2
(P 1 - P 2) + Zα/2 + ; donde P 1 - P 2 son las proporciones de
n1 n2
observaciones con la característica de interés en las muestras.

Si un intervalo de confianza contiene el cero, se puede concluir que las proporciones de


las dos poblaciones son iguales. Si el intervalo es negativo, la proporción de la
población B es superior a la proporción de la población A. Si el intervalo es positivo, la
proporción de la población A es superior a la proporción de la población B.

Notas importantes:

• El intervalo de confianza para la media (µ) se calcula con el requisito de que la


población sea normal y tenga una varianza o desviación estándar poblacional
conocida.
• En caso de que no se conozca la desviación poblacional (δ) se podrá utilizar la
desviación muestral (δx)
• Cuando se tiene dudas si la población o variable estudiada siguen una distribución
normal y se tiene una n grande (n ≥ 30) podemos suponer que esta sigue una
distribución aproximadamente normal y podemos calcular el intervalo de confianza
de la forma: X ± Z (1 - α/2) δx.
• Las poblaciones no normales con n pequeña, siguen una distribución T- de Student

• PRUEBAS DE HIPÓTESIS (DOCIMASIA)

Las pruebas de hipótesis, denominada también prueba de significación tiene como


objeto principal evaluar suposiciones o afirmaciones acerca de los valores estadísticos
de la población, denominados parámetros.

La palabra docimar significa probar. Para tomar una decisión se hace ante todo
plantear posibilidades acerca de la característica o características a estudiar en una
población determinada. La suposición puede ser cierta o falsa. Estas suposiciones se
llaman hipótesis estadísticas. Las hipótesis estadísticas Ayudan al Investigador a
tomar una decisión entorno a una población, examinando una muestra de ella.

Tipos de Hipótesis:

1. De Investigación: Es la conjetura o suposición que motiva a la investigación.


Puede ser el resultado de la experiencia del investigador a través de varios años de
observación.

68
2. Estadísticas: Establecidas de tal forma que puedan ser evaluadas a través de
técnicas estadísticas apropiadas. Devienen directamente de las de investigación.
Las hipótesis pueden ser formuladas con el fin de rechazarlas de acuerdo con el
análisis estadístico. Esta clase de hipótesis se denomina hipótesis nula y se representa
por Ho; estas son aquellas por medio de las cuales se hace una afirmación sobre un
parámetro que se va a constatar con el resultado muestral. Se tiene también la
hipótesis alternativa representada por Ha; esta es toda aquella hipótesis que difiere de
la hipótesis nula, es decir, ofrece una alternativa, afirmando que la hipótesis nula es
falsa.

Es así como, la teoría que queremos apoyar (o detectar si es verdadera) por lo regular
se escoge como hipótesis alternativa.

Las hipótesis nula y alternativa se establecen de tal manera que sean mutuamente
excluyentes y complementarias. Por lo tanto, cuando rechazamos la hipótesis nula
estamos aceptando a la vez la hipótesis alternativa como verdadera y lo contrario.
Generalmente, pero no siempre, la hipótesis alternativa es la misma hipótesis de
investigación y en el proceso de prueba se espera negar o rechazar la hipótesis nula de
modo que se concluya la hipótesis alternativa o de investigación.

La decisión de aceptar o rechazar Ho depende de la información muestral. Como esta


información proviene de un muestreo aleatorio no podemos tener una seguridad del
ciento por ciento de que la decisión tomada es la correcta. En otras palabras,
podríamos equivocarnos, por ejemplo, rechazando Ho cuando en realidad esta es la
hipótesis verdadera.

Hay cuatro resultados posibles según la decisión que se tome y el valor que tenga Ho,
así:

D VERDADERA FALSA
E
ACEPTAR Decisión Error
C
Correcta Tipo II
I
S RECHAZAR Error Decisión
I Tipo I Correcta
O
N
E
S

• Si Ho es verdadera y la aceptamos, tomamos la decisión correcta


• Si Ho es verdadera y la rechazamos, cometemos un error llamado error de tipo I
• Si Ho es falsa y la aceptamos, cometemos un error llamado error de tipo II
• Si Ho es falsa y la rechazamos, tomamos la decisión correcta.

La hipótesis estadística es un supuesto concerniente a los parámetros o a la forma de


distribución de probabilidad correspondiente a una o más poblaciones dadas. En otras
palabras, se resume diciendo que corresponde a un enunciado acerca del valor
estadístico (parámetro) poblacional.

69
Las hipótesis se debe formular en forma correcta o lógica y debe ser enunciada antes
de obtener los datos muestrales. Son ejemplos de hipótesis estadísticas:
• El administrador de un hospital puede suponer que el promedio de días de estancia
de los pacientes internados es de 5 días.
• El promedio de calificación que tendrán los alumnos en un curso de estadística será
superior a 4
• El 5% de las unidades producidas por una máquina serán defectuosas

Las pruebas de hipótesis se pueden dividir en unilaterales y bilaterales. Las unilaterales


son aquellas en las cuales las zonas de rechazo o zona critica esta completamente
comprendida en uno de los extremos de la distribución. La prueba es unilateral a la
derecha (de la curva); cuando la hipótesis alternativa de lo que se quiere probar hace
mención a valores mayores, superiores, o a situaciones mejores. Si por el contrario, la
hipótesis alternativa se refiere a valores menores, inferiores, corresponderá a una
prueba unilateral a la izquierda.

En el caso de que la prueba comprenda áreas o zonas de rechazo en ambos extremos


de la distribución, se dice que la prueba es bilateral o sea que la hipótesis alternativa
es diferente; por lo tanto se omiten los términos: superior, mayor, mejor, inferior,
menor, etc.

1. Ha, es una hipótesis bilateral o de dos colas.


Ho: θ = θo
Ha: θ ≠ θo
1-α

Región de
Rechazo Región de Región de
Aceptación Rechazo
α/2
α/2

2. Ha, es una hipótesis unilateral o de una sola cola a la izquierda.


Ho: θ ≥ θo
Ha: θ < θo
1-α

Región de
Rechazo Región de
Aceptación
α

3. Ha, es una hipótesis unilateral o de una sola cola a la derecha.


Ho: θ ≤ θo
Ha: θ > θo

1-α

Región de Región de
Aceptación Rechazo

Nota: El Símbolo θ representa el parámetro a estimar, puede ser (µ,δ²,P)

70
Nivel de Significancia

Se entiende por nivel de significancia, la máxima probabilidad de que se especifique,


con el fin de hacer mínimo el primer tipo de error. Generalmente, se fija antes de
escoger la muestra.

El nivel de significancia se simboliza por α siendo generalmente del 1%, 5% o 10%,


pero se puede usar cualquier nivel, dependiendo del tipo de investigación que se
adelante. Existe la costumbre de trabajar con un nivel del 0.05 o sea del 5%,
especialmente cuando el enunciado del problema no lo da.

Cuando se trabaja con un nivel del 5%, el resultado es significativo; si se emplea el


1%, el resultado es altamente significativo, y si es del 10%, se considera poco
significativo.

El valor del nivel de significancia corresponde a un área bajo la curva de probabilidad o


normal, denominada región critica o zona de rechazo. Se tendrán casos en que la
región critica este situada a la derecha de la curva y se dirá que se trata de una prueba
unilateral derecha. Si se sitúa a la izquierda será una prueba unilateral izquierda. En
caso de tener dos regiones criticas, se hablará de una prueba bilateral.

En las pruebas unilaterales se tomara el valor total de alfa (α); para las pruebas
bilaterales alfa se dividirá por dos. La región no sombreada o no cubierta por el nivel
de significancia, se denominara zona de aceptación o de no rechazo.

Procedimiento a Seguir en las Pruebas de Hipótesis

El procedimiento a seguir dentro de toda prueba de hipótesis es el siguiente:

1. Formular la hipótesis nula y alternativa


2. Seleccionar el nivel de significancia
3. Conocer o estimar la varianza
4. Determinar la técnica y la prueba estadística
5. Determinar los valores críticos y sus regiones de rechazo
6. Calcular los datos muestrales, utilizando las fórmulas correspondientes
7. Tomar la decisión estadística.

1. Establecer las hipótesis: Ho: Hipótesis nula


Ha: Hipótesis alternativa

Ho: θ ≥ θo Ho: θ = θo Ho: θ ≤ θo


Ha: θ < θo Ha: θ ≠ θo Ha: θ > θo
Pruebas unilaterales a la Pruebas bilaterales Pruebas unilaterales a la
izquierda derecha

2. Elegir el riesgo: α = %
Los niveles de significancia más utilizados son:
α = 0.05 ó 5%
α = 0.01 ó 1%
α = 0.10 ó 10%

71
3. Se establecen ciertos supuestos:
a). La muestra es aleatoria
b). La población es normal
c). La varianza poblacional es conocida (en la mayoría de los casos como no se
conoce es estimada)

4. Se formula la respectiva variante estadística


a). Distribución de medias muestrales
b). Distribución de proporciones muestrales
c). Distribución de diferencias entre dos medias muestrales
d). Distribuciones de diferencias entre dos proporciones muestrales

5. Formular los puntos críticos


Al trabajar con un nivel de significancia del 5% de prueba bilateral, se tendrá:
Zs = 1.96 y Zi = -1.96

6. Descripción de la región critica: (Bilateral con un α = 0.05) y asignar los valores


de la variante estadística, con el fin de obtener el valor de Z
Zs ≥ 1.96 Zi ≤ 1.96

7. Adoptar una decisión, se acepta o se rechaza la hipótesis nula, al nivel de


significancia dado.

Como referente y sin perdida de generalidad, en salud pública se acostumbra trabajar


con frecuencia a un alfa del 0.05. la decisión en pruebas de hipótesis siempre se toma
con relación al valor de P, si este es menor que el alfa, se Rechaza Ho, si por el
contrario P es mayor que el alfa se Acepta Ho.

Pruebas de Hipótesis sobre la Media de una Población (µ):

• Prueba de hipótesis con muestra grande (n ≥ 30)

Prueba de un extremo Prueba de los dos extremos


Ho: µ = µ Ho: µ = µ
Ha: µ > µ Ha: µ ≠ µ
(ó Ha: µ < µ)

estadístico de prueba: estadístico de prueba:

Y - µo Y - µo Y - µo Y - µo
Z = δY = S / √n Z = δY = S / √n
Región de rechazo: Región de rechazo:
Z > Zα ( o sea Z < -Zα) Z > Zα/2
Nota: µo es el símbolo para el valor numérico particular especificado para µ en la
hipótesis nula.

72
• Prueba de hipótesis con muestra pequeña (n < 30)

Prueba de un extremo Prueba de los dos extremos


Ho: µ = µ Ho: µ = µ
Ha: µ > µ Ha: µ ≠ µ
(ó Ha: µ < µ)

estadístico de prueba:
Y - µo
t = S / √n

Región de rechazo: Región de rechazo:


t > tα ( o sea t < -tα) t > tα/2

Nota: la distribución t se basa en (n - 1) grados de libertad. La distribución de


frecuencia relativa de la población de la que se seleccionó la muestra es
aproximadamente normal.

Pruebas de Hipótesis sobre la Diferencia de Medias de dos Poblaciones (µ1


- µ2). Muestras independientes

• Prueba de hipótesis con muestra grande (µ1 - µ2)

Prueba de un extremo Prueba de los dos extremos


Ho: (µ1 - µ2) = Do Ho: (µ1 - µ2) = Do
Ha: (µ1 - µ2) > Do Ha: (µ1 - µ2) ≠ Do
(ó Ha: (µ1 - µ2) < Do)

estadístico de prueba:
(Y1 - Y2) - Do (Y1 - Y2) - Do
=
δ(Y1-Y2) S 12
+
S 2
2

n1 n
Z = 2

Región de rechazo: Región de rechazo:


Z > Zα ( o sea Z < -Zα) Z > Zα/2

Nota: Do es el símbolo para el valor numérico en particular especificado para (µ1 - µ2)
en la hipótesis nula. En muchas aplicaciones prácticas queremos hacer la hipótesis de
que no hay diferencias entre las medias de la población; en tales casos, Do = 0

73
En términos generales la decisión que se tome con las pruebas de hipótesis debe ser la
misma a la que se llegue con los intervalos de confianza. Así, si en la diferencia de
medias el intervalo de confianza es positivo en ambos limites, quiere decir que no
pasa por cero, se puede decir que hay diferencias estadísticamente significativas y
dicha diferencias son a favor de la población 1, o sea que el promedio de la población 1
es significativamente mayor que el de la población 2; si por el contrario ambos limites
son negativos y mayores de cero, existen diferencias estadísticamente significativas y
dichas diferencias son a favor de la población 2, o sea que el promedio de la población
2 es significativamente mayor que el de la población 1. si el intervalo contiene el cero
se puede decir que no existen diferencias estadísticamente significativas, esto es, los
promedios son iguales.

• Prueba de hipótesis con muestra pequeña (µ1 - µ2)

Prueba de un extremo Prueba de los dos extremos


Ho: (µ1 - µ2) = Do Ho: (µ1 - µ2) = Do
Ha: (µ1 - µ2) > Do Ha: (µ1 - µ2) ≠ Do
(ó Ha: (µ1 - µ2) < Do)

Estadístico de prueba:
(Y1 - Y2) - Do
1 1 
S p2  + 
Z =  n1 n 2 

Región de rechazo: Región de rechazo:


t > tα ( o sea t < -tα) t > tα/2

2
Donde: S p =
(n1 − 1)S12 + (n2 − 1)S22 ; y la distribución t se basa en n1 + n2 - 2
n1 + n2 − 2

Prueba de hipótesis sobre la diferencia de medias de dos poblaciones (µ1 -


µ2): Pares coincidentes

Prueba de un extremo Prueba de los dos extremos


Ho: (µ1 - µ2) = Do Ho: (µ1 - µ2) = Do
Ha: (µ1 - µ2) > Do Ha: (µ1 - µ2) ≠ Do
(ó Ha: (µ1 - µ2) < Do)

74
Estadístico de prueba:
d - Do ≈ d - Do
Z =
δd / √n Sd / √n
Donde d y Sd representan la media y la desviación estándar de la muestra de
diferencias.
Región de rechazo: Región de rechazo:
Z > Zα ( o sea Z < -Zα) Z > Zα/2

Nota: Do es nuestro símbolo para el valor numérico en particular especificado para (µ1
- µ2) en Ho. En muchas aplicaciones prácticas queremos postular la hipótesis de que
no hay diferencia entre las medias de población; en tales casos, Do = 0

• Prueba con muestra pequeña (µ1 - µ2): Pares coincidentes

Prueba de un extremo Prueba de los dos extremos


Ho: (µ1 - µ2) = Do Ho: (µ1 - µ2) = Do
Ha: (µ1 - µ2) > Do Ha: (µ1 - µ2) ≠ Do
(ó Ha: (µ1 - µ2) < Do)

Estadístico de prueba:
d - Do ≈ d - Do
t =
δd / √n Sd / √n
Donde d y Sd representan la media y la desviación estándar de la muestra de
diferencias.
Región de rechazo: Región de rechazo:
t > tα ( o sea t < -tα) t > tα/2

Donde la distribución t se basa en (n-1) grados de libertad

Nota: Do es nuestro símbolo para el valor numérico en particular especificado para (µ1
- µ2) en Ho. En muchas aplicaciones prácticas queremos postular la hipótesis de que
no hay diferencia entre las medias de población; en tales casos, Do = 0

75
Pruebas de Hipótesis de la Proporción de una Población

• Prueba de hipótesis con muestra grande acerca de una proporción de


población

Prueba de un extremo Prueba de los dos extremos


Ho: p = po Ho: p = po
Ha: p > po Ha: p ≠ po
(ó Ha: p < po)

estadístico de prueba:
^p- po
po qo / n
Z =
Donde qo = 1 - po
Región de rechazo: Región de rechazo:
Z > Zα ( o sea Z < -Zα) Z > Zα/2

Pruebas de Hipótesis de la diferencia entre las Proporciones de dos


Poblaciones

• Prueba de hipótesis con muestra grande relativas a (p1 - p2): Muestras


independientes

Prueba de un extremo Prueba de los dos extremos


Ho: (p1 - p2) = Do Ho: (p1 - p2) = Do
Ha: (p1 - p2) > Do Ha: (p1 - p2) ≠ Do
ó Ha: (p1 - p2) < Do

estadístico de prueba:
^ - p2)
(p1 ^ - Do

Z = δ (p^1 - p^2)

Región de rechazo: Región de rechazo:


Z > Zα ( o sea Z < -Zα) Z > Zα/2

76
Cuando Do ≈ 0

δ ^ ^
(p1 - p2) ≈
pˆ1qˆ1 pˆ 2 qˆ2
+
n1 n2
donde q̂1 = 1 - p̂1 y q̂2 = 1 - p̂2

cuando Do = 0

δ ^ ^ 1
(p1 - p2) ≈ pˆ qˆ  + 
1
 n1 n2 
donde el número total de éxitos en la muestra combinada es (y1 + y2) y p̂ =
y1 + y2
n1 + n2
los tamaños de las muestras n1 y n2 son suficientemente grandes.

En términos generales la decisión que se tome con las pruebas de hipótesis debe ser la
misma a la que se llegue con los intervalos de confianza. Así, si en la diferencia de
proporciones el intervalo de confianza es positivo en ambos limites, quiere decir que no
pasa por cero, se puede decir que hay diferencias estadísticamente significativas y
dicha diferencias son a favor de la población 1, o sea que la proporción de la población
1 es significativamente mayor que la de la población 2; si por el contrario ambos
limites son negativos y mayores de cero, existen diferencias estadísticamente
significativas y dichas diferencias son a favor de la población 2, o sea que la proporción
de la población 2 es significativamente mayor que la de la población 1. si el intervalo
contiene el cero se puede decir que no existen diferencias estadísticamente
significativas, esto es, las proporciones son iguales.

77
VALOR P

Es la probabilidad de que el estadístico de prueba adopte un valor al menos tan


extremo como el valor observado cuando Ho es verdadera. Representa el nivel de
significación más bajo al cuál el valor observado del estadístico de prueba es
significativo.

En el caso de una prueba de una cola, cuya región crítica se ubique completamente en
la cola derecha de una distribución normal estándar, el valor p es solamente el área
bajo la curva a la derecha del valor de Z calculado a partir de los datos disponibles.

Mientas más pequeño sea el valor de p, habrá menor probabilidad de observar tal valor
extremo y el resultado será más significativo. Por lo tanto, si p = 0.03 aparece en los
resultados, el valor observado del estadístico de prueba es significativo para toda α ≥
0.03 y de esta forma será ciertamente significativo al nivel 0.05 pero no al nivel 0.01.

Ejemplo 1. Se plantea la siguiente hipótesis unilateral izquierda:

Ho: µ ≥ 25
Ha: µ < 25 α = 0.05

y z = Estadístico de prueba = -1.41, entonces

Valor P = P (Z < -1.41) = 0.0793

Como P > α, se acepta Ho.

Ejemplo 2. Se plantea la siguiente hipótesis unilateral derecha:

Ho: µ = 70
Ha: µ > 70 α = 0.05

y z = Estadístico de prueba = 2.02, entonces

Valor P = P (Z > 2.02) = 1 - P (Z ≤ 2.02)


= 1 – 0.9783
= 0.0217

Como α = 0.05 > Valor P, se rechaza Ho.

Ejemplo 3: Se plantea la siguiente hipótesis bilateral.

Ho: µ = 8
Ha: µ ≠ 8 α = 0.01

y z = Estadístico de prueba = -2.83, entonces


Valor P = P(Z > 2.83) = 2P(Z < -2.83)
= 0.0046
Como Valor P < α, se rechaza Ho.

78
Para el calculo de pruebas de hipótesis e intervalos de confianza con la ayuda del
SPSS, se cuentan con algunas restricciones, esto en el sentido que algunos de estos
cálculos no se pueden realizar con esta herramienta, para ello se procederá a explicar
su calculo con otro paquete como es el epidat, recordando que este paquete funciona
como una calculadora estadística, en la cual se deben de llevar los valores ya
calculados y no se puede trabajar con las bases de datos en su totalidad, como si
sucede con el SPSS.

El abordaje que se realizará estará enfocado a los procesos que se puedan obtener en
la herramienta SPSS, para ello se trabaja básicamente con pruebas de hipótesis e
intervalos de confianza para dos muestras independientes y dos muestras relacionadas
(pareadas), además de la prueba para una muestra.

1. Prueba para muestras independientes (Independent-sample T-test): Compara las


medidas de una variable para dos poblaciones (dos grupos o dos categorías de una
variable categórica). Se suministran estadísticos descriptivos para cada grupo, y
una prueba de levene para igualdad de varianzas, así como valores t de varianza
igual y desigual y un intervalo de confianza del 95% para la diferencia entre las
medias

Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a los dos
grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento
(o falta del tratamiento) y no a otros factores.

Antes de realizar la prueba se deben cumplir algunos supuestos como son el de


normalidad y el varianzas iguales, para conocer si la variable distribuye normal se
debe de seguir el siguiente proceso:

Vaya a Analizar – Estadísticas descriptivas –


Explorar, en el cuadro que aparece coloque en
Lista de dependientes la variable cuantitativa a
la que le desea corroborar el supuesto de
normalidad, posteriormente de clic en el botón
gráficos (plots) y allí chulee Gráfico con test de
normalidad (Normality plots with test), y por
ultimo en el apartado de mostrar (display),
puede seleccionar gráfico (plots), estadísticas
(statistics) o ambos (both), preferiblemente
seleccionar ambos, y dar clic en Aceptar.

79
Con ello en la ventana de resultados aparecerán algunos datos, pero para efectos
del supuesto de normalidad nos interesa únicamente el test de normalidad:

Tests of Normality
a
Kolmogorov-Smirnov
Statistic df Sig.
Edad en años cumplidos ,096 70 ,177
a. Lilliefors Significance Correction

En el ejemplo se trata de comprobar si la edad sigue un comportamiento normal. Para


llegar a esta conclusión se tienen las siguientes hipótesis:
Ho: La variable (edad) sigue una distribución normal
Ha: La variable (edad) no sigue una distribución normal

Observen que acá la mejor decisión sería aceptar la hipótesis nula, a diferencia de las
otras pruebas de hipótesis.

Para tomar la decisión entonces, procedemos a confrontar el Valor de P con el valor del
nivel de significancia (α), si el primero es menor que el segundo se rechaza Ho, en
caso contrario se Acepta. Ara nuestro ejemplo supongamos que el nivel de

80
significancia (α) es del 5% (0.05), como P = 0.2 es mayor que α se acepta Ho, o sea
que la edad sigue un comportamiento normal. Al ser la variable normal se puede
realizar la prueba de diferencias de medias para poblaciones independientes, en caso
que la variable no siga un comportamiento normal se debe proceder a realizar la
prueba no paramétrica U de Mann Whitney.

Una vez cumplido el supuesto se procede a realizar la prueba para diferencias de


promedios. Para ello, seleccionamos Comparar medias (Compare means) del menú
Analizar, y allí dar clic en Prueba para muestras independientes (Independent-sample
T-test). En el cuadro que aparece, se debe colocar en Test variables la variable
cuantitativa y en Grouping variable, la variable categórica que hace las veces de
poblaciones, en otras palabras la variable a la cual le queremos determinar si para
cada categoría de ella, los promedios de la variable cuantitativa son diferentes. Para el
ejemplo, la variable cuantitativa será la edad y la variable categórica (o las dos
poblaciones) será habito de fumar. Una vez que se pase la variable categórica aparece
el nombre de la variable con dos signos de interrogación, se procede a dar clic al botón
Define groups..., para determinar los grupos a trabajar, en el grupo uno se coloca el
código que representa a este grupo, y en grupo 2 se coloca el código que represente a
este segundo grupo, continuar y Aceptar.

Nota: La variable categórica debe de estar definida en el SPSS numérica y debe de


contener códigos, estos son los que se colocan en el cuadro Grouping variables.
Además es de aclarar que si la variable categórica tiene mas de dos categorías, usted
puede seleccionar cual de todas las categorías va a ser el grupo 1 y cual será el grupo
2, para realizar el contraste.

Después de esto, en la ventana de resultados aparece la siguiente información:

81
Independent Samples Test

Levene's Test for


Equality of
Variances t-test for Equality of Means
95% Confidence
Interval of the
Sig. Mean Std. Error Difference
F Sig. t df (2-tailed) Difference Difference Lower Upper
Edad en Equal variances
,810 ,371 ,621 68 ,537 1,06 1,70 -2,34 4,46
años assumed
cumplidos Equal variances
,621 67,997 ,537 1,06 1,70 -2,34 4,46
not assumed

En donde, lo primero que se debe de analizar es el test de Levene, este tiene las
siguientes hipótesis:

Ho: Las varianza son iguales ≈ Existe homocedasticidad en las varianzas


Ha: Las varianza son diferentes ≈ No existe homocedasticidad en las varianzas

Recordar que para la decisión se compara el Valor de P con el valor del nivel de
significancia α, si el primero es menor que el segundo se rechaza Ho, en caso contrario
se Acepta Ho. Acá también lo ideal es Aceptar Ho, para cumplir con el segundo
supuesto que es el de Homocedasticidad de varianzas, pero en caso de no cumplirse,
el SPSS nos ofrece la alternativa de analizar los datos cuando las varianzas no son
iguales. En el ejemplo en cuestión observamos que el valor P para Levene (Sig.) es de
0.371, como este es mayor que el alfa (α), se acepta Ho, por lo tanto las varianzas son
iguales.

Ahora para determinar si existen diferencias estadísticamente significativas en los


promedios de la edad según habito de fumar, se trabaja con las siguientes hipótesis:

Ho: Los promedios de ambas poblaciones son iguales, en otras palabras, los
promedios de la edad son iguales según habito de fumar.
Ho: No Existen diferencias estadísticamente significativas que los promedios de la
edad son diferentes para el habito de fumar

Ha: Los promedios de ambas poblaciones son diferentes, en otras palabras, los
promedios de la edad son diferentes según habito de fumar.
Ha: existen diferencias estadísticamente significativas que los promedios de la edad
difieren según el habito de fumar

Para el ejemplo como el valor de P es mayor del nivel de significancia (α), que había
sido definido del 5% (0.05), se rechaza Ho, esto es, los promedios de la edad son
iguales para fumadores y no fumadores. Esta información es la misma que se obtiene
al mirar los intervalos de confianza, se observa que dicho intervalo pasa por cero, -
2.34 – 4.46. este Valor P observado y los intervalos de confianza, deben de ser los
que corresponde a la fila de varianzas iguales del test de Levene.

82
2. Prueba para muestras relacionadas (pareadas): compara las medias de dos
variables en un solo grupo. Esta prueba también es para pares relacionados o
diseños de control de casos. El resultado incluye estadísticos descriptivos de las
variables que se van a contrastar, la correlación entre ellas, estadísticos
descriptivos de las diferencias emparejadas, la prueba t y un intervalo de confianza

Acá se parte del mismo supuesto de normalidad, si este no se cumple se debe


proceder a realizar la prueba no paramétrica de wilcoxon. Una vez que se
corroboro el supuesto de normalidad para las variables, se selecciona el comando
Comparar medias (Compare means) en el menú Analizar, y allí dar clic en Paired-
Sample T-test. Allí se deben seleccionar las dos variables cuantitativas (antes y
después) a evaluar, y pasarlas al lado derecho, para dar clic en el botón Aceptar.

Después de esto, en la ventana de resultados aparece la siguiente información:

Paired Samples Test

Paired Differences
95% Confidence
Std. Interval of the
Std. Error Difference Sig.
Mean Deviation Mean Lower Upper t df (2-tailed)
Pair ANTES -
16,1733 33,1336 8,5550 -2,1754 34,5221 1,891 14 ,080
1 DESPUES

En esta prueba ya no hay test de Levene para corroborar Homocedasticidad, se evalúa


por medio del Valor de P si existen diferencias estadísticamente significativas entre los
promedios de antes y después, para ello entonces las hipótesis son:

Ho: El promedio del primer momento es igual al promedio del segundo momento
Ho: No existen diferencias estadísticamente significativas entre los promedios del
antes y del después
Ha: El promedio del primer momento es diferente al promedio del segundo momento

83
Ha: Existen diferencias estadísticamente significativas entre los promedios del antes y
del después

Para el ejemplo tratado, se desea mirar si existen diferencias en los promedios de


ferritina de sujetos en dos momentos. Como P es mayor que α (0.080), se acepta Ho,
esto es, los promedios de ferritina no son diferentes significativamente en los dos
momentos, o dicho de otra forma, no existen evidencias estadísticamente significativas
que nos lleven a decir que los promedios de ferritina en los sujetos son diferentes.
Observe que esta decisión se corrobora con el hecho que los intervalos de confianza
pasan por cero (-2.1754 – 34.5221).

3. Prueba para una muestra: Compara la media de una variable con un valor
conocido o referente o hipotetizado. Se muestran estadísticos descriptivos de las
variables que se desean contrastar junto con la prueba t. Un intervalo de confianza
del 95% para la diferencia de la media de la variable que se desea contrastar y el
valor de contraste hipotetizado.

Se parte del mismo supuesto de normalidad. Una vez que se corroboro el supuesto de
normalidad para la variable, se selecciona el comando Comparar medias (Compare
means) en el menú Analizar, y allí dar clic en One-Sample T-test. Allí se debe
seleccionar la variable cuantitativa a evaluar y se pasa al lado derecho, en el cuadro
Test Value colocar el valor contra el cual se va a contrastar la variable, el valor
hipotetizado con el cual se va a comparar (este valor lo define el investigador), por
ultimo dar clic en el botón Aceptar.

Después de esto, en la ventana de resultados aparece la siguiente información:

84
One-Sample Test

Test Value = 65
95% Confidence
Interval of the
Sig. Mean Difference
t df (2-tailed) Difference Lower Upper
Edad en años
-11,510 69 ,000 -9,76 -11,45 -8,07
cumplidos

En esta prueba ya no hay test de Levene para corroborar Homocedasticidad, se evalúa


por medio del Valor de P si el promedio de la variable difiere estadísticamente del valor
de referencia (valor hipotetizado), para ello entonces las hipótesis son:

Ho: El promedio de la variable es igual al valor de referencia


Ho: No existen diferencias estadísticamente significativas entre el promedio de la
variable y el valor de referencia

Ha: El promedio de la variable es diferente al valor de referencia


Ha: Existen diferencias estadísticamente significativas entre el promedio de la variable
y el valor de referencia

Para el ejemplo tratado, se desea mirar si existe diferencia en el promedio de la edad


con relación al valor de referencia establecido por el investigador como 65 años. Como
P es menor que el α (0.080), se rechaza Ho, esto es, el promedio de la edad es
estadísticamente diferente de 65 años, o dicho de otra forma, existen evidencias
estadísticamente significativas que nos lleven a decir que el promedio de la edad es
diferente de 65 años.

4. Prueba para muestras independientes con mas de dos poblaciones o grupos


(Análisis de varianza de un factor): Compara las medidas de una variable para tres
o mas poblaciones (tres o mas grupos o tres o mas categorías de una variable
categórica).

El procedimiento Anova de un factor genera un análisis de varianza para una


variable dependiente cuantitativa por una variable de un solo factor
(independiente). La Anova se utiliza para contrastar en la hipótesis de que varias
medias son iguales. Esta técnica es una extensión de la prueba de hipótesis para
muestras independientes de 2 poblaciones. Además de determinar si existen
diferencias entre las medias, es posible que desee saber que medias difieren, para
ello se cuenta con las pruebas post-hoc, las cuales se ejecutan una vez se ha
desarrollado el experimento.

Para este tipo de análisis se debe partir de los mismos supuestos que se han
venido trabajado, tanto el supuesto de normalidad como el de varianzas iguales.
En caso que los datos de la variable cuantitativa no sigan un comportamiento
normal se debe realizar la prueba no paramétrica de Kruskal Wallis.

Las hipótesis para este modelo son:

85
Ho: No existen diferencias estadísticamente significativas entre las medias de las K
poblaciones o tratamientos
Ha: Por lo menos una de las K medias poblacionales es diferente

Para la decisión se parte de la misma regla con la cual se ha venido trabajando,


esto es, si P es menor que el α se rechaza Ho.

Como ejemplo se quiere determinar si existen diferencias estadísticamente


significativas en el promedio de los ingresos según deporte practicado (Caminar,
gimnasia, otro, sin dato), en la practica no pudiera ser muy relevante observar esta
relación pero para efectos de ejemplificar el proceso resulta conveniente.

Para ello, vaya a Analizar – Estadísticas


descriptivas – Explorar, en el cuadro que
aparece coloque en Lista de dependientes la
variable cuantitativa a la que le desea
corroborar el supuesto de normalidad,
posteriormente de clic en el botón gráficos
(plots) y allí chulee Gráfico con test de
normalidad (Normality plots with test), y por
ultimo en el apartado de mostrar (display),
puede seleccionar gráfico (plots), estadísticas
(statistics) o ambos (both), preferiblemente
seleccionar ambos, y dar clic en Aceptar.

Con ello en la ventana de resultados aparecerán algunos datos, pero para efectos
del supuesto de normalidad nos interesa únicamente el test de normalidad.

En el ejemplo se trata de comprobar si el peso sigue un comportamiento normal. Para


llegar a esta conclusión se tienen las siguientes hipótesis:
Ho: La variable (ingresos) sigue una distribución normal
Ha: La variable (ingresos) no sigue una distribución normal

Para tomar la decisión entonces, procedemos a confrontar el Valor de P con el valor del
nivel de significancia (α), si el primero es menor que el segundo se rechaza Ho, en
caso contrario se Acepta. Ara nuestro ejemplo supongamos que el nivel de
significancia (α) es del 5% (0.05), como P = 0.2 es mayor que α se acepta Ho, o sea
que los ingresos siguen un comportamiento normal. Al ser la variable normal se puede
realizar la prueba de Análisis de varianza de un factor, en caso que la variable no siga
un comportamiento normal se debe proceder a realizar la prueba no paramétrica de
Kruskal Wallis.

Una vez cumplido el supuesto se procede a realizar la prueba para análisis de varianza.
Para ello, seleccionamos Comparar medias (Compare means) del menú Analizar, y allí
dar clic en One-Way Anova (Anova de una vía). En el cuadro que aparece, se debe

86
colocar en Dependent list la variable cuantitativa y en Factor la variable categórica que
hace las veces de poblaciones, en otras palabras la variable a la cual le queremos
determinar si para cada categoría de ella, los promedios de la variable cuantitativa son
diferentes. Para el ejemplo, la variable cuantitativa será el ingreso familiar y la
variable categórica (o las diferentes poblaciones) será deporte que practica, por ultimo
entrar a las pruebas post-hoc y escoger el método para poder determinar cual o cuales
promedios son los diferentes, si llegasen a existir diferencias estadísticamente
significativas entre los promedios, luego continuar y Aceptar.

Después de esto, en la ventana de resultados aparece la siguiente información:

ANOVA

Dependent Variable
Sum of Squares df Mean Square F Sig.
Between Groups 52753148809,5 2 26376574404,762 3,859 ,027
Within Groups 362264976190 53 6835188230,009
Total 415018125000 55

Acá se puede tomar la decisión contrastando el Valor P con el nivel de significancia (α),
así, como P es menor que el α se rechaza la hipótesis nula, esto es, existen evidencias
estadísticamente significativa para determinar que los promedios del ingreso familiar
es diferente según deporte practicado.

Una vez que se determino la existencia de las diferencias entre las medias, las pruebas
post hoc, pueden determinar las medias que difieren. Las comparaciones múltiples por
parejas contrastan las diferencias entre cada pareja de medias y dan lugar a una
matriz donde los asteriscos indican las medias de grupo significativamente diferentes a
un nivel de α de 0.05.

Para el ejemplo se selecciona la prueba post hoc de scheffe, la cual nos muestra los
siguientes resultados:

87
Multiple Comparisons

Dependent Variable
Test

95% Confidence
Mean Interval
(I) Deporte (J) Deporte Differenc Std. Lower Upper
practicado practicado e (I-J) Error Sig. Bound Bound
Caminar Gimnasia 8880,95 33752 ,966 -76126,22 93888,13
Otro -91119,05* 33752 ,033 -176126 -6111,87
Gimnasia Caminar -8880,95 33752 ,966 -93888,13 76126,22
Otro -100000 44192 ,087 -211301 11300,52
Otro Caminar 91119,05* 33752 ,033 6111,87 176126
Gimnasia 100000,0 44192 ,087 -11300,52 211301
*. The mean difference is significant at the .05 level.

Acá las medidas que tienen asterisco (*), son los grupos en los cuales los promedios
de los ingresos presentan diferencias estadísticamente significativas. Se puede
observar entonces que existen diferencias en los promedios de ingresos entre los que
caminan y los que hacen otro deporte, determinándose además que dicha diferencia es
a favor a las personas que practican otro deporte, pues el intervalo de confianza en
ambos extremos es menor que cero (0).

5. Prueba para muestras independientes proporciones (Prueba Chi cuadrado de


independencia): Es una técnica usual en la investigación del área de la salud, para
determinar la existencia de asociación entre dos variables a través de la
comparación de sus proporciones. Por ejemplo, un salubrista puede estar
interesado en comparar la eficacia de tres antibióticos en el tratamiento de la
cistitis, esto es, el interés se centraría en determinar si la ocurrencia de la
curación tiene algo que ver con el tipo de antibiótico prescrito. Nótese que se exige
para efectuar la prueba de independencia que las variables en cuestión sean
categóricas (con nivel de medición nominal u ordinal).

Las hipótesis constitutivas de la prueba Chi-cuadrado de independencia, si X e Y


son las variables consideradas, se plantean a continuación:

Ho: Existe independencia entre X e Y.


Ha: Existe algún grado de asociación entre X e Y.

88
Sin pérdida de generalidad, se asumirá que la variable X tiene 3 categorías y que la
variable Y tiene 2, con el fin de hacer más fácil y asequible la explicación de la técnica.
La estructura de la tabla se expone a continuación:

Tabla de contingencia Variable Y


múltiple Categoría Y1 Categoría Y2 Total
Categoría X1 O11 (E ) O12 (E ) O1.
11 12

Variable X Categoría X2 O21 (E )


21
O 22 (E )
22
O2.
Categoría X3 O 31 (E ) O32 (E ) O3.
31 32
Total O.1 O.2 O

En general, Oij representa la frecuencia observada en la intersección de la fila i con la


columna j.

En la tabla anterior, los valores entre paréntesis representan las frecuencias esperadas,
así:

E11 : Frecuencia esperada en la fila 1 con la columna 1, esto es, de la categoría


X1 con la categoría Y1.
E12 : Frecuencia esperada en la fila 1 con la columna 2, esto es, de la categoría
X1 con la categoría Y2.
E21 : Frecuencia esperada en la fila 2 con la columna 1, esto es, de la categoría
X2 con la categoría Y1.
E22 : Frecuencia esperada en la fila 2 con la columna 2, esto es, de la categoría
X2 con la categoría Y2.
E31 : Frecuencia esperada en la fila 3 con la columna 1, esto es, de la categoría
X3 con la categoría Y1.
E32 : Frecuencia esperada en la fila 3 con la columna 2, esto es, de la categoría
X3 con la categoría Y2

En general, Eij representa la frecuencia esperada en la intersección de la fila i con la


columna j.

Para calcular las frecuencias esperadas basta multiplicar los totales de las filas por los
totales de las columnas y luego dividir entre el gran total, esto es,

Eij = Frecuencia total observada en la fila i por Frecuencia total observada en la columna j
Gran total (Suma de todas las frecuencias observadas)

Por ejemplo, para la tabla expuesta arriba,

E32 = Frecuencia total observada en la fila 3 (O3.) × Frecuencia total observada en la columna 2(O.2)
Gran total (Suma de todas las frecuencias observadas)(O)

89
Bajo la hipótesis nula, esto es, si no existe relación entre X e Y (independencia), se
esperaría que los valores de las categorías de la variable X se repartirían
homogéneamente en cada una de las categorías de la variable Y. Por lo tanto, si no existe
relación, bajo la hipótesis nula, las frecuencias observadas en la tabla serían similares a
las esperadas bajo la hipótesis nula.

Se puede demostrar que el estadístico de prueba, el cual se calcula sumando las


diferencias cuadráticas entre las frecuencias observadas y esperadas dividiendo en cada
caso por estas últimas, sigue una distribución Chi-cuadrado con grados de libertad igual
al producto entre el número de filas menos uno,(f-1), y el número de columnas menos
uno, (c-1). Por lo tanto:

χ2
m n (Oij − Eij )2
( f −1 )( c −1 )
= ∑ ∑ Eij
i =1 j =1
A continuación se determina el valor teórico de la Chi-cuadrado, mediante los valores de
los percentiles de la distribución mencionada, a un α determinado por el investigador y
con los grados de libertad calculados a partir del número de filas y columnas de la tabla
múltiple. Si el valor teórico χα ,v es menor que el valor del estadístico Chi-cuadrado
2

calculado, se puede rechazar la hipótesis nula. Los programas estadísticos calculan antes
que el valor teórico el valor de p el cual se compara con el nivel de significación
establecido antes de hacer la recolección de la información. En caso de que el valor de p
sea menor que el nivel de significación α , se rechazará la hipótesis nula de
independencia.

La tabla de contingencia. El caso en que ambas variables son bicategóricas

Cuando las dos variables son de naturaleza cualitativa y bicategóricas, se tiene una tabla
de contingencia que consta de dos filas y dos columnas. Dicha tabla suele conocerse
como tabla de 2 por 2. La estructura de una tabla de contingencia se expone a
continuación:

Enfermedad
Tabla de contingencia Si No Total
Si a b a+b
Exposición No c d c+d
Total a+c b+d a+b+c+d

Al aplicar la regla (Número de filas -1)(Número de columnas -1) para encontrar los
grados de libertad, el resultado es un grado de libertad. En ésta situación deben hacerse
algunas consideraciones para la elección del estadístico de prueba, fundamental para
tomar la decisión3:

3
Se advierte que la expresión del cálculo del estadístico de prueba en una tabla de contingencia (las dos
variables bicategóricas) se conoce como fórmula abreviada. No obstante, también se podría utilizar la
fórmula general planteada para el cálculo del estadístico de prueba en la tabla de contingencia múltiple y los
resultados serían consistentes.

90
Estadístico de prueba no corregido: Usual cuando las frecuencias observadas en cada
celda son “grandes”. Usual cuando todas las frecuencias esperadas son mayores de cinco.

n(ad − bc )2
χ2 =
NO CORREGIDO (a + b )(a + c )(b + d )(c + d )

Estadístico de prueba con corrección de Yates: Esta corrección consiste en sustraer


la mitad del número total de las observaciones a la cantidad ad-bc y tiene como efecto
hacer más pequeño el valor del estadístico de prueba. Un valor del Chi-cuadrado más
pequeño impedirá que se rechace la hipótesis nula con tanta frecuencia como ocurre con
el Chi-cuadrado sin corregir. Algunos investigadores como Grizzle (1967),
Lancaster(1949), Pearson (1947) y Plackett (1964) cuestionaron esta corrección
argumentando que ella conduce a que la prueba sea muy conservadora ya que en la
mayoría de las situaciones no se puede rechazar la hipótesis nula. Como criterio práctico
se recomienda utilizar esta corrección cuando las frecuencias esperadas están entre 5 y
10.

n(ad − bc − 0.5n )2
χ2 =
YATES (a + b )(a + c )(b + d )(c + d )

Estadístico de prueba con corrección de Mantel-Haenszel: Es el más utilizado en la


investigación epidemiológica. La corrección consiste en restarle 1 al tamaño de la
muestra. Si las frecuencias de cada celda son “grandes”, el estadístico Chi-cuadrado sin
corregir y con corrección de Mantel-Haenszel son similares.

χ2 =
(n − 1)(ad − bc )2
M − H (a + b )(a + c )(b + d )(c + d )

Cuando se obtienen una o varias frecuencias esperadas menores que cinco, debe
utilizarse la Prueba Exacta de Fisher, de la cual se hablará más adelante, después de
exponer algunas aplicaciones de ésta en la investigación de tipo epidemiológica.

Prueba Exacta de Fisher

Esta técnica es usual para el análisis de datos discretos (variables de naturaleza


cualitativa con nivel de medición nominal u ordinal, bicategóricas), cuando existe al
menos alguna frecuencia esperada en la tabla de contingencia que es menor de 5. Las
frecuencias que se obtienen pertenecen a categorías de las variables que son
mutuamente excluyentes. Con base en la información que se presenta en la tabla de
contingencia, se puede determinar si los grupos difieren en la proporción
correspondiente a las clasificaciones.

91
Tabla de contingencia Enfermedad Total
+ -
Exposición + a b a+b
- c d c+d
Total a+c b+d a+b+c+d

Se determina en la anterior tabla, la diferencia entre los Expuestos y No expuestos que


hace referencia a la proporción de los signos + y - atribuidos a ellos.

Si la hipótesis nula es verdadera, esto es, H0: OR=1, se puede demostrar que si se
condiciona la selección de a+c casos y b+d controles con a+b total de expuestos, la
probabilidad de observar a casos expuestos y b controles expuestos sigue una
distribución hipergeométrica esto es:
 a + c  b + d 
  
 a  b  (a + b )! (a + c )! (c + d )! (b + d )!
p= =
 n  n! a! b! c! d !
 
 a + b
esto es, la probabilidad exacta de la frecuencia observada, se encuentra dividiendo el
producto de los factoriales de los cuatro totales marginales por el factorial de n
(a+b+c+d).

Para efectos de ejemplificar el análisis de la chi-cuadrado a partir del SPSS, se debe de


proceder de la siguiente forma:
1. Seleccione tablas de contingencia (Crosstab) del menú analizar. En el cuadro que
aparece seleccione la variable independiente y colóquela en las filas (Rows) y la
variable dependiente la coloca en las columnas (Columns). Este proceder se aplica
de forma general, siempre la variable independiente constituirá las filas y la
variable dependiente constituirá las columnas.
2. En el botón estadísticas puede seleccionar el tipo de estadísticos a obtener. Por
defecto la prueba obtiene el estadístico de la chi cuadrado, y si es una tabla de 2
por 2 se puede marcar la opción riesgos (risk) para obtener el riesgo relativo ó la
razón de disparidades.
3. En el botón Celdas (Cell), se puede seleccionar si se quieren porcentajes o no, y si
estos son para las columnas, las filas o ambas. Además se tiene la posibilidad de
obtener los valores observados y los esperados dentro de la tabla de contingencia

92
4. Una vez que se hallan dado estas opciones, se pulsa continuar y Aceptar, el SPSS
mostrará el la ventana de resultados lo siguiente:

Tabla de contingencia Sedentarismo * Enfermedad Coronaria

Estadísticos
Enfermedad Coronaria
Si No Total
Sedentarismo Si 15 15 30
No 4 36 40
Total 19 51 70

93
Pruebas de chi-cuadrado

Sig. asintótica Sig. exacta Sig. exacta


Valor gl (bilateral) (bilateral) (unilateral)
Chi-cuadrado de Pearson 13.870b 1 .000
Corrección por
a 11.921 1 .001
continuidad
Razón de verosimilitud 14.259 1 .000
Estadístico exacto de
.000 .000
Fisher
Asociación lineal por
13.672 1 .000
lineal
N de casos válidos 70
a. Calculado sólo para una tabla de 2x2.
b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada
es 8.14.

Estimación de riesgo

Intervalo de confianza
al 95%
Valor Inferior Superior
Razón de las ventajas
para Sedentarismo (Si 9.000 2.561 31.624
/ No)
Para la cohorte
Enfermedad Coronaria 5.000 1.846 13.540
= Si
Para la cohorte
Enfermedad Coronaria .556 .383 .806
= No
N de casos válidos 70

Como primer elemento observamos la tabla de contingencia con los valores


observados, y la descripción de la enfermedad coronaria según sedentarismo. En la
tabla siguiente encontramos la medida de asociación (Chi-cuadrado de pearson),
además nos aparece el estadístico exacto de fisher, el cual tiene su interpretación
cuando se tienen valores esperados menores de 5. en la tabla de ejemplo,
observemos que a pesar de existir una celda con valor menor de 5, el valor esperado
para ella es superior a 5 por lo tanto, en la tabla de contingencia no hay valores
esperados menores de 5, por tal motivo de puede interpretar el estadístico de pearson.
Como el Valor de P es menor que α se rechaza Ho, esto es, el sedentarismo y la
presencia de enfermedad coronaria esta asociadas. Si se quiere mirar la fuerza de la
asociación, por tratarse de una tabla de 2 por 2, el SPSS nos ofrece el riesgo relativo
para estudios de seguimiento (cohorte) y la razón de disparidades (casos y controles),
en el ejemplo asumamos que este es un estudio de seguimiento, con lo cual tenemos
un RR de 5 con un intervalo de confianza entre 1.846 y 13.540 como no pasa por 1 se
corrobora el hecho de que esta asociación es causal.

94
MUESTREO BASICO

El objetivo del muestreo es contar con el mayor número de unidades, con la mayor
cantidad de información, pero con el menor costo posible; además este tiene por
objeto seleccionar una parte representativa de la población con el fin de obtener
estimadores de los parámetros. Para lograrlo existen varios métodos y en cada uno de
ellos se puede establecer:

1. El grado de precisión en los estimadores


2. Tamaño de la muestra
3. Costo y tiempo

Dentro de este proceso de selección, se considera que en teoría, no debe existir


sustitución de unidades, para no falsear el esquema de selección; por tanto, a las
unidades de las cuales se obtuvo información se les considera como dominio de estudio
ya que aquellas no investigadas dejaran de pertenecer al grupo de nuestros intereses.

Generalmente se considera no sustituir unidades que no hayan podido ser localizadas,


pero en la práctica se acepta la aplicación de algunos métodos de sustitución sin que
sus resultados sean objetados. Algunos de ellos se presentan a continuación:

a. Se hace sustitución, cuando en un segmento se encuentra, por ejemplo, una


vivienda no entrevistada; en este caso, se toma la vivienda siguiente de acuerdo al
orden de visita o de selección y la información se duplica. Este proceso se basa en
el supuesto de que, dentro de un mismo segmento, las familias que ocupan
viviendas contiguas tienen una alta probabilidad de poseer características
económicas o sociales similares.
b. Determinar el número de unidades no entrevistadas, ya sea en la muestra, en el
segmento, estrato, etc., luego se selecciona una muestra aleatoria dentro de las
que han sido encuestadas, equivalente al número de las que no respondieron y se
duplica la información.
c. Tomar una muestra mayor a la establecida, mediante fórmula, conocida como
tamaño optimo. El número mayor depende del conocimiento que se tenga sobre las
unidades que no tendrán información (sobre muestreo).
d. Tomar al azar un número igual a las unidades que no informaron, de la población
que no fue seleccionada en la muestra.

• CONCEPTOS BÁSICOS:

• Población: grupo de elementos que tienen una característica común susceptible de


ser medida, puede ser finita o infinita. Para el estudio estadístico se utilizarán
poblaciones infinitas, estas se pueden enumerar por extensión y comprensión.

• En la muestra se habla de las unidades muestrales que son los elementos que
permiten cuantificar la unidad de observación, y en general son elementos que
constituyen la muestra, ejm: familias, viviendas; y las unidades de observación
(unidades de análisis) son aquellas a las que se les aplica el instrumento de
medición (formularios)

95
• Marco de Muestreo: Lista, mapa , directorio detallado de todos los elementos
que forman la población, en los cuales se encuentran claramente especificados las
unidades correspondientes. Así, el marco es aquella parte de la población que
puede ser muestreada, no es necesariamente igual a la población original. Como el
marco representa a toda la población, deberá ser tan cercano a esta como sea
posible.

• Diseño Muestral: Es el procedimiento de selección de una muestra y el método


correspondiente de estimación. Un requisito importante de un buen diseño es que
proporcione una medida del error de muestreo en la estimación, además de
permitir una estimación del valor de la población. Entre todos los diseños
muestrales se prefiere aquel que proporcione la más alta precisión para un costo
dado o el mínimo costo para un nivel dado de precisión.

• Error de Muestreo: Es la diferencia que puede haber entre el valor poblacional


(parámetro) y la estimación de la misma (estimación puntual o estadígrafo),
obtenida por medio de una muestra aleatoria, observada en una de las tantas
muestras posibles de una población dada. La totalidad de estos errores, genera la
distribución de muestreo empleada para estimar el valor poblacional. En muchos
casos, el error será determinado por el investigador; pero este procedimiento
requiere además de la experiencia del investigador, un conocimiento previo sobre
el comportamiento de la característica en la población que se estudia, de ahí que es
mucho más práctico determinar el error como un porcentaje, en la mayoría de los
casos no mayor del 10%. El porcentaje podría considerarse en algunos casos como
un complemento del nivel de confianza, así que una confianza del 95% daría
supuestamente un error del 5%, pero no siempre será el complemento, ya que
este porcentaje podrá aumentarse o disminuirse dependiendo del grado de
precisión con que se desea hacer la estimación. Se debe tener presente que entre
más pequeño sea el error, mayor será el tamaño de la muestra y por ende más
representativa; pero, entre más grande sea el error, menor será el tamaño de la
muestra, y por ende menos representativa.

• Error no de muestreo: Es un error que se origina generalmente por defectos en


la medición. Se debe a instrumentos mal calibrados, errores sistemáticos en la
obtención de datos, personal mal entrenado, mala elección del marco de muestreo,
datos faltantes, procesamiento deficiente de los datos, etc. Este error también se
llama sesgo, pero dicho término también tiene además otras interpretaciones.

• MUESTRA

La muestra, es en esencia un subgrupo de la población. Se puede entender como un


subconjunto de elementos que pertenecen a ese conjunto definido en sus
características al que llamamos población. Pocas veces se puede medir a toda la
población, por lo que obtenemos o seleccionamos una muestra y se pretende que este
subconjunto sea un reflejo fiel del conjunto de la población.

Básicamente categorizamos a las muestras en dos grandes ramas: las muestras no


probabilísticas y las muestras probabilísticas. En estas últimas todos los elementos de
la población tienen la misma probabilidad de ser escogidos. Esto se obtiene

96
definiendo las características de la población, el tamaño de la muestra y a través de
una selección aleatoria y/o mecánica de las unidades de análisis.

En las muestras no probabilísticas, la selección de los elementos no depende de la


probabilidad, sino de causas relacionadas con las características del investigador o del
que hace la muestra. Aquí el procedimiento no es mecánico, ni en base a fórmulas de
probabilidad, sino que depende del proceso de toma de decisiones de una persona o
grupo de personas, y desde luego, las muestras seleccionadas por decisiones
subjetivas tienden a estar sesgadas. El elegir entre una muestra probabilística y no
probabilística, depende de los objetivos del estudio, del esquema de investigación y de
la contribución que se piensa hace con dicho estudio.

Las muestras probabilísticas tienen muchas ventajas, quizás la principal es que puede
medirse el tamaño de error en nuestras predicciones. Puede decirse incluso que el
principal objetivo en el diseño de una muestra probabilística es el de reducir este error
al que se llama error estándar. Las muestras probabilísticas son esenciales en los
diseños de investigación por encuestas donde se pretende generalizar los resultados a
una población. La característica de este tipo de muestra, es que todos los elementos
de la población tienen al inicio la misma probabilidad de ser elegidos, de esa manera
los elementos muestrales tendrán valores muy aproximados a los valores de la
población, ya que las mediciones del subconjunto, serán estimaciones muy precisas del
conjunto mayor. Esta precisión depende del error de muestreo o estándar.

Las muestras no probabilísticas, las cuales llamaremos también muestras dirigidas,


suponen un procedimiento de selección informal y un poco arbitrario. La ventaja de
este tipo de muestras es su utilidad para un determinado estudio, que requiere no
tanto de una “representatividad de elementos de una población, sino de una cuidadosa
y controlada elección de sujetos con ciertas características especificadas previamente
en el planteamiento del problema”.

Las muestras representativas deben cumplir las siguientes condiciones:

1. Tamaño determinado según recursos, objetivos de la investigación y fórmulas


pertinentes
2. Nivel de confiabilidad mínimo definido por el investigador
3. Error máximo permisible definido por el investigador
4. Selección aleatoria de los elementos con una probabilidad conocida

• Ventajas de la muestra

De tipo práctico: más operativo, más funcional


De factibilidad: las expectativas del investigador son más fáciles de alcanzar
Económico: reduce los costos de la investigación

• Desventajas de la muestra

Según su tamaño puede no identificar los fenómenos de baja frecuencia


No se puede concluir a grupos muy pequeños
Existe error en las estimaciones
Exigen especialista en el diseño de muestra

97
• Razones para muestrear

Por lo económico
Por el tiempo
Porque la población es infinita
Por la naturaleza misma de la variable

• Que debe definirse previamente

La variable más relevante del estudio


Error máximo permisible
Nivel de confiabilidad en las estimaciones
Debe saberse previamente si la investigación apunta a estimar un promedio o
una proporción
Debe definirse si se trata de estimar una proporción, la probabilidad del evento
más relevante
Definir previamente si la población es finita o no
Hay que definir previamente cual es el diseño muestral a utilizar

• Fórmulas para hallar tamaño de muestra en Estudios Descriptivos

Poblaciones infinitas: Cuando el universo es superior a 100.000

∗ Si la investigación apunta a estimar un promedio el tamaño de la muestra será:

Z 2α / 2 * σ 2
n=
l2
∗ Si la investigación apunta a estimar una proporción el tamaño de la muestra será:

Z 2α / 2 * ( P * Q)
n= ⇒ Q=1-P
l2

Poblaciones finitas: Cuando el universo es ≤ a 100.000

∗ Si se apunta a estimar un promedio será:

Z 2α / 2 * σ 2
n=
Z 2α / 2 * σ 2
l2 +
N

98
∗ Si se apunta a estimar una proporción será:

Z 2α / 2 * ( P * Q)
n=
Z 2α / 2 * ( P * Q)
l2 +
N

En los ítems anteriores tenemos que:

Zα/2 = Constante en términos de una normal tipificada


σ2 = Varianza poblacional
P = Proporción poblacional; si se desconoce se toma P=0.5
queda el máximo tamaño de la muestra
Q = 1–P
N = tamaño de la población
ε = Error de estimación (la tolerancia) o grado de precisión
con que se recolectan los datos. Si el objetivo apunta a estimar un
promedio el error se da en unidades de la variable; y se apunta a una
proporción las unidades van en porcentaje

En la práctica es muy frecuente que no se conozca la varianza de la característica en la


población (δ2); en tales casos se debe recurrir a censos, a investigaciones similares
realizadas con anterioridad o a investigaciones preliminares, denominadas encuestas
piloto. Este último procedimiento es el que más se emplea para determinar el tamaño
de la muestra partiendo del supuesto de que no existe información sobre la población.

Muestreo aleatorio simple (M.A.S):

Una muestra es aleatoria cuando los elementos que constituyen la población o


universo tienen la misma posibilidad de ser seleccionadas.

El método de muestreo aleatorio simple es recomendable, en especial, cuando la


población no es numerosa y las unidades se concentran en un área pequeña; por otra
parte, la característica no debe tener gran variabilidad, porque implicaría un tamaño
muestral muy amplio lo que, a su vez, incrementaría costos y tiempo; por último, la
población debe facilitar su enumeración para que permita la aplicación de ese método.

Lo anterior conlleva a fijar tres inconvenientes que presenta el método de muestreo


aleatorio simple.

a. Se requiere un listado de unidades de la población, lo cual no es fácil (Marco)


b. Si el área es amplia, es probable que haya necesidad de traslado a lugares lejanos,
para investigar unas pocas unidades, dificultando su aplicación (costo y tiempo)
c. No existe garantía de que todas las unidades queden representadas en la muestra,
cuando la característica tiene una gran variabilidad.

En resumen, en el muestreo aleatorio simple, todos los elementos tienen la misma


probabilidad de ocurrir. La selección se hace previa a una enumeración de los
elementos. Para que exista aleatoriedad se usan tablas de números aleatorios,

99
funciones RAND# (Random Generation) de calculadoras, o en un computador mediante
una hoja de cálculo.

Procedimientos con el M.A.S:

a) Tomar el marco de muestreo o sea la lista detallada de todos los elementos de la


población. Por ejemplo: diagnósticos, historias clínicas, listado de personas, listado
de viviendas, etc.
b) Enumerar correlativamente cada unidad de muestreo desde 0001 hasta n
c) Mediante un método aleatorio se seleccionan los sujetos.
d) Hacer las elaboraciones estadísticas pertinentes. El M.A.S puede ser con o sin
reemplazo.

Muestreo sistemático:

El muestreo sistemático o en serie, se usa frecuentemente por ser un método simple,


sencillo, directo y económico. Arroja buenos estimativos, cuando la variable esta
ordenada, por años, valor, cantidad, etc. Se puede observar en las unidades
seleccionadas, que la variable se distribuye en la muestra casi igual que en el
muestreo aleatorio estratificado, asignación proporcional. Consiste en seleccionar una
muestra, tomando las unidades a intervalos regulares. Veamos como es el proceso de
selección:

Supongamos que la población estudiada esta compuesta por 1500 estudiantes,


además el tamaño de la muestra es de 176 estudiantes; con esta información se podrá
determinar el intervalo de selección o salto de muestreo, simbolizado con la letra K.

N 1500
K= ; Reemplazando se tiene: K= = 8.52 ≈ 9
n 176

Determinado el salto de muestreo, se debe obtener un número aleatorio entre 0 y K,


supongamos que entre 0 y 9, se obtuvo el número 4, el cual se denomina punto de
arranque. Se ha hecho la primera selección dentro del intervalo. Una vez establecido
el punto de arranque, mediante selección aleatoria, se inicia el proceso de selección
sistemática, sumándole al punto de arranque el valor de K, dando como resultado 13,
correspondiendo a la segunda unidad seleccionada; a esta se le suma nuevamente el
valor del salto de muestreo (K), para obtener la tercera unidad y así sucesivamente.

Muestreo estratificado:

Se le denomina también muestreo aleatorio restringido. Este procedimiento implica


una división de la población en grupos, denominados estratos, en tal forma que el
elemento presenta una característica tan definida que solo le permitirá pertenecer a un
único estrato. Por lo tanto, para que la división por grupos sea efectiva, los factores
de estratificación deberán guardar estrecha relación con las características que se
investigan y con el objetivo o finalidad del estudio. De esta manera se logra una
mayor precisión en los resultados.

100
Cuando la población es demasiado heterogénea con respecto a las características que
se desean estudiar, esto podía conducir a una gran variabilidad. Con el objeto de
mejorar las estimaciones y disminuir el error que pudiera presentarse, se organizan
los denominados estratos, donde los componentes (unidades) de cada estrato son
homogéneos entre si, y entre estrato y estrato existe heterogeneidad.

Este método es más eficiente que el muestreo aleatorio simple, pese al grado de
heterogeneidad y dispersión que puede presentar la característica, con la ventaja de
que al formar grupos más o menos homogéneos, las muestras resultantes son más
pequeñas y representativas.

Es necesario entender que un estrato es una subpoblación y, como tal, cada uno se
constituye como un dominio de estudio.

Mediante la selección aleatoria, en cada uno de los estratos se conformará la muestra.


Dependiendo de la distribución o escogencia de los tamaños muestrales para cada
estrato, podrán obtenerse mediante alguno de estos tres procedimientos:

1. Afijación igual o asignación igual: Se da cuando los elementos quedan


asignados o repartidos por igual en cada estrato muestral.
2. Afijación proporcional o asignación proporcional: Los elementos se
distribuyen en los espacios muestrales, en la misma proporción en que se
distribuyen los elementos en la población.
3. Afijación optima: Cuando el tamaño, tanto para la muestra general como para
cada uno de los estratos muestrales, dependen del grado de variabilidad de la
característica en cada estrato y del costo mínimo para una precisión dada.

En resumen se puede decir que la estratificación logra:


a) Una mayor precisión en los estimadores, a pesar de ser menos número de
unidades seleccionadas en comparación al muestreo aleatorio simple
b) Garantizar la representatividad y una reducción del error de la muestra, por
agrupación de aquellos elementos que se parecen más por la característica que se
investiga que por pertenecer a la población
c) Allegar información detallada para cada grupo o estrato específico, ya que se logra
una muestra independientes de los demás estratos
d) Dividir la población en grupos o estratos más o menos homogéneos en cuanto a su
composición interna, pero heterogéneos si se comparan los estratos entre sí.

1. Asignación igual: Este método implica que los tamaños muestrales en cada
estrato sean iguales. n1 = n2 = n3 etc. Después de determinar el tamaño de la
muestra, se debe elaborar la estratificación de la población a analizar.
Identificando primeramente la característica que se tendrá en cuenta para
conformar los grupos o estratos. Para lograr esta estraificación se procede a
dividir la muestra por la cantidad de estratos que se tenga.

2. Aplicación proporcional o asignación proporcional: Los elementos que


constituyen el tamaño de la muestra se distribuyen en los estratos en forma
proporcional al tamaño de las poblaciones. En otras palabras, el peso relativo
dado por el número de unidades en cada estrato en relación al total de
elementos de la población, debe ser igual al obtenido en la muestra.

101
En el siguiente cuadro se observa el procedimiento para hallar el tamaño de la
muestra de los estratos por este método.

ESTRATO POBLACION PONDERADOR TAMAÑO MUESTRA


C/ESTRATO
E1 N1 W1 = N1 / N W1 * n
E2 N2 W2 = N2 / N W2 * n
E3 N3 W3 = N3 / N W3 * n
. . . .
. . . .
. . . .
Eh Nh Wh = Nh / N Wh * n
TOTAL N 1.00 n

Otra forma es mediante una regla de tres simple, así:

N → 100 n *100
= = X, esto se multiplica por la muestra
N
n → X de ese estrato, o sea, n * X, y así para cada estrato;
asumiéndose n como la muestra de cada estrato.

NOTA: El procedimiento de selección de los elementos muestrales se hace por


M.A.S o Sistemático lineal. En general si la asignación es proporcional, el tamaño de la
muestra de cada estrato esta dado por:
nh = n*wh

3. En este método, el calculo de la muestra dependerá en muchos casos del costo


total de la investigación (C), del costo fijo (Co), del costo unitario (Ch); este
último podrá ser fijo o variable, para cada uno de los estratos, además del
grado de variabilidad (S2). En conjunto, los anteriores factores determinaran
con mayor precisión el tamaño optimo de la muestra; sin embargo, además de
los factores anteriores, podrán considerarse como factores complementarios, el
margen de error y el grado de confianza.

En síntesis, el método de asignación o afijación optima se reduce a:


a) A una optima distribución del tamaño de la muestra entre los diferentes estratos,
de tal manera que el error de estimación sea mínimo para un costo total dado.
b) Además de una optima distribución, con un costo total mínimo para un costo total
preestablecido, en algunos casos, se aplica el grado de variabilidad de cada estrato,
combinado con los costos unitarios (fijos y variables) y los tamaños poblacionales
de cada estrato.

Para el calculo del tamaño de la muestra, se usaran las siguientes fórmulas, de


acuerdo a los factores que se tomen en cuenta para su obtención. Estas serán:

102
a) En el caso de que tan solo se consideren como factores para el calculo de n, el
costo total de la investigación (C), el costo fijo (Co) y el costo unitario por estrato
(Ch), se debe aplicar la siguiente fórmula:

C − CO
n=
Ch

en esta fórmula no se tienen en cuenta los componentes tan importantes como el


grado de variabilidad (varianza) de la característica en cada estrato, tamaños de los
estratos, nivel de confianza y nivel de error.

b) Otra fórmula para determinar el tamaño optimo de la muestra, disponiendo de


información sobre el costo total de la investigación (C), costo fijo (Co), grado de
variabilidad de cada estrato (S2), costos unitarios (Ch) que pueden ser constantes o
variables para cada estrato y el tamaño poblacional de cada estrato (Nh). Estos
factores permiten determinar el tamaño n con mayor representatividad, ya que
además de los costos, se tienen en cuenta los tamaños poblacionales de los
estratos, y el grado de variabilidad para cada uno de ellos.

La fórmula entonces sería:

 
(C − CO ) ∑ N h S h 
 Ch 
n=
∑ N h S h Ch

Muestreo por Conglomerados

El muestreo por conglomerados se utiliza cuando o bien, no existe listado de unidades


finales o unidades elementales de la población; o las unidades están demasiado
dispersas.

Esto nos obliga a sustituir las unidades físicas o elementales, por grupos de unidades,
que llamaremos conglomerados; generalmente son superficies o áreas en las que se ha
dividido el espacio ocupado por la población. Supongamos que se desean realizar
estudios a familias en una ciudad. Cada unidad o familia se constituye en un
conglomerado, por tal razón se aplica el muestreo aleatorio monoetápico, es decir, se
realiza la investigación en una sola etapa.

Si anteriormente se realizó una selección de manzanas y de cada una de estas


manzanas, se selecciona otra muestra correspondiente a familias, el método será
bietápico. Obsérvese que hay una modificación con respecto al anterior método, ya
que los elementos no forman parte de los conglomerados, sino que son una muestra o
sub-muestra de cada uno de ellos. Si hacemos una selección de barrios, luego de
manzanas y por último de familias, el método será trietápico. El muestreo polietápico
o multietápico es una generalización y consta de más de tres etapas.

103
Los conglomerados son unidades que contienen unidades o elementos, es de anotar,
que en la aplicación del muestreo por etapas la unidad cambia en cada una de ellas,
por lo tanto se requiere de varios marcos o listados, ya que se tienen varias
poblaciones.

Para efectos de este texto, estudiaremos el muestreo por conglomerados de una y de


dos etapas.
1. Una etapa: Si una población se divide en grupos y se toma una muestra, se dice
que se ha realizado una muestra por conglomerados en una etapa, en la cual cada
grupo sirve como unidad de muestreo. Recordemos que los estratos se dividen en
grupos más o menos homogéneos en cuanto a su composición interna; en cambio,
en los conglomerados, se espera que la composición interna sea lo más
heterogénea posible, de tal forma que cada conglomerado represente en lo posible
a la población. Es muy común que estos conglomerados hagan referencias a
superficies o áreas en que se ha dividido el terreno, por ejemplo, un barrio o una
manzana que pueden considerarse como conglomerados; el primero como un
grupo de manzanas, el segundo como un grupo de viviendas. Este método permite
reemplazar a las unidades más pequeñas (unidades de selección) de las
poblaciones cuando ellas no pueden ser enumeradas, por unidades más pequeñas
que las contienen, haciéndolas fácil de listar y de manejar y desde luego resulta
menos costoso que los demás métodos de muestreo. Sin embargo vale la pena
señalar que entre más pequeño sea el conglomerado, más exacto será el
estimador.
2. Bietápico: Este método puede considerarse como un sub-muestreo y se trata de
una modificación del método de muestreo por conglomerados, ya que la primera
muestra esta conformada por unidades que son consideradas como conglomerados,
una vez seleccionados estos, se efectúa una nueva selección o sub-muestreo
dentro de cada conglomerado para la segunda etapa.

De lo anterior se desprende, que lo característico de este tipo de muestreo es que el


proceso de selección se hace por etapas sucesivas; en cada una de las etapas la
unidad es diferente y las unidades finales (la última muestra) son las que nos permiten
la realización de la encuesta, para la recolección de la información; las anteriores son
unidades de selección.

Nuevamente vale la pena recordar que , el muestreo aleatorio por conglomerados es


aquél en el cual cada unidad de selección es una colección, conjunto o conglomerado
de unidades o elementos. Se dice que es de dos etapas o bietápico, ya que se obtiene
primero una muestra aleatoria de conglomerados y luego en una segunda etapa una
muestra aleatoria de los elementos de cada conglomerado seleccionado.

Muestreo Doble

Denominado también bifásico porque se efectúa en dos fases. Es aplicado de


preferencia, cuando no existe información auxiliar que permita conocer los tamaños
poblacionales de los estratos, ni la identificación de las unidades; en este caso,
primero se realiza una muestra aleatoria simple, generalmente grande, en forma
rápida y sencilla para conocer en forma muy general algunas de las características
objeto del estudio; luego se procede a una segunda muestra extraída de la anterior, la
que podría considerarse como submuestra, con la cual se hacen las estimaciones.

104
6. ESTADÍSTICA NO PARAMETRICA

En los apartados anteriores se han analizado modelos estadísticos que implican


distribuciones continuas con ciertos supuestos básicos para la aplicación de estas
técnicas. El principal uso de esos modelos es la estimación de parámetros
desconocidos de la población en estudio, para poder hacer pruebas de validación o
ensayos de significación y testear así las hipótesis planteadas.

Estos supuestos se plantean fundamentalmente sobre el valor que toman los


parámetros poblacionales o sobre comparaciones de dos de ellos. Hasta ahora se ha
trabajado con magnitudes biológicas de tipo cuantitativas y continuas. A las
magnitudes discretas se las ha tratado como proporciones para poder usar los modelos
vistos, y cuando se usó el modelo de Gauss (normal) se tuvo que hacer una corrección
por continuidad. A esta metodología de trabajo se la denomina Estadística
Paramétrica, por contraposición a otra donde lo que interesa es comparar
distribuciones en lugar de parámetros. Mientras los supuestos usados en la
paramétrica especifican la distribución original (generalmente la gaussiana), hay otros
casos en la práctica donde no se puede hacer esto, donde no se puede especificar la
forma de distribución original. Se requiere entonces otra metodología de trabajo, una
estadística de distribuciones libres, donde no se necesitan hacer supuestos acerca de la
distribución poblacional, donde se puede comparar distribuciones entre sí o verificar
supuestos a cerca de la forma de la población. Por ejemplo, verificar el supuesto de
normalidad necesario para usar el modelo Student. La solución para estos casos es el
empleo de la Estadística no paramétrica. Hay ciertas ventajas en su uso, tales
como:
- trabajar con magnitudes cualitativas, además de las cuantitativas;
- estudiar casos donde no es posible precisar la naturaleza de la distribución;
- ídem para los casos donde los supuestos de la forma poblacional son débiles;
- aplicar el mismo modelo a casi todas las distribuciones en lugar a una sola;
- es más fácil de entender para quienes no poseen base matemática adecuada.

Y también tiene algunas desventajas como:


- cálculos usualmente más engorrosos;
- no extraen tanta información como los paramétricos si se aplican al mismo caso;
- son menos eficientes si las muestras son grandes.

Los modelos paramétricos tienen mayor capacidad para detectar diferencias


muestrales que los no paramétricos. Es decir, son capaces de ver una diferencia
significativa en casos donde los otros no pueden. Como su poder discriminador es
mejor, siempre que se pueda, conviene usar modelos paramétricos antes que los no
paramétricos, por su mayor sensibilidad para detectar diferencias significativas A
menos que las diferencias sean tan grandes que con cualquier modelo pueden
detectarse. Pero como los no paramétricos se aplican casi todos los casos, son más
fáciles de entender y no tienen tanta “complicación matemática”.

El independizarse de la forma de la población llevó a estos modelos a otras


aplicaciones no clásicas, como en las ciencias de la conducta, marketing, ciencias
sociales, etc. En algunas técnicas, como las pruebas de rango o de orden, se trabaja
con puntajes, que no son verdaderamente numéricos, lo cual ocasiona deformaciones
en los datos si se empleasen técnicas paramétricas y el valor de las conclusiones de la
validación estadística quedaría menoscabado. Por ejemplo, se pueden asignar rangos

105
por textura, coloración, sabor, olor (magnitudes organolépticas), clasificar por infección
con cierto tipo de virus, y otros casos donde no se cumpla el supuesto de
homogeneidad de varianzas; acá el modelo de rangos puede ser la salida. Cuando se
comparan dos muestras, los modelos paramétricos hacen hincapié en la comparación
de las medias, mientras que los no paramétricos fijan su atención en comparar
medianas.

La prueba de rachas de una muestra


Esta prueba es para aleatoriedad. En los casos anteriores vistos se trabajó bajo el
supuesto de extracción de muestras aleatorias de la población. De acuerdo con el
diseño del experimento se puede lograr, sin embargo, hay casos donde no es tan
sencillo hacerlo. Otras veces puede que sea necesario probar la aleatoriedad. Para ello
se han venido desarrollando una serie de modelos estadísticos que estudian el orden o
secuencia en que las muestras individuales fueron obtenidas, para probar que la
muestra es aleatoria. Este modelo se basa en la cantidad de rachas que una muestra
exhibe. Por rachas se entiende a una sucesión de símbolos idénticos que pueden estar
separados o no por otro tipo de símbolos. Por ejemplo, sea una serie de mediciones de
magnitudes dicotómicas identificadas con los símbolos de resultado positivo (+) o
negativo (-) a juicio del investigador, de acuerdo con cierto criterio profesional
empleado:
Resultados: + + - - - + - - - - + + - +
Nº de rachas: 1 2 3 4 5 6 7

La primera racha empieza con una serie de 2 símbolos positivos, la segunda racha con
3 negativos, la tercera con un positivo, y así sucesivamente hasta la séptima racha con
un positivo. El número de rachas es r = 7. El número total de rachas indica si una
muestra es o no aleatoria. Si se da un número pequeño de rachas puede deberse a
una falta de independencia o a una tendencia temporal. Mientras que si por el
contrario hay un número muy grande de rachas, las fluctuaciones cíclicas sistemáticas,
en un período corto de tiempo, pueden causar influencia en los valores asignados por
el investigador. Por ejemplo, si se lanza al aire una moneda 30 veces y se obtienen 30
rachas es razonable dudar de esa moneda, son demasiadas. Lo mismo ocurriría si se
obtienen únicamente dos rachas, como primero todas caras y luego sellos.

El número de rachas no depende de la frecuencia de los sucesos. En efecto, dos


situaciones bien diferentes pueden tener las mismas frecuencias. Como las del ejemplo
anterior de las monedas donde se tiene una frecuencia relativa de ½, en ambos casos.
Sin embargo, en el primer caso sale una cara, luego un sello, y así sucesivamente una
y una, mientras que en el segundo primero se dan 15 caras seguidas y luego los 15
sellos finales. Generalmente se conoce la distribución muestral en muestreos
repetidos, lo que permite obtener la probabilidad asociada para poder probar hipótesis.
El procedimiento para aplicar este modelo es como sigue:

Paso 1. Se calcula el número n1 de elementos de una clase identificadas por un


símbolo y n2 la cantidad de elementos de la otra.
Paso 2. Se ordenan los n = n1 + n2 sucesos en el orden en que ocurrieron.
Paso 3. Se cuenta el número r de rachas.
Paso 4. Se postula una hipótesis nula de trabajo que permita calcular la probabilidad
asociada.
Paso 5. Se determina la probabilidad que ocurran r rachas, usando Ho, y se compara
con el nivel de significación á adoptado para aceptar o rechazar la Ho.

106
Para ilustrar mejor estas ideas, se presentan dos problemas resueltos, uno para
muestras pequeñas y el otro para las grandes.

Caso 1 - Muestras pequeñas: en un Laboratorio de investigación se prueba un


antiflamatorio nuevo. Los resultados son aceptables si al segundo día de aplicado al
paciente se observa una reducción del 90% en la inflamación; se le asigna (+) a ese
caso. Se quiere testear la hipótesis que la sucesión de signos positivos y negativos se
produce al azar. La sucesión de los 24 casos analizados fue:
Sucesión: + - + + + + - + + + - - - - + - - + + + - - - -
Rachas: 1 2 3 4 5 6 7 8 9 10

Se usa un test dos colas porque no se predice la dirección de la desviación que supone.
El tamaño de cada muestra es 12. Usando ambas tablas del apéndice se determina la
zona de rechazo de la hipótesis nula cuando r es menor o igual a 7 o cuando r es
mayor o igual a 19; con esto se define:
Zona de aceptación: 7 < r < 19 y como r = 10 cae dentro de esta zona y no se
rechaza (Ho). Se concluye que se deben suponer aleatorias a las muestras tomadas.

Caso 2 - Muestras Grandes: en un hospital se forma todas las mañanas temprano, una
cola de pacientes esperando su turno para la extracción de sangre. La bioquímica a
cargo decide verificar si la colocación de hombres y mujeres es al azar. Anota el sexo
de cada uno de los primeros 50 pacientes que entraron al laboratorio. Los resultados
fueron:
Sucesos : HH M H M HHH MM H MM H M HH MMM HH MM HH
Rachas : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Sucesos : MM H M H M H MM H M HH M HH M H M H M H MM
Rachas : 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Total de rachas: r = 34. El total de hombres y mujeres fue: 25 = n1 = n2


µ r = 1 + [ ( 2 n1 n2 ) . n ] = 1 + [ 2 (25) 25] / 50 = 26
( 2 n1 n2 ) ( 2 n1 n2 – n ) 2 (25) 25 {[2 (25) 25] – 50}
(ór)2 = .......... = ......-.... = 12,245 y ór = 3,5
n2 ( n – 1 ) (50)2 (50 – 1)
Z = ( r - µ r ) / ór = (r - 26 ) . 3.5 = ( 34 - 26 ) . 3.5 = 2,29* (0,01 < PN(Z2,29)=
0,011 < 0,05)

Se rechaza la hipótesis de que los sexos guardan un orden aleatorio al formar la fila.
Se encontró evidencia significativa para rechazarla. Si se calcula la probabilidad
gaussiana para Z = 2,29 resulta p = 0,011; esto es, más cerca del rechazo al 99% que
al 95% de nivel de confianza.

La prueba de aleatoriedad algunas veces es necesaria para comprobar los supuestos


específicos de otros modelos estadísticos. Debería realizarse primero para decidir si el
modelo es aplicable porque se verifica su supuesto de aleatoriedad, como en el caso
Gauss, Student, Fisher, etc. Para evitar en la prueba de aleatoriedad, lo aconsejable
es usar sorteos al azar para la selección de muestras.

107
La prueba de rangos de Wilcoxon
En la prueba del Signo se utiliza la información acerca de la dirección de las diferencias
encontradas en la pareja de muestras. Pero no se considera la magnitud relativa de
tales diferencias. En cambio, en el modelo de Wilcoxon se toma en cuenta ambas cosas
y por eso es más poderoso que el del Signo. Acá se le da un peso a cada signo,
relativo a la magnitud de la diferencia encontrada. Se la denomina también: Prueba de
rangos señalados y pares encontrados. El investigador debe hacer dos cosas básicas al
examinar una pareja de datos:
1) determinar en la pareja cual es el "mayor" de ambos;
2) ordenar por rango las diferencias halladas.

Entonces puede usar este test para validar la hipótesis nula de que no hay diferencias
entre los pares debido al tratamiento aplicado. En casos donde la valoración se hace en
forma subjetiva, usando puntajes, también se puede aplicar el modelo de Wilcoxon
(Psicología, Sociología, etc.).

En la Bioquímica se la puede emplear cuando se valora el tamaño de una reacción ante


una droga, vacuna, coloración, etc., con algo similar a un puntaje. En Farmacia ocurre
otro tanto cuando se valoran con puntos la eficacia de medicamentos, o con escalas las
encuestas de opinión en técnicas de mercadeo, propaganda, etc. Esta prueba también
puede usarse en una muestra única donde deseen hacer inferencias acerca de la
mediana: aquí al valor supuesto en la hipótesis nula se le resta a cada observación
realizada y se tienen las diferencias buscadas para hacer el test. El supuesto básico
para poder usarlo es:
las magnitudes con las que se trabaja provienen de una distribución simétrica.
No importa si cada muestra proviene de una población distinta, lo importante es que
ambas deben provenir de poblaciones con distribuciones simétricas. El método puede
ser resumido en:

Paso 1. Se determina las diferencias Di entre los pares de observaciones realizadas.


Paso 2. Sin tomar en cuenta el signo, se ordenan en forma creciente. Las ligas se
descartan pues en este modelo no se toman en cuenta los empates únicamente se
consideran los rangos de las diferencias encontradas.
Paso 3. Se coloca el signo a cada uno de los rangos Ri hallados. Se suman entre sí los
rangos de las diferencias positivas calculando su total T+, y el de las negativas
obteniendo T-
Paso 4. Se elige la menor de ambas sumas y se la define como el estadígrafo T.
Paso 5. Se compara el valor T obteniendo con el valor crítico Tá para tomar
decisiones.

La hipótesis nula es que los tratamientos aplicados son equivalentes. Esto es, la suma
de los rangos positivos y negativos son aproximadamente iguales. Habrá diferencias de
ambos signos pero con valoraciones que se equiparan. En cambio, si las sumas de
rangos son muy diferentes, se puede deducir que el efecto del factor analizado no es
despreciable ni producto del azar.

En este modelo puede haber dos tipos de situaciones. La primera ocurre cuando no se
aprecia diferencia entre la pareja analizada ( Di = 0 ) y se deja de lado en los cálculos,
al igual que en el caso del modelo anterior. La segunda ocurre cuando se produce un
empate en el valor de las diferencias ( Di = Dj = …= Dk ). O sea, la diferencia de
rangos no es nula sino que tiene el mismo módulo que otra diferencia. Es posible hallar

108
1, 2, 3, …, k empates.

En este caso, la solución es promediar el valor de los rangos empatados hallados Ei y


asignárselo a cada uno de los empates. Esto es, a cada empate se le da un valor Ei = (
R1 + R2 +… + Rk ) / k..

Los siguientes ejemplos ilustran el uso de este modelo:


Caso 1) Muestras pequeñas: una determinación clínica se realizó en 8 pacientes que
concurrieron al laboratorio usando el método A; se repitió la medición pero usando
otra marca de espectrofotómetro (método B). Los resultados obtenidos fueron los del
cuadro siguiente. Averiguar si es lo mismo usar uno u otro espectro.

La menor de las sumas de rangos señalados es T = 4. Como no hay diferencias nulas


encontradas, resulta N = n = 8, de la Tabla de wilcoxon se obtiene el valor Tá = 4.
Como este estadígrafo no es menor que el valor crítico, se rechaza la hipótesis nula de
igualdad entre ambos espectros con un nivel significación de 0,05 para un ensayo de
dos colas.

Este mismo problema se puede resolver con el modelo del signo. Para ello, se calcula
un valor de x = 2 y de la tabla respectiva se obtiene una posibilidad asociada Bx = 2p
= 2 (0,145) = 0,029 para una prueba de dos colas. Acá no se puede rechazar la
hipótesis nula (Ho) x = 2 para un valor de á = 0,05. A primera vista se tienen
entonces dos resultados diferentes usando estos dos modelos.

Es importante destacar que no son contradictorios entre sí. El modelo del Signo tiene
menor sensibilidad y no puede detectar diferencia alguna entre ambos métodos
clínicos. No puede discriminar la pequeña diferencia que implica cambiar el
espectrofotómetro en la técnica realizada. En cambio, el modelo de Wilcoxon, más
sensible, ya detecta diferencias entre ambos. Si bien en el límite, pero suficiente para
tener una prueba científica. Esto no es extraño pues este modelo, además de emplear
la información del signo, agrega más información con los rangos. Es una especie de
moderación o prorrateo de los signos: no todos pesan igual a la hora de contarlos.

109
Modelo U de Mann-Whitney
Este modelo U sirve para testear si dos muestras independientes han sido tomadas de
la misma población. Se tiene, por lo menos, una magnitud ordinal de la misma. Este es
el modelo no-paramétrico más poderoso para comparar dos muestras cuando no son
apareadas. Es para el caso donde se tiene dudas acerca de la verificación de los
supuestos que piden el modelo Student, o cuando las medidas son ordinales. La
hipótesis de trabajo (Ho), siempre es que ambas muestras provienen de la misma
población.

El procedimiento a seguir para usar este método es como sigue:

Paso 1. Se ordenan todos los datos, de menor a mayor, de ambas muestras y en un


solo conjunto, cuidando de identificar a cada uno con su muestra respectiva.
Paso 2. Se determina la muestra de referencia. Conviene que sea la de menor
tamaño, caso contrario la muestra de control, placebo o blanco.
Paso 3. Comenzando con el menor valor, se cuenta el número de muestras que
preceden al primero de la muestra control (Ul); luego se busca el segundo de la
muestra control y se cuenta el número de muestras precedente del otro grupo (U2);
después se ubica al tercer valor y se procede en forma análoga para determinar (U3),
y así sucesivamente hasta recorrer toda la muestra de control o referencia. En caso de
empate, se le asigna medio punto a cada uno.
Paso 4. Se obtiene el estadígrafo U = U1 + U2 + U3 + ….
Paso 5. Se procede a comparar este valor contra el valor crítico de tablas.

Hay dos tipos de tablas para el modelo U. Para muestras pequeñas (ninguna de las
muestras es mayor que 9), y arroja el valor de la probabilidad del estadígrafo
U calculado en el Paso 4. Para tamaño mediano de las muestras (entre 9 y 20 cada
una), y da un valor crítico Uá que se debe comparar con el obtenido
experimentalmente. Para n > 20 se usa la aproximación con la función de Gauss.

110
BIBLIOGRAFÍA

SIDNEY Siegel. Estadística no paramétrica aplicada a las ciencias de la conducta. Ed.


Trillas, México, 344 p.1992.

LONDOÑO F. Juan Luis. Metodología de la Investigación Epidemiológica. Editorial


Yuluka. U de A.1995.

BETH DawsOn- Saunders, Trapp Robert G. Bioestadística Médica. Editorial el Manual


Moderno, S.A de C.V. 1993.México, D.F. 380 p.

NORMAN, R. Geoffrey, Streitner David. Bioestadística. Mosby Doyma Libros S.A.


División Iberoamericana.1996.

WAYNE W. Daniel. Bioestadística: Base para el análisis de las Ciencias de la Salud.


1990.

Mendenhall, William. Probabilidad y estadística para ingeniería y ciencias. Prentice


may, 1997. cuarta edición.

Martínez Bencardino. Ciro. Estadística y muestreo. Bogotá, Eco ediciones, 1999.

Díaz cadavid. Abel. Gutiérrez Arias, Armando. Estadística general. Medellín, Alas
libres, 1995.

111

You might also like