Libro de Estadistica 2014

TEMA: Estadstica en la Investigacin
Johnny Flix, Farfn Pimentel
INDICE
INTRODUCCIN ................................................................................................................................. 3
MARCO TEORICO ................................................................................................................................... 5
1.
PRUEBAS NO PARAMETRICAS .................................................................................................... 38

ANTECEDENTES .......................................................................................... ERROR! BOOKMARK NOT DEFINED.
1.1.
CONCEPTOS BASICOS. ................................................................................................ 38
1.2.
OTROS CONCEPTOS ...................................................................................................... 39
MARCO METODOLOGICO ..................................................................ERROR! BOOKMARK NOT DEFINED.

2.
PRINCIPALES PRUEBAS NO PARAMETRICAS .............................................................................. 40

2.1.PRUEBA DE PEARSON ........................................................................................................ 40
2.2.PRUEBA BINOMIAL ................................................................................................................ 42
2.3.PRUEBA DE ANDERSON-DARLING .......................................................................................... 44
2.4.PRUEBA Q DE COCHRAN ........................................................................................................ 44
2.5.PRUEBA DE COHEN KAPPA ..................................................................................................... 47
2.6.PRUEBA DE FISHER ................................................................................................................. 48
2.7.PRUEBA DE FRIEDMAN .......................................................................................................... 49
2.8.PRUEBA DE KENDALL ............................................................................................................ 50
1.7.PRUEBA DE KOLMOGROV-SMIRNOV ................................................................................... 54
1.8.PRUEBA DE KRUSKAL-WALLIS ................................................................................................ 55
1.9.PRUEBA U DE MANN-WHITNEY ............................................................................................. 56
1.10.PRUEBA DE MCNEMAR ........................................................................................................ 63
1.11.PRUEBA DE LA MEDIANA ..................................................................................................... 64
1.12.PRUEBA DE LOS SIGNOS ....................................................................................................... 64
1.13.PRUEBAS DE SPEARMAN ..................................................................................................... 65
1.14.PRUEBA TABLAS DE CONTINGENCIA .................................................................................... 67
1.15.PRUEBA DE RACHAS DE WALD-WOLFOWITZ ........................................................................ 69
1.16.PRUEBA DE LOS RANGOS CON SIGNO DE WILCOXON .......................................................... 70
2.
CLASIFICACION Y SU OBJETIVO .................................................................................................... 72
3.
ELECCION DE LA TECNICA ESTADISTICA APROPIADA................................................................... 73
CONCLUSIONES .............................................................................................................................. 75
WEBGRAFIA ..................................................................................................................................... 76
INTRODUCCIN
En el mbito de
las Ciencias
Sociales es habitual el uso
de
pruebas no
paramtricas puesto que existen muchas variables que no siguen las condiciones de
parametricidad. Dichas condiciones se refieren
al uso de variables cuantitativas
continuas, distribucin normal de las muestras, varianzas similares y tamao de las

muestras, mayor a 30 casos. Estos criterios se recogen ampliamente en Rubio y
Berlanga (2012). En caso de que no se cumplan estos requisitos, y sobre todo
cuando la normalidad de las distribuciones de la variable en estudio est en duda y el
tamao de la muestra sea menor a 30
casos,
el empleo de
las pruebas no
paramtricas o de distribucin libre est indicado.

Las pruebas no paramtricas renen las siguientes caractersticas: 1) son ms fciles
de aplicar; 2) son aplicables a los datos jerarquizados; 3) se pueden usar cuando
dos series de observaciones provienen de distintas poblaciones; 4) son la nica
alternativa cuando el tamao de muestra es pequeo y 5) son tiles a un nivel de
significancia previamente especificado.
Por qu se debe tener conocimientos sobre estadstica no paramtrica?
La respuesta a esta pregunta es muy sencilla; las pruebas de ji cuadrada son pruebas
no paramtricas. Tanto la prueba de la tabla de contingencia como la de bondad de
ajuste analizan datos nominales u ordinales. Estas pruebas, se usan ampliamente en
las aplicaciones de negocios, lo que demuestra la importancia de la habilidad para
manejar datos categricos o jerarquizados adems de los cuantitativos.
Existen otras muchas pruebas estadsticas diseadas para situaciones en las que no
se cumplen las suposiciones crticas o que involucran datos cuantitativos o
categricos. Los analistas que manejan estos datos deben familiarizarse con libros
que abordan tales pruebas, conocidas comnmente como pruebas estadsticas no
paramtricas. Se presentarn aqu unas cuantas de las pruebas no paramtricas que
ms se usan.
Qu ocurre con las pruebas no paramtricas frente a las que s lo son?

Las pruebas no paramtricas no necesitan suposiciones respecto a la composicin de
los datos poblacionales. Las pruebas no paramtricas son de uso comn:
1. Cuando no se cumplen las suposiciones requeridas por otras tcnicas usadas,
por lo general llamadas pruebas paramtricas.
2. Cuando es necesario usar un tamao de muestra pequeo y no es posible
verificar que se cumplan ciertas suposiciones clave.
3. Cuando se necesita convertir datos cualitativos a informacin til para la toma
de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala nominal u
ordinal. Muchas aplicaciones de negocios involucran opiniones o sentimientos y esos
datos se usan de manera cualitativa.
Las pruebas no paramtricas tienen varias ventajas sobre las pruebas paramtricas:
1. Por lo general, son fciles de usar y entender.
2. Eliminan
la
necesidad
de
suposiciones
restrictivas
de
las
pruebas
paramtricas.
3. Se pueden usar con muestras pequeas.
4. Se pueden usar con datos cualitativos.
Tambin las pruebas no paramtricas tienen desventajas:
1. A veces, ignoran, desperdician o pierden informacin.
2. No son tan eficientes como las paramtricas.
3. Llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa
(incurriendo en un error de tipo II).
Las pruebas no paramtricas son pruebas estadsticas que no hacen suposiciones
sobre la constitucin de los datos de la poblacin.
Por lo general, las pruebas paramtricas son ms poderosas que las pruebas no
paramtricas y deben usarse siempre que sea posible. Es importante observar, que
aunque las pruebas no paramtricas no hacen suposiciones sobre la distribucin de la
poblacin que se muestrea, muchas veces se apoyan en distribuciones mustrales
como la normal o la ji cuadrada.
CAPTULO I:
ESTADSTICA
1.1.
Estadstica.Es el conjunto de tcnicas que se emplean para la recoleccin,
organizacin, anlisis e interpretacin de los datos. Se ocupa de la

creacin, desarrollo y aplicacin de tcnicas que permiten hacer un anlisis
confiable de una poblacin. Es una ciencia mediante la cual se realizan una
secuencia de procedimientos que analizan la informacin de una o ms
variables, de las unidades que fueron obtenidas de la poblacin, con el
objetivo de organizar, analizar e interpretar estos datos u observaciones;
para finalmente, inferir de una muestra sobre toda la poblacin en estudio.
1.2.
Investigacin Estadstica.La investigacin es un proceso de produccin de conocimiento
cientficos; es un proceso sistemtico a travs del cual se recogen

datos e informacin de la realidad objetiva para dar respuesta a las
interrogantes
que
se
plantean.
No
pequea, simplemente investigar es
hay
investigacin
grande
buscar respuesta para plantear
soluciones.
Cuando se aplica el mtodo cientfico al estudio de los problemas
econmicos se habla de investigacin econmica, asimismo se tiene
investigacin
investigacin
entonces
educativa,
requiere
surge
la
de
investigacin
datos,
necesidad
agropecuaria, etc.
sin datos no
de
definir
hay
mtodos,
Toda
investigacin,
anlisis
tratamientos de datos, con el propsito de obtener algunas medidas o

indicadores que expresen la dimensin o niveles de la variable
estudiada, es decir, realizar la paralizacin de las variables; en este
contexto la estadstica surge como ciencia auxiliar de la investigacin,
que por su naturaleza, estructura y mtodos, en este proceso, el
anlisis estadstico tambin cumple con los diversos paso de la
investigacin.
1.3.
Objetivo de la Investigacin Estadstica.El objetivo de la investigacin estadstica es
descubrir
respuestas a determinada interrogantes a travs de la aplicacin de

procedimientos cientficos. El punto de partida de la investigacin es
la existencia de un problema que habr que definir, examinar, valorar,
y analizar crticamente, para luego formular y entender su solucin.
1.4.
Clasificacin de la Estadstica.-
a. Estadstica Descriptiva.Es la parte de la estadstica que se encarga de la recoleccin,

clasificacin, descripcin, simplificacin y presentacin de los datos
mediante cuadros o tablas, y grficos que describen de manera
apropiada en comportamiento de la informacin obtenida.
b. Estadstica Inferencial.Es la parte de la estadstica que se ocupa de los procesos de
estimacin, anlisis y prueba de hiptesis, con el propsito de llegar a
conclusiones que brinden una adecuada base cientfica para la toma de
decisiones, tomando como base la informacin muestral obtenida.
1.5.
Etapas de la Investigacin Estadstica.La investigacin estadstica por su naturaleza, es fundamental
de
tipo descriptiva;
se preocupa
de
la
confiabilidad,
validez
significacin de los datos, de la muestras as como los mtodos y

tcnica de recoleccin y anlisis estadstico.
La investigacin estadstica es un proceso donde se distinguen cinco
etapas:
1.5.1. Planteamiento o preparacin del trabajo estadstico.a. Fundamento y compresin
del
estudio
e identificacin de las
variables.
b. Determinacin de objetivos.
c. Organizacin de las variables.
d. Precisin de los datos e informacin requerida.
e. Identificacin y evaluacin de la fuente de informacin.
f.
Identificacin y anlisis de estudios similares.
g. Determinacin del mbito de la investigacin

h. Preparacin del plan para ejecutar la investigacin.
i.
Formacin y capacitacin del equipo de trabajo.
j.
Elaboracin del calendario de actividades.
k. Formulacin del presupuesto y fuente de financiamientos.

l.
Diseo y ejecucin de una prueba piloto o experimental.
1.5.2.
Recopilacin de los datos.La recopilacin o recoleccin de datos es el momento en el
cual el investigador se pone en contacto con los objetos o elementos

sometidos
estudio,
con
el
propsito de
obtener
los
datos
respuesta a las variables analizadas. El mtodo de recoleccin est

asociado tambin con el tipo y naturaleza de la fuente de datos.
1.5.3.
Organizacin y presentacin de datos.Despus de la recopilacin de los datos, se procede a su
organizacin, clasificacin y tabulacin, de modo que se facilite la

presentacin en tablas cuadros o grficos.
Como tarea previa a la investigacin es indispensable realizar una

evaluacin, critica, correccin y ajuste de los datos, el propsito es
superar las omisiones, inconsistencia y desechar las respuestas no
significativas o errneas.
Tngase presente que la validez de sus resultados y conclusiones

depende de gran medida de la fidelidad de los datos utilizados. No
existen computadora que por s, corrija los errores de recopilacin.
Realizada las correcciones o ajuste, se procede a la clasificacin o

establecimiento de categoras o intervalos, para la agrupacin de los
datos.
Finalmente se procede a la tabulacin o procesamiento de los datos,

de acuerdo a un plan de tabulaciones previamente definido.
Los cuadros y tablas estadstica como primera fase de la reduccin

de datos, facilita el clculo de los indicadores con los cuales se inicia
la descripcin, anlisis e interpretacin de los datos, variables e
informacin estadstica.
1.5.4. Anlisis e interpretacin de los datos estadsticos.En esta etapa se aplica los argumentos matemtico y tericos
de
la
estadstica.
travs
de
mtodos
estadstico
se
calcula
indicadores y medidas de resumen, se establecen relaciones entre

variables, se estiman valores, se ejecuta pruebas estadsticas, etc.,
como
elementos
de
referencia
para
la
descripcin,
anlisis
interpretacin del comportamiento de los datos, hacer inferencia valida

y obtener informacin de los elementos o unidades estudiadas.
1.5.5. Formulacin de conclusiones y preparacin de informe.En toda investigacin debe analizarse el cumplimiento de los
objetivos,
en
funcin de
los
resultados
fundamentales,
esta
contrastacin permite elaborar un resumen de los aspecto sustantivos,

que luego se expresaran en forma de conclusiones y sugerencia
orientadora en la toma de decisiones.
1.5.6. Eleccin de las unidades estadsticas.La elaboracin de una buena estadstica implica una definicin
correcta de las unidades que se van a considerar y una delimitacin
de la materia a investigar. Antes de iniciar la observacin y las
operaciones de recuentos, el estadstico debe tener una idea clara,
tanto del conjunto que quiere estudiar como de los individuos o
unidades que constituye dicho conjunto. La unidades estadstica debe
definirse cuidadosamente teniendo en cuenta los siguientes criterios:
a.
Debe ser sencilla, de modo que se puede caracterizar con

facilidad, que los encargados de la recopilacin no tengan duda
en su identificacin.
b.
Debe ser precisa, de modo que facilite su identificacin y saber

que observar.
c.
Fcilmente
compresible
adaptada
los
objetivos
persiguen.
d.
Debe ser semejantes, de manera que sean aditivo.
e.
Respectar las posibles definiciones oficiales o estatales.
que se
1.5.7. Recoleccin de datos estadsticos.La recopilacin
o coleccin de datos es el momento en el
cual el investigador se pone en contacto con los objetos o elementos

sometidos a estudio, con el propsito de obtener los datos o
respuesta de las variables consideradas; a partir de estos datos se
prepara la informacin estadstica, se calcula medidas de resumen e
indicadores para el anlisis estadstico.
Antes de recopilar o recoger
datos, es importante analizar los
objetivos del estudios, precisar las variables e identificar las fuentes

de datos, a fin de definir qu datos hay que recopilar y como hacer
esta tarea.
La formulacin del problema y del marco terico, la definicin de las

hiptesis y de los objetivos de la investigacin permite especificar los
tipos de informacin y las variables que son requeridas. Realizada
esta tarea, el investigador debe a continuacin seleccionar y elaborar
las tcnicas e instrumentos para recolectar los datos.
El trabajo de recoleccin de datos, en general se puede realizar
mediante dos modalidades:
a. La tcnica de investigacin documental o bibliogrfica.

b. La tcnica de trabajo de campo.
c. La observacin y la exploracin en el terreno, que consiste en el
contacto directo del investigador con el objeto de estudio.
d. La encuesta y la entrevista, que consiste en el acopio de
testimonios orales y escrito de personas vivas.
La fase de recoleccin de datos es uno de los puntos principales de

la investigacin, en consecuencia, debe dotarse de ciertas garantas
para que los datos cientficos puedan ser confiable y comparables,
evitar las desviaciones y la falta de representatividad.
1.6.
Informacin Estadstica.La informacin estadstica, como datos procesados de acuerdos
a ciertos objetivos, es un medio que permite cuantificar aspecto de

una realidad, de un fenmeno o problema determinado, en un
momento o periodo dado y un mbito concreto. A partir de la

informacin estadstica se puede describir y explicar esa realidad, as
como inferir conclusiones para definir un plan de accin o desarrollo
especifico. La informacin, en general, sirve para tomar decisiones.
1.7.
Fuentes de informacin.Las fuentes de datos es el lugar, la institucin, las personas o
elementos donde estn o que poseen los datos que se necesitan

para cada una de las variables o aspecto de la investigacin o
estudio.
En general se puede disponer de cinco tipos de fuentes de datos:
a. Las oficinas estadsticas.
b. Registros administrativos.
c. Documentos.
d. Encuesta o censos.
e. Los elementos o sujetos.
Las tres primeras fuentes son de tipo administrativos y constituyen
fuentes secundarias; por su parte, las dos ltimas corresponde a la
investigacin
estadstica,
ya
que
permiten obtener datos originales,
intencionales y de primera mano, es decir constituye fuentes primarias.
1.8.
Tcnicas de recoleccin de informacin estadstica.Las tcnicas de recoleccin son diversas y depende de: la
naturaleza del objeto de estudio, de las posibilidades de acceso o

contacto con los elementos investigados, del tamao de la poblacin
o muestra, de los recursos y de las oportunidades de obtener datos.
Las tcnicas tambin est asociada al tipo y naturaleza de la fuente
de datos. Entre las tcnicas ms frecuentes se tiene:
a. La observacin.La observacin en el proceso de investigacin es la accin de
mirar con rigor, en forma sistemtica y profunda, con los intereses
de descubrir la importancia de aquellos que se observa. La
observacin es el mtodo bsico que se utiliza para adquirir
informacin acerca del mundo que nos rodea, y por lo tanto,
constituye la tcnica primordial de la investigacin cientfica. La
observacin puede tener lugar en situaciones autnticas de la vida

ordinarias o tambin en el laboratorio.
b. Los documentos.La tcnica documental es un tipo de observacin que recopila o

busca sus datos en documentos, fuentes o graficas de todo tipo.
c.
La entrevista.-
La entrevista es una situacin de interrelacin o dialogo entre

personas,
es
una
tcnica
donde
una
persona
llamada
entrevistador, solicita al entrevistado, le proporcione algunos datos

o
informacin.
El
xito
de
la
entrevista como
tcnica
de
recoleccin, depende de la eficiencia del trabajo del entrevistador.
d. La encuesta.La encuesta es una tcnica de recoleccin de datos, donde se

obtiene la informacin tal como se necesita, preparada con objetivos
estadstico. Permite
unidades
de
observar y
registrar
anlisis de una determinada
caractersticas
poblacin
en las
o muestra,
delimitada en el tiempo y en el espacio. En toda encuesta se hace

uso de un cuestionario, cuya respuesta se registra en el formulario o
cedula.
Cuando una encuesta est dirigida a la totalidad de elementos de una

poblacin, se llama censo; en tanto; cuando est dirigido a una parte
representativa de la poblacin, se llama encuesta por muestreo.
1.9.
Instrumentos de medicin estadstica.El cuestionario, es un instrumento constituido por un conjunto
de
preguntas
sistemticamente
elaboradas,
que
se
formula
al
encuestado o entrevistado, con el propsito de obtener los datos de

las variables consideradas en el estudio. Cuando las preguntas se
organizan y se imprimen, se obtiene el formulario o cedula, que es
el instrumento que se utiliza para registrar las respuestas.
1.10.
Organizacin y presentacin de datos.Cuando se dispone de informacin obtenida mediante una muestra
o un censo, la primera inquietud es como resumir los datos para hacer un

anlisis descriptivo ms sencillo. Este resumen de informacin puede ser
realizado mediante la elaboracin de una tabla de frecuencia o un grfico;
es necesario determinar previamente con qu tipo de variable se est
trabajando.
Cuando
se
realiza
la
recopilacin
de
antecedentes
con
fines
estadsticos, se obtiene una gran cantidad de datos, algunas veces

estos estn en su forma natural o emprica (fuente primarias) y otras
ya
estn
organizadas
en tablas,
cuadros
grficos (fuentes
secundarias).
Los datos pueden estar incompletos, incorrectos, desordenados, pero

en todos los casos constituye datos bsicos para iniciar un estudio,
conocer y analizar el comportamiento y las caractersticas de los
elementos de una poblacin.
En el trabajo estadstico, siempre se dispone de muchos datos que,

definitivamente tiene que ser clasificados, ordenados y presentados
adecuadamente, de tal manera que facilite la compresin, descripcin
y anlisis del fenmeno estudiado y obtener conclusiones vlidas para
la toma de decisiones. La organizacin y presentacin de los datos
estadsticos, supone realizar los siguientes pasos:
a. Evaluacin y critica.Consiste en inspeccionar la validez y confiabilidad de los datos,

para corregir los errores y omisiones de acuerdo a ciertas reglas
fijas. A partir de datos incorrectos no se pueden obtener buenos
resultados.
b. Codificacin.Es una tcnica mediante la cual los datos o respuestas se
convierten en un nmero, smbolo o lenguaje que permita su
procesamiento o tabulacin electrnica. La codificacin implica la
definicin de criterios de clasificacin y de categorizacin de las
variables con miras a formular el plan de tabulacin.
c. Clasificacin.Consiste en establecer la categora de las variables.

d. Procesamiento o tabulacin de datos.Es la contabilizacin o registro del nmero de casos en cada una
de las categora de la variables, de acuerdo al plan de tabulacin
previamente establecido.
e. Presentacin de los datos.Donde los resultados de la tabulacin, una vez evaluados, se
presenta en cuadros, tablas y grficos. La presentacin de datos
implica tener la informacin estadstica organizada para proceder al
anlisis
interpretacin
de los resultados
y de
los aspecto
considerados de la poblacin en estudio.

En el trabajo estadstico, lo que se tiene disponible en un primer
momento es un material numrico, producto de la observacin o
recopilacin
de
datos,
que son
categorizados,
ordenados,
procesados y presentado en cuadros o grficos; hay un proceso

de
resumen
estadstico
que
se
concreta
con el
clculo
de
indicadores.
Existen
dos
formas
de
presentar
ordenadamente
los
datos
tablas
estadsticos:
En forma
tabular,
como
son
los
cuadros
estadsticas.
1.11.
Mediante grficos y diagramas.
Tabla de frecuencia.Son tablas de trabajos estadsticos, que presenta la distribucin de
un conjunto de elementos de acuerdo a las categoras de las variables,

en ellas se observa la frecuencia o repeticiones de cada uno de los
valores de la variables, que se obtienen despus de
operacin
de tabulacin, la
tabla
presenta
los
realizar la
diversos
tipo
de
frecuencia a la vez se utiliza para organizar los datos y calcular

algunos indicadores, medidas de resumen o estadgrafo.
1.11.1. Partes principales de una tabla de frecuencia.a. Numero de cuadro, es el cdigo o elemento
de
identificacin que permite ubicar el cuadro en el interior de

un documento. El nmero se anota junto con la palabra
cuadro, por ejemplo cuadro N 3.3. Indica que es el

tercer cuadro del captulo tres.
b. Ttulo, es la descripcin resumida del contenido del cuadro,
la redaccin del ttulo debe ser breve, claro y completo de
modo que se pueden deducir sin ambigedad que tipo de
informacin contiene el cuadro.
c. Concepto o encabezamiento, es la descripcin de las filas

y columnas de un cuadro estadstico, el encabezamiento se
ubica en la parte superior del cuerpo del cuadro. ndica las
variables y sus categoras o intervalos, tambin
puede
indicar un periodo de tiempo.

d. Cuerpo
del
cuadros.
cuadro,
Es
la
es el contenido numrico de los
parte
donde
se
colocan
los datos
correspondientes a la caractersticas o variables indicados

en
el
encabezamiento
presenta
la
distribucin
en
de
los
los
conceptos,
es
elementos
decir
segn
la
clasificacin en categora de las variables.

e. Notas de pie o llamadas, se usa para algunos trminos o
siglas, y tambin para indicar que elementos estn o no
incluidos en algunos de los conceptos del cuadro.
f.
Fuentes, es la indicacin al pie del cuadro, que sirve para

nombrar la publicacin, entidad, estudio o fuentes de donde
se obtuvieron los datos utilizados para construir el cuadro.
La identificacin de la fuente permite, si fuera el caso,
comprobar
la
informacin
para
obtener informacin
complementaria.
Hay dos tipos de fuentes: primaria, cuando se obtiene
directamente de la unidad de anlisis o cuando se recurre
a los propios formularios de una encuesta; secundaria,
cuando
se recurre
estadsticos publicados.
documentos,
boletines
cuadros
g. Nota de unidad de medida, se escribe debajo del ttulo

original, se usa cuando se abrevia la escritura de las cifras
y para expresar en que unidades estn expresada la
variables.
h. Elaboracin, es una indicacin que se coloca debajo de la

fuente y sirve para mencionar el responsable, que utilizando
datos
originales
de
la
fuente,
elaboro
el
cuadro
estadstico final; indicando la responsabilidad de la publicacin

del cuadro.
1.11.2. Elementos de una tabla de frecuencias.a. Valor de la variable o intervalo de clases:
Resulta de la clasificacin o categorizacin de variable.
b. Frecuencia absoluta:
Es el nmero de veces que se repite un determinado valor
de la variable; en el caso de los intervalos es el nmero
de observaciones comprendido en dicho intervalo; est
representado por fi.
c. Frecuencia relativa:
Es el cociente de la frecuencia absoluta entre el total de
por hi
datos, est representado
hi
fi
n
d. Frecuencia porcentual:
Es la multiplicacin de la frecuencia relativa por 100
p i hi * 100 %
e. Frecuencia absoluta acumulada:
Es el que resulta de acumular
sucesivamente
frecuencias absoluta, se representa por FL

k
Fk f i f 1 f 2 ...... f k
i 1
las
f.
Frecuencia relativa acumulada:

Es el que resulta de acumular o sumar sucesivamente las
frecuencias relativas, se representa por Hi
k
H k hi h1 h2 ...... hk
i 1
g. Frecuencia porcentual acumulada:

Es el que resulta de acumular o sumar sucesivamente las
frecuencias porcentuales, se
representa por Pi
Pk p i p1 p 2 ...... p k
i 1
1.11.3. Propiedades de las frecuencias:

Las
frecuencias absoluta
acumuladas
son
nmeros
las
enteros
frecuencias
absoluta
no negativos
no
mayores que n.
Las frecuencias relativa y las frecuencias relativa acumulada
son valores que varan entre 0 a 1.
Las frecuencias porcentuales y porcentuales acumuladas son
nmero que varan de 0 a 100%.
La suma de todas las frecuencias absoluta es igual al
tamao de la muestra.
La suma de todas las frecuencias relativa es igual a la
unidad.
La suma de todas las frecuencias porcentuales es 100%.
La ltima frecuencia absoluta acumulada es igual al tamao
de la muestra.
La ltima frecuencia relativa acumulada es la unidad.
La ltima frecuencia porcentual acumulada es 100%.
La tabla o distribucin de frecuencias debe quedar como se indica
en la siguiente tabla:
Tabla 1. Tabla de frecuencias

Valor de V.A
Frecuencia
Absoluta
(ni)
Frecuencia
. Relativa
(fi)
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Acumulada
Fuente: Elaboracin Propia
Por ejemplo: Las notas de un examen de matemticas de 30 alumnos de una

clase son las siguientes:
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7.
Calcular la tabla de frecuencias.
1. Ordenamos los datos contando los alumnos que han sacado un 0 han sido 2,
un 1 han sido 3 y as sucesivamente. Construimos la tabla correspondiente:
2. N: nmero total de datos N = 30.

3. ni: frecuencia absoluta, nmero de veces que se repite una nota. El sumatorio
nos da los datos totales N = 30.
4. fi: frecuencia relativa. Cociente ni / N
5. Frecuencia absoluta acumulada.
F2 = f 1 + f2 = 2 + 3 = 5
F3 = F2 + f 3 = 5 + 1 = 6.
6. Frecuencia Relativa Acumulada, F=1.
Frecuencia Frecuencia Frecuencia Frecuencia

Valores Absoluta
(fi)
0
1
2
3
4
5
6
7
8
9
2
3
1
1
1
3
2
5
7
5
30
Relativa
(hi)
2 /30
3/30
1/30
1/30
1/30
3/30
2/30
5/30
7/30
5/30
1
Absoluta
Relativa
Acumulada Acumulada
2
5
6
7
8
11
13
18
25
30
2/30
5/30
6/30
7/30
8/30
11/30
13/30
18/30
25/30
30/30
Ejercicios de aplicacin:
1. Se realiz un estudio en relacin al liderazgo del director y la satisfaccin los
docentes de la institucin educativa Niels Bohr en el 2014. Los docentes
encuestados fueron 100 elegidos aleatoriamente de un total de 500 docentes
que tiene la institucin educativa. Algunas variables que se estudiaron son:
Sexo de los docentes, procedencia de los docentes, edad de los docentes,
nmero de aos de experiencia laboral del director de la institucin educativa.
Problema: Cmo se relaciona del liderazgo del director y la satisfaccin de los
docentes de la institucin educativa Niels Bohr en el 2014?
Objetivo: Analizar cmo se relaciona el liderazgo del director de la institucin
educativa y la satisfaccin de los docentes de la institucin educativa Niels
Bohr en el 2014.
Poblacin: Todos los 500 docentes de la institucin educativa Niels Bohr.
Muestra: Fueron encuestados 100 docentes seleccionadas aleatoriamente

Nombre de la
Tipo de la
variable
variable
Sexo del empleado
Procedencia del
empleado
Modalidad
Escala de
medicin
Cualitativa
Femenino
Nominal
Masculino
Lima
Cualitativa
Nominal
Callao
Edad del empleado
Cuantitativa
La molina
-
Razn
Cuantitativa
Razn
Nmero de aos de;

Experiencia laboral del
Gerente
2. Se desea hacer un estudio de investigacin sobre la Influencia del abandono
familiar
. en el desarrollo Socioemocional de los nios menores de 10 aos de los
Hogares de menores del AA.HH Javier Prez de Cuellar.
Poblacin: Todos los nios menores de 12 aos de ambos sexos de los
Hogares del AA.HH Javier Prez de Cuellar.
Muestra: 200 nios menores de 12 aos de ambos sexos de los Hogares del
AA.HH Javier Prez de Cuellar.
N
Variable
Escala de
medicin
Gnero
Nominal
Abandono familiar
Nominal
Desarrollo
socioemocional
Ordinal
3. En un estudio descriptivo referente a los servicios de salud, uno de las variables

subjetivas a estudiar es el aprovechamiento de los recursos en un servicio
hospitalario. Se pide: Operacionalizar dicha variable y elaborar el cuestionario.
Operacionalizacin de la variable:
Aprovechamiento de los recursos en un servicio hospitalario
Variable
Definicin
Dimensiones
Aprovechamiento
Uso del nmero
Aprovechamiento
de los recursos
en un servicio
hospitalario
conceptual
de
camas
de las camas
Indicadores
Porcentaje
el
nmero
de
ocupadas
Camas
actualmente
Promedio de
pacientes
(oferta/demanda)
2) Fecha de ingreso
estancia
al hospital
hospitalaria
3) Fecha de egreso
ndice de
solicitantes
1) Nmero de camas
Ocupacional de
disponibles para
atender
tems
del hospital
rotacin = #de
4) Nmero de
egresos/ #de
pacientes que
camas
salieron de alta
Ejemplo:
Sea la tabla de frecuencias
xi
0
1
2
3
4
5
6
fi
2
4
21
15
6
1
1
Fi
2
6
27
42
48
49
50
hi
0.04
0.08
0.42
0.30
0.12
0.02
0.02
Hi
0.04
0.12
0.54
0.84
0.96
0.98
1
a. Cul es el nmero de familias que tiene como mximo dos

hijos?
En la columna de las fi: 2+4+21=27 en la columna de las
Fi: F2= 27
b. Cuntas familias tienen ms de 1 hijo pero como mximo 3?
En la columna de las fi: 21+15=36 en la columna de las
Fi: 42-6=36
c. Qu porcentaje de familias tiene ms de 3 hijos?

En la columna de las hj: 0.12+0.02+0.02=0.16, que supone un
16% en la columna de las Hi: 1-0.84=0.16, 16%
1.12.
Diagramas y grficos estadsticos.1.12.1. Diagrama de barras y sectores circulares.Son adecuados en el caso de variables cualitativas o cuantitativas
discretas con pocas categoras. En el caso del diagrama de barras,
se asigna una barra en el eje X a cada clase o categora de la
variable cualitativa. En el eje Y se representan las frecuencias
absolutas o relativas (ni o fi) y simplemente se levanta una barra de
altura proporcional a la frecuencia absoluta o relativa.
Los grficos de tarta o diagramas de sectores son muy similares: se

dibuja un crculo dividido en tantas secciones como categoras
diferentes tenga la variable objeto del estudio. Cada seccin es
proporcional a su frecuencia. El inconveniente de estos grficos es
que si la variable tiene un exceso de categoras o clases no
permiten visualizar con claridad.
7,00%
Fila 1
24,00%
16,00%
Fila 2
Fila 3
Fila 4
0
0,1
0,2
0,3
0,4
0,5
0,6
frecuencia
53,00%
1
2
3
4
Imagen 1. Grfico de Barras y Grfico de Sectores

Por ejemplo: Las notas de un examen de matemticas de 30 alumnos de una
clase son las siguientes:
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7.
Calcular el diagrama de barras y de sectores.
A partir de la tabla de frecuencias estimada en el apartado 4.2., se obtienen los
siguientes grficos:
Diagrama de Barras
1
2
3
5
6
7
8
9
10
0
0,04
0,08
0,12
0,16
0,2
0,24
frecuencia
Imagen 2. Grfico de Barras

Diagrama de Sectores
17,00%
7,00%
10,00%
3,00%
3,00%
3,00%
23,00%
10,00%
7,00%
17,00%
Imagen 3. Grfico de Sectores

1.12.2. Histograma.Los histogramas son el equivalente al diagrama de barras cuando
lo que se quiere representar es la frecuencia de una variable
cuantitativa que toma un gran nmero de valores, tales como la
edad. Peso temperatura, etc. Para representar un grfico de este
tipo es necesario dividir el rango de valores de la variable en un
nmero de intervalos (que deben estar como en la tabla de
frecuencias, entre 5 y 15), siendo recomendable que sean de la
misma amplitud.
La construccin de un histograma comienza con la divisin del eje

de abscisas (eje X) en los intervalos estimados y, a continuacin,
sobre cada uno de ellos se levanta un rectngulo de base igual a la
amplitud del intervalo y de altura proporcional a la frecuencia

(relativa o absoluta).
Imagen 4. Histograma
Fuente: http://maralboran.org/wikipedia/index.php/Gr%C3%A1ficos_estad%C3%ADsticos
Los histogramas constituyen una poderosa herramienta para el

anlisis descriptivo de los datos. Entre otras cosas, permiten
detectar, en funcin de su forma, el tipo de distribucin que sigue la
variable. En el caso de que la variable siga una distribucin normal,
obtendremos un histograma con una curva de frecuencias
simtricas o en forma de campana, caracterizada porque las
observaciones equidistantes del mximo central tienen la misma
frecuencia:
1.13.
Conceptos bsicos.-
1.13.1. Poblacin.Es el conjunto de todas las unidades elementales que tiene una o varias
caractersticas en comn. Dependiendo del nmero de elementos que
los conforman, una poblacin puede ser finita o infinita.
1.13.2. Muestra.La muestra es considerada como un subconjunto representativo de

unidades elementales de una poblacin. Para que una muestra sea
representativa debe cumplir con las siguientes condiciones: debe haber
sido obtenido al azar, su tamao debe haberse determinado
ptimamente,
as
tambin
sus
elementos
deben
seleccionados con un determinado mtodo de muestreo.
haber
sido
1.13.3. Variable.Es todo factor o caracterstica que se desea evaluar de las unidades
elementales del estudio.
1.13.4. Parmetro Estadstico.Es una medida descriptiva que resume una caracterstica de la
poblacin, es decir es una funcin de todas las observaciones de una
poblacin. Un parmetro es un valor nico y constituye usualmente la
incgnita que todo investigador desea conocer. Por ejemplo tenemos
las siguientes:
La media poblacional
La variancia poblacional:
La mediana poblacional: Me
La moda poblacional: Mo
1.13.5. Estadstico o estadgrafo.Es una medida descriptiva que resume una caracterstica de la muestra,
es decir es una funcin de las observaciones muestrales y no depende
de parmetro alguno. Se caracteriza porque puede tomar valores
diferentes de muestra a muestra, debido a que las observaciones
obtenidas en muestras diferentes no son necesariamente iguales. Por
ejemplo tenemos las siguientes:
1.14.
La media muestral:
La variancia muestral: S2
La mediana muestral: me
La moda muestra: mo
Medidas Estadsticas.1.14.1. Medidas de posicin o de tendencia central:

Cuando se dispone de un conjunto de datos, una de las
inquietudes de mayor inters es cmo resumir la
informacin recolectada en ciertos indicadores que puedan
ser considerados como representativos de los datos
recolectados. Las medidas de posicin ms usadas son: la
media, la mediana y la moda.
a. Media Aritmtica:
A veces se llama tambin media aritmtica, valor medio,
promedio o promedio aritmtico. Consideramos una
variable estadstica discreta cuya distribucin de
frecuencias es
x , f Se define la media aritmtica

i
como:
k
x xi f i
i 1
Si consideramos una variable estadstica continua cuya

distribucin
de
frecuencias
es
I , f
i
la media se calcula suponiendo que todos los datos de

cada intervalo son idnticos al centro o marca de la clase.
k
La media ser:
x ci f i
i 1
b. Mediana:
Dado un conjunto de observaciones, ordenadas de menor a
mayor, la mediana Me es una observacin que divide esta
ordenacin en dos partes, con el mismo nmero de datos en
cada una. Es decir, el nmero de observaciones menores
que la mediana es igual al nmero de observaciones
mayores que ella.
Clculo de la mediana
Distribuciones unitarias:
Si n es impar, ser el valor central de la distribucin

ordenada.
Si n es par, ser la suma de los valores centrales

entre 2.
Distribuciones no unitarias:
Si N i supera a N / 2 , ser el xi correspondiente a ese
Ni
Si N i = N / 2 , ser la media aritmtica entre xi y xi 1 .
Distribuciones agrupadas:
Si N i supera a N / 2 M e Li 1
N / 2 N i 1
ci
ni
Si N i = N / 2 M e es el lmite superior del

intervalo.
Moda: Se define como el valor de la variable estadstica que

tiene mayor frecuencia, es decir:
M o xi
si ni max n j
Cuando la variable sea continua hablaremos del intervalo modal

como aquel que presenta mayor frecuencia absoluta.
Calculo de la moda:
En variables discretas basta con identificar el valor con la mayor
frecuencia
absoluta.
En
variables
continuas,
una
vez
identificado el intervalo modal, algunos autores toman la marca

de la clase de dicho intervalo como moda, si bien, es habitual
calcular la moda mediante la siguiente frmula:
M o Li 1 c
ni 1
ni 1 ni 1
Donde Li 1, Li es el intervalo modal y c la amplitud
Observaciones:
La moda no tiene por qu ser nica, Puede haber ms de un

valor de la variable con la mayor frecuencia. En este caso se
dir que la distribucin es bimodal, trimodal.
1.14.2. Medidas de dispersin o medidas de variabilidad.Cuando se dispone informacin de una o varias variables
es necesario conocer si los datos recolectados presentan
una variabilidad significativa; es decir si las observaciones
se encuentran muy dispersas con respecto a la media
aritmtica.
Las medidas de variabilidad son indicadores que se utilizan
para analizar el grado de heterogeneidad o variabilidad de
un conjunto de observaciones.
Las medidas de dispersin de mayor uso son: el rango, el

rango intercuatilico, la varianza, la desviacin estndar y el
coeficiente de variabilidad.
a. Recorrido:
Es una medida, aunque imperfecta, de la dispersin de los
datos. Se define como la diferencia entre el mayor y el
menor valor de la variable. A veces se llama tambin rango.
Si x 1 , x 2 ,....., x k son los valores de la variable ordenados,
el recorrido es: R = x k - x 1
b. Varianza:
Dada una variable estadstica discreta
x, cuya
distribucin de frecuencias relativas es:
x , f y
i
media x , se define la varianza de la v. estadstica X ,

y la denotaremos por v(x) o x2 , como el promedio de
los cuadrados de las desviaciones de los valores de la
variable a su media, es decir:
x2
2
ni x i x
i 1
Para variables estadsticas continuas o discretas donde

los valores estn agrupados en intervalos, se define de
manera anloga sin ms que cambiar los valores x i
por las marcas de clase correspondientes a cada
intervalo de clase.
Ejemplo: Clculo de la varianza
xi
fi
xi2
fixi2
0
1
2
3
4
5
6
2
4
21
15
6
1
1
50
0
1
4
9
16
25
36
0
4
84
135
96
25
36
380
S2=
s2 = (380/50)-6.35 = 1.25
o directamente:
s2 = (02 *2 + 12 *4+........+62 *1)/50 -2.522
s2= (380/50)-6.35 = 1.25
c. Coeficiente de Pearson:
El coeficiente de variacin de Pearson se define como
el cociente entre la desviacin tpica y la media
CV (x )
x
x
Aquella poblacin que tenga el coeficiente de variacin

ms pequeo, estar ms concentrada alrededor de
su media y por tanto sta ser ms representativa.
Ejemplo:
Con los siguientes datos: 21, 35, 36, 38 y 45 cuya
media aritmtica es 35 y su desviacin estndar 7.823,
calcular el coeficiente de variacin.
CV
7.823
(100%) 22.35%
35
de
haber
Ejemplo:
Despus
registrado
los
datos
correspondientes al peso y la estatura de 40 varones,

se asentaron en la siguiente tabla los resultados del
clculo de la media y la desviacin estndar.
Media ( X )
Desviacin
estndar
(S )
Estatura
68.34
3.02 pulgadas
pulgadas
Peso
172.55 libras
26.33 libras
Calcular el coeficiente de variacin de las estaturas,

despus el coeficiente de variacin de los pesos;
finalmente, comparar ambos resultados.
Debido a que tenemos estadsticos muestrales, los
dos coeficientes de variacin se obtienen de la
siguiente manera:
Estatura
Pesos
3.02 pul
(100 %) 4.42 %
68 .34 pul
CV
CV
26.33libras
(100%) 15.26%
172.55libras
An cuando la diferencia en unidades de medida

(pulgadas y libras) imposibilita la comparacin de la
desviacin estndar de 3.02 pulgadas, con la desviacin
estndar de 26.33 libras, es posible comparar los
coeficientes de variacin, que carecen de unidades. Se
observa que las estaturas (con CV = 4.42%) tienen una
variacin considerablemente menor que los pesos con
(CV = 15.26%). Lo anterior tiene sentido, ya que, por lo
general, vemos que los pesos de los hombres varan
mucho ms que sus estaturas. Por ejemplo, es muy raro
encontrar un adulto que mida el doble que otro, pero es
mucho ms comn ver a uno que pese el doble que otro.
d. Desviacin tpica:
Dada una variable estadstica x
con media
varianza , se define la desviacin tpica como la

2
x
raz cuadrada positiva de la varianza.
x x2 .
1.14.3. Medidas de Asimetra.Cuando se dispone

variables
adems
de la informacin de una o varias

de
ser
necesaria
resumirlas
en
indicadores que permitan conocer su tendencia y su

dispersin, es necesario evaluar de qu forma los datos
estn dispersos alrededor de las medidas de tendencia.
Asimetra: coeficientes de asimetra de Fisher y
Pearson
Las medidas de forma de una distribucin se pueden
clasificar en dos grandes grupos o bloques: medidas de
asimetra y medidas de curtosis.
Cuando al trazar una vertical, en el diagrama de barras o

histograma, de una variable, segn sea esta discreta o
continua, por el valor de la media, esta vertical, se
transforma en eje de simetra, decimos que la distribucin
es simtrica. Diremos pues, que es simtrica, cuando a
ambos lados de la media aritmtica haya el mismo n de
valores de la variable, equidistantes de dicha media dos a
dos, y tales que cada par de valores equidistantes tiene la
misma frecuencia absoluta. En caso contrario, dicha
distribucin ser asimtrica o diremos que presenta
asimetra.
Si la distribucin de frecuencias es unimodal y tiene forma

de campana, se definen los coeficientes de asimetra de
Pearson:
CA1
3(x Me )
x Mo
y CA2
x
x
Estos coeficientes son adimensionales. Valen 0 si la distribucin

es simtrica.
Ejemplo:
Como ejemplo, consideremos 10 pacientes de edades 21 aos,
32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos
sujetos ser de:
Ms formalmente, si denotamos por (X1, X2,...,Xn) los n datos que

tenemos recogidos de la variable en cuestin, el valor medio
vendr dado por:
Otra medida de tendencia central que se utiliza habitualmente es

la mediana. Es la observacin equidistante de los extremos. La
mediana del ejemplo anterior sera el valor que deja a la mitad
de los datos por encima de dicho valor y a la otra mitad por
debajo. Si ordenamos los datos de mayor a menor observamos
la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el nmero de observaciones
es par (10 individuos), los dos valores que se encuentran en el
medio son 60 y 60. Si realizamos el clculo de la media de estos
dos valores nos dar a su vez 60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribucin de la
variable es simtrica. La media es muy sensible a la variacin de
las puntuaciones. Sin embargo, la mediana es menos sensible a
dichos cambios.
Tal y como se adelantaba antes, otro aspecto a tener en cuenta
al describir datos continuos es la dispersin de los mismos.
Existen distintas formas de cuantificar esa variabilidad. De todas
ellas, la varianza (S2) de los datos es la ms utilizada. Es la
media de los cuadrados de las diferencias entre cada valor de la
variable y la media aritmtica de la distribucin.
La varianza muestral se obtiene como la suma de las de las

diferencias de cuadrados y por tanto tiene como unidades de
medida el cuadrado de las unidades de medida en que se mide
la variable estudiada. En el ejemplo anterior la varianza sera:
S x 2=
La desviacin tpica (S) es la raz cuadrada de la varianza.

Expresa la dispersin de la distribucin y se expresa en las
mismas unidades de medida de la variable. La desviacin tpica
es la medida de dispersin ms utilizada en estadstica.
Aunque esta frmula de la desviacin tpica muestral es correcta,

en la prctica, la estadstica nos interesa para realizar
inferencias poblacionales, por lo que en el denominador se
utiliza, en lugar de n, el valor n-1. Por tanto, la medida que se
utiliza es la cuasi desviacin tpica, dada por:
En los clculos del ejercicio previo, la desviacin tpica muestral,

que tiene como denominador n, el valor sera 20.678. A efectos
de clculo lo haremos como n-1 y el resultado sera Sx=21,79.
El haber cambiado el denominador de n por (n-1) est en

relacin al hecho de que esta segunda frmula es una
estimacin ms precisa de la desviacin estndar verdadera de
la poblacin y posee las propiedades que necesitamos para
realizar inferencias a la poblacin.
1.15.
El muestreo.El muestreo es una herramienta de la investigacin cientfica. Su

funcin bsica es determinar que parte de una realidad en estudio
(poblacin o universo) debe examinarse con la finalidad de hacer
inferencias sobre dicha poblacin. El error que se comete debido a
hecho de que se obtienen conclusiones sobre cierta realidad a partir
de la observacin de slo una parte de ella, se denomina error de
muestreo. Obtener una muestra adecuada significa lograr una
versin simplificada de la poblacin, que reproduzca de algn modo
sus rasgos bsicos.
1.15.1. Muestre probabilstico.El mtodo otorga una probabilidad conocida de integrar la muestra
a cada elemento de la poblacin, y dicha probabilidad no es nula
para ningn elemento.
Los mtodos de muestreo no probabilsticos no garantizan la
representatividad de la muestra y por lo tanto no permiten realizar
estimaciones inferenciales sobre la poblacin.
(En
algunas
epidemiolgicos
circunstancias
los
mtodos
permiten
resolver
los
estadsticos
problemas
y
de
representatividad aun en situaciones de muestreo no probabilstico,

por ejemplo los estudios de caso-control, donde los casos no son
seleccionados aleatoriamente de la poblacin.)
Entre los mtodos de muestreo probabilsticos ms utilizados en
investigacin encontramos:
Muestreo aleatorio simple.
Muestreo estratificado.
TIPOS
Aleatorio simple
Muestreo sistemtico.
Muestreo polietpico o por conglomerados.
CARACTERISTICAS
VENTAJAS
Se selecciona una muestra de

tamao n de una poblacin de
N unidades, cada elemento
tiene una probabilidad de
inclusin igual y conocida de
n/N.
Conseguir un listado de los N

elementos de la poblacin
Determinar tamao muestral

n.
Sistemtico
Definir un intervalo k=N/n.
Elegir un nmero aleatorio, r,
entre 1 y k (r=arranque
aleatorio).
Estratificado
Conglomerados
Seleccionar los elementos de

la lista.
En
ciertas
ocasiones
resultar
conveniente
estratificar la muestra segn
ciertas variables de inters.
Para ello debemos conocer
la composicin estratificada
de la poblacin objetivo a
muestrear.
Una
vez
calculado el tamao muestral
apropiado, este se reparte de
manera proporcional entre
los
distintos
estratos
definidos en la poblacin
usando una simple regla de
tres.
Se realizan varias fases de

muestreo sucesivas
(polietpico)
La necesidad de listados de
las unidades de una etapa se
limita a aquellas unidades de
muestreo seleccionadas en
la etapa anterior.
Sencillo y de fcil
comprensin.
Clculo rpido de
medias y varianzas.
Se basa en la teora
estadstica, y por tanto
existen paquetes
informticos para
analizar los datos
Fcil de aplicar.
No
siempre
es
necesario tener un
listado de toda la
poblacin.
Cuando la poblacin
est
ordenada
siguiendo
una
tendencia conocida,
asegura
una
cobertura
de
unidades de todos
los tipos.
Tiende a asegurar
que
la
muestra
represente
adecuadamente a la
poblacin en funcin
de unas variables
seleccionadas.
Se
obtienen
estimaciones
ms
precisa
Su
objetivo
es
conseguir
una
muestra
lo
ms
semejante posible a
la poblacin en lo
que a la o las
variables
estratificadoras
se
refiere.
Es muy eficiente
cuando la poblacin
es muy grande y
dispersa.
No es preciso tener
un listado de toda la
poblacin, slo de
las
unidades
primarias
de
muestreo.
INCONVENIENTES
Requiere que se posea

de antemano un listado
completo de toda la
poblacin.
Cuando se trabaja con
muestras pequeas es
posible que no represente
a la poblacin
adecuadamente.
Si la constante de
muestreo est asociada
con el fenmeno de
inters, las
estimaciones obtenidas
a partir de la muestra
pueden contener sesgo
de seleccin
Se ha de conocer la
distribucin en la
poblacin de las
variables utilizadas
para la estratificacin.
El error estndar es
mayor que en el
muestreo aleatorio
simple o estratificado.
El clculo del error
estndar es complejo.
1.15.2. Clculo del tamao muestral.Cada estudio tiene un tamao muestral idneo, que
permite comprobar lo que se pretende con la seguridad y
precisin fijadas por el investigador.
De qu depende el tamao muestral?
Variabilidad del parmetro a estimar: Datos previos,
estudios piloto o usar 50% como peor estimacin
Precisin: Amplitud del intervalo de confianza. Si se
estima prevalencia su formato ser %.
Nivel de confianza (1-): habitualmente 95% o 99%.
Probabilidad complementaria al error admitido
Si aumentamos el tamao muestral n, podremos mejorar
la calidad de la estimacin bien aumentando la precisin
(disminuye amplitud del intervalo) o bien aumentando la
seguridad (disminuye el error admitido).
Ejemplo:
Suponga que la Entidad encargada de la educacin
bsica en su zona de residencia est interesada en crear
un Jardn Infantil pblico al servicio de la comunidad,
para ello la funcionaria encargada por la Entidad est
interesada en estimar el tamao de la muestra de la
poblacin de hogares interesados en utilizar los servicios
del jardn. Se sabe que son 520 los padres de familia
segn archivos de secretara de Educacin local
El clculo del tamao de muestra es el siguiente:
Paso 1. Tipo de muestreo: proporcional
Paso 2. Plantear la frmula para estimar el tamao de la
muestra
z 2 Npq
n 2
e ( N 1) zpq 2
n = Tamao de muestra a estimar (nmero de padres de

familia)
Z = Nivel de confianza de la muestra de padres
p = Proporcin de padres de familia con nios entre 3 y 5
aos de edad interesados en los servicios del jardn
infantil
q = Proporcin de padres de familia con nios entre 3 y 5
aos de edad no interesados en los servicios del jardn
infantil
N = Total de padres de familia residentes en la zona
donde se propone la creacin del jardn infantil
Paso 3. Estimar la proporcin de padres de familia
interesados en los servicios del jardn
La proporcin de padres de familia interesados en los
servicios del Jardn se estima mediante una muestra
piloto. Para ello entrevistamos o encuestamos una
muestra igual o mayor a 30 padres de familia, para
conocer el inters por los servicios del jardn a crear.
Para este caso se entrevistaron 35 padres de familia con
hijos entre 3 y 5 aos de edad presentando los servicios
que prestara un jardn infantil creado por la Entidad
mencionada;
de
los
entrevistados
el
60%
(21)
manifestaron inters por el jardn y disposicin a utilizar

sus servicios.
p = 60%; q = 1 p = 1- 0.60 = 0.40
Paso 4. Definir el nivel de confianza

Se define como nivel de confianza 95% o valor de
Z = 1.96 para el clculo del tamao de muestra.

Paso 5. Definir el error de estimacin
El error de estimacin ser de e = 0.05 o 5%
Paso 6. Estimar el tamao de muestra
Se reemplazan los valores antes definidos en la frmula:
Paso 7. Conclusin
La entidad interesada en la creacin del jardn infantil
necesita entrevistar a 216 hogares con hijos entre 3 y 5
aos de edad, para conocer el inters de estos por los
servicios ofrecidos por el jardn infantil.
CAPTULO II:
PRUEBAS ESTADSTICAS NO PARAMTRICAS
2. Pruebas Estadsticas No Paramtricas.2.1.
Conceptos Bsicos.a. Estadstica No Paramtrica.La estadstica no paramtrica es una rama de la estadstica que estudia las
pruebas y modelos estadsticos cuya distribucin subyacente no se ajusta a
los llamados criterios paramtricos. Su distribucin no puede ser definida a
priori, pues son los datos observados los que la determinan. La utilizacin de
estos mtodos se hace recomendable cuando no se puede asumir que los
datos se ajusten a una distribucin conocida, cuando el nivel de medida
empleado no sea, como mnimo, de intervalo.
Las principales pruebas no paramtricas son las siguientes:

Prueba de Pearson
Prueba binomial
Prueba de Anderson-Darling
Prueba de Cochran
Prueba de Cohen kappa
Prueba de Fisher
Prueba de Friedman
Prueba de Kendall
Prueba de Kolmogorov-Smirnov
Prueba de Kruskal-Wallis
Prueba de Kuiper
Prueba de Mann-Whitney o prueba de Wilcoxon
Prueba de McNemar
Prueba de la mediana
Prueba de Siegel-Tukey
Prueba de los signos
Coeficiente de correlacin de Spearman
Tablas de contingencia
Prueba de Wald-Wolfowitz
Prueba de los rangos con signo de Wilcoxon
b. Por qu usamos pruebas no paramtricas?.Porque no siempre se cumplen todos los supuestos requeridos por las
pruebas de hiptesis tradicionales (paramtricas):
Distribucin normal
Tamao de muestra grande
Varianzas iguales
Si la distribucin de la poblacin es sesgada (Por lo que la media no es

buen indicador de tendencia central)
c.
Cmo se aplican estas pruebas?.
El Aplicar una transformacin a los datos originales, convirtindolos

en rangos, valores positivo o negativo, etc.
Con los datos transformados, calcular un estadstico en base a los

datos (a veces tambin se calcula su promedio y error estndar)
Con el estadstico y los parmetros calculados, realizar una prueba

de hiptesis de acuerdo a una cierta distribucin paramtrica
(Normal, Ji-cuadrado, Binomial, etc.)
2.2. Otros conceptos.2.2.1. Muestra.Parte de una poblacin que se toma cuando es imposible acceder a
toda ella. La eleccin de la muestra se hace con la intencin de, a
partir de la informacin que ella proporciona, extender sus resultados a
toda la poblacin a la que representa.
2.2.2. Muestra aleatoria: (Muestra elegida al azar).Aquella muestra tomada de la poblacin en la que todo individuo tiene
la misma probabilidad de resultar elegido para ella, y esto con
independencia entre Individuos.
2.2.3. Funcin de distribucin.Funcin que hace corresponder a cada uno de los valores de una
variable aleatoria la probabilidad de que tal variable aleatoria tome un
valor igual o inferior al dado.
2.2.4. Funcin de probabilidad.Funcin que hace corresponder a cada uno de los valores de la
variable aleatoria discreta su probabilidad.
2.2.5. Contraste de hiptesis.Conjunto de reglas tendentes a decidir cul de dos hiptesis la nula
la alternativa- debe aceptarse en base al resultado obtenido en una
muestra. Es de dos colas cuando la alternativa es la negacin de la
nula. De una cola en caso contrario.
2.2.6. Variable aleatoria.Toda funcin que toma diversos valores numricos, dependiente de
los resultados de un fenmeno aleatorio, con distintas probabilidades.
2.2.7. Variable aleatoria discreta.Las variables aleatorias discretas son aquellas que presentan un
nmero finito de valores, constituyen una sucesin numerable.
2.2.8. Variable aleatoria contina.Las variables aleatorias continuas pueden tomar un nmero infinito de
valores en un intervalo determinado.
2.2.9. Variable categrica.Una variable categrica es una variable que clasifica cada individuo de
una poblacin en una de las varias clases mutuamente excluyentes en
que sta se divide.
2.2.10. Variable numrica.Corresponde a los datos expresados en una escala continua
numrica.
2.3.
Principales pruebas no paramtricas.-
2.3.1. Prueba de Pearson.La prueba
de Pearson es
considerada
como
una prueba no
paramtrica que mide la discrepancia entre una distribucin observada y

otra terica (bondad de ajuste), indicando en qu medida las diferencias
existentes entre ambas, de haberlas, se deben al azar en el contraste de
hiptesis. Tambin se utiliza para probar la independencia de dos variables
entre s, mediante la presentacin de los datos en tablas de contingencia.
La frmula que da el estadstico es la siguiente:
Cuanto mayor sea el valor, menos verosmil es que la hiptesis sea correcta.
De la misma forma, cuanto ms se aproxima a cero el valor de chi-cuadrado,
ms ajustadas estn ambas distribuciones.
Los grados de libertad gl vienen dados por:
gl= (r-1)(k-1). Donde r es el nmero de filas y k el de columnas.
Ejemplo: Al final de un semestre, las calificaciones de matemticas fueron
tabuladas en la siguiente tabla de contingencia de
para estudiar la relacin
entre la asistencia a clase y la calificacin obtenida.
Ausencias Aprobado
0-3
135
4-6
36
7 - 45
9
No aprobado
110
4
6
Con 0.05 , indican los datos que son distintas las proporciones de
estudiantes que pasaron en las tres categoras de ausencias?
H0: p1 = p2 = p3
H1: al menos dos proporciones son diferentes.
Nmero de ausencias Aprobado No aprobado
0-3
135
110
( )
( )
4-6
36
4
( )
( )
7-45
9
6
( )
( )
Total
180
120
Total
245
( )
40
( )
15
( )
300
Los valores Oij = 135, 110... Corresponden a los valores observados, los
valores esperados se colocan en las celdas con parntesis, para calcular los
utilizamos la frmula:
Eij
total de i simo rengln total de j sima columna

n
Nmero de ausencias Aprobado No aprobado

0-3
135
110
(147)
(98)
4-6
36
4
(24)
(16)
7-45
9
6
(9)
(6)
Total
180
120
Total
245
40
15
300
Calculamos el valor del estadstico de prueba usando la frmula:
ij
Eij 2
Eij
La tabla siguiente nos ayuda a organizar los clculos para el

estadstico.
Tabla: Clculos para el estadstico Chi cuadrada
Celda
(1,1)
(1,2)
(2,1)
(2,2)
(3,1)
(3,2)
Oij
Eij
135
110
36
4
9
6
147
98
24
16
9
6
(Oij-Eij)^2
144
144
144
144
0
0
(Oij -Eij)^2/Eij
0.98
1.47
6.00
9.00
0.00
0.00
17.45
Para determinar el valor crtico del estadstico de prueba procedemos de la

siguiente manera:
Determinar los grados de libertad usando la frmula: gl = (3-1)x(2-1) = 2
El valor crtico del estadstico ji-cuadrada para y g.l. = 2 se denota, En la
tabla ji-cuadrada encontramos que vale 5.991, el valor del estadstico de
prueba es =17.44.
Conclusin: Como este estadstico est localizado en la regin de rechazo (a
la derecha del valor crtico), rechazamos Ho por lo cual aceptamos la
hiptesis alternativa H1: al menos dos proporciones son diferentes. La tasa
de aprobacin si depende de las asistencias.
Conclusin: Como el estadstico calculado Chi cuadrado es mayor al Chi de
alfa y el valor p es menor a alfa, se rechaza Ho indicando que si hay
dependencia de los aprobados y asistencias.
2.3.2. Prueba Binomial.Cuando se dispone de una expresin matemtica, es factible calcular la

probabilidad de ocurrencia exacta correspondiente a cualquier resultado
especfico para la variable aleatoria.
La distribucin de probabilidad binomial es uno de los modelos matemticos

(expresin matemtica para representar una variable) que se utiliza cuando
la variable aleatoria discreta es el nmero de xitos en una muestra
compuesta por n observaciones.
Propiedades
La muestra se compone de un nmero fijo de observaciones n.
Cada observacin se clasifica en una de dos categoras, mutuamente

excluyentes (los eventos no pueden ocurrir de manera simultnea.
Ejemplo: Una persona no puede ser de ambos sexos) y colectivamente
exhaustivos (uno de los eventos debe ocurrir. Ejemplo: Al lanzar una
moneda, si no ocurre cruz, entonces ocurre cara). A estas categoras se
las denomina xito y fracaso.
La probabilidad de que una observacin se clasifique como xito, p, es

constante de una observacin u otra. De la misma forma, la probabilidad
de que una observacin se clasifique como fracaso, (1-p), es constante
en todas las observaciones.
La variable aleatoria binomial tiene un rango de 0 a n.
Ecuacin:
P(X)=n! X!n-X!pX1-pn-X
Donde
P(X)=Probabilidad de X xitos, dadas y
n = Nmero de observaciones
p = Probabilidad de xitos
(1-p) = Probabilidad de fracasos
X = Nmero de xitos en la muestra (= 0, 1, 2, 3, 4,)
Ejemplo ilustrativo N 1
Determine P(X=5) para n = 6 y p = 0,83
Solucin:
Aplicando la ecuacin se obtiene:
PX=n! X!n-X!pX1-pn-X
PX=5=6!5!6-5!0,8351-0,836-5=0,4018
2.3.3. Prueba de Anderson-Darling.En estadstica,
la prueba
de
Anderson-Darling es
una prueba no
paramtrica sobre si los datos de una muestra provienen de una

distribucin especfica. La frmula para el estadstico A determina si los
datos
(observar que los datos se deben ordenar)
vienen de una distribucin con funcin acumulativa
donde
El estadstico de la prueba se puede entonces comparar contra las

distribuciones del estadstico de prueba (dependiendo que
se utiliza)
para determinar el P-valor.

La prueba de Anderson-Darling es una prueba estadstica que permite
determinar si una muestra de datos se extrae de una distribucin de
probabilidad. En su forma bsica, la prueba asume que no existen
parmetros a estimar en la distribucin que se est probando, en cuyo
caso la prueba y su conjunto de valores crticos siguen una distribucin
libre. Sin embargo, la prueba se utiliza con mayor frecuencia en contextos
en los que se est probando una familia de distribuciones, en cuyo caso
deben ser estimados los parmetros de esa familia y debe tenerse estos
en cuenta a la hora de ajustar la prueba estadstica y sus valores crticos.
Cuando se aplica para probar si una distribucin normal describe
adecuadamente un conjunto de datos, es una de las herramientas
estadsticas ms potentes para la deteccin de la mayora de las
desviaciones de la normalidad.
2.3.4. Prueba Q de Cochran.Cuando sobre n elementos se observa la serie de respuestas de cada uno
de ellos a k ''tratamientos'' esta prueba permite contrastar la hiptesis nula
de que no existe diferencia significativa entre los k ''tratamientos''. Tambin
es posible utilizarla si cada tratamiento se aplica a uno de los elementos de
n grupos de k elementos elegidos de forma que los elementos de cada
grupo se asemejen lo ms posible entre ellos.
Esta prueba es adecuada cuando la respuesta a cada tratamiento es una

variable dicotmica, siendo X = 1 si la respuesta es ''xito'' y X = 0 si es ''no
xito'' Si la respuesta es susceptible de medicin en por lo menos una

escala ordinal tambin es posible dicotomizarla, pero se pierde informacin
y, por lo tanto, es preferible utilizar la prueba de Friedman.
Los datos se disponen en una tabla de la misma forma que para la prueba
de Friedman, pero ahora las columnas de la tabla contienen nicamente
ceros y unos, de forma que la suma de los valores de la j-sima columna,
GJ , es el nmero de ''xitos'' de la distribucin de las n respuestas al jsimo ''tratamiento''. Si la hiptesis nula es cierta las diferencias entre el
nmero de xitos de cada columna se deben al azar, por lo que es de
esperar que sean pequeas, es decir, que todas las G_{j estn muy
prximas al nmero medio de xitos por muestra, El estadstico de prueba
se basa en la dispersin del nmero de xitos de cada ''tratamiento'' con
respecto a G :
El estadstico de prueba es:
Donde Li es el total de ''xitos'' del primer elemento o grupo. Si la hiptesis

nula es cierta,
la distribucin de Q puede aproximarse
mediante una chi-cuadrado con k - 1 grados de libertad y se rechaza la

hiptesis nula si el valor de Q es superior al valor crtico para el nivel de
significacin deseado.
Un psiclogo investiga el aprendizaje simple en 15 ratas, a las que
aplica cuatro tratamientos diferentes a intervalos de un mes cada
uno, para lo cual utiliza laberintos distintos.
Los tratamientos corresponden a cuatro frmacos, que segn
afirman los fabricantes de los productos, tienen capacidad para
facilitar el aprendizaje.
El investigador, para evitar que por efectos acumulativos de los
frmacos pudiera
haber error,
al suponer
que
una
droga
administrada en el cuarto perodo incidiera en mayor aprendizaje,

aplica en secuencias y aleatoriamente los tratamientos, de modo que
las respuestas de los animales emitidas en el laberinto, en funcin

de
un
perodo
fijo
(tiempo
crtico
determinado
por
el
experimentador), le permiten discriminar si fueron positivas (1) o

negativas (0).
En los cambios ejercidos en el aprendizaje de las ratas y que se
evalan como 1 y 0, se toma la referencia con respecto al inicio del
experimento para cada animal. Por tanto, se considera que se trata
de muestras dependientes y por diversos perodos.
Eleccin de la prueba estadstica.
El modelo experimental tiene tres o ms muestras dependientes.
Planteamiento de la hiptesis.
Hiptesis alterna (Ha). Los frmacos favorecen el aprendizaje

simple en las ratas en estudio. De esta forma, se muestran
diferencias significativas entre, antes y despus de los tratamientos.
Hiptesis nula (Ho). Los cambios observados entre los perodos

previo y posterior a los tratamientos se deben al azar.
Nivel de significacin.
Para todo valor de probabilidad igual o menor que 0.05, se acepta
Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se
rechaza Ha.
Aplicacin de la prueba estadstica.
Clculo de los grados de libertad (gl). gl= K (tratamientos) - 1 = 4 - 1

=3
El estadstico X2Q calculado se compara con los valores crticos de la
distribucin de ji cuadrada y se localiza con 3 gl y un valor de 7.82
con una probabilidad igual a 0.05. De esta manera, la cifra 6.06 tiene
una probabilidad mayor que 0.05.
Decisin.
En razn de que el estadstico calculado tiene una probabilidad
mayor que 0.05, cae en la zona de rechazo, por lo cual se acepta Ho
y se rechaza Ha.
Interpretacin.
Ningn frmaco a nivel experimental en ratas produjo un cambio
significativo y parece que se debe al azar, aun cuando en el tercer
tratamiento, 12 de 15 ratas presentaron cambio positivo. Esto
seguramente ocurri debido al tamao de la muestra, y el
investigador habr de aumentar el nmero de animales para definir
mejor el fenmeno.
2.3.5. Prueba de Cohen Kappa.La Prueba de Cohen Kappa, es un ndice de aceptacin en los estudios
inter-observadores, indica el grado de interrelacin inter-observador.
Permite cuantificar el nivel del acuerdo inter-observador para disminuir la
subjetividad del mtodo utilizado (test de movilidad) y si el grado de acuerdo
se debe al azar (a la suerte).
El porcentaje de acuerdo acompaado del ndice de Kappa se utiliza para
las variables cualitativas.
Se habla del coeficiente de Kappa de Cohen para dos terapeutas y de Fleiss
para ms de dos terapeutas.
Este coeficiente est comprendido entre 0 y 1. Donde 0, corresponde a una
correlacin que es idntica a la encontrada por casualidad y 1 una
correlacin perfecta entre los exmenes.
Los valores negativos indican habitualmente que existe un desacuerdo en la
manera de realizar el mtodo entre los terapeutas.
Se calcula como la proporcin de acuerdo, aparte del que ya sera de
esperar por azar, que ha sido observado entre dos repeticiones del mismo
instrumento (por ejemplo, un juicio realizado por dos observadores por
separado).
El coeficiente mximo de concordancia es de 1.00.

Un valor de 0.00 indica ninguna concordancia.
entre 0.00 y 0.20: ligera.
entre 0.21 y 0.40: pasable
entre 0.41 y 0.60: moderada
entre 0.61 y 0.80: importante
entre 0.81 y 1.00: perfecta.
Un coeficiente de 0.4 puede considerarse como el lmite de fiabilidad

aceptable de una prueba
La Prueba de Cohen Kappa es un corrector de la medida de acuerdo.
Como test de estadstica, la kappa puede verificar que el acuerdo exceda
los niveles de suerte
Todos los bloques
bloque C2-C4
bloque C5-6
K = 0.675
K = 0.756
K = 0.460
SE = 0.041
SE = 0.045
SE = 0.091
Z = 17.067
Z = 16.823
Z = 5.039
Especificidad
98%
98%
91%
Sensibilidad
74%
78%
55%
Valor del Kappa
K = coeficiente de Kappa, SE = error estndar, Z =Test de especificidad de la

estadstica.
2.3.6. Prueba de Fisher.En estadstica se denomina prueba F de Snedecor a cualquier prueba en la

que el estadstico utilizado sigue una distribucin F si la hiptesis nula no
puede ser rechazada. El nombre fue acuado en honor a Ronald Fisher.
En estadstica aplicada se prueban muchas hiptesis mediante el test F,
entre ellas:
La
hiptesis
de
que
las
medidas
de
mltiples
poblaciones normalmente distribuidas y con la misma desviacin

estndar son iguales. Esta es, quizs, la ms conocida de las
hiptesis verificadas mediante el test F y el problema ms simple
del anlisis de varianza.
La hiptesis de que las desviaciones estndar de dos poblaciones

normalmente distribuidas son iguales, lo cual se cumple.
En muchos casos, el test F puede resolverse mediante un proceso directo.

Se requieren dos modelos de regresin, uno de los cuales restringe uno o
ms de los coeficientes de regresin conforme a la hiptesis nula. El test
entonces se basa en un cociente modificado de la suma de cuadrados de
residuos de los dos modelos como sigue:
Dadas n observaciones,
donde
el
modelo
tiene k coeficientes
no
restringidos, y el modelo 0 restringe m coeficientes, el test F puede
calcularse como
El
valor
resultante
debe
entonces
compararse
con
la
entrada
correspondiente de la tabla de valores crticos.
2.3.7. Prueba de Friedman.Es una prueba no paramtrica desarrollado
por
el
economista Milton
Friedman. Equivalente a la prueba ANOVA para medidas repetidas en la

versin no paramtrica, el mtodo consiste en ordenar los datos por filas o
bloques, reemplazndolos por su respectivo orden. Al ordenarlos, debemos
considerar la existencia de datos idnticos.
Mtodo:
1. Sea
(bloques) y
una tabla de datos, donde
son las filas
las columnas (tratamientos). Una vez calculado el
orden de cada dato en su bloque, reemplazamos al tabla original con
otra
donde el valor
es el orden de
en cada
bloque .
2. Clculo de las varianzas intra e inter grupo:
3. El estadstico viene dado por

4. El criterio de decisin es
.
.
2.3.8. Prueba de Kendall.Este procedimiento estadstico para medir la correlacin o asociacin es

complementario del coeficiente de correlacin parcial de Kendall; a su vez,
es una segunda opcin de la correlacin de Spearman.
La razn por la que se expone este modelo estadstico se debe a la
necesidad de comprender la mecnica aritmtica y la interpretacin de la
prueba, pues se requiere conocerla para realizar el coeficiente parcial de
Kendall.
La frmula es la siguiente:
Donde:
t (tau) = coeficiente de correlacin de Kendall.
1.1.
1.2.
1.3.
S
=
puntuacin
efectiva
de
los
rangos.
N = tamao de la muestra en parejas de variables.
Frmula para determinar el nivel de significancia mediante el valor Z:

Donde:
Z = valor Z de la distribucin normal.
1.4.
1.5.
1.6.
t = coeficiente de correlacin de Kendall.
N = tamao de la muestra.
Pasos:
Alinear las observaciones del rango menor al mayor de la variable
independiente (X), de manera que se deje el rango que corresponde a la
pareja de la variable dependiente (Y).
Obtener la puntuacin efectiva (S) en la variable dependiente, en funcin del
orden de ocurrencia de los rangos de Y con respecto a X.
Contar el nmero de parejas y aplicar la frmula.
Calcular el nivel de significancia en funcin del valor Z, de acuerdo con la
ecuacin, presentada anteriormente.
Una vez calculado el valor Z, se obtiene la probabilidad de su magnitud en la
tabla de coeficientes de correlacin en niveles de p 0.05 y 0.01.
Decidir si se acepta o rechaza la hiptesis.
Un investigador est interesado en saber si el desarrollo mental de un nio
se asocia a la educacin formal de la madre. De esta manera, obtiene la
calificacin de desarrollo mental en la escala de Gesell de ocho nios
elegidos aleatoriamente y se informa del grado de escolaridad de las
madres.
Eleccin de la prueba estadstica.
Se desea medir asociacin o correlacin. Las calificaciones de la educacin
formal de cada madre estn dadas en una medicin cualitativa, pero tienen
una escala ordinal, por lo cual es posible ordenarlas en rangos.
Hiptesis alterna (Ha). El desarrollo mental de los hijos es una variable

dependiente de la educacin formal de la madre; por lo tanto, existe una
correlacin significativa.
Hiptesis nula (Ho). La asociacin entre las variables educacin formal de
la madre y desarrollo mental de los hijos no es significativa, ni hay
correlacin.
Nivel de significacin.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se
rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza
Ha.
Desarrollo mental de algunos nios y escolaridad de las madres.
Aplicacin de la prueba estadstica.

Inicialmente, las observaciones de las variables X y Y se ordenan en rangos.
Arreglo en rangos de las observaciones presentadas en la tabla anterior.
De acuerdo con esto, se efecta un ordenamiento natural de los rangos de

las variables X y.
Rangos de la variable independiente X y su correspondiente de la variable

dependiente.
El clculo de la puntuacin efectiva (S) se realiza con el ordenamiento de los
rangos de la variable dependiente (Y).
El primer valor del rango de Y es 1. Respecto a los dems rangos, existen
siete mayores que Y y ninguno es menor, de manera que queda:
S = (7 - 0) +
Despus est el rango 5, luego se hallan tres por arriba y tres por debajo de
ste y se contina:
S = (7 - 0) + (3 - 3) +
En rango siguiente es el 3, del cual cuatro son mayores y uno menor, y
queda:
S = (7 - 0) + (3 - 3) + (4 - 1) +
El rango inmediato es el 2, y los cuatro subsecuentes son mayores y
ninguno Menor:
S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) +
Despus se halla el rango 7, en el que uno es mayor y dos menores:
S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) +
Finalmente, se encuentra el rango 8, el subsecuente es el 6, que es menor y
se concluye el clculo de S, como sigue:
S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) + (0 - 1)
S = 7 + 0 + 3 + 4 - 1 - 1 = 12
Aplicamos la ecuacin de la prueba estadstica.
Calculamos el nivel se significancia.
Una vez calculado el valor Z, se obtiene la probabilidad en la tabla de

coeficientes de correlacin en niveles de p 0.05 y 0.01; a su vez en
buscamos en la tabla de probabilidades asociadas en valores extremos

como los de 2 en la distribucin normal.
Se localiza el valor 1.4 y en la interseccin de la columna 0.09, se observa el
valor 0.0681, el cual corresponde a la probabilidad de obtener un valor Z de
esta magnitud, que difiere del promedio y es mayor que el nivel de
significancia.
Decisin.
Como el valor Z tiene mayor probabilidad que el nivel de significancia, se
acepta Ho y se rechaza Ha.
Interpretacin.
La correlacin entre las variables educacin materna y desarrollo mental del
hijo no es significativa. Esta misma conclusin se obtuvo mediante el
coeficiente de correlacin de Spearman
2.3.9. Prueba de Kolmogorov-Smirnov.En estadstica, la prueba de Kolmogorov-Smirnov (tambin prueba K-S)

es una prueba no paramtrica que se utiliza para determinar la bondad de
ajuste de dos distribuciones de probabilidad entre s.
En el caso de que queramos verificar la normalidad de una distribucin,
la prueba de Lilliefors conlleva algunas mejoras con respecto a la de
Kolmogorov-Smirnov; y, en general, el test de ShapiroWilk o la prueba de
Anderson-Darling son alternativas ms potentes.
Conviene tener en cuenta que la prueba Kolmogorov-Smirnov es ms
sensible a los valores cercanos a la mediana que a los extremos de la
distribucin. La prueba de Anderson-Darling proporciona igual sensibilidad
con valores extremos.
Estadstico:
Para dos colas el estadstico viene dado por
Donde F(x) es la distribucin presentada como hiptesis.
2.3.10. Prueba de Kruskal-Wallis.En estadstica, la prueba de Kruskal-Wallis (de William Kruskal y W. Allen
Wallis) es un mtodo no paramtrico para probar si un grupo de datos
proviene de la misma poblacin. Intuitivamente, es idntico al ANOVA con
los datos reemplazados por categoras. Es una extensin de la prueba de
la U de Mann-Whitney para 3 o ms grupos.
Ya que es una prueba no paramtrica, la prueba de Kruskal-Wallis no
asume normalidad en los datos, en oposicin al tradicional ANOVA. S
asume, bajo la hiptesis nula, que los datos vienen de la misma distribucin.
Una
forma
comn
en
que
se
viola
este
supuesto
es
con
datos heterocedsticos.
Mtodo:
1. El estadstico est dado por:
,
Donde:
es el nmero de observaciones en el grupo

es el rango (entre todas las observaciones) de la
observacin
en el grupo
es el nmero total de observaciones entre todos los grupos
es el promedio de
Note que el denominador de la expresin para

Exactamente
.
Luego
es
.
2. Se
puede
dividiendo
realizar
una
correccin
por
para
los
, donde
grupos de diferentes rangos repetidos, y

observaciones repetidas dentro del grupo
valores
repetidos
es el nmero de
es el nmero de
que tiene observaciones
repetidas para un determinado valor. Esta correccin hace cambiar

a
muy poco al menos que existan un gran nmero de observaciones
repetidas.
3. Finalmente,
algn
el p-value es
es pequeo (
aproximado
por
) la distribucin de
Si
puede ser distinta de
la chi-cuadrado
2.3.11. Prueba U de Mann-Whitney.En estadstica la prueba U de Mann-Whitney (tambin llamada de MannWhitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de
Wilcoxon-Mann-Whitney)
es
una
prueba no
paramtrica aplicada
dos muestras independientes. Es, de hecho, la versin no paramtrica de la

habitual prueba t de Student.
Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de
igual tamaos y extendido a muestras de tamao arbitrario como en otros
sentidos por Henry B. Mann y D. R. Whitneyen 1947.
Planteamiento del problema:
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de
dos muestras ordinales. El planteamiento de partida es:
1. Las observaciones de ambos grupos son independientes
2. Las observaciones son variables ordinales o continuas.
3. Bajo la hiptesis nula, las distribuciones de partida de ambas
distribuciones es la misma
4. Bajo
la
hiptesis
alternativa,
los
valores
de
una
de
las
muestras tienden a exceder a los de la otra: P(X > Y) + 0.5

P(X = Y) > 0.5.
Clculo del estadstico:
Para calcular el estadstico U se asigna a cada uno de los valores de las
dos muestras su rango para construir
donde n1 y n2 son los tamaos respectivos de cada muestra; R1 y R2 es

la suma de los rangos de las observaciones de las muestras 1 y 2
respectivamente.
El estadstico U se define como el mnimo de U1 y U2.
Los clculos tienen que tener en cuenta la presencia de observaciones
idnticas a la hora de ordenarlas. No obstante, si su nmero es
pequeo, se puede ignorar esa circunstancia.
Distribucin del estadstico:
La prueba calcula el llamado estadstico U, cuya distribucin para
muestras con ms de 20 observaciones se aproxima bastante bien a
la distribucin normal.
La
aproximacin
la normal, z,
cuando
tenemos
muestras
lo
suficientemente grandes viene dada por la expresin:
Donde mU y U son la media y la desviacin estndar de U si la

hiptesis nula es cierta, y vienen dadas por las siguientes frmulas:
Prueba de U Mann-Whitney
independientes.-
para
dos
muestras
Esta prueba estadstica es til cuando las mediciones se pueden

ordenar en escala ordinal (es decir, cuando los valores tienden a una
variable continua, pero no tienen una distribucin normal) y resulta
aplicable
cuando
las
muestras
son
independientes.
Este
procedimiento es una buena alternativa cuando no se puede utilizar

la prueba t de Student, en razn de no cumplir con los requisitos que
esta prueba exige. La frmula es la siguiente:
Donde:
U1 y U2 = valores estadsticos de U MannWhitney.
n1 = tamao de la muestra del grupo 1.
n2 = tamao de la muestra del grupo 2. R1 =
sumatoria de los rangos del grupo 1.
R2 = sumatoria de los rangos del grupo 2.
Pasos:
1. Determinar el tamao de las muestras (n1 y n2). Si n1 y n2 son menores que 20,
se consideran muestras pequeas, pero si son mayores que 20, se consideran
muestras grandes.
2. Arreglar los datos en rangos del menor al mayor valor. En caso de que existan
ligas o empates de rangos iguales, se debern detectar para un ajuste
posterior.
3. Calcular los valores de U1 y U2, de modo que se elija el ms pequeo para
comparar con los crticos de U Mann-Whitney de la tabla de probabilidades
asociadas con valores pequeos como los de U de Mann-Whitney.
4. En caso de muestras grandes, calcular el valor Z, pues en estas condiciones se
distribuye normalmente.
5. Decidir si se acepta o rechaza la hiptesis.
Ejemplo para muestras pequeas:
Un experimentador utiliza dos mtodos para ensear a leer a un grupo de 10 nios de
6 aos, quienes ingresan por primera vez a la escuela. El experimentador quiere
demostrar que el procedimiento ideado por l es ms efectivo que el tradicional; para
ello, mide el desempeo en la lectura en funcin de la fluidez, comprensin, anlisis y
sntesis.
El plan experimental preliminar consiste en elegir al azar tanto una muestra de 10
nios como el mtodo por utilizar.
Eleccin de la prueba estadstica. El modelo experimental tiene dos muestras

independientes. Las mediciones revelan que no se satisfacen los requisitos para
utilizar una media aritmtica, en razn de que uno de los valores en cada muestra se
aleja demasiado de las dems; por lo tanto, no corresponde a una escala de intervalo,
de manera que se decide usar una escala ordinal.
Hiptesis alterna (Ha). Las calificaciones de ejecucin de lectura, segn el

mtodo de enseanza del experimentador son ms altas y diferentes que las
observadas en el mtodo tradicional.
Hiptesis nula (Ho). Las diferencias observadas entre las calificaciones de

ejecucin de lectura mediante los dos mtodos se deben al azar.
Nivel de significacin. Para todo valor de probabilidad igual o menor que 0.05, se
acepta Ha y se rechaza Ho.
Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se
rechaza Ha.
Dos
mtodos
diferentes
aplicados
en
dos
grupos
de
nios.
Aplicacin de la prueba estadstica. De acuerdo con los paso, las observaciones se

deben ordenar en rangos del menor al mayor. Rangos de lectura de la tabla anterior.
Calculamos la U.
De los dos valores de U calculados, se elige el ms pequeo (4) y se comparan con

los valores crticos de U Mann-Whitney.
En caso de que el valor de U calculado no se localice en las tablas correspondientes,
se transformar en la frmula siguiente:
U = n1n2 - U'
En esta frmula, U' corresponde al valor ms alto.
Decisin.
A la probabilidad del valor U de Mann-Whitney, calculado anteriormente, corresponde
0.048, el cual es ms pequeo que el nivel de significancia; por lo tanto, se acepta Ha
y se rechaza Ho.
Interpretacin.
Entre las calificaciones de la ejecucin de lectura mediante los dos mtodos de
enseanza existe una diferencia significativa a un nivel de probabilidad de error menor
que 0.05; es decir, aun cuando las muestras son pequeas, las calificaciones ms
altas mediante el mtodo diseado por el experimentador sealan ms efectividad,
con la probabilidad de equivocarse de 0.048 para aceptarlo.
Ejemplo aplicable cuando la muestra es mayor a 25 y donde n1 y n2 pueden ser
iguales o de un tamao diferente:
El experimentador del ejemplo previo, entusiasmado por las observaciones
preliminares, decide aumentar el tamao de las muestras. En este estudio tiene 10
nios con el mtodo tradicional y 25 mediante el procedimiento ideado por l. Los
datos del nuevo estudio se muestran en la tabla ms adelante.
Eleccin de la prueba estadstica. El diseo experimental tiene dos muestras
independientes. Las mediciones en esta condicin quiz no impidan utilizar una
prueba paramtrica, sin embargo, para fines de aprendizaje, se decide utilizar una
escala ordinal y continuar con la prueba de U de Mann-Whitney.
Hiptesis alterna (Ha). Las calificaciones aportadas por el mtodo reciente,

ideado por el experimentador, son diferentes y con valores ms altos.
Hiptesis nula (Ho). Las diferencias entre las calificaciones dadas por ambos
mtodos se deben al azar.
Nivel de significacin. Para todo valor de probabilidad igual o menor que 0.05, se
acepta Ha y se rechaza Ho.
Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se
rechaza Ha.
Poblacin de nios de 6 aos a los cuales se les aplic dos mtodos de enseanza.
Aplicacin de la prueba estadstica. Primero ordenamos los rangos de todas las

observaciones. Direccin de las ligas o empates y el tamao de estas.
Calculamos la U de Mann-Whitney:
Tomando en cuenta los pasos, nos menciona que cuando la muestra es mayor que 25,
se distribuye normalmente, por lo cual se determina el valor Z para conocer la
probabilidad. Esto se calcula como sigue:
Donde:
Z
valor
estadstico
de
la
curva
normal.
U = cualquier valor de U calculado (ya sea U1 o U2).

=
valor
promedio
de
U.
U = desviacin estndar de U.
Calculamos el valor promedio de U ( ):
La desviacin estndar de U de Mann-Whitney determina de la forma siguiente:

Donde:
U = desviacin
estndar
de
U.
n1 y n2 = tamao de la muestra de los grupos 1 y 2.

N = tamao total de la muestra (la suma de n1 y n2).
Li = sumatoria de las ligas o empates.
El clculo de Li se realiza de la siguiente manera:
Una vez obtenida la sumatoria de Li, se determina la desviacin estndar de U (U )

mediante la expresin siguiente:
Una vez calculados los parmetros necesarios, se obtiene el valor Z conforme la

siguiente frmula:
Para obtener la probabilidad del valor Z = 1.95, se debe consultar la tabla de tamao
de la muestra en funcin de los valores d y buscar la hilera 1.9, en cuya columna 0.05
se localiza el nmero 0.0256, que corresponde a la probabilidad del valor de U de
Mann-Whitney con respecto al promedio. Esto quiere decir que es menor que el nivel
de significancia.
Decisin.
A la cifra de Z de 1.95 le corresponde una probabilidad menor que 0.05, por lo cual se
acepta Ha y se rechaza Ho (tabla de probabilidades asociadas en valores extremos
como los de 2 en la distribucin normal).
Interpretacin.
El experimentador, al aumentar su muestra, confirma la investigacin preliminar con
una muestra pequea, con lo cual da a entender que los resultados logrados con el
mtodo ideado por l son diferentes de los obtenidos con el mtodo de enseanza de
lectura tradicional; adems, este ltimo revela calificaciones ms bajas y es menos
efectivo que el otro.
La efectividad del mtodo ideado por el experimentador se traduce en mayor fluidez de
la lectura, mejor comprensin y anlisis y sntesis superior, en razn de que las
calificaciones finales son consecuencia de estas condiciones.
2.3.12. Prueba de McNemar.Prueba estadstica que sirve para comparar proporciones en datos
pareados.
Prueba de significacin estadstica para probar la hiptesis nula de
inexistencia de cambios en la proporcin de sujetos que experimentan un
acontecimiento, cuando cada individuo es evaluado dos veces (en
condiciones diferentes) y los datos estn emparejados.
2.3.13. Prueba de la Mediana.La prueba de la mediana es una prueba no paramtrica que podemos
considerar un caso especial de la prueba de chi-cuadrado, pues se basa en
esta ltima. Su objetivo es comparar las medianas de dos muestras y
determinar si pertenecen a la misma poblacin o no.
Para ello, se calcula la mediana de todos los datos conjuntamente. Despus,
se divide cada muestra en dos subgrupos: uno para aquellos datos que se
siten por encima de la mediana y otro para los que se siten por debajo. La
prueba de chi-cuadrado determinar si las frecuencias observadas en cada
grupo difieren de las esperadas con respecto a una distribucin de
frecuencias que combine ambas muestras.
Esta prueba est especialmente indicada cuando los datos sean extremos o
estn sesgados.
2.3.14. Prueba de los Signos.La prueba de los signos permite contrastar la hiptesis de que las
respuestas a dos ''tratamientos'' pertenecen a poblaciones idnticas. Para la
utilizacin de esta prueba se requiere nicamente que las poblaciones
subyacentes sean continuas y que las respuestas de cada par asociado
estn medidas por lo menos en una escala ordinal.
La hiptesis nula puede expresarse como:
Siendo Xi la respuesta del elemento i-simo al primer ''tratamiento'' e Yi la

respuesta del elemento i-simo al segundo ''tratamiento''.
La hiptesis alternativa puede ser direccional, cuando postula que X es
estocsticamente mayor (o menor) que Y, o no direccional, cuando no
predice la direccin de la diferencia.
Para realizar el contraste se hallan los signos (+ o -) de las diferencias no
nulas entre las respuestas de los dos componentes de cada par y se cuenta
cuntas son positivas, S+, y cuntas negativas, S-. Si H0 es cierta, es de
esperar que aproximadamente la mitad de las diferencias sean positivas y la
otra mitad negativas.
El estadstico de prueba es S= mn [S+, S-].
Si H0 es cierta, S tiene distribucin binomial de parmetros n= n de

diferencias nulas y
aproximarse
= 0'5. Si n es grande, la distribucin de S puede

mediante
una
parmetros
normal
y
la
de
decisin
depender del valor tipificado de S. Para mejorar la aproximacin se realiza

una correccin de continuidad, de forma que el estadstico de prueba es:
Z se distribuye segn una normal tipificada.

Cuando el nmero de diferencias no nulas es pequeo la aproximacin de la
distribucin de S mediante la normal no es buena y en este caso el SPSS
realiza directamente la prueba binomial, dando el nivel de significacin a
partir del cual se rechaza H0 en un contraste de dos colas. Si el contraste se
realiza a una cola dicho nivel de significacin se reduce a la mitad.
2.3.15. Prueba de Spearman.En estadstica, el coeficiente de correlacin de Spearman, (rho) es una

medida de la correlacin (la asociacin o interdependencia) entre dos
variables aleatorias continuas. Para calcular , los datos son ordenados y
reemplazados por su respectivo orden.
El estadstico viene dado por la expresin:
Donde D es la diferencia entre los correspondientes estadsticos de orden

de x - y. N es el nmero de parejas. Se tiene que considerar la existencia de
datos idnticos a la hora de ordenarlos, aunque si stos son pocos, se
puede ignorar tal circunstancia.
La interpretacin de coeficiente de Spearman es igual que la del coeficiente

de correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones
negativas o positivas respectivamente, 0 cero, significa no correlacin pero
no independencia. La tau de Kendall es un coeficiente de correlacin por
rangos, inversiones entre dos ordenaciones de una distribucin normal

bivariante.
Los datos brutos usados en este ejemplo se ven debajo.
CI
Horas de TV a la semana
106
86
100
28
100
50
99
28
103
28
97
20
113
12
113
110
17
El primer paso es ordenar los datos de la primera columna. Despus, se

crean dos columnas ms. Ambas son para ordenar (establecer un lugar en
la lista) de las dos primeras columnas. Despus se crea una columna "d"
que muestra las diferencias entre las dos columnas de orden. Finalmente, se
crea otra columna "d2". Esta ltima es slo la columna "d" al cuadrado.
Despus de realizar todo esto con los datos del ejemplo, se debera acabar
con algo como lo siguiente:
CI
Horas de TV a la
(i)
86
semana (t)
0
97
20
d2
16
orden(i) orden(t)
99
28
100
50
4.5
10
5.5 30.25
100
28
4.5
3.5 12.25
103
28
106
2.5
110
17
113
9.5
2.5
49
113
12
9.5
25
4.5 20.25
5.5 30.25
Ntese como el nmero de orden de los valores que son idnticos es la

media de los nmeros de orden que les corresponderan si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar

. El valor de n es 10. As que esos valores pueden ser
sustituidos en la frmula.
De lo que resulta
2.3.16. Prueba Tabla de Contingencia.En estadstica las tablas de contingencia se emplean para registrar y
analizar la relacin entre dos o ms variables, habitualmente de
naturaleza cualitativa (nominales u ordinales).
Supngase que se dispone de dos variables, la primera el sexo (hombre o
mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha
observado esta pareja de variables en una muestra aleatoria de 100
individuos. Se puede emplear una tabla de contingencia para expresar la

relacin entre estas dos variables:
Diestro Zurdo TOTAL

Hombre 43
52
Mujer
44
48
TOTAL
87
13
100
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre

de frecuencias marginales y la cifra situada en la esquina inferior derecha es
el gran total.
La tabla nos permite ver de un vistazo que la proporcin de hombres
diestros es aproximadamente igual a la proporcin de mujeres diestras. Sin
embargo,
ambas
proporciones
no
son
idnticas
la significacin
estadstica de la diferencia entre ellas puede ser evaluada con la prueba

de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de
una poblacin. Si la proporcin de individuos en cada columna vara entre
las diversas filas y viceversa, se dice que existe asociacin entre las dos
variables. Si no existe asociacin se dice que ambas variables son
independientes.
El grado de asociacin entre dos variables se puede evaluar empleando
distintos coeficientes: el ms simple es el coeficiente phi que se define por
Donde 2 se deriva del test de Pearson, y N es el total de observaciones -el

gran total-. puede oscilar entre 0 (que indica que no existe asociacin
entre las variables) e infinito. A diferencia de otras medidas de asociacin, el
coeficiente de Cramer no est acotado.
Estudio de diferencia de proporciones:
Hay situaciones en las que tenemos probabilidades de xito cercanas al

cero o del uno en donde las proporciones pueden ser poco representativas
sobre el comportamiento dentro de los grupos. Por ejemplo:
Si 1 = 0.01 2 = 0.001
d= 1 - 2 = 0.009
Si 1 = 0.41 2 = 0.401
d= 1 - 2 = 0.009
Vamos a definir el riesgo relativo como r=1/2

Para los ejemplos anteriores: r=0.01/0.001 = 10 r=0.41/0.401 = 1.02
En el primer caso el xito dentro de los grupos es 10 veces mayor que en el
otro.
Si X e Y independientes -> 1 = 2 con lo que su riesgo relativo es:
r=1/2 = 1
Ahora bien, cmo estimar r?
r' = p1/p2
En el ejemplo de ms arriba:
r' = (43/52) / (44/48) = 0.902 --> la proporcin de xito (diestro) dentro de las
mujeres es alrededor de un 10% mayor que dentro del grupo de los
hombres.
2.3.17. Prueba de rachas de Wald-Wolfowitz.Permite contrastar la hiptesis nula de que dos muestras independientes
proceden de poblaciones con distribuciones continuas idnticas contra la
hiptesis alternativa de que las poblaciones difieren en algn aspecto, que
puede ser tanto la tendencia central como cualquier otra caracterstica.
Para realizar el contraste se combinan las observaciones de ambas
muestras, ordenndolas de menor a mayor, y se halla el nmero de rachas
o valores sucesivos de una misma muestra en la secuencia ordenada.
El estadstico de prueba es el nmero de rachas, R. Si los tamaos de las

muestras son, el valor de R est comprendido entre 2 y n1 + n2. Si la
hiptesis nula es cierta, las observaciones de ambas muestras aparecern
muy mezcladas, y en la secuencia ordenada habr un gran nmero de
rachas; por el contrario, si ambas poblaciones de origen difieren las
observaciones de cada muestra tendern a aparecer juntas y el nmero de
rachas ser pequeo.
Cuando ambos tamaos muestrales son superiores a 10 la distribucin de R
es aproximadamente normal de parmetros:
La decisin se basa en el valor tipificado de R, que tiene distribucin

aproximadamente normal tipificada.
Aunque para realizar este contraste es suficiente que las variables se midan
en una escala ordinal, la presencia de empates, que este tipo de escala
favorece, afecta negativamente a la fiabilidad del contraste y en tal caso es
preferible utilizar la prueba de Kolmogorov-Smirnov.
2.3.18. Prueba de los rangos con signo de Wilcoxon.Prueba de los rangos con signo de Wilcoxon es
una prueba no
paramtrica para comparar la media de dos muestras relacionadas y

determinar si existen diferencias entre ellas. Se utiliza como alternativa a
la prueba t de Student cuando no se puede suponer la normalidad de dichas
muestras. Debe su nombre a Frank Wilcoxon, que la public en 1945.
Se utiliza cuando la variable subyacente es continua pero no se presupone
ningn tipo de distribucin particular.
Ejemplo ilustrativo:
Las mediciones de la capacidad mental de nios pequeos se hacen
dndoles cubos y pidindoles que construyan una torre tan alta como sea
posible. Un docente investigador est interesado en comprobar s ambientes
de aprendizaje modifican el desarrollo mental de los nios. Para ello realiza
un experimento de construccin con cubos y mide la capacidad mental de
los nios. Despus les proporciona ambientes favorables al aprendizaje y
repite el experimento tres meses despus con los mismos nios para
verificar si existen cambios. Los datos muestran los tiempos en segundos de
la construccin de determinados modelos
Utilice un nivel de significancia de 0.05 y pruebe la aseveracin de que no
hay diferencias entre los tiempos de la primera y la segunda prueba.
Nro. nio
10
11
12
13
14 15
2da. prueba
30 19
19
23
29
78 42 20
12
39
14
81
17
31 52
1ra. prueba
30
14
14
42 14 22
17
11
30
14
17 15
Diferencias
13
15
15
36 28
-2
-5
31
51
14 37
4,5 8,5 8,5 12 10
4,5 11 2,5 14 2,5
4,5 8,5 8,5 12 10 1
Rango de
13
4,5 11 2,5 14 2,5 7
13
diferencias
Rango con
signos
Suma de signos positivos (+) = 99,5

Suma de signos negativos (-)= 5,5
Hiptesis nula:
Ho: Las dos muestras provienen de poblaciones con la misma distribucin.
Hiptesis alterna:
Ha: Las dos muestras provienen de poblaciones con distribuciones
diferentes
Si el valor de TOBT es menor o igual a TCRI rechazamos Ho
Como el valor obtenido 5,5 es menor al valor crtico 25 (tablas), se rechaza
la hiptesis nula y se prueba la aseveracin de que no hay diferencias entre
los tiempos de la primera y la segunda prueba.
En ocasiones, esta prueba se usa para comparar las diferencias entre dos
muestras de datos tomados antes y despus del tratamiento, cuyo valor
central se espera que sea cero. Las diferencias iguales a cero son
eliminadas y el valor absoluto de las desviaciones con respecto al valor
central son ordenadas de menor a mayor. A los datos idnticos se les asigna
el lugar medio en la serie. La suma de los rangos se hace por separado para
los signos positivos y los negativos. S representa la menor de esas dos
sumas.
Comparamos S con
el
valor
proporcionado
por
las
tablas
estadsticas al efecto para determinar si rechazamos o no la hiptesis nula,

segn el nivel de significacin elegido.
2.3.19. Clasificacin y su objetivo.Mientras que las tcnicas paramtricas son robustas (es decir, conservan a
menudo un poder considerable para detectar diferencias o semejanzas
incluso cuando se violan estas asunciones), algunas distribuciones violan
tanto que un alternativa no paramtrica es ms deseable para detectar una
diferencia o una semejanza.
Pruebas no paramtricas para muestras relacionadas
Prueba
Nm. de
variables
Variables
Objetivo
McNemar
Cualitativas: 2
valores
Determinar si la diferencia entre las distribuciones de

frecuencias de los valores de las dos variables es
estadsticamente significativa.
En escala al
menos ordinal
Determinar si la diferencia entre el nmero de veces

en que el valor de una variable es mayor que el de la
otra y el nmero de veces en que es menor es
En escala al
menos ordinal
Determinar si la diferencia entre la magnitud de las

diferencias positivas entre los valores de las dos
variables y la magnitud de las diferencias negativas es
Q de
Cochran
p>2
Cualitativas: 2
valores
Determinar si las diferencias entre las distribuciones

de frecuencias de los valores de las p variables son
estadsticamente significativas.
F de
Friedman
p>2
En escala al
menos ordinal
Determinar si las diferencias entre las distribuciones

de las p variables son estadsticamente significativas.
Signos
Wilcoxon
3. Eleccin de la tcnica estadstica apropiada1.Con los elementos definidos en los prrafos anteriores se pueden establecer
rboles de decisin para la ayuda en la eleccin de la tcnica o prueba estadstica
apropiada.
Criterio
Descripcin
Aclaraciones
Estadstica descriptiva
Ningn contenido estadstico o nicamente estadstica

descriptiva.
Pruebas t de Student,
pruebas z
Para una muestra o dos muestras (datos apareados y/o

independientes).
Tablas bivariables
Tests no paramtricos
Test de los signos. U de Mann-Whitney, prueba t de Wilcoxon
Estadsticas demoepidemiolgicos
Riesgo relativo. Odds ratio. Log. Odds. Medidas de

asociacin. sensibilidad y especificidad.
Correlacin lineal de
Pearson
Correlacin clsica (coeficiente r de correlacin lineal).
Correlacin lineal de
Pearson
Correlacin clsica (coeficiente r de correlacin lineal).
Regresin simple
Anlisis de varianza
ANOVA, anlisis de la covarianza, pruebas F.
10
Transformacin de
variables
Empleo de transformaciones (logartmicas....).
11
Correlacin no
paramtrica
Rho de Spearman, Tau de Kendall, pruebas de tendencia.
12
Regresin mltiple
Incluye la regresin polinmica y la regresin paso a paso.
Chi cuadrado, prueba exacta de Fisher, test de Mc Nemar.
Regresin de mnimos cuadrados

productora y una respuesta.
con
una
Protocolo diseado por EMERSON y COLDTIZ y adaptado por MORA RIPOLL y COLS. Niveles
de referencia para el anlisis de accesibilidad
variable
13
Comparaciones mltiples Comparaciones mltiples.
14
Ajuste y estandarizacin
15
Tablas multivariables
16
Potencia y tamao
muestral
Determinacin del tamao de la muestra en la base a una

diferencia detectable.
17
Anlisis de la
supervivencia
Incluye tablas de vida, regresin de supervivencia y otros

anlisis de supervivencia.
18
Anlisis coste- beneficio
Estimacin de los costes de salud para comparar directrices

alternativas (coste- efectividad).
19
Otros anlisis
Test no incluidos en las categoras precedentes: anlisis de

Sensibilidad, anlisis clster. Anlisis discriminante.
Estandarizacin de tasas de incidencia y prevalencia.
Procedimientos de Mantel-Haenszel- modelos log. Lineales.
Los pasos siguientes:

Una vez realizadas las estadsticas se debe proceder a:
Anlisis cualitativo o cuantitativo.
Sntesis e interpretacin final de todos los datos ya analizados.
Redaccin el informe de investigacin.
CONCLUSIONES
Para nuestra persona, sin estadstica el mundo sera un caos no se podra realizar
predicciones ni conocer el nmero de habitantes del planeta y mucho peor saber los
intereses que podramos ganar si invertimos nuestro capital en una entidad bancaria
he aqu la importancia de la estadstica y todas sus formas de investigacin y
deduccin
La mayora de estas pruebas no paramtricas estn programados en los paquetes

estadsticos ms frecuentes, quedando para el investigador, simplemente, la tarea de
decidir por cul de todos ellos guiarse o qu hacer en caso de que dos test nos den
resultados opuestos. Hay que decir que, para poder aplicar cada uno existen diversas
hiptesis nulas y condiciones que deben cumplir nuestros datos para que los
resultados de aplicar las pruebas sean fiables. Esto es, no se puede aplicar todos las
pruebas y quedarse con el que mejor convenga para la investigacin sin verificar si se
cumplen las hiptesis y condiciones necesarias pues, si se violan, invalidan cualquier
resultado posterior y son una de las causas ms frecuentes de que un estudio sea
estadsticamente incorrecto. Esto ocurre sobre todo cuando el investigador desconoce
la naturaleza interna de las pruebas y se limita a aplicarlos sistemticamente.
WEBGRAFIA
http://www.wikipwedia.org
http://www.gestiopolis.com
http://www.rincondelvago.com
http://www.buenastareas.com
http://www.monografias.com
http://www.eumed.net/libros-gratis/2006b/cag3/2j.htm

Libro de Estadistica 2014

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Libro de Estadistica 2014

Uploaded by

Copyright:

Available Formats

TEMA: Estadstica en la Investigacin

Johnny Flix, Farfn Pimentel

PRUEBAS NO PARAMETRICAS .................................................................................................... 38

MARCO METODOLOGICO ..................................................................ERROR! BOOKMARK NOT DEFINED.

PRINCIPALES PRUEBAS NO PARAMETRICAS .............................................................................. 40

CLASIFICACION Y SU OBJETIVO .................................................................................................... 72

ELECCION DE LA TECNICA ESTADISTICA APROPIADA................................................................... 73

Sociales es habitual el uso

al uso de variables cuantitativas

continuas, distribucin normal de las muestras, varianzas similares y tamao de las

paramtricas o de distribucin libre est indicado.

Qu ocurre con las pruebas no paramtricas frente a las que s lo son?

Estadstica.Es el conjunto de tcnicas que se emplean para la recoleccin,

organizacin, anlisis e interpretacin de los datos. Se ocupa de la

Investigacin Estadstica.La investigacin es un proceso de produccin de conocimiento

cientficos; es un proceso sistemtico a travs del cual se recogen

pequea, simplemente investigar es

buscar respuesta para plantear

tratamientos de datos, con el propsito de obtener algunas medidas o

Objetivo de la Investigacin Estadstica.El objetivo de la investigacin estadstica es

respuestas a determinada interrogantes a travs de la aplicacin de

a. Estadstica Descriptiva.Es la parte de la estadstica que se encarga de la recoleccin,

Etapas de la Investigacin Estadstica.La investigacin estadstica por su naturaleza, es fundamental

significacin de los datos, de la muestras as como los mtodos y

1.5.1. Planteamiento o preparacin del trabajo estadstico.a. Fundamento y compresin

Identificacin y anlisis de estudios similares.

g. Determinacin del mbito de la investigacin

Formacin y capacitacin del equipo de trabajo.

Elaboracin del calendario de actividades.

k. Formulacin del presupuesto y fuente de financiamientos.

Diseo y ejecucin de una prueba piloto o experimental.

Recopilacin de los datos.La recopilacin o recoleccin de datos es el momento en el

cual el investigador se pone en contacto con los objetos o elementos

respuesta a las variables analizadas. El mtodo de recoleccin est

Organizacin y presentacin de datos.Despus de la recopilacin de los datos, se procede a su

organizacin, clasificacin y tabulacin, de modo que se facilite la

Como tarea previa a la investigacin es indispensable realizar una

Tngase presente que la validez de sus resultados y conclusiones

Realizada las correcciones o ajuste, se procede a la clasificacin o

Finalmente se procede a la tabulacin o procesamiento de los datos,

Los cuadros y tablas estadstica como primera fase de la reduccin

indicadores y medidas de resumen, se establecen relaciones entre

interpretacin del comportamiento de los datos, hacer inferencia valida

contrastacin permite elaborar un resumen de los aspecto sustantivos,

Debe ser sencilla, de modo que se puede caracterizar con

Debe ser precisa, de modo que facilite su identificacin y saber

Debe ser semejantes, de manera que sean aditivo.

Respectar las posibles definiciones oficiales o estatales.

1.5.7. Recoleccin de datos estadsticos.La recopilacin

o coleccin de datos es el momento en el

cual el investigador se pone en contacto con los objetos o elementos

Antes de recopilar o recoger

datos, es importante analizar los

objetivos del estudios, precisar las variables e identificar las fuentes

La formulacin del problema y del marco terico, la definicin de las

a. La tcnica de investigacin documental o bibliogrfica.

La fase de recoleccin de datos es uno de los puntos principales de

Informacin Estadstica.La informacin estadstica, como datos procesados de acuerdos

a ciertos objetivos, es un medio que permite cuantificar aspecto de

momento o periodo dado y un mbito concreto. A partir de la

Fuentes de informacin.Las fuentes de datos es el lugar, la institucin, las personas o

elementos donde estn o que poseen los datos que se necesitan

permiten obtener datos originales,