You are on page 1of 76

TEMA: Estadstica en la Investigacin

Johnny Flix, Farfn Pimentel

INDICE

INTRODUCCIN ................................................................................................................................. 3
MARCO TEORICO ................................................................................................................................... 5
1.

PRUEBAS NO PARAMETRICAS .................................................................................................... 38


ANTECEDENTES .......................................................................................... ERROR! BOOKMARK NOT DEFINED.
1.1.
CONCEPTOS BASICOS. ................................................................................................ 38
1.2.
OTROS CONCEPTOS ...................................................................................................... 39

MARCO METODOLOGICO ..................................................................ERROR! BOOKMARK NOT DEFINED.


2.

PRINCIPALES PRUEBAS NO PARAMETRICAS .............................................................................. 40


2.1.PRUEBA DE PEARSON ........................................................................................................ 40
2.2.PRUEBA BINOMIAL ................................................................................................................ 42
2.3.PRUEBA DE ANDERSON-DARLING .......................................................................................... 44
2.4.PRUEBA Q DE COCHRAN ........................................................................................................ 44
2.5.PRUEBA DE COHEN KAPPA ..................................................................................................... 47
2.6.PRUEBA DE FISHER ................................................................................................................. 48
2.7.PRUEBA DE FRIEDMAN .......................................................................................................... 49
2.8.PRUEBA DE KENDALL ............................................................................................................ 50
1.7.PRUEBA DE KOLMOGROV-SMIRNOV ................................................................................... 54
1.8.PRUEBA DE KRUSKAL-WALLIS ................................................................................................ 55
1.9.PRUEBA U DE MANN-WHITNEY ............................................................................................. 56
1.10.PRUEBA DE MCNEMAR ........................................................................................................ 63
1.11.PRUEBA DE LA MEDIANA ..................................................................................................... 64
1.12.PRUEBA DE LOS SIGNOS ....................................................................................................... 64
1.13.PRUEBAS DE SPEARMAN ..................................................................................................... 65
1.14.PRUEBA TABLAS DE CONTINGENCIA .................................................................................... 67
1.15.PRUEBA DE RACHAS DE WALD-WOLFOWITZ ........................................................................ 69
1.16.PRUEBA DE LOS RANGOS CON SIGNO DE WILCOXON .......................................................... 70

2.

CLASIFICACION Y SU OBJETIVO .................................................................................................... 72

3.

ELECCION DE LA TECNICA ESTADISTICA APROPIADA................................................................... 73

CONCLUSIONES .............................................................................................................................. 75
WEBGRAFIA ..................................................................................................................................... 76

INTRODUCCIN

En el mbito de

las Ciencias

Sociales es habitual el uso

de

pruebas no

paramtricas puesto que existen muchas variables que no siguen las condiciones de
parametricidad. Dichas condiciones se refieren

al uso de variables cuantitativas

continuas, distribucin normal de las muestras, varianzas similares y tamao de las


muestras, mayor a 30 casos. Estos criterios se recogen ampliamente en Rubio y
Berlanga (2012). En caso de que no se cumplan estos requisitos, y sobre todo
cuando la normalidad de las distribuciones de la variable en estudio est en duda y el
tamao de la muestra sea menor a 30

casos,

el empleo de

las pruebas no

paramtricas o de distribucin libre est indicado.


Las pruebas no paramtricas renen las siguientes caractersticas: 1) son ms fciles
de aplicar; 2) son aplicables a los datos jerarquizados; 3) se pueden usar cuando
dos series de observaciones provienen de distintas poblaciones; 4) son la nica
alternativa cuando el tamao de muestra es pequeo y 5) son tiles a un nivel de
significancia previamente especificado.
Por qu se debe tener conocimientos sobre estadstica no paramtrica?
La respuesta a esta pregunta es muy sencilla; las pruebas de ji cuadrada son pruebas
no paramtricas. Tanto la prueba de la tabla de contingencia como la de bondad de
ajuste analizan datos nominales u ordinales. Estas pruebas, se usan ampliamente en
las aplicaciones de negocios, lo que demuestra la importancia de la habilidad para
manejar datos categricos o jerarquizados adems de los cuantitativos.
Existen otras muchas pruebas estadsticas diseadas para situaciones en las que no
se cumplen las suposiciones crticas o que involucran datos cuantitativos o
categricos. Los analistas que manejan estos datos deben familiarizarse con libros
que abordan tales pruebas, conocidas comnmente como pruebas estadsticas no
paramtricas. Se presentarn aqu unas cuantas de las pruebas no paramtricas que
ms se usan.

Qu ocurre con las pruebas no paramtricas frente a las que s lo son?


Las pruebas no paramtricas no necesitan suposiciones respecto a la composicin de
los datos poblacionales. Las pruebas no paramtricas son de uso comn:
1. Cuando no se cumplen las suposiciones requeridas por otras tcnicas usadas,
por lo general llamadas pruebas paramtricas.
2. Cuando es necesario usar un tamao de muestra pequeo y no es posible
verificar que se cumplan ciertas suposiciones clave.
3. Cuando se necesita convertir datos cualitativos a informacin til para la toma
de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala nominal u
ordinal. Muchas aplicaciones de negocios involucran opiniones o sentimientos y esos
datos se usan de manera cualitativa.
Las pruebas no paramtricas tienen varias ventajas sobre las pruebas paramtricas:
1. Por lo general, son fciles de usar y entender.
2. Eliminan

la

necesidad

de

suposiciones

restrictivas

de

las

pruebas

paramtricas.
3. Se pueden usar con muestras pequeas.
4. Se pueden usar con datos cualitativos.
Tambin las pruebas no paramtricas tienen desventajas:
1. A veces, ignoran, desperdician o pierden informacin.
2. No son tan eficientes como las paramtricas.
3. Llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa
(incurriendo en un error de tipo II).
Las pruebas no paramtricas son pruebas estadsticas que no hacen suposiciones
sobre la constitucin de los datos de la poblacin.
Por lo general, las pruebas paramtricas son ms poderosas que las pruebas no
paramtricas y deben usarse siempre que sea posible. Es importante observar, que
aunque las pruebas no paramtricas no hacen suposiciones sobre la distribucin de la
poblacin que se muestrea, muchas veces se apoyan en distribuciones mustrales
como la normal o la ji cuadrada.

CAPTULO I:
ESTADSTICA

1.1.

Estadstica.Es el conjunto de tcnicas que se emplean para la recoleccin,

organizacin, anlisis e interpretacin de los datos. Se ocupa de la


creacin, desarrollo y aplicacin de tcnicas que permiten hacer un anlisis
confiable de una poblacin. Es una ciencia mediante la cual se realizan una
secuencia de procedimientos que analizan la informacin de una o ms
variables, de las unidades que fueron obtenidas de la poblacin, con el
objetivo de organizar, analizar e interpretar estos datos u observaciones;
para finalmente, inferir de una muestra sobre toda la poblacin en estudio.
1.2.

Investigacin Estadstica.La investigacin es un proceso de produccin de conocimiento

cientficos; es un proceso sistemtico a travs del cual se recogen


datos e informacin de la realidad objetiva para dar respuesta a las
interrogantes

que

se

plantean.

No

pequea, simplemente investigar es

hay

investigacin

grande

buscar respuesta para plantear

soluciones.
Cuando se aplica el mtodo cientfico al estudio de los problemas
econmicos se habla de investigacin econmica, asimismo se tiene
investigacin
investigacin
entonces

educativa,
requiere

surge

la

de

investigacin
datos,

necesidad

agropecuaria, etc.

sin datos no
de

definir

hay

mtodos,

Toda

investigacin,
anlisis

tratamientos de datos, con el propsito de obtener algunas medidas o


indicadores que expresen la dimensin o niveles de la variable
estudiada, es decir, realizar la paralizacin de las variables; en este
contexto la estadstica surge como ciencia auxiliar de la investigacin,
que por su naturaleza, estructura y mtodos, en este proceso, el
anlisis estadstico tambin cumple con los diversos paso de la
investigacin.

1.3.

Objetivo de la Investigacin Estadstica.El objetivo de la investigacin estadstica es

descubrir

respuestas a determinada interrogantes a travs de la aplicacin de


procedimientos cientficos. El punto de partida de la investigacin es
la existencia de un problema que habr que definir, examinar, valorar,
y analizar crticamente, para luego formular y entender su solucin.
1.4.

Clasificacin de la Estadstica.-

a. Estadstica Descriptiva.Es la parte de la estadstica que se encarga de la recoleccin,


clasificacin, descripcin, simplificacin y presentacin de los datos
mediante cuadros o tablas, y grficos que describen de manera
apropiada en comportamiento de la informacin obtenida.
b. Estadstica Inferencial.Es la parte de la estadstica que se ocupa de los procesos de
estimacin, anlisis y prueba de hiptesis, con el propsito de llegar a
conclusiones que brinden una adecuada base cientfica para la toma de
decisiones, tomando como base la informacin muestral obtenida.

1.5.

Etapas de la Investigacin Estadstica.La investigacin estadstica por su naturaleza, es fundamental

de

tipo descriptiva;

se preocupa

de

la

confiabilidad,

validez

significacin de los datos, de la muestras as como los mtodos y


tcnica de recoleccin y anlisis estadstico.
La investigacin estadstica es un proceso donde se distinguen cinco
etapas:

1.5.1. Planteamiento o preparacin del trabajo estadstico.a. Fundamento y compresin

del

estudio

e identificacin de las

variables.
b. Determinacin de objetivos.
c. Organizacin de las variables.
d. Precisin de los datos e informacin requerida.
e. Identificacin y evaluacin de la fuente de informacin.
f.

Identificacin y anlisis de estudios similares.

g. Determinacin del mbito de la investigacin


h. Preparacin del plan para ejecutar la investigacin.

i.

Formacin y capacitacin del equipo de trabajo.

j.

Elaboracin del calendario de actividades.

k. Formulacin del presupuesto y fuente de financiamientos.


l.

Diseo y ejecucin de una prueba piloto o experimental.

1.5.2.

Recopilacin de los datos.La recopilacin o recoleccin de datos es el momento en el

cual el investigador se pone en contacto con los objetos o elementos


sometidos

estudio,

con

el

propsito de

obtener

los

datos

respuesta a las variables analizadas. El mtodo de recoleccin est


asociado tambin con el tipo y naturaleza de la fuente de datos.

1.5.3.

Organizacin y presentacin de datos.Despus de la recopilacin de los datos, se procede a su

organizacin, clasificacin y tabulacin, de modo que se facilite la


presentacin en tablas cuadros o grficos.

Como tarea previa a la investigacin es indispensable realizar una


evaluacin, critica, correccin y ajuste de los datos, el propsito es
superar las omisiones, inconsistencia y desechar las respuestas no
significativas o errneas.

Tngase presente que la validez de sus resultados y conclusiones


depende de gran medida de la fidelidad de los datos utilizados. No
existen computadora que por s, corrija los errores de recopilacin.

Realizada las correcciones o ajuste, se procede a la clasificacin o


establecimiento de categoras o intervalos, para la agrupacin de los
datos.

Finalmente se procede a la tabulacin o procesamiento de los datos,


de acuerdo a un plan de tabulaciones previamente definido.

Los cuadros y tablas estadstica como primera fase de la reduccin


de datos, facilita el clculo de los indicadores con los cuales se inicia
la descripcin, anlisis e interpretacin de los datos, variables e
informacin estadstica.

1.5.4. Anlisis e interpretacin de los datos estadsticos.En esta etapa se aplica los argumentos matemtico y tericos
de

la

estadstica.

travs

de

mtodos

estadstico

se

calcula

indicadores y medidas de resumen, se establecen relaciones entre


variables, se estiman valores, se ejecuta pruebas estadsticas, etc.,
como

elementos

de

referencia

para

la

descripcin,

anlisis

interpretacin del comportamiento de los datos, hacer inferencia valida


y obtener informacin de los elementos o unidades estudiadas.
1.5.5. Formulacin de conclusiones y preparacin de informe.En toda investigacin debe analizarse el cumplimiento de los
objetivos,

en

funcin de

los

resultados

fundamentales,

esta

contrastacin permite elaborar un resumen de los aspecto sustantivos,


que luego se expresaran en forma de conclusiones y sugerencia
orientadora en la toma de decisiones.
1.5.6. Eleccin de las unidades estadsticas.La elaboracin de una buena estadstica implica una definicin
correcta de las unidades que se van a considerar y una delimitacin
de la materia a investigar. Antes de iniciar la observacin y las
operaciones de recuentos, el estadstico debe tener una idea clara,
tanto del conjunto que quiere estudiar como de los individuos o
unidades que constituye dicho conjunto. La unidades estadstica debe
definirse cuidadosamente teniendo en cuenta los siguientes criterios:
a.

Debe ser sencilla, de modo que se puede caracterizar con


facilidad, que los encargados de la recopilacin no tengan duda
en su identificacin.

b.

Debe ser precisa, de modo que facilite su identificacin y saber


que observar.

c.

Fcilmente

compresible

adaptada

los

objetivos

persiguen.
d.

Debe ser semejantes, de manera que sean aditivo.

e.

Respectar las posibles definiciones oficiales o estatales.

que se

1.5.7. Recoleccin de datos estadsticos.La recopilacin

o coleccin de datos es el momento en el

cual el investigador se pone en contacto con los objetos o elementos


sometidos a estudio, con el propsito de obtener los datos o
respuesta de las variables consideradas; a partir de estos datos se
prepara la informacin estadstica, se calcula medidas de resumen e
indicadores para el anlisis estadstico.

Antes de recopilar o recoger

datos, es importante analizar los

objetivos del estudios, precisar las variables e identificar las fuentes


de datos, a fin de definir qu datos hay que recopilar y como hacer
esta tarea.

La formulacin del problema y del marco terico, la definicin de las


hiptesis y de los objetivos de la investigacin permite especificar los
tipos de informacin y las variables que son requeridas. Realizada
esta tarea, el investigador debe a continuacin seleccionar y elaborar
las tcnicas e instrumentos para recolectar los datos.
El trabajo de recoleccin de datos, en general se puede realizar
mediante dos modalidades:

a. La tcnica de investigacin documental o bibliogrfica.


b. La tcnica de trabajo de campo.
c. La observacin y la exploracin en el terreno, que consiste en el
contacto directo del investigador con el objeto de estudio.
d. La encuesta y la entrevista, que consiste en el acopio de
testimonios orales y escrito de personas vivas.

La fase de recoleccin de datos es uno de los puntos principales de


la investigacin, en consecuencia, debe dotarse de ciertas garantas
para que los datos cientficos puedan ser confiable y comparables,
evitar las desviaciones y la falta de representatividad.
1.6.

Informacin Estadstica.La informacin estadstica, como datos procesados de acuerdos

a ciertos objetivos, es un medio que permite cuantificar aspecto de


una realidad, de un fenmeno o problema determinado, en un

momento o periodo dado y un mbito concreto. A partir de la


informacin estadstica se puede describir y explicar esa realidad, as
como inferir conclusiones para definir un plan de accin o desarrollo
especifico. La informacin, en general, sirve para tomar decisiones.
1.7.

Fuentes de informacin.Las fuentes de datos es el lugar, la institucin, las personas o

elementos donde estn o que poseen los datos que se necesitan


para cada una de las variables o aspecto de la investigacin o
estudio.
En general se puede disponer de cinco tipos de fuentes de datos:
a. Las oficinas estadsticas.
b. Registros administrativos.
c. Documentos.
d. Encuesta o censos.
e. Los elementos o sujetos.
Las tres primeras fuentes son de tipo administrativos y constituyen
fuentes secundarias; por su parte, las dos ltimas corresponde a la
investigacin

estadstica,

ya

que

permiten obtener datos originales,

intencionales y de primera mano, es decir constituye fuentes primarias.

1.8.

Tcnicas de recoleccin de informacin estadstica.Las tcnicas de recoleccin son diversas y depende de: la

naturaleza del objeto de estudio, de las posibilidades de acceso o


contacto con los elementos investigados, del tamao de la poblacin
o muestra, de los recursos y de las oportunidades de obtener datos.
Las tcnicas tambin est asociada al tipo y naturaleza de la fuente
de datos. Entre las tcnicas ms frecuentes se tiene:
a. La observacin.La observacin en el proceso de investigacin es la accin de
mirar con rigor, en forma sistemtica y profunda, con los intereses
de descubrir la importancia de aquellos que se observa. La
observacin es el mtodo bsico que se utiliza para adquirir
informacin acerca del mundo que nos rodea, y por lo tanto,
constituye la tcnica primordial de la investigacin cientfica. La

observacin puede tener lugar en situaciones autnticas de la vida


ordinarias o tambin en el laboratorio.

b. Los documentos.La tcnica documental es un tipo de observacin que recopila o


busca sus datos en documentos, fuentes o graficas de todo tipo.

c.

La entrevista.-

La entrevista es una situacin de interrelacin o dialogo entre


personas,

es

una

tcnica

donde

una

persona

llamada

entrevistador, solicita al entrevistado, le proporcione algunos datos


o

informacin.

El

xito

de

la

entrevista como

tcnica

de

recoleccin, depende de la eficiencia del trabajo del entrevistador.

d. La encuesta.La encuesta es una tcnica de recoleccin de datos, donde se


obtiene la informacin tal como se necesita, preparada con objetivos
estadstico. Permite
unidades

de

observar y

registrar

anlisis de una determinada

caractersticas
poblacin

en las

o muestra,

delimitada en el tiempo y en el espacio. En toda encuesta se hace


uso de un cuestionario, cuya respuesta se registra en el formulario o
cedula.

Cuando una encuesta est dirigida a la totalidad de elementos de una


poblacin, se llama censo; en tanto; cuando est dirigido a una parte
representativa de la poblacin, se llama encuesta por muestreo.
1.9.

Instrumentos de medicin estadstica.El cuestionario, es un instrumento constituido por un conjunto

de

preguntas

sistemticamente

elaboradas,

que

se

formula

al

encuestado o entrevistado, con el propsito de obtener los datos de


las variables consideradas en el estudio. Cuando las preguntas se
organizan y se imprimen, se obtiene el formulario o cedula, que es
el instrumento que se utiliza para registrar las respuestas.

1.10.

Organizacin y presentacin de datos.Cuando se dispone de informacin obtenida mediante una muestra

o un censo, la primera inquietud es como resumir los datos para hacer un


anlisis descriptivo ms sencillo. Este resumen de informacin puede ser
realizado mediante la elaboracin de una tabla de frecuencia o un grfico;
es necesario determinar previamente con qu tipo de variable se est
trabajando.

Cuando

se

realiza

la

recopilacin

de

antecedentes

con

fines

estadsticos, se obtiene una gran cantidad de datos, algunas veces


estos estn en su forma natural o emprica (fuente primarias) y otras
ya

estn

organizadas

en tablas,

cuadros

grficos (fuentes

secundarias).

Los datos pueden estar incompletos, incorrectos, desordenados, pero


en todos los casos constituye datos bsicos para iniciar un estudio,
conocer y analizar el comportamiento y las caractersticas de los
elementos de una poblacin.

En el trabajo estadstico, siempre se dispone de muchos datos que,


definitivamente tiene que ser clasificados, ordenados y presentados
adecuadamente, de tal manera que facilite la compresin, descripcin
y anlisis del fenmeno estudiado y obtener conclusiones vlidas para
la toma de decisiones. La organizacin y presentacin de los datos
estadsticos, supone realizar los siguientes pasos:

a. Evaluacin y critica.Consiste en inspeccionar la validez y confiabilidad de los datos,


para corregir los errores y omisiones de acuerdo a ciertas reglas
fijas. A partir de datos incorrectos no se pueden obtener buenos
resultados.
b. Codificacin.Es una tcnica mediante la cual los datos o respuestas se
convierten en un nmero, smbolo o lenguaje que permita su
procesamiento o tabulacin electrnica. La codificacin implica la
definicin de criterios de clasificacin y de categorizacin de las
variables con miras a formular el plan de tabulacin.

c. Clasificacin.Consiste en establecer la categora de las variables.


d. Procesamiento o tabulacin de datos.Es la contabilizacin o registro del nmero de casos en cada una
de las categora de la variables, de acuerdo al plan de tabulacin
previamente establecido.
e. Presentacin de los datos.Donde los resultados de la tabulacin, una vez evaluados, se
presenta en cuadros, tablas y grficos. La presentacin de datos
implica tener la informacin estadstica organizada para proceder al
anlisis

interpretacin

de los resultados

y de

los aspecto

considerados de la poblacin en estudio.


En el trabajo estadstico, lo que se tiene disponible en un primer
momento es un material numrico, producto de la observacin o
recopilacin

de

datos,

que son

categorizados,

ordenados,

procesados y presentado en cuadros o grficos; hay un proceso


de

resumen

estadstico

que

se

concreta

con el

clculo

de

indicadores.
Existen

dos

formas

de

presentar

ordenadamente

los

datos

tablas

estadsticos:

En forma

tabular,

como

son

los

cuadros

estadsticas.

1.11.

Mediante grficos y diagramas.

Tabla de frecuencia.Son tablas de trabajos estadsticos, que presenta la distribucin de

un conjunto de elementos de acuerdo a las categoras de las variables,


en ellas se observa la frecuencia o repeticiones de cada uno de los
valores de la variables, que se obtienen despus de
operacin

de tabulacin, la

tabla

presenta

los

realizar la

diversos

tipo

de

frecuencia a la vez se utiliza para organizar los datos y calcular


algunos indicadores, medidas de resumen o estadgrafo.

1.11.1. Partes principales de una tabla de frecuencia.a. Numero de cuadro, es el cdigo o elemento

de

identificacin que permite ubicar el cuadro en el interior de


un documento. El nmero se anota junto con la palabra

cuadro, por ejemplo cuadro N 3.3. Indica que es el


tercer cuadro del captulo tres.
b. Ttulo, es la descripcin resumida del contenido del cuadro,
la redaccin del ttulo debe ser breve, claro y completo de
modo que se pueden deducir sin ambigedad que tipo de
informacin contiene el cuadro.

c. Concepto o encabezamiento, es la descripcin de las filas


y columnas de un cuadro estadstico, el encabezamiento se
ubica en la parte superior del cuerpo del cuadro. ndica las
variables y sus categoras o intervalos, tambin

puede

indicar un periodo de tiempo.


d. Cuerpo

del

cuadros.

cuadro,

Es

la

es el contenido numrico de los

parte

donde

se

colocan

los datos

correspondientes a la caractersticas o variables indicados


en

el

encabezamiento

presenta

la

distribucin

en
de

los
los

conceptos,

es

elementos

decir

segn

la

clasificacin en categora de las variables.


e. Notas de pie o llamadas, se usa para algunos trminos o
siglas, y tambin para indicar que elementos estn o no
incluidos en algunos de los conceptos del cuadro.
f.

Fuentes, es la indicacin al pie del cuadro, que sirve para


nombrar la publicacin, entidad, estudio o fuentes de donde
se obtuvieron los datos utilizados para construir el cuadro.
La identificacin de la fuente permite, si fuera el caso,
comprobar

la

informacin

para

obtener informacin

complementaria.
Hay dos tipos de fuentes: primaria, cuando se obtiene
directamente de la unidad de anlisis o cuando se recurre
a los propios formularios de una encuesta; secundaria,
cuando

se recurre

estadsticos publicados.

documentos,

boletines

cuadros

g. Nota de unidad de medida, se escribe debajo del ttulo


original, se usa cuando se abrevia la escritura de las cifras
y para expresar en que unidades estn expresada la
variables.

h. Elaboracin, es una indicacin que se coloca debajo de la


fuente y sirve para mencionar el responsable, que utilizando
datos

originales

de

la

fuente,

elaboro

el

cuadro

estadstico final; indicando la responsabilidad de la publicacin


del cuadro.
1.11.2. Elementos de una tabla de frecuencias.a. Valor de la variable o intervalo de clases:
Resulta de la clasificacin o categorizacin de variable.

b. Frecuencia absoluta:
Es el nmero de veces que se repite un determinado valor
de la variable; en el caso de los intervalos es el nmero
de observaciones comprendido en dicho intervalo; est
representado por fi.
c. Frecuencia relativa:
Es el cociente de la frecuencia absoluta entre el total de
por hi

datos, est representado

hi

fi
n

d. Frecuencia porcentual:
Es la multiplicacin de la frecuencia relativa por 100

p i hi * 100 %
e. Frecuencia absoluta acumulada:
Es el que resulta de acumular

sucesivamente

frecuencias absoluta, se representa por FL


k

Fk f i f 1 f 2 ...... f k
i 1

las

f.

Frecuencia relativa acumulada:


Es el que resulta de acumular o sumar sucesivamente las
frecuencias relativas, se representa por Hi
k

H k hi h1 h2 ...... hk
i 1

g. Frecuencia porcentual acumulada:


Es el que resulta de acumular o sumar sucesivamente las
frecuencias porcentuales, se

representa por Pi

Pk p i p1 p 2 ...... p k
i 1

1.11.3. Propiedades de las frecuencias:


Las

frecuencias absoluta

acumuladas

son

nmeros

las

enteros

frecuencias

absoluta

no negativos

no

mayores que n.
Las frecuencias relativa y las frecuencias relativa acumulada
son valores que varan entre 0 a 1.
Las frecuencias porcentuales y porcentuales acumuladas son
nmero que varan de 0 a 100%.
La suma de todas las frecuencias absoluta es igual al
tamao de la muestra.
La suma de todas las frecuencias relativa es igual a la
unidad.
La suma de todas las frecuencias porcentuales es 100%.
La ltima frecuencia absoluta acumulada es igual al tamao
de la muestra.
La ltima frecuencia relativa acumulada es la unidad.
La ltima frecuencia porcentual acumulada es 100%.
La tabla o distribucin de frecuencias debe quedar como se indica
en la siguiente tabla:

Tabla 1. Tabla de frecuencias


Valor de V.A

Frecuencia
Absoluta
(ni)

Frecuencia
. Relativa
(fi)

Frecuencia
Absoluta
Acumulada

Frecuencia
Relativa
Acumulada

Fuente: Elaboracin Propia

Por ejemplo: Las notas de un examen de matemticas de 30 alumnos de una


clase son las siguientes:
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7.
Calcular la tabla de frecuencias.

1. Ordenamos los datos contando los alumnos que han sacado un 0 han sido 2,
un 1 han sido 3 y as sucesivamente. Construimos la tabla correspondiente:

2. N: nmero total de datos N = 30.


3. ni: frecuencia absoluta, nmero de veces que se repite una nota. El sumatorio
nos da los datos totales N = 30.
4. fi: frecuencia relativa. Cociente ni / N
5. Frecuencia absoluta acumulada.
F2 = f 1 + f2 = 2 + 3 = 5
F3 = F2 + f 3 = 5 + 1 = 6.
6. Frecuencia Relativa Acumulada, F=1.

Frecuencia Frecuencia Frecuencia Frecuencia


Valores Absoluta
(fi)
0
1
2
3
4
5
6
7
8
9

2
3
1
1
1
3
2
5
7
5
30

Relativa
(hi)
2 /30
3/30
1/30
1/30
1/30
3/30
2/30
5/30
7/30
5/30
1

Absoluta

Relativa

Acumulada Acumulada
2
5
6
7
8
11
13
18
25
30

2/30
5/30
6/30
7/30
8/30
11/30
13/30
18/30
25/30
30/30

Ejercicios de aplicacin:
1. Se realiz un estudio en relacin al liderazgo del director y la satisfaccin los
docentes de la institucin educativa Niels Bohr en el 2014. Los docentes
encuestados fueron 100 elegidos aleatoriamente de un total de 500 docentes
que tiene la institucin educativa. Algunas variables que se estudiaron son:
Sexo de los docentes, procedencia de los docentes, edad de los docentes,
nmero de aos de experiencia laboral del director de la institucin educativa.
Problema: Cmo se relaciona del liderazgo del director y la satisfaccin de los
docentes de la institucin educativa Niels Bohr en el 2014?
Objetivo: Analizar cmo se relaciona el liderazgo del director de la institucin
educativa y la satisfaccin de los docentes de la institucin educativa Niels
Bohr en el 2014.
Poblacin: Todos los 500 docentes de la institucin educativa Niels Bohr.

Muestra: Fueron encuestados 100 docentes seleccionadas aleatoriamente


Nombre de la

Tipo de la

variable

variable

Sexo del empleado

Procedencia del
empleado

Modalidad

Escala de
medicin

Cualitativa

Femenino

Nominal

Masculino
Lima
Cualitativa

Nominal
Callao

Edad del empleado

Cuantitativa

La molina
-

Razn

Cuantitativa

Razn

Nmero de aos de;


Experiencia laboral del
Gerente
2. Se desea hacer un estudio de investigacin sobre la Influencia del abandono
familiar
. en el desarrollo Socioemocional de los nios menores de 10 aos de los
Hogares de menores del AA.HH Javier Prez de Cuellar.
Poblacin: Todos los nios menores de 12 aos de ambos sexos de los
Hogares del AA.HH Javier Prez de Cuellar.
Muestra: 200 nios menores de 12 aos de ambos sexos de los Hogares del
AA.HH Javier Prez de Cuellar.
N

Variable

Escala de
medicin

Gnero

Nominal

Abandono familiar

Nominal

Desarrollo
socioemocional

Ordinal

3. En un estudio descriptivo referente a los servicios de salud, uno de las variables


subjetivas a estudiar es el aprovechamiento de los recursos en un servicio
hospitalario. Se pide: Operacionalizar dicha variable y elaborar el cuestionario.
Operacionalizacin de la variable:
Aprovechamiento de los recursos en un servicio hospitalario
Variable

Definicin

Dimensiones

Aprovechamiento

Uso del nmero

Aprovechamiento

de los recursos
en un servicio
hospitalario

conceptual

de

camas

de las camas

Indicadores

Porcentaje

el

nmero

de

ocupadas

Camas

actualmente

Promedio de

pacientes

(oferta/demanda)

2) Fecha de ingreso

estancia

al hospital

hospitalaria

3) Fecha de egreso

ndice de

solicitantes

1) Nmero de camas

Ocupacional de

disponibles para
atender

tems

del hospital

rotacin = #de

4) Nmero de

egresos/ #de

pacientes que

camas

salieron de alta

Ejemplo:
Sea la tabla de frecuencias

xi
0
1
2
3
4
5
6

fi
2
4
21
15
6
1
1

Fi
2
6
27
42
48
49
50

hi
0.04
0.08
0.42
0.30
0.12
0.02
0.02

Hi
0.04
0.12
0.54
0.84
0.96
0.98
1

a. Cul es el nmero de familias que tiene como mximo dos


hijos?
En la columna de las fi: 2+4+21=27 en la columna de las
Fi: F2= 27
b. Cuntas familias tienen ms de 1 hijo pero como mximo 3?
En la columna de las fi: 21+15=36 en la columna de las
Fi: 42-6=36

c. Qu porcentaje de familias tiene ms de 3 hijos?


En la columna de las hj: 0.12+0.02+0.02=0.16, que supone un
16% en la columna de las Hi: 1-0.84=0.16, 16%
1.12.

Diagramas y grficos estadsticos.1.12.1. Diagrama de barras y sectores circulares.Son adecuados en el caso de variables cualitativas o cuantitativas
discretas con pocas categoras. En el caso del diagrama de barras,
se asigna una barra en el eje X a cada clase o categora de la
variable cualitativa. En el eje Y se representan las frecuencias
absolutas o relativas (ni o fi) y simplemente se levanta una barra de
altura proporcional a la frecuencia absoluta o relativa.

Los grficos de tarta o diagramas de sectores son muy similares: se


dibuja un crculo dividido en tantas secciones como categoras
diferentes tenga la variable objeto del estudio. Cada seccin es
proporcional a su frecuencia. El inconveniente de estos grficos es
que si la variable tiene un exceso de categoras o clases no
permiten visualizar con claridad.

7,00%
Fila 1

24,00%
16,00%

Fila 2
Fila 3
Fila 4
0

0,1

0,2

0,3

0,4

0,5

0,6

frecuencia

53,00%

1
2
3
4

Imagen 1. Grfico de Barras y Grfico de Sectores


Fuente: Elaboracin Propia
Por ejemplo: Las notas de un examen de matemticas de 30 alumnos de una
clase son las siguientes:
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7.
Calcular el diagrama de barras y de sectores.
A partir de la tabla de frecuencias estimada en el apartado 4.2., se obtienen los
siguientes grficos:

Diagrama de Barras
1
2
3
5
6
7
8
9
10
0

0,04

0,08

0,12

0,16

0,2

0,24

frecuencia

Imagen 2. Grfico de Barras


Fuente: Elaboracin Propia

Diagrama de Sectores
17,00%

7,00%
10,00%
3,00%
3,00%
3,00%

23,00%
10,00%
7,00%
17,00%

Imagen 3. Grfico de Sectores


Fuente: Elaboracin Propia
1.12.2. Histograma.Los histogramas son el equivalente al diagrama de barras cuando
lo que se quiere representar es la frecuencia de una variable
cuantitativa que toma un gran nmero de valores, tales como la
edad. Peso temperatura, etc. Para representar un grfico de este
tipo es necesario dividir el rango de valores de la variable en un
nmero de intervalos (que deben estar como en la tabla de
frecuencias, entre 5 y 15), siendo recomendable que sean de la
misma amplitud.

La construccin de un histograma comienza con la divisin del eje


de abscisas (eje X) en los intervalos estimados y, a continuacin,
sobre cada uno de ellos se levanta un rectngulo de base igual a la

amplitud del intervalo y de altura proporcional a la frecuencia


(relativa o absoluta).

Imagen 4. Histograma
Fuente: http://maralboran.org/wikipedia/index.php/Gr%C3%A1ficos_estad%C3%ADsticos

Los histogramas constituyen una poderosa herramienta para el


anlisis descriptivo de los datos. Entre otras cosas, permiten
detectar, en funcin de su forma, el tipo de distribucin que sigue la
variable. En el caso de que la variable siga una distribucin normal,
obtendremos un histograma con una curva de frecuencias
simtricas o en forma de campana, caracterizada porque las
observaciones equidistantes del mximo central tienen la misma
frecuencia:

1.13.

Conceptos bsicos.-

1.13.1. Poblacin.Es el conjunto de todas las unidades elementales que tiene una o varias
caractersticas en comn. Dependiendo del nmero de elementos que
los conforman, una poblacin puede ser finita o infinita.

1.13.2. Muestra.La muestra es considerada como un subconjunto representativo de


unidades elementales de una poblacin. Para que una muestra sea
representativa debe cumplir con las siguientes condiciones: debe haber
sido obtenido al azar, su tamao debe haberse determinado
ptimamente,

as

tambin

sus

elementos

deben

seleccionados con un determinado mtodo de muestreo.

haber

sido

1.13.3. Variable.Es todo factor o caracterstica que se desea evaluar de las unidades
elementales del estudio.
1.13.4. Parmetro Estadstico.Es una medida descriptiva que resume una caracterstica de la
poblacin, es decir es una funcin de todas las observaciones de una
poblacin. Un parmetro es un valor nico y constituye usualmente la
incgnita que todo investigador desea conocer. Por ejemplo tenemos
las siguientes:

La media poblacional

La variancia poblacional:

La mediana poblacional: Me

La moda poblacional: Mo

1.13.5. Estadstico o estadgrafo.Es una medida descriptiva que resume una caracterstica de la muestra,
es decir es una funcin de las observaciones muestrales y no depende
de parmetro alguno. Se caracteriza porque puede tomar valores
diferentes de muestra a muestra, debido a que las observaciones
obtenidas en muestras diferentes no son necesariamente iguales. Por
ejemplo tenemos las siguientes:

1.14.

La media muestral:

La variancia muestral: S2

La mediana muestral: me

La moda muestra: mo

Medidas Estadsticas.1.14.1. Medidas de posicin o de tendencia central:


Cuando se dispone de un conjunto de datos, una de las
inquietudes de mayor inters es cmo resumir la
informacin recolectada en ciertos indicadores que puedan
ser considerados como representativos de los datos
recolectados. Las medidas de posicin ms usadas son: la
media, la mediana y la moda.

a. Media Aritmtica:
A veces se llama tambin media aritmtica, valor medio,
promedio o promedio aritmtico. Consideramos una
variable estadstica discreta cuya distribucin de
frecuencias es

x , f Se define la media aritmtica


i

como:
k

x xi f i
i 1

Si consideramos una variable estadstica continua cuya


distribucin

de

frecuencias

es

I , f
i

la media se calcula suponiendo que todos los datos de


cada intervalo son idnticos al centro o marca de la clase.
k

La media ser:

x ci f i
i 1

b. Mediana:
Dado un conjunto de observaciones, ordenadas de menor a
mayor, la mediana Me es una observacin que divide esta
ordenacin en dos partes, con el mismo nmero de datos en
cada una. Es decir, el nmero de observaciones menores
que la mediana es igual al nmero de observaciones
mayores que ella.
Clculo de la mediana
Distribuciones unitarias:

Si n es impar, ser el valor central de la distribucin


ordenada.

Si n es par, ser la suma de los valores centrales


entre 2.

Distribuciones no unitarias:
Si N i supera a N / 2 , ser el xi correspondiente a ese

Ni
Si N i = N / 2 , ser la media aritmtica entre xi y xi 1 .
Distribuciones agrupadas:

Si N i supera a N / 2 M e Li 1

N / 2 N i 1
ci
ni

Si N i = N / 2 M e es el lmite superior del


intervalo.

Moda: Se define como el valor de la variable estadstica que


tiene mayor frecuencia, es decir:

M o xi

si ni max n j

Cuando la variable sea continua hablaremos del intervalo modal


como aquel que presenta mayor frecuencia absoluta.

Calculo de la moda:
En variables discretas basta con identificar el valor con la mayor
frecuencia

absoluta.

En

variables

continuas,

una

vez

identificado el intervalo modal, algunos autores toman la marca


de la clase de dicho intervalo como moda, si bien, es habitual
calcular la moda mediante la siguiente frmula:

M o Li 1 c

ni 1
ni 1 ni 1

Donde Li 1, Li es el intervalo modal y c la amplitud

Observaciones:

La moda no tiene por qu ser nica, Puede haber ms de un


valor de la variable con la mayor frecuencia. En este caso se
dir que la distribucin es bimodal, trimodal.
1.14.2. Medidas de dispersin o medidas de variabilidad.Cuando se dispone informacin de una o varias variables
es necesario conocer si los datos recolectados presentan
una variabilidad significativa; es decir si las observaciones
se encuentran muy dispersas con respecto a la media
aritmtica.
Las medidas de variabilidad son indicadores que se utilizan
para analizar el grado de heterogeneidad o variabilidad de
un conjunto de observaciones.

Las medidas de dispersin de mayor uso son: el rango, el


rango intercuatilico, la varianza, la desviacin estndar y el
coeficiente de variabilidad.
a. Recorrido:
Es una medida, aunque imperfecta, de la dispersin de los
datos. Se define como la diferencia entre el mayor y el
menor valor de la variable. A veces se llama tambin rango.
Si x 1 , x 2 ,....., x k son los valores de la variable ordenados,
el recorrido es: R = x k - x 1
b. Varianza:
Dada una variable estadstica discreta

x, cuya

distribucin de frecuencias relativas es:

x , f y
i

media x , se define la varianza de la v. estadstica X ,


y la denotaremos por v(x) o x2 , como el promedio de
los cuadrados de las desviaciones de los valores de la
variable a su media, es decir:

x2

2
ni x i x

i 1

Para variables estadsticas continuas o discretas donde


los valores estn agrupados en intervalos, se define de
manera anloga sin ms que cambiar los valores x i
por las marcas de clase correspondientes a cada
intervalo de clase.
Ejemplo: Clculo de la varianza

xi

fi

xi2

fixi2

0
1
2
3
4
5
6

2
4
21
15
6
1
1
50

0
1
4
9
16
25
36

0
4
84
135
96
25
36
380

S2=

s2 = (380/50)-6.35 = 1.25
o directamente:
s2 = (02 *2 + 12 *4+........+62 *1)/50 -2.522
s2= (380/50)-6.35 = 1.25
c. Coeficiente de Pearson:
El coeficiente de variacin de Pearson se define como
el cociente entre la desviacin tpica y la media

CV (x )

x
x

Aquella poblacin que tenga el coeficiente de variacin


ms pequeo, estar ms concentrada alrededor de
su media y por tanto sta ser ms representativa.
Ejemplo:
Con los siguientes datos: 21, 35, 36, 38 y 45 cuya
media aritmtica es 35 y su desviacin estndar 7.823,
calcular el coeficiente de variacin.

CV

7.823
(100%) 22.35%
35

de

haber

Ejemplo:
Despus

registrado

los

datos

correspondientes al peso y la estatura de 40 varones,


se asentaron en la siguiente tabla los resultados del
clculo de la media y la desviacin estndar.

Media ( X )

Desviacin

estndar

(S )

Estatura

68.34

3.02 pulgadas

pulgadas
Peso

172.55 libras

26.33 libras

Calcular el coeficiente de variacin de las estaturas,


despus el coeficiente de variacin de los pesos;
finalmente, comparar ambos resultados.
Debido a que tenemos estadsticos muestrales, los
dos coeficientes de variacin se obtienen de la
siguiente manera:

Estatura

Pesos

3.02 pul
(100 %) 4.42 %
68 .34 pul

CV

CV

26.33libras
(100%) 15.26%
172.55libras

An cuando la diferencia en unidades de medida


(pulgadas y libras) imposibilita la comparacin de la
desviacin estndar de 3.02 pulgadas, con la desviacin
estndar de 26.33 libras, es posible comparar los
coeficientes de variacin, que carecen de unidades. Se
observa que las estaturas (con CV = 4.42%) tienen una
variacin considerablemente menor que los pesos con
(CV = 15.26%). Lo anterior tiene sentido, ya que, por lo
general, vemos que los pesos de los hombres varan
mucho ms que sus estaturas. Por ejemplo, es muy raro
encontrar un adulto que mida el doble que otro, pero es
mucho ms comn ver a uno que pese el doble que otro.
d. Desviacin tpica:
Dada una variable estadstica x

con media

varianza , se define la desviacin tpica como la


2
x

raz cuadrada positiva de la varianza.

x x2 .

1.14.3. Medidas de Asimetra.Cuando se dispone


variables

adems

de la informacin de una o varias


de

ser

necesaria

resumirlas

en

indicadores que permitan conocer su tendencia y su


dispersin, es necesario evaluar de qu forma los datos
estn dispersos alrededor de las medidas de tendencia.
Asimetra: coeficientes de asimetra de Fisher y
Pearson
Las medidas de forma de una distribucin se pueden
clasificar en dos grandes grupos o bloques: medidas de
asimetra y medidas de curtosis.

Cuando al trazar una vertical, en el diagrama de barras o


histograma, de una variable, segn sea esta discreta o
continua, por el valor de la media, esta vertical, se
transforma en eje de simetra, decimos que la distribucin
es simtrica. Diremos pues, que es simtrica, cuando a
ambos lados de la media aritmtica haya el mismo n de
valores de la variable, equidistantes de dicha media dos a
dos, y tales que cada par de valores equidistantes tiene la
misma frecuencia absoluta. En caso contrario, dicha
distribucin ser asimtrica o diremos que presenta
asimetra.

Si la distribucin de frecuencias es unimodal y tiene forma


de campana, se definen los coeficientes de asimetra de
Pearson:

CA1

3(x Me )
x Mo
y CA2
x
x

Estos coeficientes son adimensionales. Valen 0 si la distribucin


es simtrica.

Ejemplo:
Como ejemplo, consideremos 10 pacientes de edades 21 aos,
32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos
sujetos ser de:

Ms formalmente, si denotamos por (X1, X2,...,Xn) los n datos que


tenemos recogidos de la variable en cuestin, el valor medio
vendr dado por:

Otra medida de tendencia central que se utiliza habitualmente es


la mediana. Es la observacin equidistante de los extremos. La
mediana del ejemplo anterior sera el valor que deja a la mitad
de los datos por encima de dicho valor y a la otra mitad por
debajo. Si ordenamos los datos de mayor a menor observamos
la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el nmero de observaciones
es par (10 individuos), los dos valores que se encuentran en el
medio son 60 y 60. Si realizamos el clculo de la media de estos
dos valores nos dar a su vez 60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribucin de la
variable es simtrica. La media es muy sensible a la variacin de
las puntuaciones. Sin embargo, la mediana es menos sensible a
dichos cambios.
Tal y como se adelantaba antes, otro aspecto a tener en cuenta
al describir datos continuos es la dispersin de los mismos.
Existen distintas formas de cuantificar esa variabilidad. De todas
ellas, la varianza (S2) de los datos es la ms utilizada. Es la
media de los cuadrados de las diferencias entre cada valor de la
variable y la media aritmtica de la distribucin.

La varianza muestral se obtiene como la suma de las de las


diferencias de cuadrados y por tanto tiene como unidades de
medida el cuadrado de las unidades de medida en que se mide
la variable estudiada. En el ejemplo anterior la varianza sera:

S x 2=

La desviacin tpica (S) es la raz cuadrada de la varianza.


Expresa la dispersin de la distribucin y se expresa en las
mismas unidades de medida de la variable. La desviacin tpica
es la medida de dispersin ms utilizada en estadstica.

Aunque esta frmula de la desviacin tpica muestral es correcta,


en la prctica, la estadstica nos interesa para realizar
inferencias poblacionales, por lo que en el denominador se
utiliza, en lugar de n, el valor n-1. Por tanto, la medida que se
utiliza es la cuasi desviacin tpica, dada por:

En los clculos del ejercicio previo, la desviacin tpica muestral,


que tiene como denominador n, el valor sera 20.678. A efectos
de clculo lo haremos como n-1 y el resultado sera Sx=21,79.

El haber cambiado el denominador de n por (n-1) est en


relacin al hecho de que esta segunda frmula es una
estimacin ms precisa de la desviacin estndar verdadera de
la poblacin y posee las propiedades que necesitamos para
realizar inferencias a la poblacin.
1.15.

El muestreo.El muestreo es una herramienta de la investigacin cientfica. Su


funcin bsica es determinar que parte de una realidad en estudio
(poblacin o universo) debe examinarse con la finalidad de hacer
inferencias sobre dicha poblacin. El error que se comete debido a
hecho de que se obtienen conclusiones sobre cierta realidad a partir
de la observacin de slo una parte de ella, se denomina error de
muestreo. Obtener una muestra adecuada significa lograr una
versin simplificada de la poblacin, que reproduzca de algn modo
sus rasgos bsicos.
1.15.1. Muestre probabilstico.El mtodo otorga una probabilidad conocida de integrar la muestra
a cada elemento de la poblacin, y dicha probabilidad no es nula
para ningn elemento.
Los mtodos de muestreo no probabilsticos no garantizan la
representatividad de la muestra y por lo tanto no permiten realizar
estimaciones inferenciales sobre la poblacin.
(En

algunas

epidemiolgicos

circunstancias

los

mtodos

permiten

resolver

los

estadsticos
problemas

y
de

representatividad aun en situaciones de muestreo no probabilstico,


por ejemplo los estudios de caso-control, donde los casos no son
seleccionados aleatoriamente de la poblacin.)
Entre los mtodos de muestreo probabilsticos ms utilizados en
investigacin encontramos:

Muestreo aleatorio simple.

Muestreo estratificado.

TIPOS

Aleatorio simple

Muestreo sistemtico.

Muestreo polietpico o por conglomerados.

CARACTERISTICAS

VENTAJAS

Se selecciona una muestra de


tamao n de una poblacin de
N unidades, cada elemento
tiene una probabilidad de
inclusin igual y conocida de
n/N.

Conseguir un listado de los N


elementos de la poblacin

Determinar tamao muestral


n.

Sistemtico
Definir un intervalo k=N/n.
Elegir un nmero aleatorio, r,
entre 1 y k (r=arranque
aleatorio).

Estratificado

Conglomerados

Seleccionar los elementos de


la lista.
En
ciertas
ocasiones
resultar
conveniente
estratificar la muestra segn
ciertas variables de inters.
Para ello debemos conocer
la composicin estratificada
de la poblacin objetivo a
muestrear.
Una
vez
calculado el tamao muestral
apropiado, este se reparte de
manera proporcional entre
los
distintos
estratos
definidos en la poblacin
usando una simple regla de
tres.

Se realizan varias fases de


muestreo sucesivas
(polietpico)

La necesidad de listados de
las unidades de una etapa se
limita a aquellas unidades de
muestreo seleccionadas en
la etapa anterior.

Sencillo y de fcil
comprensin.
Clculo rpido de
medias y varianzas.
Se basa en la teora
estadstica, y por tanto
existen paquetes
informticos para
analizar los datos

Fcil de aplicar.
No
siempre
es
necesario tener un
listado de toda la
poblacin.
Cuando la poblacin
est
ordenada
siguiendo
una
tendencia conocida,
asegura
una
cobertura
de
unidades de todos
los tipos.

Tiende a asegurar
que
la
muestra
represente
adecuadamente a la
poblacin en funcin
de unas variables
seleccionadas.
Se
obtienen
estimaciones
ms
precisa
Su
objetivo
es
conseguir
una
muestra
lo
ms
semejante posible a
la poblacin en lo
que a la o las
variables
estratificadoras
se
refiere.
Es muy eficiente
cuando la poblacin
es muy grande y
dispersa.
No es preciso tener
un listado de toda la
poblacin, slo de
las
unidades
primarias
de
muestreo.

INCONVENIENTES

Requiere que se posea


de antemano un listado
completo de toda la
poblacin.
Cuando se trabaja con
muestras pequeas es
posible que no represente
a la poblacin
adecuadamente.

Si la constante de
muestreo est asociada
con el fenmeno de
inters, las
estimaciones obtenidas
a partir de la muestra
pueden contener sesgo
de seleccin

Se ha de conocer la
distribucin en la
poblacin de las
variables utilizadas
para la estratificacin.

El error estndar es

mayor que en el
muestreo aleatorio
simple o estratificado.
El clculo del error
estndar es complejo.

1.15.2. Clculo del tamao muestral.Cada estudio tiene un tamao muestral idneo, que
permite comprobar lo que se pretende con la seguridad y
precisin fijadas por el investigador.
De qu depende el tamao muestral?
Variabilidad del parmetro a estimar: Datos previos,
estudios piloto o usar 50% como peor estimacin
Precisin: Amplitud del intervalo de confianza. Si se
estima prevalencia su formato ser %.
Nivel de confianza (1-): habitualmente 95% o 99%.
Probabilidad complementaria al error admitido
Si aumentamos el tamao muestral n, podremos mejorar
la calidad de la estimacin bien aumentando la precisin
(disminuye amplitud del intervalo) o bien aumentando la
seguridad (disminuye el error admitido).
Ejemplo:
Suponga que la Entidad encargada de la educacin
bsica en su zona de residencia est interesada en crear
un Jardn Infantil pblico al servicio de la comunidad,
para ello la funcionaria encargada por la Entidad est
interesada en estimar el tamao de la muestra de la
poblacin de hogares interesados en utilizar los servicios
del jardn. Se sabe que son 520 los padres de familia
segn archivos de secretara de Educacin local
El clculo del tamao de muestra es el siguiente:
Paso 1. Tipo de muestreo: proporcional
Paso 2. Plantear la frmula para estimar el tamao de la
muestra

z 2 Npq
n 2
e ( N 1) zpq 2

n = Tamao de muestra a estimar (nmero de padres de


familia)
Z = Nivel de confianza de la muestra de padres
p = Proporcin de padres de familia con nios entre 3 y 5
aos de edad interesados en los servicios del jardn
infantil
q = Proporcin de padres de familia con nios entre 3 y 5
aos de edad no interesados en los servicios del jardn
infantil
N = Total de padres de familia residentes en la zona
donde se propone la creacin del jardn infantil
Paso 3. Estimar la proporcin de padres de familia
interesados en los servicios del jardn
La proporcin de padres de familia interesados en los
servicios del Jardn se estima mediante una muestra
piloto. Para ello entrevistamos o encuestamos una
muestra igual o mayor a 30 padres de familia, para
conocer el inters por los servicios del jardn a crear.
Para este caso se entrevistaron 35 padres de familia con
hijos entre 3 y 5 aos de edad presentando los servicios
que prestara un jardn infantil creado por la Entidad
mencionada;

de

los

entrevistados

el

60%

(21)

manifestaron inters por el jardn y disposicin a utilizar


sus servicios.
p = 60%; q = 1 p = 1- 0.60 = 0.40

Paso 4. Definir el nivel de confianza


Se define como nivel de confianza 95% o valor de

Z = 1.96 para el clculo del tamao de muestra.


Paso 5. Definir el error de estimacin
El error de estimacin ser de e = 0.05 o 5%
Paso 6. Estimar el tamao de muestra
Se reemplazan los valores antes definidos en la frmula:
Paso 7. Conclusin
La entidad interesada en la creacin del jardn infantil
necesita entrevistar a 216 hogares con hijos entre 3 y 5
aos de edad, para conocer el inters de estos por los
servicios ofrecidos por el jardn infantil.

CAPTULO II:
PRUEBAS ESTADSTICAS NO PARAMTRICAS

2. Pruebas Estadsticas No Paramtricas.2.1.

Conceptos Bsicos.a. Estadstica No Paramtrica.La estadstica no paramtrica es una rama de la estadstica que estudia las
pruebas y modelos estadsticos cuya distribucin subyacente no se ajusta a
los llamados criterios paramtricos. Su distribucin no puede ser definida a
priori, pues son los datos observados los que la determinan. La utilizacin de
estos mtodos se hace recomendable cuando no se puede asumir que los
datos se ajusten a una distribucin conocida, cuando el nivel de medida
empleado no sea, como mnimo, de intervalo.

Las principales pruebas no paramtricas son las siguientes:


Prueba de Pearson
Prueba binomial
Prueba de Anderson-Darling
Prueba de Cochran
Prueba de Cohen kappa
Prueba de Fisher
Prueba de Friedman
Prueba de Kendall
Prueba de Kolmogorov-Smirnov
Prueba de Kruskal-Wallis
Prueba de Kuiper
Prueba de Mann-Whitney o prueba de Wilcoxon
Prueba de McNemar
Prueba de la mediana
Prueba de Siegel-Tukey
Prueba de los signos
Coeficiente de correlacin de Spearman
Tablas de contingencia
Prueba de Wald-Wolfowitz
Prueba de los rangos con signo de Wilcoxon

b. Por qu usamos pruebas no paramtricas?.Porque no siempre se cumplen todos los supuestos requeridos por las
pruebas de hiptesis tradicionales (paramtricas):

Distribucin normal

Tamao de muestra grande

Varianzas iguales

Si la distribucin de la poblacin es sesgada (Por lo que la media no es


buen indicador de tendencia central)

c.

Cmo se aplican estas pruebas?.

El Aplicar una transformacin a los datos originales, convirtindolos


en rangos, valores positivo o negativo, etc.

Con los datos transformados, calcular un estadstico en base a los


datos (a veces tambin se calcula su promedio y error estndar)

Con el estadstico y los parmetros calculados, realizar una prueba


de hiptesis de acuerdo a una cierta distribucin paramtrica
(Normal, Ji-cuadrado, Binomial, etc.)

2.2. Otros conceptos.2.2.1. Muestra.Parte de una poblacin que se toma cuando es imposible acceder a
toda ella. La eleccin de la muestra se hace con la intencin de, a
partir de la informacin que ella proporciona, extender sus resultados a
toda la poblacin a la que representa.
2.2.2. Muestra aleatoria: (Muestra elegida al azar).Aquella muestra tomada de la poblacin en la que todo individuo tiene
la misma probabilidad de resultar elegido para ella, y esto con
independencia entre Individuos.
2.2.3. Funcin de distribucin.Funcin que hace corresponder a cada uno de los valores de una
variable aleatoria la probabilidad de que tal variable aleatoria tome un
valor igual o inferior al dado.
2.2.4. Funcin de probabilidad.Funcin que hace corresponder a cada uno de los valores de la
variable aleatoria discreta su probabilidad.

2.2.5. Contraste de hiptesis.Conjunto de reglas tendentes a decidir cul de dos hiptesis la nula
la alternativa- debe aceptarse en base al resultado obtenido en una
muestra. Es de dos colas cuando la alternativa es la negacin de la
nula. De una cola en caso contrario.
2.2.6. Variable aleatoria.Toda funcin que toma diversos valores numricos, dependiente de
los resultados de un fenmeno aleatorio, con distintas probabilidades.
2.2.7. Variable aleatoria discreta.Las variables aleatorias discretas son aquellas que presentan un
nmero finito de valores, constituyen una sucesin numerable.
2.2.8. Variable aleatoria contina.Las variables aleatorias continuas pueden tomar un nmero infinito de
valores en un intervalo determinado.
2.2.9. Variable categrica.Una variable categrica es una variable que clasifica cada individuo de
una poblacin en una de las varias clases mutuamente excluyentes en
que sta se divide.
2.2.10. Variable numrica.Corresponde a los datos expresados en una escala continua
numrica.

2.3.

Principales pruebas no paramtricas.-

2.3.1. Prueba de Pearson.La prueba

de Pearson es

considerada

como

una prueba no

paramtrica que mide la discrepancia entre una distribucin observada y


otra terica (bondad de ajuste), indicando en qu medida las diferencias
existentes entre ambas, de haberlas, se deben al azar en el contraste de
hiptesis. Tambin se utiliza para probar la independencia de dos variables
entre s, mediante la presentacin de los datos en tablas de contingencia.
La frmula que da el estadstico es la siguiente:

Cuanto mayor sea el valor, menos verosmil es que la hiptesis sea correcta.
De la misma forma, cuanto ms se aproxima a cero el valor de chi-cuadrado,
ms ajustadas estn ambas distribuciones.
Los grados de libertad gl vienen dados por:
gl= (r-1)(k-1). Donde r es el nmero de filas y k el de columnas.
Ejemplo: Al final de un semestre, las calificaciones de matemticas fueron
tabuladas en la siguiente tabla de contingencia de

para estudiar la relacin

entre la asistencia a clase y la calificacin obtenida.

Ausencias Aprobado
0-3
135
4-6
36
7 - 45
9

No aprobado
110
4
6

Con 0.05 , indican los datos que son distintas las proporciones de
estudiantes que pasaron en las tres categoras de ausencias?
H0: p1 = p2 = p3
H1: al menos dos proporciones son diferentes.
Nmero de ausencias Aprobado No aprobado
0-3
135
110
( )
( )
4-6
36
4
( )
( )
7-45
9
6
( )
( )
Total
180
120

Total
245
( )
40
( )
15
( )
300

Los valores Oij = 135, 110... Corresponden a los valores observados, los
valores esperados se colocan en las celdas con parntesis, para calcular los
utilizamos la frmula:

Eij

total de i simo rengln total de j sima columna


n

Nmero de ausencias Aprobado No aprobado


0-3
135
110
(147)
(98)
4-6
36
4
(24)
(16)
7-45
9
6
(9)
(6)
Total
180
120

Total
245
40
15
300

Calculamos el valor del estadstico de prueba usando la frmula:

ij

Eij 2
Eij

La tabla siguiente nos ayuda a organizar los clculos para el


estadstico.
Tabla: Clculos para el estadstico Chi cuadrada
Celda
(1,1)
(1,2)
(2,1)
(2,2)
(3,1)
(3,2)

Oij

Eij
135
110
36
4
9
6

147
98
24
16
9
6

(Oij-Eij)^2
144
144
144
144
0
0

(Oij -Eij)^2/Eij
0.98
1.47
6.00
9.00
0.00
0.00
17.45

Para determinar el valor crtico del estadstico de prueba procedemos de la


siguiente manera:
Determinar los grados de libertad usando la frmula: gl = (3-1)x(2-1) = 2
El valor crtico del estadstico ji-cuadrada para y g.l. = 2 se denota, En la
tabla ji-cuadrada encontramos que vale 5.991, el valor del estadstico de
prueba es =17.44.
Conclusin: Como este estadstico est localizado en la regin de rechazo (a
la derecha del valor crtico), rechazamos Ho por lo cual aceptamos la
hiptesis alternativa H1: al menos dos proporciones son diferentes. La tasa
de aprobacin si depende de las asistencias.
Conclusin: Como el estadstico calculado Chi cuadrado es mayor al Chi de
alfa y el valor p es menor a alfa, se rechaza Ho indicando que si hay
dependencia de los aprobados y asistencias.

2.3.2. Prueba Binomial.Cuando se dispone de una expresin matemtica, es factible calcular la


probabilidad de ocurrencia exacta correspondiente a cualquier resultado
especfico para la variable aleatoria.

La distribucin de probabilidad binomial es uno de los modelos matemticos


(expresin matemtica para representar una variable) que se utiliza cuando
la variable aleatoria discreta es el nmero de xitos en una muestra
compuesta por n observaciones.
Propiedades

La muestra se compone de un nmero fijo de observaciones n.

Cada observacin se clasifica en una de dos categoras, mutuamente


excluyentes (los eventos no pueden ocurrir de manera simultnea.
Ejemplo: Una persona no puede ser de ambos sexos) y colectivamente
exhaustivos (uno de los eventos debe ocurrir. Ejemplo: Al lanzar una
moneda, si no ocurre cruz, entonces ocurre cara). A estas categoras se
las denomina xito y fracaso.

La probabilidad de que una observacin se clasifique como xito, p, es


constante de una observacin u otra. De la misma forma, la probabilidad
de que una observacin se clasifique como fracaso, (1-p), es constante
en todas las observaciones.

La variable aleatoria binomial tiene un rango de 0 a n.

Ecuacin:
P(X)=n! X!n-X!pX1-pn-X
Donde

P(X)=Probabilidad de X xitos, dadas y

n = Nmero de observaciones

p = Probabilidad de xitos

(1-p) = Probabilidad de fracasos

X = Nmero de xitos en la muestra (= 0, 1, 2, 3, 4,)

Ejemplo ilustrativo N 1
Determine P(X=5) para n = 6 y p = 0,83
Solucin:
Aplicando la ecuacin se obtiene:
PX=n! X!n-X!pX1-pn-X
PX=5=6!5!6-5!0,8351-0,836-5=0,4018

2.3.3. Prueba de Anderson-Darling.En estadstica,

la prueba

de

Anderson-Darling es

una prueba no

paramtrica sobre si los datos de una muestra provienen de una


distribucin especfica. La frmula para el estadstico A determina si los
datos

(observar que los datos se deben ordenar)

vienen de una distribucin con funcin acumulativa

donde

El estadstico de la prueba se puede entonces comparar contra las


distribuciones del estadstico de prueba (dependiendo que

se utiliza)

para determinar el P-valor.


La prueba de Anderson-Darling es una prueba estadstica que permite
determinar si una muestra de datos se extrae de una distribucin de
probabilidad. En su forma bsica, la prueba asume que no existen
parmetros a estimar en la distribucin que se est probando, en cuyo
caso la prueba y su conjunto de valores crticos siguen una distribucin
libre. Sin embargo, la prueba se utiliza con mayor frecuencia en contextos
en los que se est probando una familia de distribuciones, en cuyo caso
deben ser estimados los parmetros de esa familia y debe tenerse estos
en cuenta a la hora de ajustar la prueba estadstica y sus valores crticos.
Cuando se aplica para probar si una distribucin normal describe
adecuadamente un conjunto de datos, es una de las herramientas
estadsticas ms potentes para la deteccin de la mayora de las
desviaciones de la normalidad.
2.3.4. Prueba Q de Cochran.Cuando sobre n elementos se observa la serie de respuestas de cada uno
de ellos a k ''tratamientos'' esta prueba permite contrastar la hiptesis nula
de que no existe diferencia significativa entre los k ''tratamientos''. Tambin
es posible utilizarla si cada tratamiento se aplica a uno de los elementos de
n grupos de k elementos elegidos de forma que los elementos de cada
grupo se asemejen lo ms posible entre ellos.

Esta prueba es adecuada cuando la respuesta a cada tratamiento es una


variable dicotmica, siendo X = 1 si la respuesta es ''xito'' y X = 0 si es ''no

xito'' Si la respuesta es susceptible de medicin en por lo menos una


escala ordinal tambin es posible dicotomizarla, pero se pierde informacin
y, por lo tanto, es preferible utilizar la prueba de Friedman.

Los datos se disponen en una tabla de la misma forma que para la prueba
de Friedman, pero ahora las columnas de la tabla contienen nicamente
ceros y unos, de forma que la suma de los valores de la j-sima columna,
GJ , es el nmero de ''xitos'' de la distribucin de las n respuestas al jsimo ''tratamiento''. Si la hiptesis nula es cierta las diferencias entre el
nmero de xitos de cada columna se deben al azar, por lo que es de
esperar que sean pequeas, es decir, que todas las G_{j estn muy
prximas al nmero medio de xitos por muestra, El estadstico de prueba
se basa en la dispersin del nmero de xitos de cada ''tratamiento'' con
respecto a G :
El estadstico de prueba es:

Donde Li es el total de ''xitos'' del primer elemento o grupo. Si la hiptesis


nula es cierta,

la distribucin de Q puede aproximarse

mediante una chi-cuadrado con k - 1 grados de libertad y se rechaza la


hiptesis nula si el valor de Q es superior al valor crtico para el nivel de
significacin deseado.

Ejemplo ilustrativo N 2
Un psiclogo investiga el aprendizaje simple en 15 ratas, a las que
aplica cuatro tratamientos diferentes a intervalos de un mes cada
uno, para lo cual utiliza laberintos distintos.
Los tratamientos corresponden a cuatro frmacos, que segn
afirman los fabricantes de los productos, tienen capacidad para
facilitar el aprendizaje.
El investigador, para evitar que por efectos acumulativos de los
frmacos pudiera

haber error,

al suponer

que

una

droga

administrada en el cuarto perodo incidiera en mayor aprendizaje,


aplica en secuencias y aleatoriamente los tratamientos, de modo que

las respuestas de los animales emitidas en el laberinto, en funcin


de

un

perodo

fijo

(tiempo

crtico

determinado

por

el

experimentador), le permiten discriminar si fueron positivas (1) o


negativas (0).
En los cambios ejercidos en el aprendizaje de las ratas y que se
evalan como 1 y 0, se toma la referencia con respecto al inicio del
experimento para cada animal. Por tanto, se considera que se trata
de muestras dependientes y por diversos perodos.
Eleccin de la prueba estadstica.
El modelo experimental tiene tres o ms muestras dependientes.
Planteamiento de la hiptesis.

Hiptesis alterna (Ha). Los frmacos favorecen el aprendizaje


simple en las ratas en estudio. De esta forma, se muestran
diferencias significativas entre, antes y despus de los tratamientos.

Hiptesis nula (Ho). Los cambios observados entre los perodos


previo y posterior a los tratamientos se deben al azar.
Nivel de significacin.
Para todo valor de probabilidad igual o menor que 0.05, se acepta
Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se
rechaza Ha.
Aplicacin de la prueba estadstica.

Clculo de los grados de libertad (gl). gl= K (tratamientos) - 1 = 4 - 1


=3
El estadstico X2Q calculado se compara con los valores crticos de la
distribucin de ji cuadrada y se localiza con 3 gl y un valor de 7.82

con una probabilidad igual a 0.05. De esta manera, la cifra 6.06 tiene
una probabilidad mayor que 0.05.
Decisin.
En razn de que el estadstico calculado tiene una probabilidad
mayor que 0.05, cae en la zona de rechazo, por lo cual se acepta Ho
y se rechaza Ha.
Interpretacin.
Ningn frmaco a nivel experimental en ratas produjo un cambio
significativo y parece que se debe al azar, aun cuando en el tercer
tratamiento, 12 de 15 ratas presentaron cambio positivo. Esto
seguramente ocurri debido al tamao de la muestra, y el
investigador habr de aumentar el nmero de animales para definir
mejor el fenmeno.

2.3.5. Prueba de Cohen Kappa.La Prueba de Cohen Kappa, es un ndice de aceptacin en los estudios
inter-observadores, indica el grado de interrelacin inter-observador.
Permite cuantificar el nivel del acuerdo inter-observador para disminuir la
subjetividad del mtodo utilizado (test de movilidad) y si el grado de acuerdo
se debe al azar (a la suerte).
El porcentaje de acuerdo acompaado del ndice de Kappa se utiliza para
las variables cualitativas.
Se habla del coeficiente de Kappa de Cohen para dos terapeutas y de Fleiss
para ms de dos terapeutas.
Este coeficiente est comprendido entre 0 y 1. Donde 0, corresponde a una
correlacin que es idntica a la encontrada por casualidad y 1 una
correlacin perfecta entre los exmenes.
Los valores negativos indican habitualmente que existe un desacuerdo en la
manera de realizar el mtodo entre los terapeutas.
Se calcula como la proporcin de acuerdo, aparte del que ya sera de
esperar por azar, que ha sido observado entre dos repeticiones del mismo
instrumento (por ejemplo, un juicio realizado por dos observadores por
separado).

El coeficiente mximo de concordancia es de 1.00.


Un valor de 0.00 indica ninguna concordancia.

entre 0.00 y 0.20: ligera.

entre 0.21 y 0.40: pasable

entre 0.41 y 0.60: moderada

entre 0.61 y 0.80: importante

entre 0.81 y 1.00: perfecta.

Un coeficiente de 0.4 puede considerarse como el lmite de fiabilidad


aceptable de una prueba
La Prueba de Cohen Kappa es un corrector de la medida de acuerdo.
Como test de estadstica, la kappa puede verificar que el acuerdo exceda
los niveles de suerte

Todos los bloques

bloque C2-C4

bloque C5-6

K = 0.675

K = 0.756

K = 0.460

SE = 0.041

SE = 0.045

SE = 0.091

Z = 17.067

Z = 16.823

Z = 5.039

Especificidad

98%

98%

91%

Sensibilidad

74%

78%

55%

Valor del Kappa

K = coeficiente de Kappa, SE = error estndar, Z =Test de especificidad de la


estadstica.

2.3.6. Prueba de Fisher.En estadstica se denomina prueba F de Snedecor a cualquier prueba en la


que el estadstico utilizado sigue una distribucin F si la hiptesis nula no
puede ser rechazada. El nombre fue acuado en honor a Ronald Fisher.
En estadstica aplicada se prueban muchas hiptesis mediante el test F,
entre ellas:

La

hiptesis

de

que

las

medidas

de

mltiples

poblaciones normalmente distribuidas y con la misma desviacin


estndar son iguales. Esta es, quizs, la ms conocida de las
hiptesis verificadas mediante el test F y el problema ms simple
del anlisis de varianza.

La hiptesis de que las desviaciones estndar de dos poblaciones


normalmente distribuidas son iguales, lo cual se cumple.

En muchos casos, el test F puede resolverse mediante un proceso directo.


Se requieren dos modelos de regresin, uno de los cuales restringe uno o
ms de los coeficientes de regresin conforme a la hiptesis nula. El test
entonces se basa en un cociente modificado de la suma de cuadrados de
residuos de los dos modelos como sigue:
Dadas n observaciones,

donde

el

modelo

tiene k coeficientes

no

restringidos, y el modelo 0 restringe m coeficientes, el test F puede

calcularse como

El

valor

resultante

debe

entonces

compararse

con

la

entrada

correspondiente de la tabla de valores crticos.

2.3.7. Prueba de Friedman.Es una prueba no paramtrica desarrollado

por

el

economista Milton

Friedman. Equivalente a la prueba ANOVA para medidas repetidas en la


versin no paramtrica, el mtodo consiste en ordenar los datos por filas o
bloques, reemplazndolos por su respectivo orden. Al ordenarlos, debemos
considerar la existencia de datos idnticos.
Mtodo:
1. Sea
(bloques) y

una tabla de datos, donde

son las filas

las columnas (tratamientos). Una vez calculado el

orden de cada dato en su bloque, reemplazamos al tabla original con

otra

donde el valor

es el orden de

en cada

bloque .
2. Clculo de las varianzas intra e inter grupo:

3. El estadstico viene dado por


4. El criterio de decisin es

.
.

2.3.8. Prueba de Kendall.Este procedimiento estadstico para medir la correlacin o asociacin es


complementario del coeficiente de correlacin parcial de Kendall; a su vez,
es una segunda opcin de la correlacin de Spearman.
La razn por la que se expone este modelo estadstico se debe a la
necesidad de comprender la mecnica aritmtica y la interpretacin de la
prueba, pues se requiere conocerla para realizar el coeficiente parcial de
Kendall.
La frmula es la siguiente:
Donde:
t (tau) = coeficiente de correlacin de Kendall.
1.1.
1.2.
1.3.
S
=
puntuacin
efectiva
de
los
rangos.
N = tamao de la muestra en parejas de variables.

Frmula para determinar el nivel de significancia mediante el valor Z:


Donde:
Z = valor Z de la distribucin normal.
1.4.
1.5.
1.6.
t = coeficiente de correlacin de Kendall.
N = tamao de la muestra.
Pasos:
Alinear las observaciones del rango menor al mayor de la variable
independiente (X), de manera que se deje el rango que corresponde a la
pareja de la variable dependiente (Y).
Obtener la puntuacin efectiva (S) en la variable dependiente, en funcin del
orden de ocurrencia de los rangos de Y con respecto a X.
Contar el nmero de parejas y aplicar la frmula.
Calcular el nivel de significancia en funcin del valor Z, de acuerdo con la
ecuacin, presentada anteriormente.
Una vez calculado el valor Z, se obtiene la probabilidad de su magnitud en la
tabla de coeficientes de correlacin en niveles de p 0.05 y 0.01.
Decidir si se acepta o rechaza la hiptesis.
Ejemplo ilustrativo N 3
Un investigador est interesado en saber si el desarrollo mental de un nio
se asocia a la educacin formal de la madre. De esta manera, obtiene la
calificacin de desarrollo mental en la escala de Gesell de ocho nios
elegidos aleatoriamente y se informa del grado de escolaridad de las
madres.
Eleccin de la prueba estadstica.
Se desea medir asociacin o correlacin. Las calificaciones de la educacin
formal de cada madre estn dadas en una medicin cualitativa, pero tienen
una escala ordinal, por lo cual es posible ordenarlas en rangos.
Planteamiento de la hiptesis.

Hiptesis alterna (Ha). El desarrollo mental de los hijos es una variable


dependiente de la educacin formal de la madre; por lo tanto, existe una
correlacin significativa.
Hiptesis nula (Ho). La asociacin entre las variables educacin formal de
la madre y desarrollo mental de los hijos no es significativa, ni hay
correlacin.
Nivel de significacin.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se
rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza
Ha.
Desarrollo mental de algunos nios y escolaridad de las madres.

Aplicacin de la prueba estadstica.


Inicialmente, las observaciones de las variables X y Y se ordenan en rangos.
Arreglo en rangos de las observaciones presentadas en la tabla anterior.

De acuerdo con esto, se efecta un ordenamiento natural de los rangos de


las variables X y.

Rangos de la variable independiente X y su correspondiente de la variable


dependiente.
El clculo de la puntuacin efectiva (S) se realiza con el ordenamiento de los
rangos de la variable dependiente (Y).
El primer valor del rango de Y es 1. Respecto a los dems rangos, existen
siete mayores que Y y ninguno es menor, de manera que queda:
S = (7 - 0) +
Despus est el rango 5, luego se hallan tres por arriba y tres por debajo de
ste y se contina:
S = (7 - 0) + (3 - 3) +
En rango siguiente es el 3, del cual cuatro son mayores y uno menor, y
queda:
S = (7 - 0) + (3 - 3) + (4 - 1) +
El rango inmediato es el 2, y los cuatro subsecuentes son mayores y
ninguno Menor:
S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) +
Despus se halla el rango 7, en el que uno es mayor y dos menores:
S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) +
Finalmente, se encuentra el rango 8, el subsecuente es el 6, que es menor y
se concluye el clculo de S, como sigue:
S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) + (0 - 1)
S = 7 + 0 + 3 + 4 - 1 - 1 = 12
Aplicamos la ecuacin de la prueba estadstica.

Calculamos el nivel se significancia.

Una vez calculado el valor Z, se obtiene la probabilidad en la tabla de


coeficientes de correlacin en niveles de p 0.05 y 0.01; a su vez en

buscamos en la tabla de probabilidades asociadas en valores extremos


como los de 2 en la distribucin normal.
Se localiza el valor 1.4 y en la interseccin de la columna 0.09, se observa el
valor 0.0681, el cual corresponde a la probabilidad de obtener un valor Z de
esta magnitud, que difiere del promedio y es mayor que el nivel de
significancia.
Decisin.
Como el valor Z tiene mayor probabilidad que el nivel de significancia, se
acepta Ho y se rechaza Ha.
Interpretacin.
La correlacin entre las variables educacin materna y desarrollo mental del
hijo no es significativa. Esta misma conclusin se obtuvo mediante el
coeficiente de correlacin de Spearman

2.3.9. Prueba de Kolmogorov-Smirnov.En estadstica, la prueba de Kolmogorov-Smirnov (tambin prueba K-S)


es una prueba no paramtrica que se utiliza para determinar la bondad de
ajuste de dos distribuciones de probabilidad entre s.
En el caso de que queramos verificar la normalidad de una distribucin,
la prueba de Lilliefors conlleva algunas mejoras con respecto a la de
Kolmogorov-Smirnov; y, en general, el test de ShapiroWilk o la prueba de
Anderson-Darling son alternativas ms potentes.
Conviene tener en cuenta que la prueba Kolmogorov-Smirnov es ms
sensible a los valores cercanos a la mediana que a los extremos de la
distribucin. La prueba de Anderson-Darling proporciona igual sensibilidad
con valores extremos.
Estadstico:

Para dos colas el estadstico viene dado por

Donde F(x) es la distribucin presentada como hiptesis.

2.3.10. Prueba de Kruskal-Wallis.En estadstica, la prueba de Kruskal-Wallis (de William Kruskal y W. Allen
Wallis) es un mtodo no paramtrico para probar si un grupo de datos
proviene de la misma poblacin. Intuitivamente, es idntico al ANOVA con
los datos reemplazados por categoras. Es una extensin de la prueba de
la U de Mann-Whitney para 3 o ms grupos.
Ya que es una prueba no paramtrica, la prueba de Kruskal-Wallis no
asume normalidad en los datos, en oposicin al tradicional ANOVA. S
asume, bajo la hiptesis nula, que los datos vienen de la misma distribucin.
Una

forma

comn

en

que

se

viola

este

supuesto

es

con

datos heterocedsticos.
Mtodo:
1. El estadstico est dado por:

,
Donde:

es el nmero de observaciones en el grupo


es el rango (entre todas las observaciones) de la
observacin

en el grupo

es el nmero total de observaciones entre todos los grupos

es el promedio de

Note que el denominador de la expresin para


Exactamente

.
Luego

es

.
2. Se

puede

dividiendo

realizar

una

correccin

por

para

los

, donde

grupos de diferentes rangos repetidos, y


observaciones repetidas dentro del grupo

valores

repetidos

es el nmero de
es el nmero de

que tiene observaciones

repetidas para un determinado valor. Esta correccin hace cambiar


a

muy poco al menos que existan un gran nmero de observaciones

repetidas.
3. Finalmente,
algn

el p-value es

es pequeo (

aproximado

por

) la distribucin de

Si

puede ser distinta de

la chi-cuadrado

2.3.11. Prueba U de Mann-Whitney.En estadstica la prueba U de Mann-Whitney (tambin llamada de MannWhitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de
Wilcoxon-Mann-Whitney)

es

una

prueba no

paramtrica aplicada

dos muestras independientes. Es, de hecho, la versin no paramtrica de la


habitual prueba t de Student.
Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de
igual tamaos y extendido a muestras de tamao arbitrario como en otros
sentidos por Henry B. Mann y D. R. Whitneyen 1947.
Planteamiento del problema:
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de
dos muestras ordinales. El planteamiento de partida es:
1. Las observaciones de ambos grupos son independientes
2. Las observaciones son variables ordinales o continuas.
3. Bajo la hiptesis nula, las distribuciones de partida de ambas
distribuciones es la misma

4. Bajo

la

hiptesis

alternativa,

los

valores

de

una

de

las

muestras tienden a exceder a los de la otra: P(X > Y) + 0.5


P(X = Y) > 0.5.
Clculo del estadstico:
Para calcular el estadstico U se asigna a cada uno de los valores de las
dos muestras su rango para construir

donde n1 y n2 son los tamaos respectivos de cada muestra; R1 y R2 es


la suma de los rangos de las observaciones de las muestras 1 y 2
respectivamente.
El estadstico U se define como el mnimo de U1 y U2.
Los clculos tienen que tener en cuenta la presencia de observaciones
idnticas a la hora de ordenarlas. No obstante, si su nmero es
pequeo, se puede ignorar esa circunstancia.
Distribucin del estadstico:
La prueba calcula el llamado estadstico U, cuya distribucin para
muestras con ms de 20 observaciones se aproxima bastante bien a
la distribucin normal.
La

aproximacin

la normal, z,

cuando

tenemos

muestras

lo

suficientemente grandes viene dada por la expresin:

Donde mU y U son la media y la desviacin estndar de U si la


hiptesis nula es cierta, y vienen dadas por las siguientes frmulas:

Prueba de U Mann-Whitney
independientes.-

para

dos

muestras

Esta prueba estadstica es til cuando las mediciones se pueden


ordenar en escala ordinal (es decir, cuando los valores tienden a una
variable continua, pero no tienen una distribucin normal) y resulta
aplicable

cuando

las

muestras

son

independientes.

Este

procedimiento es una buena alternativa cuando no se puede utilizar


la prueba t de Student, en razn de no cumplir con los requisitos que
esta prueba exige. La frmula es la siguiente:
Donde:
U1 y U2 = valores estadsticos de U MannWhitney.
n1 = tamao de la muestra del grupo 1.
n2 = tamao de la muestra del grupo 2. R1 =
sumatoria de los rangos del grupo 1.
R2 = sumatoria de los rangos del grupo 2.
Pasos:
1. Determinar el tamao de las muestras (n1 y n2). Si n1 y n2 son menores que 20,
se consideran muestras pequeas, pero si son mayores que 20, se consideran
muestras grandes.
2. Arreglar los datos en rangos del menor al mayor valor. En caso de que existan
ligas o empates de rangos iguales, se debern detectar para un ajuste
posterior.
3. Calcular los valores de U1 y U2, de modo que se elija el ms pequeo para
comparar con los crticos de U Mann-Whitney de la tabla de probabilidades
asociadas con valores pequeos como los de U de Mann-Whitney.
4. En caso de muestras grandes, calcular el valor Z, pues en estas condiciones se
distribuye normalmente.
5. Decidir si se acepta o rechaza la hiptesis.
Ejemplo para muestras pequeas:
Un experimentador utiliza dos mtodos para ensear a leer a un grupo de 10 nios de
6 aos, quienes ingresan por primera vez a la escuela. El experimentador quiere
demostrar que el procedimiento ideado por l es ms efectivo que el tradicional; para
ello, mide el desempeo en la lectura en funcin de la fluidez, comprensin, anlisis y
sntesis.
El plan experimental preliminar consiste en elegir al azar tanto una muestra de 10
nios como el mtodo por utilizar.

Eleccin de la prueba estadstica. El modelo experimental tiene dos muestras


independientes. Las mediciones revelan que no se satisfacen los requisitos para
utilizar una media aritmtica, en razn de que uno de los valores en cada muestra se
aleja demasiado de las dems; por lo tanto, no corresponde a una escala de intervalo,
de manera que se decide usar una escala ordinal.

Planteamiento de la hiptesis.

Hiptesis alterna (Ha). Las calificaciones de ejecucin de lectura, segn el


mtodo de enseanza del experimentador son ms altas y diferentes que las
observadas en el mtodo tradicional.

Hiptesis nula (Ho). Las diferencias observadas entre las calificaciones de


ejecucin de lectura mediante los dos mtodos se deben al azar.

Nivel de significacin. Para todo valor de probabilidad igual o menor que 0.05, se
acepta Ha y se rechaza Ho.
Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se
rechaza Ha.
Dos

mtodos

diferentes

aplicados

en

dos

grupos

de

nios.

Aplicacin de la prueba estadstica. De acuerdo con los paso, las observaciones se


deben ordenar en rangos del menor al mayor. Rangos de lectura de la tabla anterior.

Calculamos la U.

De los dos valores de U calculados, se elige el ms pequeo (4) y se comparan con


los valores crticos de U Mann-Whitney.
En caso de que el valor de U calculado no se localice en las tablas correspondientes,
se transformar en la frmula siguiente:
U = n1n2 - U'
En esta frmula, U' corresponde al valor ms alto.
Decisin.
A la probabilidad del valor U de Mann-Whitney, calculado anteriormente, corresponde
0.048, el cual es ms pequeo que el nivel de significancia; por lo tanto, se acepta Ha
y se rechaza Ho.
Interpretacin.
Entre las calificaciones de la ejecucin de lectura mediante los dos mtodos de
enseanza existe una diferencia significativa a un nivel de probabilidad de error menor
que 0.05; es decir, aun cuando las muestras son pequeas, las calificaciones ms
altas mediante el mtodo diseado por el experimentador sealan ms efectividad,
con la probabilidad de equivocarse de 0.048 para aceptarlo.
Ejemplo aplicable cuando la muestra es mayor a 25 y donde n1 y n2 pueden ser
iguales o de un tamao diferente:
El experimentador del ejemplo previo, entusiasmado por las observaciones
preliminares, decide aumentar el tamao de las muestras. En este estudio tiene 10
nios con el mtodo tradicional y 25 mediante el procedimiento ideado por l. Los
datos del nuevo estudio se muestran en la tabla ms adelante.
Eleccin de la prueba estadstica. El diseo experimental tiene dos muestras
independientes. Las mediciones en esta condicin quiz no impidan utilizar una
prueba paramtrica, sin embargo, para fines de aprendizaje, se decide utilizar una
escala ordinal y continuar con la prueba de U de Mann-Whitney.
Planteamiento de la hiptesis.

Hiptesis alterna (Ha). Las calificaciones aportadas por el mtodo reciente,


ideado por el experimentador, son diferentes y con valores ms altos.

Hiptesis nula (Ho). Las diferencias entre las calificaciones dadas por ambos
mtodos se deben al azar.

Nivel de significacin. Para todo valor de probabilidad igual o menor que 0.05, se
acepta Ha y se rechaza Ho.
Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se
rechaza Ha.
Poblacin de nios de 6 aos a los cuales se les aplic dos mtodos de enseanza.

Aplicacin de la prueba estadstica. Primero ordenamos los rangos de todas las


observaciones. Direccin de las ligas o empates y el tamao de estas.

Calculamos la U de Mann-Whitney:

Tomando en cuenta los pasos, nos menciona que cuando la muestra es mayor que 25,
se distribuye normalmente, por lo cual se determina el valor Z para conocer la
probabilidad. Esto se calcula como sigue:
Donde:
Z

valor

estadstico

de

la

curva

normal.

U = cualquier valor de U calculado (ya sea U1 o U2).


=

valor

promedio

de

U.

U = desviacin estndar de U.
Calculamos el valor promedio de U ( ):

La desviacin estndar de U de Mann-Whitney determina de la forma siguiente:


Donde:

U = desviacin

estndar

de

U.

n1 y n2 = tamao de la muestra de los grupos 1 y 2.


N = tamao total de la muestra (la suma de n1 y n2).
Li = sumatoria de las ligas o empates.
El clculo de Li se realiza de la siguiente manera:

Una vez obtenida la sumatoria de Li, se determina la desviacin estndar de U (U )


mediante la expresin siguiente:

Una vez calculados los parmetros necesarios, se obtiene el valor Z conforme la


siguiente frmula:

Para obtener la probabilidad del valor Z = 1.95, se debe consultar la tabla de tamao
de la muestra en funcin de los valores d y buscar la hilera 1.9, en cuya columna 0.05
se localiza el nmero 0.0256, que corresponde a la probabilidad del valor de U de
Mann-Whitney con respecto al promedio. Esto quiere decir que es menor que el nivel
de significancia.
Decisin.
A la cifra de Z de 1.95 le corresponde una probabilidad menor que 0.05, por lo cual se
acepta Ha y se rechaza Ho (tabla de probabilidades asociadas en valores extremos
como los de 2 en la distribucin normal).
Interpretacin.
El experimentador, al aumentar su muestra, confirma la investigacin preliminar con
una muestra pequea, con lo cual da a entender que los resultados logrados con el
mtodo ideado por l son diferentes de los obtenidos con el mtodo de enseanza de
lectura tradicional; adems, este ltimo revela calificaciones ms bajas y es menos
efectivo que el otro.
La efectividad del mtodo ideado por el experimentador se traduce en mayor fluidez de
la lectura, mejor comprensin y anlisis y sntesis superior, en razn de que las
calificaciones finales son consecuencia de estas condiciones.

2.3.12. Prueba de McNemar.Prueba estadstica que sirve para comparar proporciones en datos
pareados.
Prueba de significacin estadstica para probar la hiptesis nula de
inexistencia de cambios en la proporcin de sujetos que experimentan un
acontecimiento, cuando cada individuo es evaluado dos veces (en
condiciones diferentes) y los datos estn emparejados.

2.3.13. Prueba de la Mediana.La prueba de la mediana es una prueba no paramtrica que podemos
considerar un caso especial de la prueba de chi-cuadrado, pues se basa en
esta ltima. Su objetivo es comparar las medianas de dos muestras y
determinar si pertenecen a la misma poblacin o no.
Para ello, se calcula la mediana de todos los datos conjuntamente. Despus,
se divide cada muestra en dos subgrupos: uno para aquellos datos que se
siten por encima de la mediana y otro para los que se siten por debajo. La
prueba de chi-cuadrado determinar si las frecuencias observadas en cada
grupo difieren de las esperadas con respecto a una distribucin de
frecuencias que combine ambas muestras.
Esta prueba est especialmente indicada cuando los datos sean extremos o
estn sesgados.

2.3.14. Prueba de los Signos.La prueba de los signos permite contrastar la hiptesis de que las
respuestas a dos ''tratamientos'' pertenecen a poblaciones idnticas. Para la
utilizacin de esta prueba se requiere nicamente que las poblaciones
subyacentes sean continuas y que las respuestas de cada par asociado
estn medidas por lo menos en una escala ordinal.
La hiptesis nula puede expresarse como:

Siendo Xi la respuesta del elemento i-simo al primer ''tratamiento'' e Yi la


respuesta del elemento i-simo al segundo ''tratamiento''.
La hiptesis alternativa puede ser direccional, cuando postula que X es
estocsticamente mayor (o menor) que Y, o no direccional, cuando no
predice la direccin de la diferencia.
Para realizar el contraste se hallan los signos (+ o -) de las diferencias no
nulas entre las respuestas de los dos componentes de cada par y se cuenta
cuntas son positivas, S+, y cuntas negativas, S-. Si H0 es cierta, es de
esperar que aproximadamente la mitad de las diferencias sean positivas y la
otra mitad negativas.
El estadstico de prueba es S= mn [S+, S-].

Si H0 es cierta, S tiene distribucin binomial de parmetros n= n de


diferencias nulas y
aproximarse

= 0'5. Si n es grande, la distribucin de S puede


mediante

una

parmetros

normal
y

la

de
decisin

depender del valor tipificado de S. Para mejorar la aproximacin se realiza


una correccin de continuidad, de forma que el estadstico de prueba es:

Z se distribuye segn una normal tipificada.


Cuando el nmero de diferencias no nulas es pequeo la aproximacin de la
distribucin de S mediante la normal no es buena y en este caso el SPSS
realiza directamente la prueba binomial, dando el nivel de significacin a
partir del cual se rechaza H0 en un contraste de dos colas. Si el contraste se
realiza a una cola dicho nivel de significacin se reduce a la mitad.

2.3.15. Prueba de Spearman.En estadstica, el coeficiente de correlacin de Spearman, (rho) es una


medida de la correlacin (la asociacin o interdependencia) entre dos
variables aleatorias continuas. Para calcular , los datos son ordenados y
reemplazados por su respectivo orden.
El estadstico viene dado por la expresin:

Donde D es la diferencia entre los correspondientes estadsticos de orden


de x - y. N es el nmero de parejas. Se tiene que considerar la existencia de
datos idnticos a la hora de ordenarlos, aunque si stos son pocos, se
puede ignorar tal circunstancia.

La interpretacin de coeficiente de Spearman es igual que la del coeficiente


de correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones
negativas o positivas respectivamente, 0 cero, significa no correlacin pero
no independencia. La tau de Kendall es un coeficiente de correlacin por

rangos, inversiones entre dos ordenaciones de una distribucin normal


bivariante.

Ejemplo ilustrativo N 4
Los datos brutos usados en este ejemplo se ven debajo.
CI

Horas de TV a la semana

106

86

100

28

100

50

99

28

103

28

97

20

113

12

113

110

17

El primer paso es ordenar los datos de la primera columna. Despus, se


crean dos columnas ms. Ambas son para ordenar (establecer un lugar en
la lista) de las dos primeras columnas. Despus se crea una columna "d"
que muestra las diferencias entre las dos columnas de orden. Finalmente, se
crea otra columna "d2". Esta ltima es slo la columna "d" al cuadrado.
Despus de realizar todo esto con los datos del ejemplo, se debera acabar
con algo como lo siguiente:

CI

Horas de TV a la

(i)
86

semana (t)
0

97

20

d2

16

orden(i) orden(t)

99

28

100

50

4.5

10

5.5 30.25

100

28

4.5

3.5 12.25

103

28

106

2.5

110

17

113

9.5

2.5

49

113

12

9.5

25

4.5 20.25

5.5 30.25

Ntese como el nmero de orden de los valores que son idnticos es la


media de los nmeros de orden que les corresponderan si no lo fueran.

Los valores de la columna d2 pueden ser sumados para averiguar


. El valor de n es 10. As que esos valores pueden ser
sustituidos en la frmula.

De lo que resulta

2.3.16. Prueba Tabla de Contingencia.En estadstica las tablas de contingencia se emplean para registrar y
analizar la relacin entre dos o ms variables, habitualmente de
naturaleza cualitativa (nominales u ordinales).
Ejemplo ilustrativo N 5
Supngase que se dispone de dos variables, la primera el sexo (hombre o
mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha
observado esta pareja de variables en una muestra aleatoria de 100

individuos. Se puede emplear una tabla de contingencia para expresar la


relacin entre estas dos variables:

Diestro Zurdo TOTAL


Hombre 43

52

Mujer

44

48

TOTAL

87

13

100

Las cifras en la columna de la derecha y en la fila inferior reciben el nombre


de frecuencias marginales y la cifra situada en la esquina inferior derecha es
el gran total.
La tabla nos permite ver de un vistazo que la proporcin de hombres
diestros es aproximadamente igual a la proporcin de mujeres diestras. Sin
embargo,

ambas

proporciones

no

son

idnticas

la significacin

estadstica de la diferencia entre ellas puede ser evaluada con la prueba


de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de
una poblacin. Si la proporcin de individuos en cada columna vara entre
las diversas filas y viceversa, se dice que existe asociacin entre las dos
variables. Si no existe asociacin se dice que ambas variables son
independientes.
El grado de asociacin entre dos variables se puede evaluar empleando
distintos coeficientes: el ms simple es el coeficiente phi que se define por

Donde 2 se deriva del test de Pearson, y N es el total de observaciones -el


gran total-. puede oscilar entre 0 (que indica que no existe asociacin
entre las variables) e infinito. A diferencia de otras medidas de asociacin, el
coeficiente de Cramer no est acotado.
Estudio de diferencia de proporciones:

Hay situaciones en las que tenemos probabilidades de xito cercanas al


cero o del uno en donde las proporciones pueden ser poco representativas
sobre el comportamiento dentro de los grupos. Por ejemplo:

Si 1 = 0.01 2 = 0.001
d= 1 - 2 = 0.009

Si 1 = 0.41 2 = 0.401
d= 1 - 2 = 0.009

Vamos a definir el riesgo relativo como r=1/2


Para los ejemplos anteriores: r=0.01/0.001 = 10 r=0.41/0.401 = 1.02
En el primer caso el xito dentro de los grupos es 10 veces mayor que en el
otro.
Si X e Y independientes -> 1 = 2 con lo que su riesgo relativo es:
r=1/2 = 1
Ahora bien, cmo estimar r?
r' = p1/p2
En el ejemplo de ms arriba:
r' = (43/52) / (44/48) = 0.902 --> la proporcin de xito (diestro) dentro de las
mujeres es alrededor de un 10% mayor que dentro del grupo de los
hombres.

2.3.17. Prueba de rachas de Wald-Wolfowitz.Permite contrastar la hiptesis nula de que dos muestras independientes
proceden de poblaciones con distribuciones continuas idnticas contra la
hiptesis alternativa de que las poblaciones difieren en algn aspecto, que
puede ser tanto la tendencia central como cualquier otra caracterstica.
Para realizar el contraste se combinan las observaciones de ambas
muestras, ordenndolas de menor a mayor, y se halla el nmero de rachas
o valores sucesivos de una misma muestra en la secuencia ordenada.

El estadstico de prueba es el nmero de rachas, R. Si los tamaos de las


muestras son, el valor de R est comprendido entre 2 y n1 + n2. Si la
hiptesis nula es cierta, las observaciones de ambas muestras aparecern
muy mezcladas, y en la secuencia ordenada habr un gran nmero de
rachas; por el contrario, si ambas poblaciones de origen difieren las
observaciones de cada muestra tendern a aparecer juntas y el nmero de
rachas ser pequeo.
Cuando ambos tamaos muestrales son superiores a 10 la distribucin de R
es aproximadamente normal de parmetros:

La decisin se basa en el valor tipificado de R, que tiene distribucin


aproximadamente normal tipificada.
Aunque para realizar este contraste es suficiente que las variables se midan
en una escala ordinal, la presencia de empates, que este tipo de escala
favorece, afecta negativamente a la fiabilidad del contraste y en tal caso es
preferible utilizar la prueba de Kolmogorov-Smirnov.

2.3.18. Prueba de los rangos con signo de Wilcoxon.Prueba de los rangos con signo de Wilcoxon es

una prueba no

paramtrica para comparar la media de dos muestras relacionadas y


determinar si existen diferencias entre ellas. Se utiliza como alternativa a
la prueba t de Student cuando no se puede suponer la normalidad de dichas
muestras. Debe su nombre a Frank Wilcoxon, que la public en 1945.
Se utiliza cuando la variable subyacente es continua pero no se presupone
ningn tipo de distribucin particular.
Ejemplo ilustrativo:
Las mediciones de la capacidad mental de nios pequeos se hacen
dndoles cubos y pidindoles que construyan una torre tan alta como sea
posible. Un docente investigador est interesado en comprobar s ambientes
de aprendizaje modifican el desarrollo mental de los nios. Para ello realiza
un experimento de construccin con cubos y mide la capacidad mental de
los nios. Despus les proporciona ambientes favorables al aprendizaje y

repite el experimento tres meses despus con los mismos nios para
verificar si existen cambios. Los datos muestran los tiempos en segundos de
la construccin de determinados modelos
Utilice un nivel de significancia de 0.05 y pruebe la aseveracin de que no
hay diferencias entre los tiempos de la primera y la segunda prueba.

Nro. nio

10

11

12

13

14 15

2da. prueba

30 19

19

23

29

78 42 20

12

39

14

81

17

31 52

1ra. prueba

30

14

14

42 14 22

17

11

30

14

17 15

Diferencias

13

15

15

36 28

-2

-5

31

51

14 37

4,5 8,5 8,5 12 10

4,5 11 2,5 14 2,5

4,5 8,5 8,5 12 10 1

Rango de

13

4,5 11 2,5 14 2,5 7

13

diferencias
Rango con
signos

Suma de signos positivos (+) = 99,5


Suma de signos negativos (-)= 5,5
Hiptesis nula:
Ho: Las dos muestras provienen de poblaciones con la misma distribucin.
Hiptesis alterna:
Ha: Las dos muestras provienen de poblaciones con distribuciones
diferentes
Si el valor de TOBT es menor o igual a TCRI rechazamos Ho
Como el valor obtenido 5,5 es menor al valor crtico 25 (tablas), se rechaza
la hiptesis nula y se prueba la aseveracin de que no hay diferencias entre
los tiempos de la primera y la segunda prueba.
En ocasiones, esta prueba se usa para comparar las diferencias entre dos
muestras de datos tomados antes y despus del tratamiento, cuyo valor
central se espera que sea cero. Las diferencias iguales a cero son
eliminadas y el valor absoluto de las desviaciones con respecto al valor
central son ordenadas de menor a mayor. A los datos idnticos se les asigna
el lugar medio en la serie. La suma de los rangos se hace por separado para
los signos positivos y los negativos. S representa la menor de esas dos
sumas.

Comparamos S con

el

valor

proporcionado

por

las

tablas

estadsticas al efecto para determinar si rechazamos o no la hiptesis nula,


segn el nivel de significacin elegido.

2.3.19. Clasificacin y su objetivo.Mientras que las tcnicas paramtricas son robustas (es decir, conservan a
menudo un poder considerable para detectar diferencias o semejanzas
incluso cuando se violan estas asunciones), algunas distribuciones violan
tanto que un alternativa no paramtrica es ms deseable para detectar una
diferencia o una semejanza.

Pruebas no paramtricas para muestras relacionadas

Prueba

Nm. de
variables

Variables

Objetivo

McNemar

Cualitativas: 2
valores

Determinar si la diferencia entre las distribuciones de


frecuencias de los valores de las dos variables es
estadsticamente significativa.

En escala al
menos ordinal

Determinar si la diferencia entre el nmero de veces


en que el valor de una variable es mayor que el de la
otra y el nmero de veces en que es menor es
estadsticamente significativa.

En escala al
menos ordinal

Determinar si la diferencia entre la magnitud de las


diferencias positivas entre los valores de las dos
variables y la magnitud de las diferencias negativas es
estadsticamente significativa.

Q de
Cochran

p>2

Cualitativas: 2
valores

Determinar si las diferencias entre las distribuciones


de frecuencias de los valores de las p variables son
estadsticamente significativas.

F de
Friedman

p>2

En escala al
menos ordinal

Determinar si las diferencias entre las distribuciones


de las p variables son estadsticamente significativas.

Signos

Wilcoxon

3. Eleccin de la tcnica estadstica apropiada1.Con los elementos definidos en los prrafos anteriores se pueden establecer
rboles de decisin para la ayuda en la eleccin de la tcnica o prueba estadstica
apropiada.

Criterio

Descripcin

Aclaraciones

Estadstica descriptiva

Ningn contenido estadstico o nicamente estadstica


descriptiva.

Pruebas t de Student,
pruebas z

Para una muestra o dos muestras (datos apareados y/o


independientes).

Tablas bivariables

Tests no paramtricos

Test de los signos. U de Mann-Whitney, prueba t de Wilcoxon

Estadsticas demoepidemiolgicos

Riesgo relativo. Odds ratio. Log. Odds. Medidas de


asociacin. sensibilidad y especificidad.

Correlacin lineal de
Pearson

Correlacin clsica (coeficiente r de correlacin lineal).

Correlacin lineal de
Pearson

Correlacin clsica (coeficiente r de correlacin lineal).

Regresin simple

Anlisis de varianza

ANOVA, anlisis de la covarianza, pruebas F.

10

Transformacin de
variables

Empleo de transformaciones (logartmicas....).

11

Correlacin no
paramtrica

Rho de Spearman, Tau de Kendall, pruebas de tendencia.

12

Regresin mltiple

Incluye la regresin polinmica y la regresin paso a paso.

Chi cuadrado, prueba exacta de Fisher, test de Mc Nemar.

Regresin de mnimos cuadrados


productora y una respuesta.

con

una

Protocolo diseado por EMERSON y COLDTIZ y adaptado por MORA RIPOLL y COLS. Niveles
de referencia para el anlisis de accesibilidad

variable

13

Comparaciones mltiples Comparaciones mltiples.

14

Ajuste y estandarizacin

15

Tablas multivariables

16

Potencia y tamao
muestral

Determinacin del tamao de la muestra en la base a una


diferencia detectable.

17

Anlisis de la
supervivencia

Incluye tablas de vida, regresin de supervivencia y otros


anlisis de supervivencia.

18

Anlisis coste- beneficio

Estimacin de los costes de salud para comparar directrices


alternativas (coste- efectividad).

19

Otros anlisis

Test no incluidos en las categoras precedentes: anlisis de


Sensibilidad, anlisis clster. Anlisis discriminante.

Estandarizacin de tasas de incidencia y prevalencia.

Procedimientos de Mantel-Haenszel- modelos log. Lineales.

Los pasos siguientes:


Una vez realizadas las estadsticas se debe proceder a:

Anlisis cualitativo o cuantitativo.

Sntesis e interpretacin final de todos los datos ya analizados.

Redaccin el informe de investigacin.

CONCLUSIONES
Para nuestra persona, sin estadstica el mundo sera un caos no se podra realizar
predicciones ni conocer el nmero de habitantes del planeta y mucho peor saber los
intereses que podramos ganar si invertimos nuestro capital en una entidad bancaria
he aqu la importancia de la estadstica y todas sus formas de investigacin y
deduccin

La mayora de estas pruebas no paramtricas estn programados en los paquetes


estadsticos ms frecuentes, quedando para el investigador, simplemente, la tarea de
decidir por cul de todos ellos guiarse o qu hacer en caso de que dos test nos den
resultados opuestos. Hay que decir que, para poder aplicar cada uno existen diversas
hiptesis nulas y condiciones que deben cumplir nuestros datos para que los
resultados de aplicar las pruebas sean fiables. Esto es, no se puede aplicar todos las
pruebas y quedarse con el que mejor convenga para la investigacin sin verificar si se
cumplen las hiptesis y condiciones necesarias pues, si se violan, invalidan cualquier
resultado posterior y son una de las causas ms frecuentes de que un estudio sea
estadsticamente incorrecto. Esto ocurre sobre todo cuando el investigador desconoce
la naturaleza interna de las pruebas y se limita a aplicarlos sistemticamente.

WEBGRAFIA

http://www.wikipwedia.org
http://www.gestiopolis.com
http://www.rincondelvago.com
http://www.buenastareas.com
http://www.monografias.com
http://www.eumed.net/libros-gratis/2006b/cag3/2j.htm

You might also like