Professional Documents
Culture Documents
Manual de Introduccin a
Deducer
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 2 de 74
Pgina 3 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 4 de 74
CONTENIDOS
1
PRESENTACIN ............................................................................................... 7
2.1
2.1.1
2.1.2
2.2
2.2.1
2.3
2.3.1
2.3.2
2.3.3
2.4
3
3.1
3.1.1
3.1.2
3.2
3.3
3.4
5.1
5.2
5.2.1
5.2.2
5.3
5.3.1
5.3.2
5.4
5.4.1
5.4.2
6
Introduccin ....................................................................................................................... 26
Estadsticos resumen ......................................................................................................... 26
VARIABLES CUALITATIVAS ............................................................................... 26
VARIABLES CUANTITATIVAS ........................................................................... 28
La representacin grfica ms adecuada ........................................................................ 32
VARIABLES CUALITATIVAS ............................................................................... 32
VARIABLES CUANTITATIVAS ........................................................................... 35
Medidas de asociacin ...................................................................................................... 37
DOS VARIABLES CUALITATIVAS ..................................................................... 38
DOS VARIABLES CUANTITATIVAS ................................................................. 42
6.1
6.2
6.3
6.3.1
6.3.2
6.4
6.4.1
Introduccin ....................................................................................................................... 45
Variables aleatorias ............................................................................................................ 46
Estimacin de parmetros ................................................................................................ 47
ESTIMACIN PUNTUAL ...................................................................................... 48
INTERVALOS DE CONFIANZA ......................................................................... 49
Pruebas de hiptesis .......................................................................................................... 51
CONTRASTE DE HIPTESIS PARA UNA MEDIA ...................................... 52
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 5 de 74
7.1
Introduccin ....................................................................................................................... 56
7.2
Comparar medias ............................................................................................................... 56
7.2.1
MUESTRAS INDEPENDIENTES ........................................................................ 56
7.2.2
PRUEBA DE IGUALDAD DE VARIANZAS .................................................... 59
7.2.3
MUESTRAS RELACIONADAS ............................................................................. 61
8
8.1
Introduccin ....................................................................................................................... 62
8.2
Variables cuantitativas: Comparar medias ..................................................................... 62
8.2.1
MUESTRAS INDEPENDIENTES: PRUEBA ANOVA ................................... 62
8.2.2
COMPARACIONES MLTIPLES 2 A 2 .............................................................. 65
8.2.3
INFERENCIA NO PARAMTRICA: PRUEBA DE KRUSKAL-WALLIS.. 67
8.2.4
MUESTRAS RELACIONADAS ............................................................................. 68
9
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 6 de 74
PRESENTACIN
Este manual de introduccin a Deducer pretende ser una primera aproximacin al uso del
programa R para aquellas personas que deseen adquirir conocimientos de Estadstica, y que
deseen introducirse en el uso de este software para aplicarlo en su rea de conocimiento y
trabajo.
Deducer es un programa libre diseado como alternativa al software comercial para el
anlisis de datos tales como SPSS, JMP y Minitab. Cuenta con un sistema de mens para
gestionar y manipular bases de datos y analizarlos, y un editor de datos tipo excel para
visualizar y editar bases de datos. El objetivo del proyecto es doble:
1. Provee una interfaz grfica para usuarios de R (GUI) para la investigacin,
alentando a los usuarios no tcnicos para aprender y realizar anlisis sin necesidad
de conocer el lenguaje de programacin de R.
2. Aumentar la eficiencia de los usuarios expertos de R al realizar las tareas comunes
mediante la sustitucin de cientos de combinaciones de teclas con unos pocos clics
del ratn, adems de permitir utilizar el lenguaje de programacin.
Aade la funcionalidad de la interfaz grfica para llevar a cabo las siguientes tareas:
o Cargar datos de varios formatos (Excel, SPSS, texto, etc.).
o Visualizar los datos y los tipos de variables en el visor de datos por separado.
o Gestin de bases de datos (editar factores, recodificar y transformar variables, y
filtrar, transponer o fusionar ficheros).
o Anlisis estadstico (estadsticos descriptivos, inferencia estadstica y modelizacin).
o Una interfaz grfica de usuario para la creacin de grficos utilizando el paquete
ggplot2.
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 7 de 74
INTRODUCCIN A DEDUCER
2.1
Ventanas de trabajo
2.1.1 La consola
Al abrir el programa, la consola o ventana de comandos de R carga todos los paquetes
necesarios para el anlisis de los datos:
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 8 de 74
Cargar paquetes
Los paquetes son colecciones de funciones de R, datos, y cdigo compilado en un
formato definido. Se pueden seleccionar ms paquetes desde el men Packages & Data
Package Manager.
Se pueden instalar ms paquetes desde el men Packages & Data Package Installer.
En la ventana que aparece (CRAN mirror), seleccionar el servidor ms prximo (por
ejemplo 0-Cloud).
Observacin: Para instalar paquetes el ordenador debe tener conexin a internet.
Los paquetes adicionales que deben ser cargados para el correcto desarrollo del curso son:
DeducerExtras, Hmisc, XLConnect y plyr.
Una vez activado Loaded y Default en Package Manager, no ser necesario volver a
incorporarlos en futuras sesiones.
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 9 de 74
2.2
Para analizar datos lo primero es crear o abrir un archivo de trabajo. Se pueden introducir
datos creando una nueva base de datos e introduciendo los datos manualmente, abriendo
un fichero de R existente o importando un fichero procedente de otra aplicacin.
Pgina 10 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 11 de 74
Tipos de variables
Las variables tal y como hemos dicho definen las columnas del fichero de datos y son
caractersticas de los individuos. Pueden ser diferenciadas segn:
o Cualitativas o Categricas: etiquetas (numrica o no) que representan el grupo o
categora a la cual pertenece un individuo. Se puede diferenciar entre nominales
(por ejemplo el sexo) y ordinales (nivel de estudios).
o Cuantitativas: valores numricos para los que tiene sentido realizar aritmtica. Se
puede diferenciar entre continuas (ndice de masa corporal) y discretas (nmero de
hijos).
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 12 de 74
Cuando las categoras de la variable (Levels) puedan tomar distintos valores ordenados
siguiendo una escala establecida (variable ordinal) marcaremos la casilla Ordered.
Observacin: La base de datos debe contener los valores de las etiquetas
(Hombre/Mujer). Al definirlas como Factor el programa las codifica internamente
como (1) y (2) respectivamente.
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 13 de 74
39
45
52
76
86
90
2.3
M
H
H
M
M
H
76
67
51
64
60
67
27,1
28,2
29,2
27,7
28,0
25,9
DIABETES
1
1
0
0
1
0
Podemos abrir una base de datos utilizando el men File Open Data. Con esta opcin
podemos abrir datos que se encuentren en formato de R, en formato texto u otros tipos de
formato como por ejemplo Excel o SPSS.
Observacin: La ruta fsica donde se encuentran los ficheros de datos no puede
contener acentos.
Como solucin alternativa podemos abrir el archivo en Excel y luego usar "Guardar como"
para crear un archivo de tipo .CSV (delimitado por comas).
Pgina 14 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 15 de 74
2.4
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 16 de 74
El men Data permite gestionar las bases de datos. En particular permite editar los
factores de las variables categricas, recodificar y transformar variables, ordenar y
transponer bases de datos, fundir archivos y seleccionar un subconjunto de datos.
3.1
Fundir archivos
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 17 de 74
La siguiente pantalla nos indica las variables que aparecen en las dos bases de datos y las
que estn desemparejadas. La opcin Auto-Pair nos permite emparejar variables que no
tienen el mismo nombre. Para aadir casos debemos seleccionar todas las variables
comunes y ponerlas en el recuadro Match Cases By.
Identificacin de
variables comunes en
las dos bases de datos
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 18 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 19 de 74
Parte relativa
a la Base de
Datos ADL12
Parte relativa
a la Base de
Datos ADL3
Variables
comunes
Variable
identificadora
de casos
Ejercicio: Juntar las bases de datos ADL1, ADL2 y ADL3 en una misma base de datos
(ADL.Final).
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 20 de 74
3.2
Recodificar variables
Recodificar una variable consiste en asignar una nueva codificacin a sus valores originales,
o agrupar rangos de valores existentes en nuevos valores, de manera que se modifica su
codificacin original.
Las variables se recodifican desde el men Data Recode Variables. Se pueden
recodificar en las mismas variables o en variables nuevas (Target):
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 21 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 22 de 74
3.3
Transformar variables
El men Data Transform proporciona una gran variedad de opciones para transformar
y reescalar variables:
o Center: Reescala las variables para que tengan media 0.
o Standardize: Reescala las variables para que tengan media 0 y desviacin estndar 1.
o Robust Standardize: Reescala las variables para que tengan media 0 y desviacin
absoluta mediana 1.
o Range: Transforma la variable para que tome valores entre 0 y 1.
o Box-cox: Transforma la variable para intentar obtener una distribucin normal.
o Rank: Reemplaza los valores por su rango.
o Log: Devuelve el logaritmo neperiano (para valores mayores que 0).
o Square root: Devuelve la raz cuadrada.
o Absolute value: Devuelve el valor absoluto.
o Quantiles: Divide la variable en grupos con el mismo nmero de observaciones.
o Equal width: Divide la variable en grupos con intervalos de la misma amplitud.
o Custom: Permite definir transformaciones personalizadas.
Ejercicios:
1) Recodificar la variable Edad en tres categoras utilizando la funcin quartiles
(para utilizar esta funcin es necesario tener cargado el paquete Hmisc).
2) Crear una variable indicadora del nmero de factores de riesgo por individuo.
Cdigo en R para generar la variable nmero de factores de riesgo:
ADL.Final$Factores.Riesgo <- (ADL.Final$Fumador ==
"Si") + (ADL.Final$Diabetes =="Si") + (ADL.Final$HT
== "Si") + (ADL.Final$Fibrilacionauricular == "Si")
o bien:
attach(ADL.Final)
Factores.Riesgo <- (as.factor(Fumador) == 1) +
(as.factor(Diabetes) == 1) + (as.factor(HT) == 1) +
(as.factor(Fibrilacionauricular) == 1)
detach(ADL.Final)
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 23 de 74
3.4
Filtrar casos
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 24 de 74
Antes de realizar cualquier anlisis hace falta hacer un ejercicio de validacin de la base
de datos.
En primer lugar hace falta detectar si hay variables que toman el mismo valor para
todos los individuos, as como variables que no contienen valores.
En segundo lugar hace falta detectar posibles errores en las variables, esto quiere
decir encontrar rangos de valores y algunos estadsticos descriptivos para las
variables cuantitativas, y tablas de frecuencias para las variables cualitativas.
Finalmente hara falta validar la consistencia interna de los datos. As, por
ejemplo, en datos de encuesta es validar la congruencia de las respuestas en el
sentido que si un individuo responde una determinada opcin en una pregunta,
entonces slo puede responder unas opciones concretas de otras.
Para poder llevar a cabo este proceso hace falta conocer bien de donde provienen los
datos.
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 25 de 74
ANLISIS DESCRIPTIVO
5.1
Introduccin
5.2
Estadsticos resumen
Como hemos visto en los apartados previos, las variables pueden ser diferenciadas segn:
o CUALITATIVAS o CATEGRICAS
o CUANTITATIVAS
Las variables tambin las clasificamos en funcin del papel que tengan en el anlisis:
o Variable Respuesta (variable de inters, Y). Mide el resultado del estudio.
o Variables Explicativas (X). Variables de control que contribuyen a explicar su
comportamiento.
Pgina 26 de 74
El botn de opciones
permite modificar el nmero de dgitos para los porcentajes
que aparecern en los resultados (el valor predeterminado es de una cifra decimal).
El botn de ayuda
este procedimiento.
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 27 de 74
Para cada variable seleccionada obtenemos la tabla de frecuencias con las frecuencias
absolutas (# of Cases) y relativas (%), y las frecuencias absolutas acumuladas (Cumulative
%). Tambin aparece una tabla resumen con el nmero total de casos vlidos y de valores
perdidos (Missing).
Observacin: Estos resultados se pueden copiar y enganchar en un documento Word.
Para visualizarlos correctamente debemos seleccionar un tipo de letra de ancho fijo
(Monospaced Fonts), como por ejemplo Courier New.
Por defecto el formato de los resultados no es fcilmente exportable. Es aconsejable
instalar el paquete Deducer Richoutput que genera resultados en formato HTML.
Para instalar este paquete ejecutar el siguiente cdigo:
install.packages("DeducerRichOutput", repos="http://R-Forge.R-project.org")
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 28 de 74
5.2.2.1
Medidas de localizacin
Se utilizan para resumir las caractersticas ms relevantes de los datos. Podemos utilizar:
o Media ( X ): centro de masas
o Mediana: punto medio
o Moda: el valor ms repetido
La media se sita en el punto de equilibrio del histograma de una variable cuantitativa:
5.2.2.2
Medidas de dispersin
CV
S
X
Pgina 29 de 74
En el recuadro Stratify By podemos indicar una variable categrica para obtener los
estadsticos para cada una de las categoras de esta variable.
Al hacer clic en Continue aparece una nueva ventana donde podemos seleccionar los
estadsticos deseados:
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 30 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 31 de 74
5.3
5.3.1.1
Diagrama de barras
A partir del generador de grficos (Plot Builder) podemos seleccionar el tipo de grfico
deseado:
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 32 de 74
Observacin: Por defecto aparece una barra para la categora missing (NA). Esta se puede
quitar mediante sintaxis:
dev.new()
ggplot() + geom_bar(aes(y = ..count..,x = Valoracion_salud),data=subset(ADL,
Valoracion_salud!="NA"))
Si utilizamos el men de grficos interactivos podremos convertir el grfico resultante en
un grfico de espinas (spine plot):
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 33 de 74
5.3.1.2
Grficos de sectores
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 34 de 74
5.3.2.1
Histograma
El histograma permite representar variables cuantitativas una vez agrupados los valores en
clases. Representa las frecuencias y las clases de una variable cuantitativa. Las clases deben
formar un sistema exhaustivo y excluyente.
Al seleccionar la opcin histogram del generador de grficos (o a partir del men Plot
Proc Templates Histogram) obtenemos la siguiente representacin de la variable
edad:
Observacin: Por defecto el ancho de clases se calcula como rango/30. Esto se puede
modificar desde sintaxis, o bien modificando las opciones desde el generador de grficos
(Geometric Elements).
dev.new()
ggplot() + geom_bar(aes(y = ..count..,x = Edad),data=ADL,binwidth = 4.9)
Para definir el nmero de clases (por defecto 30) se puede utilizar el criterio de Sturges:
1
log
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 35 de 74
5.3.2.2
Diagrama de caja
Mximo
Q3
Mediana
Q1
Mnimo
5.3.2.3
Un grfico de serie temporal (line) representa la evolucin de una variable a lo largo del
tiempo. Para una mejor interpretacin en grficos de series temporales es mejor poner la
variable temporal en el eje horizontal:
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 36 de 74
5.3.2.4
Grficos interactivos
Algunos grficos se pueden construir de manera interactiva a travs del men Plots
Interactive. Este tipo de grficos permiten editar algunos aspectos (colores, ejes, etc.) de
forma interactiva.
5.4
Medidas de asociacin
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 37 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 38 de 74
Perfil fila
Perfil columna
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 39 de 74
Observacin: Este grfico proporciona resultados que dan lugar a confusin cuando una
de las categoras de la variable representada, slo est presente en una de las categoras de
la variable de agrupacin. Para evitar este problema es recomendable utilizar la funcin
barplot desde sintaxi:
dev.new()
counts <- table(ADL$Sexo, ADL$Valoracion_salud)
barplot(counts, main="Grafico de barras agrupado",
xlab="Valoracion salud", ylab="Recuento", col=c("blue","red"),
legend = rownames(counts), beside=TRUE)
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 40 de 74
Paso 2: Hacer doble click sobre el grfico de Components. Se despliegan las opciones del
grfico. En la pestaa Position seleccionar la opcin stack para obtener las barras apiladas.
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 41 de 74
Para obtener las barras apilas al 100% (grfico de la derecha) escoger la opcin fill.
S XY
SX SX
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 42 de 74
6 Di2
n(n 2 1)
nc nd
1
n(n 1)
2
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 43 de 74
-1
-1
-2
-2
-3
-3
-4
R = 0.00
3
10
11
12
-4
13
X1
-1
-1
-2
-2
-3
-3
-4
6
10
12
13
-4
14
X4
10
20
X5
R = 0.99
R = 0.01
-1
-1
-2
-2
-3
-3
-4
12
R = 0.90
3
R = 0.50
X6
11
X3
-30
10
-20
-10
10
20
30
40
-4
8
10
12
14
16
18
20
22
X8
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 44 de 74
6.1
Introduccin
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 45 de 74
6.2
Variables aleatorias
Pgina 46 de 74
6.3
Estimacin de parmetros
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 47 de 74
o Media muestral:
Xi
i 1
X
n
o Variancia muestral:
o Proporcin:
S2
i 1
n 1
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 48 de 74
Pgina 49 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 50 de 74
6.4
Pruebas de hiptesis
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 51 de 74
Decisin basada
en la muestra
En siguiente cuadro resume los tipos de errores que se pueden cometer en un contraste de
hiptesis:
Verdad a cerca de la poblacin
H0 cierta
H1 cierta
Rechazo de H0
Error de tipo I
Decisin correcta
No rechazo de H0
Decisin correcta
Error de tipo II
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 52 de 74
En Deducer, este contraste no se puede realizar mediante mens, pero si mediante sintaxis
utilizando la funcin wilcox.test().
Ejemplo: Realizamos la comparacin de si la mediana de la variable Das es igual a 5 das:
wilcox.test(Dias, mu=5,alt=two.sided,data=ADL_Final)
Pgina 53 de 74
Pgina 54 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 55 de 74
7.1
Introduccin
7.2
Comparar medias
Pgina 56 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 57 de 74
Sexo=="M"
No se rechaza la hiptesis nula (p-valor > 0,05) por lo tanto podemos aceptar que la
variable Edad sigue una distribucin normal.
Para contrastar si hay diferencias entre las edades de hombres y mujeres utilizaremos el
men Analysis Two Sample Test seleccionando la opcin T-Test:
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 58 de 74
Para llevar a cabo este contrate debemos ir al men Extras k-sample variance test y
seleccionar la prueba de Levene.
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 59 de 74
En caso de no tener el men Extras instalado este debe cargarse desde el men Packages
and Data Package Manager y seleccionar el paquete DeducerExtras.
Observacin: Las pruebas de igualdad de varianzas son sensibles a distribuciones NO
Normales, incluso para muestras grandes. Es por este motivo que se recomienda utilizar
siempre el test que considera varianzas distintas para comparar dos medias (los resultados
de este test son vlidos tanto si las varianzas son iguales como si no).
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 60 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 61 de 74
8.1
Introduccin
8.2
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 62 de 74
Edad.cat == "[42,60)"
Edad.cat == "[60,67)"
Edad.cat == "[67-86]"
Pgina 63 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 64 de 74
Dado el p-valor obtenido, se rechaza la hiptesis nula. Existen diferencias en los das de
hospitalizacin segn el grupo de edad.
Pgina 65 de 74
H0: 1= 3
H1: 1 3
H0: 1= k
H1: 1 k
H0: k-1 = k
H1: k-1 k
.
.
.
Las comparaciones mltiples indican que las diferencias entre los grupos de edad
detectados en la prueba ANOVA anterior se dan entre todos los grupos, siendo mayor la
diferencia entre el grupo de [42,60) y el grupo de [60,67].
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 66 de 74
Dado el p-valor obtenido, se rechaza la hiptesis nula. Existen diferencias entre las
medianas de los tiempos de estancia en el hospital segn los grupos de edad.
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 67 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 68 de 74
TABLAS DE CONTINGENCIA
Para comparar una variable respuesta entre dos muestras independientes cuando dicha
variable es categrica se utiliza la prueba de 2. En el caso de tener ms de un 25% de las
casillas con pocas observaciones (valor esperado inferior a 5) se recomienda utilizar la
prueba exacta de Fisher.
La hiptesis que contrasta es:
H0: La variable respuesta es independiente de la variable explicativa (los grupos son
homogneos).
H1: La variable respuesta NO es independiente de la variable explicativa (los grupos
no son homogneos).
Ejemplo: Deseamos estudiar si hay diferencias en el reingreso entre hombres y mujeres.
Para llevar a cabo dicha prueba con Deducer seleccionamos Analysis Contingency
Tables. En Row seleccionaremos el Sexo y en Column el Reingreso. En el botn Cells
seleccionamos los perfiles fila. Se obtiene el siguiente resultado:
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 69 de 74
En este caso se observan varias casillas con pocas observaciones (valor esperado inferior a
5), por lo que el test de Chi-cuadrado no sera vlido.
Repetimos el anlisis, seleccionando las opciones Likelihood y Fishers Exact del botn
Statistics:
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 70 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 71 de 74
10 RESUMEN METODOLGICO
Los datos (variables) son caractersticas observables de los individuos de una poblacin.
Pueden ser:
En estadstica, las variables tambin las clasificamos en funcin del papel que tienen dentro
del anlisis de un determinado proyecto:
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 72 de 74
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 73 de 74
11 BIBLIOGRAFA
Fellows, I. (2012). Deducer: An R Graphical User Interface (GUI) for Everyone. Version
2012-01-05, URL www.Deducer.org/manual.html
Moore, D.S. (2010). The Basic practice of statistics. 5th edition. Freeman.
Wickham, H. (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag, New
York.
En la siguiente pgina web se puede encontrar ayuda sobre ejemplos de cdigo en R para
usuarios de R que se pueden implementar en Deducer:
www.statmethods.net
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 74 de 74