Manual Curs Deducer

Manual de Introduccin a
Deducer: una interfaz

grfica para usuarios de R
Lloren Badiella. Director del Servei dEstadstica Aplicada

Anabel Blasco. Asesora estadstica del Servei dEstadstica Aplicada
Ester Boixadera. Asesora estadstica del Servei dEstadstica Aplicada
Anna Espinal. Asesora estadstica del Servei dEstadstica Aplicada
Oliver Valero. Asesor estadstico del Servei dEstadstica Aplicada
Ana Vzquez. Asesora estadstica del Servei dEstadstica Aplicada
Manual de Introduccin a Deducer

_______________________________________________________________
Manual de Introduccin a
Deducer
Servei dEstadstica Aplicada

Universitat Autnoma de Barcelona
Campus UAB - Edifici CM7
08193 Cerdanyola del Valls
(Barcelona)
Tel. 93.581.13.47
s.estadistica@uab.cat
http://serveis.uab.cat/estadistica
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona
Pgina 2 de 74

_______________________________________________________________
Publicado por el Servei dEstadstica Aplicada de la UAB

5 edicin, Febrero 2015
Este documento puede ser copiado y libremente distribuido, siempre y cuando sea
preservada su integridad, referenciado su origen y comunicado su uso al Servei
dEstadstica Aplicada de la UAB. No est permitido aadir, borrar o cambiar ninguna de
sus partes, o extraer pginas para su uso en otros documentos.
______________________________________________________________________
Pgina 3 de 74

_______________________________________________________________
______________________________________________________________________
Pgina 4 de 74

_______________________________________________________________
CONTENIDOS
1
PRESENTACIN ............................................................................................... 7
INTRODUCCIN A DEDUCER ...................................................................... 8
2.1
2.1.1
2.1.2
2.2
2.2.1
2.3
2.3.1
2.3.2
2.3.3
2.4
3
Ventanas de trabajo ............................................................................................................. 8

LA CONSOLA .............................................................................................................. 8
EL VISOR DE DATOS ............................................................................................. 10
Crear y abrir ficheros......................................................................................................... 10
CREAR UNA NUEVA BASE DE DATOS .......................................................... 10
Importar bases de datos.................................................................................................... 14
IMPORTAR FICHEROS DE EXCEL ................................................................... 14
IMPORTAR FICHEROS DE SPSS ........................................................................ 14
IMPORTAR DATOS DE TEXTO ......................................................................... 15
Guardar bases de datos ..................................................................................................... 16
GESTIN DE BASES DE DATOS ...................................................................17
3.1
3.1.1
3.1.2
3.2
3.3
3.4
Fundir archivos .................................................................................................................. 17

AADIR CASOS ........................................................................................................ 18
AADIR VARIABLES ............................................................................................. 19
Recodificar variables ......................................................................................................... 21
Transformar variables ....................................................................................................... 23
Filtrar casos ........................................................................................................................ 24
VALIDACIN DE LA BASE DE DATOS ....................................................... 25
ANLISIS DESCRIPTIVO ............................................................................... 26
5.1
5.2
5.2.1
5.2.2
5.3
5.3.1
5.3.2
5.4
5.4.1
5.4.2
6
Introduccin ....................................................................................................................... 26
Estadsticos resumen ......................................................................................................... 26
VARIABLES CUALITATIVAS ............................................................................... 26
VARIABLES CUANTITATIVAS ........................................................................... 28
La representacin grfica ms adecuada ........................................................................ 32
VARIABLES CUALITATIVAS ............................................................................... 32
VARIABLES CUANTITATIVAS ........................................................................... 35
Medidas de asociacin ...................................................................................................... 37
DOS VARIABLES CUALITATIVAS ..................................................................... 38
DOS VARIABLES CUANTITATIVAS ................................................................. 42
INFERENCIA PARA UNA POBLACIN ...................................................... 45
6.1
6.2
6.3
6.3.1
6.3.2
6.4
6.4.1
Introduccin ....................................................................................................................... 45
Variables aleatorias ............................................................................................................ 46
Estimacin de parmetros ................................................................................................ 47
ESTIMACIN PUNTUAL ...................................................................................... 48
INTERVALOS DE CONFIANZA ......................................................................... 49
Pruebas de hiptesis .......................................................................................................... 51
CONTRASTE DE HIPTESIS PARA UNA MEDIA ...................................... 52
______________________________________________________________________
Pgina 5 de 74

_______________________________________________________________
6.4.2
6.4.3
6.4.4
6.4.5
6.4.6
7
CONTRASTE DE HIPTESIS PARA UNA PROPORCIN ........................ 53

CONTRASTE DE HIPTESIS PARA UNA MEDIANA ................................ 53
RELACIN ENTRE IC Y TEST DE HIPTESIS ............................................ 53
PRUEBAS DE NORMALIDAD ............................................................................. 54
LA SUMISIN DE LOS INVESTIGADORES AL P-VALOR ....................... 54
INFERENCIA PARA DOS POBLACIONES .................................................. 56
7.1
Introduccin ....................................................................................................................... 56
7.2
Comparar medias ............................................................................................................... 56
7.2.1
MUESTRAS INDEPENDIENTES ........................................................................ 56
7.2.2
PRUEBA DE IGUALDAD DE VARIANZAS .................................................... 59
7.2.3
MUESTRAS RELACIONADAS ............................................................................. 61
8
INFERENCIA PARA K POBLACIONES........................................................ 62
8.1
Introduccin ....................................................................................................................... 62
8.2
Variables cuantitativas: Comparar medias ..................................................................... 62
8.2.1
MUESTRAS INDEPENDIENTES: PRUEBA ANOVA ................................... 62
8.2.2
COMPARACIONES MLTIPLES 2 A 2 .............................................................. 65
8.2.3
INFERENCIA NO PARAMTRICA: PRUEBA DE KRUSKAL-WALLIS.. 67
8.2.4
MUESTRAS RELACIONADAS ............................................................................. 68
9
TABLAS DE CONTINGENCIA ...................................................................... 69
10 RESUMEN METODOLGICO ...................................................................... 72

11 BIBLIOGRAFA ................................................................................................ 74
______________________________________________________________________
Pgina 6 de 74

_______________________________________________________________
PRESENTACIN
Este manual de introduccin a Deducer pretende ser una primera aproximacin al uso del
programa R para aquellas personas que deseen adquirir conocimientos de Estadstica, y que
deseen introducirse en el uso de este software para aplicarlo en su rea de conocimiento y
trabajo.
Deducer es un programa libre diseado como alternativa al software comercial para el
anlisis de datos tales como SPSS, JMP y Minitab. Cuenta con un sistema de mens para
gestionar y manipular bases de datos y analizarlos, y un editor de datos tipo excel para
visualizar y editar bases de datos. El objetivo del proyecto es doble:
1. Provee una interfaz grfica para usuarios de R (GUI) para la investigacin,
alentando a los usuarios no tcnicos para aprender y realizar anlisis sin necesidad
de conocer el lenguaje de programacin de R.
2. Aumentar la eficiencia de los usuarios expertos de R al realizar las tareas comunes
mediante la sustitucin de cientos de combinaciones de teclas con unos pocos clics
del ratn, adems de permitir utilizar el lenguaje de programacin.
Aade la funcionalidad de la interfaz grfica para llevar a cabo las siguientes tareas:
o Cargar datos de varios formatos (Excel, SPSS, texto, etc.).
o Visualizar los datos y los tipos de variables en el visor de datos por separado.
o Gestin de bases de datos (editar factores, recodificar y transformar variables, y
filtrar, transponer o fusionar ficheros).
o Anlisis estadstico (estadsticos descriptivos, inferencia estadstica y modelizacin).
o Una interfaz grfica de usuario para la creacin de grficos utilizando el paquete
ggplot2.
El programa se puede descargar gratuitamente desde la pgina web de Deducer:

http://www.deducer.org
Seleccionar el sistema operativo (Windows, MacOS X o Linux) y seguir las instrucciones
correspondientes.
______________________________________________________________________
Pgina 7 de 74

_______________________________________________________________
INTRODUCCIN A DEDUCER
2.1
Ventanas de trabajo
El programa est estructurado en dos ventanas diferentes:

La consola: Esta ventana recoge todos los mens para trabajar con los datos y
realizar los anlisis estadsticos, y una ventana donde se mostrarn los resultados de
los anlisis. Tambin se pueden introducir los comandos manualmente.
El visor de datos: Deducer proporciona un editor de datos parecido a una hoja de
clculo de Excel muy fcil de usar, donde se pueden visualizar y editar los datos y
las variables con los que vamos a trabajar.
2.1.1 La consola
Al abrir el programa, la consola o ventana de comandos de R carga todos los paquetes
necesarios para el anlisis de los datos:
______________________________________________________________________
Pgina 8 de 74

_______________________________________________________________
Cargar paquetes
Los paquetes son colecciones de funciones de R, datos, y cdigo compilado en un
formato definido. Se pueden seleccionar ms paquetes desde el men Packages & Data
Package Manager.
Se pueden instalar ms paquetes desde el men Packages & Data Package Installer.
En la ventana que aparece (CRAN mirror), seleccionar el servidor ms prximo (por
ejemplo 0-Cloud).
Observacin: Para instalar paquetes el ordenador debe tener conexin a internet.
Los paquetes adicionales que deben ser cargados para el correcto desarrollo del curso son:
DeducerExtras, Hmisc, XLConnect y plyr.
Una vez activado Loaded y Default en Package Manager, no ser necesario volver a
incorporarlos en futuras sesiones.
______________________________________________________________________
Pgina 9 de 74

_______________________________________________________________
2.1.2 El visor de datos

El visor de datos permite crear una nueva base de datos (New Data), abrir una base de
datos existente (Open Data), o consultar el tutorial:
2.2
Crear y abrir ficheros
Para analizar datos lo primero es crear o abrir un archivo de trabajo. Se pueden introducir
datos creando una nueva base de datos e introduciendo los datos manualmente, abriendo
un fichero de R existente o importando un fichero procedente de otra aplicacin.
2.2.1 Crear una nueva base de datos

Para comenzar a introducir datos se puede seleccionar la opcin New Data e indicarle el
nombre que tendr la nueva base de datos:
Observacin: El nombre de la base de datos no pueden tener acentos ni espacios.

______________________________________________________________________
Pgina 10 de 74

_______________________________________________________________
Existen diferentes formas de introducir datos:
o Crear nuevas filas y columnas e introducir datos manualmente.
o Copiar datos de otras aplicaciones y pegarlos en la tabla.
o Importar datos de otras aplicaciones.
Si hay varias bases de datos cargadas en la sesin de Deducer, se pueden visualizar
seleccionndolas desde la lista de Data Set. Se pueden cargar datos en la sesin de
Deducer haciendo clic en el botn Open Data en la esquina superior izquierda, se
pueden guardar con el botn Save Data o se pueden cerrar haciendo clic en Remove
from Workspace.
El Visor de datos dispone de dos pestaas: Vista de datos (Data View) y Vista de
variables (Variable View).
Vista de datos: est dividida en columnas y filas dando lugar a celdas o casillas
donde se recogen los datos. Cada columna tiene asignado un nombre de variable, ya
sea especificado por el usuario o bien por el propio programa. Las filas, a su vez,
estn numeradas de forma correlativa.
Al hacer clic en las filas o en las columnas se pueden insertar, copiar y borrar filas o
columnas respectivamente.
______________________________________________________________________
Pgina 11 de 74

_______________________________________________________________
Vista de variables: recoge las caractersticas de las variables (columnas). Informa
sobre el Nombre de la variable, el Tipo (Numrico, Cadena, Fecha,..), y etiquetas
para los valores de las variables categricas (Factor Levels).
Observacin: Los nombres de las variables no pueden tener acentos ni espacios.

Los valores de las variables categricas (Factor Levels) tampoco pueden tener
acentos.
Tipos de variables
Las variables tal y como hemos dicho definen las columnas del fichero de datos y son
caractersticas de los individuos. Pueden ser diferenciadas segn:
o Cualitativas o Categricas: etiquetas (numrica o no) que representan el grupo o
categora a la cual pertenece un individuo. Se puede diferenciar entre nominales
(por ejemplo el sexo) y ordinales (nivel de estudios).
o Cuantitativas: valores numricos para los que tiene sentido realizar aritmtica. Se
puede diferenciar entre continuas (ndice de masa corporal) y discretas (nmero de
hijos).
______________________________________________________________________
Pgina 12 de 74

_______________________________________________________________
El paquete estadstico Deducer clasifica las variables en:
o
o
o
o
o
Character: variables de tipo cadena (texto)

Factor: variables categricas (nominales u ordinales)
Double/Integer: variables cuantitativas (continuas/discretas)
Logical: variables lgicas
Date/Time: variables de fecha/ tiempo
Los niveles de las variables categricas (factores) se muestran en la columna Factor

Levels, y se pueden editar haciendo clic en la celda apropiada:
Cuando las categoras de la variable (Levels) puedan tomar distintos valores ordenados
siguiendo una escala establecida (variable ordinal) marcaremos la casilla Ordered.
Observacin: La base de datos debe contener los valores de las etiquetas
(Hombre/Mujer). Al definirlas como Factor el programa las codifica internamente
como (1) y (2) respectivamente.
______________________________________________________________________
Pgina 13 de 74

_______________________________________________________________
Ejercicio
Crear una base de datos con la siguiente informacin:
NHIST SEXO EDAD IMC
39
45
52
76
86
90
2.3
M
H
H
M
M
H
76
67
51
64
60
67
27,1
28,2
29,2
27,7
28,0
25,9
DIABETES
1
1
0
0
1
0
Importar bases de datos
Podemos abrir una base de datos utilizando el men File Open Data. Con esta opcin
podemos abrir datos que se encuentren en formato de R, en formato texto u otros tipos de
formato como por ejemplo Excel o SPSS.
Observacin: La ruta fsica donde se encuentran los ficheros de datos no puede
contener acentos.
2.3.1 Importar ficheros de Excel

Para importar directamente archivos de Excel debemos tener instalado el paquete
XLConnect. Al seleccionar un fichero de Excel aparece una ventana donde debemos
indicar el nmero de hoja:
Como solucin alternativa podemos abrir el archivo en Excel y luego usar "Guardar como"
para crear un archivo de tipo .CSV (delimitado por comas).
2.3.2 Importar ficheros de SPSS

Al seleccionar un fichero de SPSS (.sav) la base de datos se abre automticamente. Las
variables que tienen etiquetas definidas se guardan como factores.
______________________________________________________________________
Pgina 14 de 74

_______________________________________________________________
Observacin: Las variables definidas como fecha no se importan correctamente.
Para este tipo de variables es preferible guardar el fichero en formato de Excel.
2.3.3 Importar datos de texto

Al seleccionar la opcin Text file (.txt) aparece la siguiente ventana donde podemos
especificar qu carcter separa las variables (tabulador, espacio, coma...), si hay un
delimitador especfico para las variables de cadena (Quote) y si el fichero incluye los
nombres de las variables (Header):
Observacin: En Deducer el separador de decimales es el punto.

Ejercicio: Abrir los ficheros ADL1.xlsx, ADL2.txt y ADL3.sav.
El fichero ADL1 contiene informacin sobre 111 pacientes que han tenido una accidente
cerebrovascular; el fichero ADL2 contiene la misma informacin sobre 214 pacientes que
han sido ingresados en otro centro; el fichero ADL3 contiene informacin adicional sobre
los mismos pacientes.
______________________________________________________________________
Pgina 15 de 74

_______________________________________________________________
2.4
Guardar bases de datos
Las bases de datos pueden ser guardadas en los siguientes formatos:

o R object (extensin .robj)
o Comma seperated (extensin .csv)
o Tab delimited (extensin .txt)
o DBase (extensin .dbf)
o Stata (extensin .dta)
Tambin podemos guardar todas las bases de datos abiertas en un solo archivo utilizando el
men Workspace Save as (extensin .rda y .rdata).
Observacin: Por defecto los objetos creados se guardan en el directorio de trabajo
C:/Usuario/Mis documentos. Este se puede cambiar desde el men File Set
Working Directory.
______________________________________________________________________
Pgina 16 de 74

_______________________________________________________________
GESTIN DE BASES DE DATOS
El men Data permite gestionar las bases de datos. En particular permite editar los
factores de las variables categricas, recodificar y transformar variables, ordenar y
transponer bases de datos, fundir archivos y seleccionar un subconjunto de datos.
3.1
Fundir archivos
Podemos encontrarnos en la situacin de tener recogidos los datos en diferentes ficheros y

deseamos unificar toda esta informacin en una sola. Se pueden dar dos situaciones:
Los individuos (filas) estn en ficheros diferentes, o bien
Las variables (columnas) estn en ficheros diferentes.
En ambos casos lo que se pretende hacer es fusionar los archivos. En el primer caso se
aadirn nuevas filas de individuos. Para ello es necesario que el nuevo individuo tenga las
mismas caractersticas (variables) que el resto de individuos (en caso contrario se imputar
un valor perdido en aquellas variables en las que difiera).
En el segundo caso se crearn nuevas columnas de datos. Si las nuevas columnas son de
diferente longitud a las ya existentes, se rellenar los espacios en blanco con valores
faltantes (missings) hasta obtener una matriz de datos rectangular.
______________________________________________________________________
Pgina 17 de 74

_______________________________________________________________
3.1.1 Aadir casos

Consiste en combinar archivos que contienen las mismas variables pero distintos casos. A
partir del men Data Merge Data podemos seleccionar las dos bases de datos que
queremos combinar (tienen que ser bases de datos abiertas):
La siguiente pantalla nos indica las variables que aparecen en las dos bases de datos y las
que estn desemparejadas. La opcin Auto-Pair nos permite emparejar variables que no
tienen el mismo nombre. Para aadir casos debemos seleccionar todas las variables
comunes y ponerlas en el recuadro Match Cases By.
Identificacin de
variables comunes en
las dos bases de datos
______________________________________________________________________
Pgina 18 de 74

_______________________________________________________________
Observacin: Las variables que aparecen en las dos bases de datos tienen que ser
del mismo tipo.
3.1.2 Aadir variables

Para aadir variables es necesario tener una variable que sirva de identificador dentro de
cada base de datos. A partir del men Data Merge Data podemos seleccionar las bases
de datos que vamos a fusionar, el nombre de la nueva base de datos y en la siguiente
ventana indicar cul es nuestra variable clave (Match Cases By):
______________________________________________________________________
Pgina 19 de 74

_______________________________________________________________
Parte relativa
a la Base de
Datos ADL12
Parte relativa
a la Base de
Datos ADL3
Variables
comunes
Variable
identificadora
de casos
Ejercicio: Juntar las bases de datos ADL1, ADL2 y ADL3 en una misma base de datos
(ADL.Final).
______________________________________________________________________
Pgina 20 de 74

_______________________________________________________________
3.2
Recodificar variables
Recodificar una variable consiste en asignar una nueva codificacin a sus valores originales,
o agrupar rangos de valores existentes en nuevos valores, de manera que se modifica su
codificacin original.
Las variables se recodifican desde el men Data Recode Variables. Se pueden
recodificar en las mismas variables o en variables nuevas (Target):
En la pestaa Define Recode podemos definir cmo queremos hacer la recodificacin:

El panel de la izquierda muestra informacin sobre las variables que puede ser til
para la recodificacin. Para las variables numricas se muestra una tabla de
percentiles y para las variables categricas una tabla de frecuencias.
En el panel de la derecha (Code) se especifica la recodificacin.
______________________________________________________________________
Pgina 21 de 74

_______________________________________________________________
Observacin: Un valor se puede recodificar como dato faltante (missing) indicando NA en

el campo correspondiente.
Una vez recodificada la variable, debemos indicar que se trata de una variable Factor.
Podemos editar los valores, seleccionar el orden de las categoras e indicar si se trata de una
variable ordinal (Ordered):
______________________________________________________________________
Pgina 22 de 74

_______________________________________________________________
3.3
Transformar variables
El men Data Transform proporciona una gran variedad de opciones para transformar
y reescalar variables:
o Center: Reescala las variables para que tengan media 0.
o Standardize: Reescala las variables para que tengan media 0 y desviacin estndar 1.
o Robust Standardize: Reescala las variables para que tengan media 0 y desviacin
absoluta mediana 1.
o Range: Transforma la variable para que tome valores entre 0 y 1.
o Box-cox: Transforma la variable para intentar obtener una distribucin normal.
o Rank: Reemplaza los valores por su rango.
o Log: Devuelve el logaritmo neperiano (para valores mayores que 0).
o Square root: Devuelve la raz cuadrada.
o Absolute value: Devuelve el valor absoluto.
o Quantiles: Divide la variable en grupos con el mismo nmero de observaciones.
o Equal width: Divide la variable en grupos con intervalos de la misma amplitud.
o Custom: Permite definir transformaciones personalizadas.
Ejercicios:
1) Recodificar la variable Edad en tres categoras utilizando la funcin quartiles
(para utilizar esta funcin es necesario tener cargado el paquete Hmisc).
2) Crear una variable indicadora del nmero de factores de riesgo por individuo.
Cdigo en R para generar la variable nmero de factores de riesgo:
ADL.Final$Factores.Riesgo <- (ADL.Final$Fumador ==
"Si") + (ADL.Final$Diabetes =="Si") + (ADL.Final$HT
== "Si") + (ADL.Final$Fibrilacionauricular == "Si")
o bien:
attach(ADL.Final)
Factores.Riesgo <- (as.factor(Fumador) == 1) +
(as.factor(Diabetes) == 1) + (as.factor(HT) == 1) +
(as.factor(Fibrilacionauricular) == 1)
detach(ADL.Final)
______________________________________________________________________
Pgina 23 de 74

_______________________________________________________________
3.4
Filtrar casos
En ocasiones podemos estar interesados en estudiar un subconjunto de registros de la base

de datos. El men Data Subset permite crear una nueva base de datos que contengan
los registros seleccionados. Para crear una base de datos con los pacientes de sexo
masculino utilizaremos la siguiente instruccin:
Observacin: Deducer distingue entre maysculas y minsculas.

Ejercicios:
1) Crear una nueva base de datos con los pacientes de sexo masculino y otra con
los pacientes de sexo femenino.
2) Crear una base de datos con los pacientes mayores de 60 aos que tengan
hipertensin.
______________________________________________________________________
Pgina 24 de 74

_______________________________________________________________
VALIDACIN DE LA BASE DE DATOS
Antes de realizar cualquier anlisis hace falta hacer un ejercicio de validacin de la base
de datos.
En primer lugar hace falta detectar si hay variables que toman el mismo valor para
todos los individuos, as como variables que no contienen valores.
En segundo lugar hace falta detectar posibles errores en las variables, esto quiere
decir encontrar rangos de valores y algunos estadsticos descriptivos para las
variables cuantitativas, y tablas de frecuencias para las variables cualitativas.
Finalmente hara falta validar la consistencia interna de los datos. As, por
ejemplo, en datos de encuesta es validar la congruencia de las respuestas en el
sentido que si un individuo responde una determinada opcin en una pregunta,
entonces slo puede responder unas opciones concretas de otras.
Para poder llevar a cabo este proceso hace falta conocer bien de donde provienen los
datos.
______________________________________________________________________
Pgina 25 de 74

_______________________________________________________________
ANLISIS DESCRIPTIVO
5.1
Introduccin
Plantearse algunas preguntas preliminares puede ayudar a distinguir qu tiene sentido y qu

no:
Conocer la fuente de donde provienen los datos nos puede informar de su calidad.
Saber si la informacin de que disponemos es completa en el sentido que sea
posible extraer conclusiones y no slo impresiones.
Plantear qu pueden ilustrar los datos.
La ESTADSTICA DESCRIPTIVA es un conjunto de mtodos e ideas para organizar y
describir los datos mediante grficos y medidas de resumen numricas.
5.2
Estadsticos resumen
Como hemos visto en los apartados previos, las variables pueden ser diferenciadas segn:
o CUALITATIVAS o CATEGRICAS
o CUANTITATIVAS
Las variables tambin las clasificamos en funcin del papel que tengan en el anlisis:
o Variable Respuesta (variable de inters, Y). Mide el resultado del estudio.
o Variables Explicativas (X). Variables de control que contribuyen a explicar su
comportamiento.
5.2.1 Variables cualitativas

Para resumir una variable cualitativa o cuantitativa de valores enteros utilizaremos las
Tablas de Frecuencias.
El nmero de veces que se repite un valor en una variable es la frecuencia
absoluta, fa. Si n es el total de individuos, entonces fa / n es su frecuencia
relativa.
______________________________________________________________________
Pgina 26 de 74

_______________________________________________________________
La frecuencia acumulada es la suma de frecuencias absolutas hasta un
determinado valor una vez ordenados de forma creciente los valores de la variable
(ordinal o cuantitativa con valores enteros).
La distribucin de una variable es el conjunto de valores juntamente con sus
frecuencias (absolutas o relativas).
En Deducer podemos obtener las frecuencias a travs del men Analysis Frequencies:
El botn de opciones
permite modificar el nmero de dgitos para los porcentajes
que aparecern en los resultados (el valor predeterminado es de una cifra decimal).
El botn de ayuda
este procedimiento.
permite acceder a la pgina web con la ayuda correspondiente a
______________________________________________________________________
Pgina 27 de 74

_______________________________________________________________
Tras aceptar, los resultados aparecen en la consola en formato de texto:
$Hospital
------------------------------------------------------------Frequencies
---Value # of Cases
% Cumulative %
1
A
111
34.2
34.2
2
B
214
65.8
100.0
---Case Summary
---Valid Missing Total
# of cases
325
0
325
----------------------------------------------------------------
Para cada variable seleccionada obtenemos la tabla de frecuencias con las frecuencias
absolutas (# of Cases) y relativas (%), y las frecuencias absolutas acumuladas (Cumulative
%). Tambin aparece una tabla resumen con el nmero total de casos vlidos y de valores
perdidos (Missing).
Observacin: Estos resultados se pueden copiar y enganchar en un documento Word.
Para visualizarlos correctamente debemos seleccionar un tipo de letra de ancho fijo
(Monospaced Fonts), como por ejemplo Courier New.
Por defecto el formato de los resultados no es fcilmente exportable. Es aconsejable
instalar el paquete Deducer Richoutput que genera resultados en formato HTML.
Para instalar este paquete ejecutar el siguiente cdigo:
install.packages("DeducerRichOutput", repos="http://R-Forge.R-project.org")
y cargar el paquete desde el men Package Manager.
5.2.2 Variables cuantitativas

Para las variables cuantitativas, en las que puede haber un gran nmero de valores
observados distintos, se ha de optar por un mtodo de anlisis distinto, respondiendo a las
siguientes preguntas:
1. Alrededor de qu valor se agrupan los datos?
2. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen? muy
concentrados? muy dispersos?
______________________________________________________________________
Pgina 28 de 74

_______________________________________________________________
5.2.2.1
Medidas de localizacin
Se utilizan para resumir las caractersticas ms relevantes de los datos. Podemos utilizar:
o Media ( X ): centro de masas
o Mediana: punto medio
o Moda: el valor ms repetido
La media se sita en el punto de equilibrio del histograma de una variable cuantitativa:
La Media y la Mediana coinciden si la distribucin es simtrica. Si no coinciden, es

preferible la mediana (es menos sensible a datos extremos).
Otras medidas de resumen son los Cuartiles (Q1, Q2 y Q3), tres valores que dividen la
distribucin en cuatro partes.
5.2.2.2
Medidas de dispersin
Sirven para resumir la dispersin. Las ms habituales son:

o Rango = max min
o Rango Intercuartil = Q3 Q1
o Varianza (S2): una medida de la dispersin entorno de la media
o Desviacin estndar (S)
Otra medida que se suele utilizar es el coeficiente de variacin (CV). Es una medida
relativa de variabilidad. Se define para variables cuantitativas no negativas como el cociente
entre la desviacin estndar y la media:
CV
S
X
Este coeficiente es invariante para cambios de escala.

______________________________________________________________________
Pgina 29 de 74

_______________________________________________________________
En Deducer podemos obtener los estadsticos de resumen a travs del men Analysis
Descriptives:
En el recuadro Stratify By podemos indicar una variable categrica para obtener los
estadsticos para cada una de las categoras de esta variable.
Al hacer clic en Continue aparece una nueva ventana donde podemos seleccionar los
estadsticos deseados:
______________________________________________________________________
Pgina 30 de 74

_______________________________________________________________
En caso de desear un estadstico que no aparece en la lista se puede solicitar mediante

programacin en la pestaa Custom.
Ejemplo: Funcin para calcular el Coeficiente de Variacin (CV).
Observacin: Las funciones personalizadas no funcionan cuando tenemos activado el

DeducerRichOutput.
$`Sexo: H `
Mean Median St. Deviation Minimum Maximum Valid N
cv
Edad 60.81481 61.00
7.621661 42.00000 78.00000
162 0.12532573
IMC 27.83065 28.05
1.716896 23.36182 34.33375
162 0.06169084
$`Sexo: M `
Mean Median St. Deviation Minimum Maximum Valid N
cv
Edad 63.44785
64
8.906339 45.00000
86
163 0.1403726
IMC 29.04371
29
1.282582 25.99508
33
163 0.0441604
______________________________________________________________________
Pgina 31 de 74

_______________________________________________________________
5.3
La representacin grfica ms adecuada
Los grficos se encuentran en el men Plots. La manera ms sencilla de representar

grficos es a partir del generador de grficos (Plot Builder). Al seleccionar esta opcin
aparece una ventana interactiva que nos permite ver una presentacin preliminar del
aspecto que tendr un grfico.
Desde el mismo generador de grficos se pueden guardar los grficos a partir del men
File Save. Tambin se pueden crear Nuevas plantillas (Templates) para ser
compartidas entre usuarios sin la necesidad de hacer ningn tipo de codificacin.
Observacin: Es recomendable tener activado el paquete ggplot2 para poder acceder a
una mayor variedad de templates.
5.3.1 Variables cualitativas

Se representan las frecuencias o porcentajes de las diferentes categoras. Se pueden utilizar
diagramas de barras o grficos de sectores.
5.3.1.1
Diagrama de barras
A partir del generador de grficos (Plot Builder) podemos seleccionar el tipo de grfico
deseado:
______________________________________________________________________
Pgina 32 de 74

_______________________________________________________________
Al seleccionar el grfico de barras (bar) se abre una nueva ventana donde indicaremos la
variable categrica que queremos representar. El grfico de barras para la variable
Valoracion_salud es el siguiente:
Observacin: Por defecto aparece una barra para la categora missing (NA). Esta se puede
quitar mediante sintaxis:
dev.new()
ggplot() + geom_bar(aes(y = ..count..,x = Valoracion_salud),data=subset(ADL,
Valoracion_salud!="NA"))
Si utilizamos el men de grficos interactivos podremos convertir el grfico resultante en
un grfico de espinas (spine plot):
______________________________________________________________________
Pgina 33 de 74

_______________________________________________________________
5.3.1.2
Grficos de sectores
En un grfico de sectores el rea de cada sector es proporcional a su frecuencia. Este tipo

de grfico no se puede obtener de manera automtica en la versin de Deducer para
Windows, pero s mediante cdigo:
slices <- c(111,214)
lbls <- c("A","B")
pie(slices, labels = lbls, main="Hospital")
En un diagrama de sectores es siempre necesario incorporar la frecuencia de cada

categora.
pct <- round(slices/sum(slices)*100)
lbls <- paste(lbls, pct) # add percents to labels
lbls <- paste(lbls,"%",sep="") # ad % to labels
pie(slices,labels = lbls, main="Hospital")
______________________________________________________________________
Pgina 34 de 74

_______________________________________________________________
5.3.2 Variables cuantitativas

Para las variables cuantitativas se describe el patrn general de la distribucin de las
variables y permiten detectar outliers.
5.3.2.1
Histograma
El histograma permite representar variables cuantitativas una vez agrupados los valores en
clases. Representa las frecuencias y las clases de una variable cuantitativa. Las clases deben
formar un sistema exhaustivo y excluyente.
Al seleccionar la opcin histogram del generador de grficos (o a partir del men Plot
Proc Templates Histogram) obtenemos la siguiente representacin de la variable
edad:
Observacin: Por defecto el ancho de clases se calcula como rango/30. Esto se puede
modificar desde sintaxis, o bien modificando las opciones desde el generador de grficos
(Geometric Elements).
dev.new()
ggplot() + geom_bar(aes(y = ..count..,x = Edad),data=ADL,binwidth = 4.9)
Para definir el nmero de clases (por defecto 30) se puede utilizar el criterio de Sturges:
1
log
______________________________________________________________________
Pgina 35 de 74

_______________________________________________________________
5.3.2.2
Diagrama de caja
Un diagrama de caja es un grfico (boxplot) basado en los valores mnimo y mximo y

los cuartiles (Q1, Q2 o mediana y Q3). Informa sobre la existencia de valores atpicos y la
simetra de la distribucin:
Mximo
Q3
Mediana
Q1
Mnimo
5.3.2.3
Grfico de serie temporal
Un grfico de serie temporal (line) representa la evolucin de una variable a lo largo del
tiempo. Para una mejor interpretacin en grficos de series temporales es mejor poner la
variable temporal en el eje horizontal:
______________________________________________________________________
Pgina 36 de 74

_______________________________________________________________
5.3.2.4
Grficos interactivos
Algunos grficos se pueden construir de manera interactiva a travs del men Plots
Interactive. Este tipo de grficos permiten editar algunos aspectos (colores, ejes, etc.) de
forma interactiva.
5.4
Medidas de asociacin
El principal objetivo cuando se tienen dos o ms variables est en medir la posible

asociacin entre ellas.
La relacin Causa-Efecto
Muchas veces es fuente de interpretaciones errneas de los resultados. En estadstica,
generalmente, se busca analizar si ciertos factores presentan un efecto sobre una
determinada variable respuesta. No siempre se puede asegurar que la causa de este efecto
sea el factor.
Establecer una relacin causal no es nada simple. Raramente A es la causa de B.
Fumar, por ejemplo, es slo una causa que contribuye a desarrollar cncer de pulmn; es
una de las causas que aumenta la probabilidad de cncer.
______________________________________________________________________
Pgina 37 de 74

_______________________________________________________________
5.4.1 Dos variables cualitativas

Para variables CUALITATIVAS la asociacin entre ellas se analiza a partir de la Tabla de
Contingencia (men Analysis Contingency Tables).
Ejemplo: Relacin entre el sexo y la valoracin del estado de salud.
______________________________________________________________________
Pgina 38 de 74

_______________________________________________________________
A partir de las frecuencias observadas (Count) se definen los perfiles fila y columna:
o Frecuencia relativa conjunta = nij / n
o Perfil fila i = {nij / ni. per j=1,..J}
o Perfil columna j = {nij / n.j per i=1,..I}
En la pestaa Cells podemos seleccionar los perfiles fila (Row) o columna (Column):
Perfil fila
Perfil columna
______________________________________________________________________
Pgina 39 de 74

_______________________________________________________________
Representacin grfica: grfico de barras agrupado (grouped bar).
Observacin: Este grfico proporciona resultados que dan lugar a confusin cuando una
de las categoras de la variable representada, slo est presente en una de las categoras de
la variable de agrupacin. Para evitar este problema es recomendable utilizar la funcin
barplot desde sintaxi:
dev.new()
counts <- table(ADL$Sexo, ADL$Valoracion_salud)
barplot(counts, main="Grafico de barras agrupado",
xlab="Valoracion salud", ylab="Recuento", col=c("blue","red"),
legend = rownames(counts), beside=TRUE)
______________________________________________________________________
Pgina 40 de 74

_______________________________________________________________
Para obtener un grfico de barras apiladas necesitamos realizar dos pasos:
Paso 1: En la pantalla de Plot Builder, clicar con el botn derecho del ratn sobre el grfico
de Components y seleccionar la opcin Break out. Esto permite habilitar opciones
adicionales para modificar el grfico.
Paso 2: Hacer doble click sobre el grfico de Components. Se despliegan las opciones del
grfico. En la pestaa Position seleccionar la opcin stack para obtener las barras apiladas.
______________________________________________________________________
Pgina 41 de 74

_______________________________________________________________
El grfico resultante es:
Para obtener las barras apilas al 100% (grfico de la derecha) escoger la opcin fill.
5.4.2 Dos variables cuantitativas

Un primer paso es la representacin grfica de ambas variables simultneamente. Para
variables CUANTITATIVAS se utiliza el Diagrama de dispersin (scatter):
Una medida numrica para la asociacin lineal entre variables CUANTITATIVAS es el

coeficiente de correlacin de Pearson ():
S XY
SX SX
______________________________________________________________________
Pgina 42 de 74

_______________________________________________________________
donde
es la covarianza entre las variables.
Para calcular el coeficiente de correlacin utilizaremos el men Analysis Correlation.

En Plots podemos indicar la opcin ScatterPlot para obtener tambin el diagrama de
dispersin:
Cuando las variables son ordinales, podemos utilizar el coeficiente de correlacin de

Spearman. Este coeficiente se basa en los rangos, por lo que es un estadstico no
paramtrico. Permite medir la relacin entre dos variables aunque esta no sea lineal y no se
ve afectado por outliers. Se calcula como:
6 Di2
n(n 2 1)
donde D es la diferencia de rangos de los valores de X e Y , y n el tamao muestral.
Finalmente, Deducer ofrece la posibilidad de calcular el coeficiente de correlacin de

Kendall. Este coeficiente se basa tambin en los rangos y por tanto es un estadstico no
paramtrico. Permite cuantificar el grado de asociacin entre dos variables. Requiere de un
tamao de muestra grande y cuantifica nicamente relaciones montonas. Se calcula como:
nc nd
1
n(n 1)
2
______________________________________________________________________
Pgina 43 de 74

_______________________________________________________________
donde nc corresponde al nmero de pares concordantes y nd corresponde al nmero de
pares discordantes.
Relacin entre los valores del coeficiente de correlacin y el grfico de dispersin de las
variables:
R = 0.20
3
-1
-1
-2
-2
-3
-3
-4
R = 0.00
3
10
11
12
-4
13
X1
-1
-1
-2
-2
-3
-3
-4
6
10
12
13
-4
14
X4
10
20
X5
R = 0.99
R = 0.01
-1
-1
-2
-2
-3
-3
-4
12
R = 0.90
3
R = 0.50
X6
11
X3
-30
10
-20
-10
10
20
30
40
-4
8
10
12
14
16
18
20
22
X8
______________________________________________________________________
Pgina 44 de 74

_______________________________________________________________
INFERENCIA PARA UNA POBLACIN
6.1
Introduccin
Despus de llevar a cabo un anlisis descriptivo de los datos el objetivo es poder

generalizar los resultados para conjuntos ms grandes de individuos as como poder sacar
conclusiones a partir de los datos.
La PROBABILIDAD permite calibrar el poder de nuestras conclusiones.
Poblacin: Conjunto completo de individuos para los cuales se desea obtener informacin.
Muestra: Subconjunto de individuos de la poblacin para los cuales realmente se obtiene la
informacin de inters.
De una misma poblacin se pueden obtener varias muestras diferentes, de tamao n:
OBSERVACIN: La poblacin est definida a partir de nuestro deseo de conocimiento.

Los resultados obtenidos en una muestra sern extrapolables a la poblacin de referencia
si la muestra cumple dos caractersticas fundamentales:
Fiabilidad (precisin): La fiabilidad de una muestra est vinculada a la precisin de
sus resultados, es decir, al tamao de muestra.
Validez (sesgo): La validez de una muestra se refiere a que la muestra no presente
sesgos, es decir errores de medida sistemticos atribuibles a otra causa distinta del
azar.
______________________________________________________________________
Pgina 45 de 74

_______________________________________________________________
Un buen diseo del experimento permitir controlar las posibles fuentes de sesgo y
asegurar la validez del estudio.
o Una muestra representativa debe ser fiable y vlida.
o No confundir muestra significativa con muestra representativa.
o Una muestra de 20.000 individuos no tiene porque ser representativa de nada a no
ser que se compruebe su validez, aunque seguramente sea suficientemente fiable.
o En una muestra de 10 individuos los resultados sern poco fiables aunque
seguramente la muestra sea suficientemente vlida.
La Estadstica es una herramienta que permite describir y cuantificar las evidencias
observadas en una muestra intentando diferenciar entre lo que podra haber sucedido por
azar y lo que podra atribuirse a otras causas (de inters).
Inferir significa sacar conclusiones de los datos teniendo en cuenta la variacin

debida al azar.
6.2
Variables aleatorias
Los datos que habitualmente se analizan provienen de un experimento aleatorio:

Un experimento aleatorio o estocstico es aquel que bajo las mismas
condiciones puede producir resultados diferentes pero con una distribucin regular
de resultados para un nmero grande de repeticiones. Un ejemplo de experimento
aleatorio es el lanzamiento de un dado.
______________________________________________________________________
Pgina 46 de 74

_______________________________________________________________
Un experimento es no aleatorio o determinista si bajo las mismas condiciones
siempre conduce a un mismo resultado. Un ejemplo son las frmulas fsicas: Fuerza
= Masa * Aceleracin.
Las variables aleatorias son aplicaciones que transforman los resultados de un
experimento aleatorio en nmeros con el fin de poder realizar las operaciones ms usuales,
luego todos los resultados de un experimento aleatorio quedan recogidos en una variable
aleatoria.
Antes de realizar cualquier inferencia estadstica es necesario identificar la distribucin de
probabilidad (la forma) de la variable aleatoria que se pretende analizar.
Algunos instrumentos para ello son:
o Histograma, diagrama de caja, rango de la variable.
o Pruebas de ajuste a una distribucin (Test de Shapiro Wilk).
6.3
Estimacin de parmetros
Un parmetro es un nmero que describe una caracterstica de la poblacin. En la prctica

los valores de los parmetros son desconocidos.
Un estadstico es un nmero que se calcula a partir de los datos de una muestra de la
poblacin. En la prctica se utilizan los estadsticos para estimar los parmetros de la
poblacin.
Un estimador es cualquier funcin de una muestra, esto es, un estadstico es un estimador
puntual.
Debemos observar que un estimador es una variable aleatoria mientras que una
estimacin es un valor concreto del estimador.
______________________________________________________________________
Pgina 47 de 74

_______________________________________________________________
6.3.1 Estimacin puntual

Una estimacin puntual es el valor del estimador dada una muestra concreta. Los
estimadores puntuales ms frecuentemente utilizados son:
n
o Media muestral:
Xi
i 1
X
n
o Variancia muestral:
o Proporcin:
S2
i 1
n 1
A los estimadores bsicamente se les requiere dos propiedades:

sin sesgo, es decir que no se encuentren muy alejados del valor real del parmetro
que estiman, y
de mnima varianza posible, es decir que las distintas estimaciones estn prximas
entre s.
______________________________________________________________________
Pgina 48 de 74

_______________________________________________________________
6.3.2 Intervalos de confianza

En inferencia estadstica uno de los instrumentos ms comunes para estimar el valor de un
parmetro de la poblacin son los intervalos de confianza.
Un intervalo de confianza del C% para un parmetro es un intervalo de valores calculado
a partir de los datos de la muestra utilizando un mtodo que tiene una probabilidad C de
que dicho intervalo contenga el verdadero valor del parmetro.
El parmetro poblacional pertenece al intervalo calculado con una confianza del
C%.
La media muestral y la desviacin estndar son buenos estimadores puntuales de la media y
la desviacin estndar de la poblacin.
Dado que los datos son las observaciones de una variable aleatoria, estos estimadores son a
la vez variables aleatorias. Por lo tanto tienen una determinada distribucin, que en el caso
de la media es la distribucin Normal.
Para realizar inferencia estadstica debemos interpretar los intervalos de confianza para un
parmetro a partir del siguiente grfico:
Si repetimos el experimento 100 veces o tomamos 100 muestras, en 95 ocasiones el

parmetro pertenecer al Intervalo de Confianza del 95% y en 5 ocasiones caer fuera del
intervalo.
Para una mejor comprensin de estos conceptos de la inferencia estadstica bsica se
recomienda consultar los siguientes statistical applets, basados en el texto de Moore (2010):
http://bcs.whfreeman.com/ips4e/cat_010/applets/applets.htm
______________________________________________________________________
Pgina 49 de 74

_______________________________________________________________
Para obtener intervalos de confianza en Deducer debemos seleccionar el men Analysis
One Sample Test y seleccionar el Test One-sample t-test:
Observacin: Para obtener el intervalo de confianza de una proporcin debemos

cargar el paquete DeducerExtras.
Ejercicio: Calcular los intervalos de confianza para la variable Reingreso.
______________________________________________________________________
Pgina 50 de 74

_______________________________________________________________
6.4
Pruebas de hiptesis
Un segundo bloque de instrumentos para la inferencia estadstica son las pruebas de

hiptesis. Estas evalan la evidencia de una afirmacin sobre la poblacin.
En estadstica una afirmacin sobre la poblacin se plantea en forma de hiptesis de
trabajo. Las dos hiptesis complementarias se llaman:
Hiptesis nula (H0)
Hiptesis alternativa o de investigacin (H1)
La hiptesis nula corresponde a la hiptesis que creemos cierta por defecto y la alternativa
corresponde a la hiptesis que se desea probar.
Las hiptesis hacen siempre referencia a los parmetros de la poblacin.
Una prueba de hiptesis es un procedimiento que especifica:
1. Para qu valores muestrales la decisin ser no rechazar la hiptesis nula.
2. Para qu valores muestrales la hiptesis nula ser rechazada a favor de la alternativa.
P-valor: Probabilidad que, bajo H0, el estadstico de contraste tome un valor al menos tan
alejado como el realmente obtenido.
Cuanto ms pequeo sea el p-valor mayor es la evidencia en contra de H0.
Se rechazar la hiptesis nula si el p-valor es menor que el nivel de significacin
adoptado (en general 0,05).
En un contraste de hiptesis, debemos rechazar o no la hiptesis nula a favor de la
alternativa.
Deseamos que nuestra decisin sea correcta, pero a veces no lo ser. Hay dos tipos de
decisiones incorrectas:
Rechazar H0 cuando de hecho es cierta: error de tipo I.
NO rechazar H0 cuando realmente es cierta H1: error de tipo II.
Observacin: El error de tipo I = nivel de significacin = .
______________________________________________________________________
Pgina 51 de 74

_______________________________________________________________
Decisin basada
en la muestra
En siguiente cuadro resume los tipos de errores que se pueden cometer en un contraste de
hiptesis:
Verdad a cerca de la poblacin
H0 cierta
H1 cierta
Rechazo de H0
Error de tipo I
Decisin correcta
No rechazo de H0
Decisin correcta
Error de tipo II
El error de Tipo I es ms grave que el error de Tipo II.
6.4.1 Contraste de hiptesis para una media

La hiptesis que se contrasta es:
H0: =
H1:
Para llevar a cabo un contraste de hiptesis para la media debemos volver al men anterior
y definir como valor de prueba el valor que deseamos contrastar (botn de opciones del ttest,
)
______________________________________________________________________
Pgina 52 de 74

_______________________________________________________________
6.4.2 Contraste de hiptesis para una proporcin

H0: p =
H1: p
Ejercicio: Realizar un contraste para determinar si la proporcin de diabticos es de 0,75.
6.4.3 Contraste de hiptesis para una mediana

H0: mediana =
H1: mediana
En Deducer, este contraste no se puede realizar mediante mens, pero si mediante sintaxis
utilizando la funcin wilcox.test().
Ejemplo: Realizamos la comparacin de si la mediana de la variable Das es igual a 5 das:
wilcox.test(Dias, mu=5,alt=two.sided,data=ADL_Final)
6.4.4 Relacin entre IC y Test de hiptesis

Cuando en una prueba estadstica se pretende comparar dos medias o una media frente a
un valor de referencia, el IC proporciona informacin paralela a la proporcionada por el
test de hiptesis correspondiente.
______________________________________________________________________
Pgina 53 de 74

_______________________________________________________________
Es necesario que el nivel de confianza sea 1-, siendo el nivel de significacin del test
aplicado.
o Si el IC no contiene el valor 21, se rechaza H0: =21.
Observacin: Esta similitud es aplicable para pruebas T, o basadas en la
distribucin Normal.
6.4.5 Pruebas de normalidad

Para llevar a cabo un contraste de normalidad debemos seleccionar la prueba de ShapiroWilk en el men de Analysis One Sample Test.
El contraste de hiptesis que realiza esta prueba es el siguiente:

H0: la distribucin es Normal
H1: la distribucin NO es Normal
En este ejemplo hemos obtenido un nivel de significacin (p-valor) de 0,001. Si fijamos el
lmite en 0,05 rechazaramos la H0 (no podramos considerar que la distribucin de la
variable Dias es Normal).
6.4.6 La sumisin de los investigadores al p-valor

La utilizacin sistemtica del p-valor puede llevar a resultados engaosos.
EJEMPLO: Se quiere analizar la estancia en das de los turistas en Catalunya. En concreto
se desea comparar las estancias de los europeos y los procedentes de pases asiticos. Un
contraste en trminos de las diferencias se plantea como:
H0: d = 0 (no hay diferencia)
H1: d 0
El p-valor del test estadstico resulta ser p=0,02, con lo que se concluye que hay
diferencias. Es suficiente?
Necesitamos medir el tamao del efecto realizando un intervalo de confianza para la
diferencia ya que podra ser, por ejemplo, que la diferencia se situara en el intervalo (0,5 - 1)
o bien en el intervalo (10 - 15).
______________________________________________________________________
Pgina 54 de 74

_______________________________________________________________
QUE ES UNA DIFERENCIA ESTADSTICAMENTE SIGNIFICATIVA?
(en un contraste de diferencias)
Si se obtiene un p-valor <0,05 al realizar el contraste, la diferencia es
estadsticamente significativa.
Si se obtiene un p-valor <0,05 al realizar el contraste, la diferencia no tiene porque
ser significativa.
Si en un contraste se obtiene por ejemplo un p-valor=0,03 y en otro se obtiene un
p-valor=0,42, no tiene por qu haber mayores diferencias entre grupos en el primer
caso que en el segundo.
Las diferencias pueden ser estadsticamente significativas, pero NO
estadsticamente
muy
significativas,
ligeramente
significativas
o
prcticamente significativas.
Recordar que una diferencia estadsticamente significativa implica simplemente
que la diferencia no es nula.
Para que una diferencia sea significativa, sta debe ser relevante.
En los resultados de un contraste SIEMPRE hay que presentar el p-valor y el
Intervalo de Confianza de la diferencia para valorar su relevancia.
______________________________________________________________________
Pgina 55 de 74

_______________________________________________________________
INFERENCIA PARA DOS POBLACIONES
7.1
Introduccin
La Inferencia Estadstica para dos poblaciones pretende generalizar los resultados y

comparar los datos de una o diversas variables respuesta medidas en dos muestras, sin
tener en cuenta otras variables (factores de riesgo).
Dos muestras independientes son aquellas para las cuales no existe ningn vnculo entre
ellas. Provienen de poblaciones independientes.
Dos muestras relacionadas son aquellas que se refieren a la misma poblacin y han
medido la misma variable respuesta.
PLANTEAMIENTO DEL PROBLEMA
En primer lugar el investigador debe identificar la naturaleza de las variables que desea
estudiar. Es decir:
Variable Respuesta: Distribucin (continua, ordinal, categrica).
Variable Explicativa: Nmero de grupos o niveles.
As cmo la idoneidad del tipo de prueba: Homogeneidad Basal, Grupos bien
balanceados.
7.2
Comparar medias
7.2.1 Muestras independientes

Para comparar una variable respuesta entre dos muestras independientes cuando dicha
variable sigue una distribucin normal se utiliza la prueba T de Student (T-Test) para
muestras independientes.
La hiptesis que contrasta es:
H0: 1= 2
H1: 1 2
las medias son iguales

las medias son diferentes
A la prctica, muchas veces no podemos aceptar la hiptesis de normalidad en los datos.

En esta situacin se puede hacer uso de mtodos no paramtricos que no suponen
ninguna hiptesis sobre la distribucin de los datos.
______________________________________________________________________
Pgina 56 de 74

_______________________________________________________________
variable es continua (no normal) o bien ordinal se utiliza la prueba de suma de rangos
Wilcoxon (tambin llamada prueba U de Mann-Whitney o prueba de Mann-WhitneyWilcoxon).
H0: La mediana del grupo 1 es igual a la mediana del grupo 2
H1: La mediana del grupo 1 NO es igual a la mediana del grupo 2
Ejemplo: Deseamos estudiar si hay diferencias entre la edad media de los hombres y de las
mujeres.
En primer lugar debemos contrastar si podemos asumir que la distribucin de la variable
edad es Normal (para cada grupo).
Para llevar a cabo estos contrates debemos ir al men Analysis One Sample Test y
seleccionar la prueba de Normalidad. En el recuadro Subset indicaremos el grupo para el
cual queremos realizar el contraste y repetiremos el anlisis para el resto de grupos.
______________________________________________________________________
Pgina 57 de 74

_______________________________________________________________
Sexo== "H"
Sexo=="M"
No se rechaza la hiptesis nula (p-valor > 0,05) por lo tanto podemos aceptar que la
variable Edad sigue una distribucin normal.
Para contrastar si hay diferencias entre las edades de hombres y mujeres utilizaremos el
men Analysis Two Sample Test seleccionando la opcin T-Test:
______________________________________________________________________
Pgina 58 de 74

_______________________________________________________________
Se observan diferencias estadsticamente significativas entre las edades de hombres y
mujeres (p-valor=0,004). La edad de las mujeres cuando ingresan es mayor a la de los
hombres.
Observacin: La prueba realizada considera que las varianzas son distintas en los dos
grupos. En caso de querer realizar el test asumiendo que estas son iguales se puede
seleccionar la opcin Equal variance dentro de la pestaa de opciones del T-Test.
7.2.2 Prueba de igualdad de varianzas

Para determinar si las varianzas son iguales podemos realizar el siguiente contraste de
hiptesis:
H0: 1 = 2
H1: 1 2
Las variancias son iguales

Las variancias no son iguales
Para llevar a cabo este contrate debemos ir al men Extras k-sample variance test y
seleccionar la prueba de Levene.
______________________________________________________________________
Pgina 59 de 74

_______________________________________________________________
En caso de no tener el men Extras instalado este debe cargarse desde el men Packages
and Data Package Manager y seleccionar el paquete DeducerExtras.
Observacin: Las pruebas de igualdad de varianzas son sensibles a distribuciones NO
Normales, incluso para muestras grandes. Es por este motivo que se recomienda utilizar
siempre el test que considera varianzas distintas para comparar dos medias (los resultados
de este test son vlidos tanto si las varianzas son iguales como si no).
______________________________________________________________________
Pgina 60 de 74

_______________________________________________________________
7.2.3 Muestras relacionadas

Para comparar una variable respuesta entre dos muestras relacionadas cuando dicha
variable sigue una distribucin normal se utiliza la prueba T de Student (T-Test) para
muestras relacionadas. Para realizar una prueba no paramtrica deberamos utilizar la
prueba Wilcoxon Signed Rank.
Para comparar muestras relacionadas con Deducer utilizaremos el men Analysis
Paired Test seleccionando la prueba que corresponda.
Ejemplo: Deseamos contrastar si hay diferencias entre el peso al ingreso y el peso en el
momento del alta.
Esta variable no sigue una distribucin normal, por lo que seleccionaremos el test de
Wilcoxon:
Se observan diferencias estadsticamente

significativas (p-valor<0,05). El peso al
ingreso y el peso al alta son distintos. Para
determinar si los pacientes ganan o pierden
peso deberemos emplear una tabla con
estadsticos de resumen.
______________________________________________________________________
Pgina 61 de 74

_______________________________________________________________
INFERENCIA PARA K POBLACIONES
8.1
Introduccin
La Inferencia Estadstica para k poblaciones generaliza los mtodos estadsticos vistos en el

apartado anterior.
Se dispone de una variable Respuesta (continua, categrica, ordinal) y una variable
Explicativa que define k grupos o categoras.
8.2
Variables cuantitativas: Comparar medias
8.2.1 Muestras independientes: prueba ANOVA

El anlisis de la varianza (ANOVA: Analysis of Variance) es un procedimiento estadstico
que tiene como objetivo descomponer la variabilidad observada en un ensayo experimental
en funcin de los posibles factores que han podido influir en el resultado.
Esta tcnica se utiliza en las situaciones en las que se desea analizar una variable continua
medida bajo ciertas condiciones experimentales identificadas por uno o ms factores
cualitativos. Cada factor identifica 2 o ms situaciones experimentales complementarias, y
por lo tanto distingue grupos o niveles.
Cuando hay un nico factor estudiado, el anlisis recibe el nombre de ANOVA de un
factor.
La prueba ANOVA de un factor generaliza la prueba T para dos muestras independientes.
H0: 1= 2 = = k las medias son iguales
H1: Al menos una de las medias no es igual al resto
La prueba ANOVA se sustenta en los supuestos de normalidad, homocedasticidad,
independencia y aleatoriedad.
______________________________________________________________________
Pgina 62 de 74

_______________________________________________________________
Ejemplo: Deseamos estudiar si existen diferencias entre la estancia media de los pacientes
segn la edad (3 categoras).
Como en el caso de comparar dos medias, en primer lugar debemos contrastar si podemos
asumir que la distribucin de la variable Dias es Normal dentro de cada categora de Edad.
Para ello, seleccionamos la prueba de normalidad de Shapiro-Wilk en el men Analysis
One Sample Test. En el recuadro Subset indicaremos el grupo para el cual queremos
realizar el contraste y repetiremos el anlisis para el resto de grupos.
Edad.cat == "[42,60)"
Edad.cat == "[60,67)"
Edad.cat == "[67-86]"
Se rechaza la hiptesis de normalidad en todos los grupos (p-valor < 0,05).

______________________________________________________________________
Pgina 63 de 74

_______________________________________________________________
Todo y rechazar normalidad se ha de tener en cuenta la robustez del procedimiento
ANOVA frete al incumplimiento de sus supuestos de trabajo.
La prueba ANOVA es suficientemente robusta ante la falta de normalidad en
alguno de los grupos a comparar y ante la falta de homogeneidad de variancias,
siempre y cuando se disponga de un tamao de muestra suficientemente grande
(ms de 30 individuos por grupo).
Prueba de homogeneidad de varianzas
Para determinar si las varianzas son iguales podemos realizar el siguiente contraste de
hiptesis:
H0: Las variancias son iguales en todos los grupos
H1: Al menos un grupo presenta una variabilidad diferente al resto
En este caso utilizaremos la misma prueba que se ha visto para el caso de dos variancias la
prueba de Levene: men Extras k-sample variance test.
No se rechaza la igualdad de variancias (p-valor > 0,05). Luego, existe homoscedasticidad

en los grupos.
Ejemplo (continuacin):
La hiptesis que deseamos contrastar en la prueba ANOVA es:
H0: 1 = 2 = 3
H1: Al menos una de las medias no es igual al resto .
Para llevar a cabo dicha prueba seleccionamos el men Analysis K-Sample Test:
______________________________________________________________________
Pgina 64 de 74

_______________________________________________________________
Dado el p-valor obtenido, se rechaza la hiptesis nula. Existen diferencias en los das de
hospitalizacin segn el grupo de edad.
8.2.2 Comparaciones mltiples 2 a 2

Hemos visto que el procedimiento ANOVA permite determinar si existen diferencias entre
ms de dos grupos pero no informa sobre qu grupo o grupos son los que difieren. Por
ello, tras la realizacin de la prueba ANOVA es interesante realizar las llamadas
comparaciones mltiples a posteriori o 2 a 2.
Las comparaciones mltiples consisten en contrastar simultneamente todas las parejas dos
a dos que se puedan dar.
______________________________________________________________________
Pgina 65 de 74

_______________________________________________________________
Las hiptesis que se contrastan son:
H0: 1= 2
H1: 1 2

las medias no son iguales
H0: 1= 3
H1: 1 3

H0: 1= k
H1: 1 k

H0: k-1 = k
H1: k-1 k

.
.
.
La realizacin de todas las comparaciones 2 a 2 conduce habitualmente a un elevado

nmero de comparaciones. Dichas comparaciones no son independientes las unas de las
otras y por ello es necesario aplicar correcciones por multiplicidad de contrastes para
garantizar que el nivel de significacin conjunto no sea superior al 5%.
Los contrastes mltiples se encuentran dentro del men K-Sample Test en la pestaa
Pairwise:
Las comparaciones mltiples indican que las diferencias entre los grupos de edad
detectados en la prueba ANOVA anterior se dan entre todos los grupos, siendo mayor la
diferencia entre el grupo de [42,60) y el grupo de [60,67].
______________________________________________________________________
Pgina 66 de 74

_______________________________________________________________
Finalmente, la pestaa Plots del men K-Sample Test permite obtener un grfico de cajas
para visualizar las diferencias existentes entre los grupos:
8.2.3 Inferencia no paramtrica: Prueba de Kruskal-Wallis

A la prctica, muchas veces no podemos aceptar la hiptesis de normalidad en los datos,
como por ejemplo nos ha sucedido en el ejemplo anterior. En estas situaciones se puede
hacer uso de mtodos no paramtricos que no suponen ninguna hiptesis sobre la
distribucin de los datos.
Para comparar una variable respuesta entre k muestras independientes cuando dicha
variable es continua (no-normal) o bien ordinal se utiliza la prueba de Kruskal-Wallis.
La hiptesis que contrastan es:
H0: La mediana de todos los grupos es igual
H1: Al menos una de las medianas no es igual al resto
Este test se encuentra en el mismo men Analysis K- Sample Test seleccionando la
opcin Kruskal-Wallis:
Dado el p-valor obtenido, se rechaza la hiptesis nula. Existen diferencias entre las
medianas de los tiempos de estancia en el hospital segn los grupos de edad.
______________________________________________________________________
Pgina 67 de 74

_______________________________________________________________
8.2.4 Muestras relacionadas

Para comparar una variable respuesta entre ms de dos muestras relacionadas se utiliza la
prueba de Friedman alternativa no paramtrica a la prueba ANOVA de medidas repetidas.
H0: Los rangos esperados en todas las muestras son iguales entre s
H1: Existe por lo menos una muestra con rango diferente al resto
Para llevar a cabo dicha prueba con Deducer seleccionamos el men Analysis Extras
Ranking analysis.
______________________________________________________________________
Pgina 68 de 74

_______________________________________________________________
TABLAS DE CONTINGENCIA
variable es categrica se utiliza la prueba de 2. En el caso de tener ms de un 25% de las
casillas con pocas observaciones (valor esperado inferior a 5) se recomienda utilizar la
prueba exacta de Fisher.
H0: La variable respuesta es independiente de la variable explicativa (los grupos son
homogneos).
H1: La variable respuesta NO es independiente de la variable explicativa (los grupos
no son homogneos).
Ejemplo: Deseamos estudiar si hay diferencias en el reingreso entre hombres y mujeres.
Para llevar a cabo dicha prueba con Deducer seleccionamos Analysis Contingency
Tables. En Row seleccionaremos el Sexo y en Column el Reingreso. En el botn Cells
seleccionamos los perfiles fila. Se obtiene el siguiente resultado:
No se observan diferencias significativas (el porcentaje de reingreso es similar en hombres

y en mujeres, p-valor=0,976).
______________________________________________________________________
Pgina 69 de 74

_______________________________________________________________
Para comparar una variable respuesta categrica entre dos o ms muestras independientes
se utiliza la prueba de 2, prueba exacta de Fisher o prueba de Razn de
verosimilitud (Likelihood Ratio Test).
Ejemplo: Deseamos estudiar si hay diferencias en el reingreso segn el nmero de factores
de riesgo. Se obtiene el siguiente resultado:
En este caso se observan varias casillas con pocas observaciones (valor esperado inferior a
5), por lo que el test de Chi-cuadrado no sera vlido.
Repetimos el anlisis, seleccionando las opciones Likelihood y Fishers Exact del botn
Statistics:
______________________________________________________________________
Pgina 70 de 74

_______________________________________________________________
Se observan diferencias estadsticamente significativas (p-valor<0,0001). Para determinar

entre qu categoras hay diferencias podemos utilizar los perfiles fila (o columna).
Tambin podemos utilizar los residuos estandarizados, que indican la importancia de
cada casilla en el clculo del estadstico de Chi-cuadrado. Este valor corresponde al nmero
de desviaciones estndar por encima o por debajo del valor esperado que se encuentra el
valor observado:
______________________________________________________________________
Pgina 71 de 74

_______________________________________________________________
10 RESUMEN METODOLGICO
Los datos (variables) son caractersticas observables de los individuos de una poblacin.
Pueden ser:
CUALITATIVAS o CATEGRICAS: etiquetas (numrica o no) que representan

el grupo o categora a la cual pertenece un individuo.
CUANTITATIVAS: valores numricos para los que tiene sentido realizar
aritmtica.
En estadstica, las variables tambin las clasificamos en funcin del papel que tienen dentro
del anlisis de un determinado proyecto:
Variable Respuesta: variable que queremos explicar en el anlisis.

Variables Explicativas: variables que explican la variable respuesta.
Resumen de una prueba de hiptesis
Cmo determinar qu prueba es la idnea?

Variable respuesta categrica y variable explicativa categrica, ambas con dos o ms
categoras:
o En general, prueba 2
o Si el nmero de casillas de la tabla de contingencia con frecuencia esperada < 5 es
superior al 25 %: Test Exacto de Fisher o Razn de verosimilitud
______________________________________________________________________
Pgina 72 de 74

_______________________________________________________________
Variable respuesta continua y variable explicativa categrica (2 grupos):
o Si la distribucin de la respuesta en cada grupo es Normal: T-Test.
o Si la distribucin de la respuesta en cada grupo es Normal y no hay homogeneidad
de varianzas: T-Test con la correccin de Welch.
o Si la distribucin no es normal pero es continua: Test de Wilcoxon.
Variable respuesta continua y variable explicativa categrica (k grupos):
o Si la distribucin de la respuesta en cada grupo es Normal: ANOVA.
o Si la distribucin de la respuesta en cada grupo es Normal y no hay homogeneidad
de varianzas: ANOVA con la correccin de Welch.
o Si la distribucin no es normal pero es continua: Prueba de Kruskal-Wallis.
Cmo determinar si las pruebas T-Test o ANOVA son correctas?
Normalidad de la variable respuesta en cada grupo:
o Estudio grfico
o Prueba de Shapiro-Wilk
Homogeneidad de varianzas:
o Estudio grfico
o Prueba de Levene
______________________________________________________________________
Pgina 73 de 74

_______________________________________________________________
11 BIBLIOGRAFA
Fellows, I. (2012). Deducer: An R Graphical User Interface (GUI) for Everyone. Version
2012-01-05, URL www.Deducer.org/manual.html
Moore, D.S. (2010). The Basic practice of statistics. 5th edition. Freeman.
Wickham, H. (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag, New
York.
En la siguiente pgina web se puede encontrar ayuda sobre ejemplos de cdigo en R para
usuarios de R que se pueden implementar en Deducer:
www.statmethods.net
______________________________________________________________________
Pgina 74 de 74

Manual Curs Deducer

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Manual Curs Deducer

Uploaded by

Copyright:

Available Formats

Manual de Introduccin a

Deducer: una interfaz

Lloren Badiella. Director del Servei dEstadstica Aplicada

Manual de Introduccin a Deducer

Servei dEstadstica Aplicada

Manual de Introduccin a Deducer

Publicado por el Servei dEstadstica Aplicada de la UAB

Manual de Introduccin a Deducer

Manual de Introduccin a Deducer

INTRODUCCIN A DEDUCER ...................................................................... 8

Ventanas de trabajo ............................................................................................................. 8

GESTIN DE BASES DE DATOS ...................................................................17

Fundir archivos .................................................................................................................. 17

VALIDACIN DE LA BASE DE DATOS ....................................................... 25

ANLISIS DESCRIPTIVO ............................................................................... 26

INFERENCIA PARA UNA POBLACIN ...................................................... 45

Manual de Introduccin a Deducer

CONTRASTE DE HIPTESIS PARA UNA PROPORCIN ........................ 53

INFERENCIA PARA DOS POBLACIONES .................................................. 56

INFERENCIA PARA K POBLACIONES........................................................ 62

TABLAS DE CONTINGENCIA ...................................................................... 69

10 RESUMEN METODOLGICO ...................................................................... 72

Manual de Introduccin a Deducer

El programa se puede descargar gratuitamente desde la pgina web de Deducer:

Manual de Introduccin a Deducer

El programa est estructurado en dos ventanas diferentes:

Manual de Introduccin a Deducer

Manual de Introduccin a Deducer

2.1.2 El visor de datos

Crear y abrir ficheros

2.2.1 Crear una nueva base de datos

Observacin: El nombre de la base de datos no pueden tener acentos ni espacios.

Manual de Introduccin a Deducer

Manual de Introduccin a Deducer

Observacin: Los nombres de las variables no pueden tener acentos ni espacios.

Manual de Introduccin a Deducer

Character: variables de tipo cadena (texto)

Los niveles de las variables categricas (factores) se muestran en la columna Factor

Manual de Introduccin a Deducer

Importar bases de datos

2.3.1 Importar ficheros de Excel

2.3.2 Importar ficheros de SPSS

Manual de Introduccin a Deducer

2.3.3 Importar datos de texto

Observacin: En Deducer el separador de decimales es el punto.

Manual de Introduccin a Deducer

Guardar bases de datos

Las bases de datos pueden ser guardadas en los siguientes formatos:

Manual de Introduccin a Deducer

GESTIN DE BASES DE DATOS

Podemos encontrarnos en la situacin de tener recogidos los datos en diferentes ficheros y

Manual de Introduccin a Deducer

3.1.1 Aadir casos

Manual de Introduccin a Deducer

3.1.2 Aadir variables

Manual de Introduccin a Deducer

Manual de Introduccin a Deducer

En la pestaa Define Recode podemos definir cmo queremos hacer la recodificacin:

Manual de Introduccin a Deducer

Observacin: Un valor se puede recodificar como dato faltante (missing) indicando NA en

Manual de Introduccin a Deducer

Manual de Introduccin a Deducer

En ocasiones podemos estar interesados en estudiar un subconjunto de registros de la base

Observacin: Deducer distingue entre maysculas y minsculas.