You are on page 1of 32

STATGRAPHICS – Rev.

4/25/2007

Análisis de Una Variable

Resumen
El procedimiento Análisis de Una Variable es uno de los principales procedimientos para
analizar una sola columna de datos numéricos. Calcula estadísticas de resumen, lleva a cabo
pruebas de hipótesis, y crea una variedad de gráficos. Los gráficos incluyen gráfico de
dispersión, histograma, gráfico de caja y bigotes, gráfico de cuantiles, gráfico de probabilidad
normal, densidad suavizada, gráfico de simetría. Las tablas incluyen percentiles y diagrama de
tallo y hojas.

StatFolio de Ejemplo: onevar.sgp

Datos de Ejemplo:
El archivo bodytemp.sf3 contiene datos que describen la temperatura corporal de una muestra de
n = 130 personas. Se obtuvo del Journal of Statistical Education Data Archive
(www.amstat.org/publications/jse/jse data_archive.html) y originalmente apareció en el Journal
of the American Medical Association. A continuación se muestran las primeras 20 filas del
archivo.

Temperature Gender Heart Rate


(temperatura) (género) (ritmo cardiaco)
98.4 Male 84
98.4 Male 82
98.2 Female 65
97.8 Female 71
98 Male 78
97.9 Male 72
99 Female 79
98.5 Male 68
98.8 Female 64
98 Male 67
97.4 Male 78
98.8 Male 78
99.5 Male 75
98 Female 73
100.8 Female 77
97.1 Male 75
98 Male 71
98.7 Female 72
98.9 Male 80
99 Male 75

© 2005 por StatPoint, Inc. Análisis de Una Variable - 1


STATGRAPHICS – Rev. 4/25/2007

Ingreso de Datos
Los datos a analizar consisten de una sola columna numérica con n = 2 o más observaciones.

• Datos: columna numérica que contiene los datos a resumir.


• Selección: selección de un subgrupo de datos.

Resumen del Análisis


El Resumen del Análisis muestra el número de observaciones en la columna de datos.

Análisis de Una Variable - Temperature


Datos/Variable: Temperature (degrees)
130 valores con rango desde 96.3 a 100.8

También se muestran el mayor y el menor de los valores.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 2


STATGRAPHICS – Rev. 4/25/2007

Gráfico de Dispersión
El gráfico de dispersión grafica cada valor de los datos.

Gráfico de Dispersión

96 97 98 99 100 101
Temperature

Los valores de los datos se grafican a lo largo del eje horizontal. A lo largo del eje vertical, los
puntos se separan aleatoriamente hacia arriba o hacia abajo. Esto se hace para evitar que puntos
con igual valor se traslapen. La cantidad de separación se controla con el botón Separar en la
barra de herramientas de análisis:

Reduciendo la cantidad de separación Vertical se reducirá la cantidad de distanciamiento


aleatorio:

© 2005 por StatPoint, Inc. Análisis de Una Variable - 3


STATGRAPHICS – Rev. 4/25/2007

Gráfico de Dispersión

96 97 98 99 100 101
Temperature

Advierta que la nube de puntos es más densa cerca del rango medio de temperatura y se hace
menos densa en los valores superiores o inferiores. También hay un punto a 100.8° que parece
algo extremo. Si hace clic sobre ese punto, verá que corresponde a la fila #15 del archivo.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 4


STATGRAPHICS – Rev. 4/25/2007

Resumen Estadístico
La ventana del Resumen Estadístico calcula un número de diferentes estadísticas que
comúnmente se usan para resumir una muestra de n observaciones:

Resumen Estadístico para Temperature


Recuento 130
Promedio 98.2492
Mediana 98.3
Moda 98.0
Media Geométrica 98.2465
Media Recortada 5% 98.2517
Media Winsorizada 5% 98.2415
Varianza 0.537558
Desviación Estándar 0.733183
Coeficiente de Variación 0.746248%
Error Estándar 0.0643044
Sigma Winsorizada 5% 0.672257
DAM 0.5
Sbi 0.714878
Mínimo 96.3
Máximo 100.8
Rango 4.5
Cuartil Inferior 97.8
Cuartil Superior 98.7
Rango Intercuartílico 0.9
1/6 sextil 97.6
5/6 sextil 98.8
Rango Intersextil 1.2
Sesgo -0.00441913
Sesgo Estandarizado -0.0205699
Curtosis 0.780457
Curtosis Estandarizada 1.81642
Suma 12772.4
Suma de Cuadrados 1.25495E6

La mayoría de las estadísticas caen en una de tres categorías:

1. Medidas de tendencia central – estadísticas que caracterizan el “centro” de los datos.


2. Medidas de dispersión – estadísticas que miden la dispersión de los datos.
3. Medidas de forma – estadísticas que miden la forma de los datos con respecto a una
distribución normal.

Las estadísticas incluidas en la tabla se controlan por las definiciones de configuración en la


ventana Stats de la caja de diálogo Preferencias. Dentro del procedimiento, se puede cambiar la
selección usando la Ventana de Opciones. El significado de cada estadística se muestra a
continuación.

• Recuento – el tamaño n de la muestra, el número de estradas no faltantes en la columna.

• Promedio o media aritmética (medida de tendencia central) - el centro de masa de los datos, dado
por:

© 2005 por StatPoint, Inc. Análisis de Una Variable - 5


STATGRAPHICS – Rev. 4/25/2007
n

∑x i
x= i =1
(1)
n

• Mediana (medida de tendencia central) - el valor de en medio cuando los datos se ordenan de
menor a mayor. Si n es impar, la mediana muestral es igual a x(0.5+n/2), donde x(i) representa la i-
ésima observación más pequeña. Si n es par, la mediana muestral es igual al promedio de los dos
valores de en medio:

x(n / 2 ) + x(1+ n / 2 )
(2)
2

• Moda (medida de tendencia central) – el valor del dato que se presenta con mayor frecuencia
(si lo hubiera). Si ningún valor se presenta con mayor frecuencia que cualquier otro, esta
estadística no se calcula.

• Media Geométrica (medida de tendencia central) – estima el centro de los datos de acuerdo con
1/ n
⎛ n ⎞
⎜⎜ ∏ xi ⎟⎟ (3)
⎝ i =1 ⎠

Esta estadística se usa frecuentemente para datos que tienen un sesgo positivo, ya que estará
más cerca del pico de la distribución que la media aritmética. Nota: esta estadística sólo está
definida para una muestra de datos en la cual todos los valores son mayores que 0. El
programa calcula la estadística promediando el logaritmo natural de los valores de los datos y
tomando el antilogaritmo del resultado.

• Media Recortada en 100α% (medida de tendencia central) – la media dela muestra después
de remover una fracción α de los valores de los datos más pequeños y la misma fracción de
los mayores:

⎡ n − r −1

T (α ) =
1
⎢ k (x ( r +1) + x ( n−r ) ) + ∑ x(i ) ⎥ (4)
n(1 − 2α ) ⎣ i =r +2 ⎦

donde r = ⎣α n ⎦ y k = 1 − (α n − r ) . Por omisión, STATGRAPHICS recorta 15% de cada


extremo, aunque este valor puede cambiarse usando las Opciones de Ventana.

• Media Winsorizada (medida de tendencia central) – una medida robusta que se obtiene
calculando la media muestral después de haber remplazado con copias de x(r+1) y x(n-r) los
valores de los datos que se eliminarían en una media recortada:

TW =
1 ⎧ n−r
[ ⎫
⎨ ∑ x (i ) + r x ( r +1) + x( n − r ) ⎬
n ⎩i = r +1
] (5)

La media truncada y la media Winsorizada son ambas menos afectada por valores extremos
que la media aritmética.
© 2005 por StatPoint, Inc. Análisis de Una Variable - 6
STATGRAPHICS – Rev. 4/25/2007

• Varianza (medida de dispersión) – una medida de la desviación cuadrada promedio


alrededor de la media muestral:
n

∑ (x − x)
2
i
s2 = i =1
(6)
n −1

• Desviación Estándar (medida de dispersión) – la raíz cuadrada de la varianza muestral:

∑ (x − x)
2
i
s= i =1
(7)
n −1

• Coeficiente de Variación o desviación estándar relativa (medida de dispersión) – mide la


magnitud de la desviación estándar como un porcentaje de la media muestral de acuerdo con:
s
CV = 100 % (8)
x

Está definida solo si x > 0 .

• Error Estándar (medida de dispersión) – el error estándar de la media:

s
sx = (9)
n

• Sigma Winsorizada en 100α% (medida de dispersión) – una estimación Winsorizada de


variabilidad alrededor de la media Winsorizada:

⎧ n−r
[ ]
2 ⎫
n ⎨ ∑ (x (i ) − TW ) + r (x( r +1) − TW ) + (x( n − r ) − TW ) ⎬
2 2

SW = ⎩i = r +1 ⎭ (10)
(n − 2r )(n − 2r − 1)
• DAM – la desviación absoluta mediana:

DAM = medianai { xi − ~
x} (11)

• Sbi (medida de dispersión) – una estimación basada en una suma ponderada de cuadrados
alrededor de la mediana muestral:

© 2005 por StatPoint, Inc. Análisis de Una Variable - 7


STATGRAPHICS – Rev. 4/25/2007
2

( )
n
n∑ ( xi − ~
x ) 1 − u i2
4

i =1
S bi = (12)
∑ (1 − u )(1 − 5u )
n
2 2
i i
i =1

donde
xi − ~
x
ui = (13)
9 DAM

• Mínimo - el valor del dato más pequeño x(1).

• Máximo - el valor del dato más grande x(n).

• Rango (medida de dispersión) - el máximo menos el mínimo:

R = x(n) - x(1) (14)

• Cuartil Inferior - el 25ọ percentil. Aproximadamente 25% de los valores de los datos
estarán por debajo de este valor.

• Cuartil Superior - el 75ọ percentil. Aproximadamente 75% de los valores de los datos
estarán por debajo de este valor.

• Rango Intercuartílico (medida de dispersión) – la distancia entre los cuartiles:

RIC = cuartil superior – cuartil inferior (15)

• 1/6 sextil (sextil inferior) - el 16.67ọ percentil.

• 5/6 sextil (sextil superior) - el 83.33ọ percentil.

• Rango Intersextil (medida de dispersión) - la distancia entre los sextiles:

RIS = sextil superior – sextil inferior (16)

• Sesgo (medida de forma) – una medida de asimetría calculada de acuerdo con:


n
n ∑ ( xi − x )
3

g1 = i =1
(17)
(n − 1)(n − 2)s 3
Un valor cercano a 0 correspondería a una muestra de datos casi simétrica. Un sesgo
positivo indica una cola superior más larga que la inferior, mientras que un sesgo negativo
indica una cola inferior más larga.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 8


STATGRAPHICS – Rev. 4/25/2007
• Sesgo Estandarizado (medida de forma) - convierte la estadística de sesgo calculada
anteriormente a un valor que tiene aproximadamente una distribución normal estándar en
muestras grandes:

g1
z1 = (18)
6/n

Al nivel de significancia del 5%, de podría declarar un sesgo significativo si z1 cae fuera del
intervalo (-2, +2).

• Curtosis (medida de forma) – una medida de lo relativamente picudo o plano comparado con
una curva con forma de campana:
n
n(n + 1)∑ ( xi − x )
4

3(n − 1)
2
g2 = i =1
− (19)
(n − 1)(n − 2)(n − 3)s 4 (n − 2)(n − 3)
Un valor cercano a 0 correspondería a una distribución normal con forma casi de campana.
Una curtosis positiva indica una distribución que es más picuda en el centro y tiene colas más
largas que la normal. Una curtosis negativa indica una distribución que es más aplanada que
la normal con colas más cortas. Esta medida generalmente es relevante sólo para caracterizar
muestras de datos simétricos.

• Curtosis Estandarizada (medida de forma) – convierte la estadística curtosis calculada


anteriormente a un valor que tiene aproximadamente una distribución normal estándar en
muestras grandes:

g2
z2 = (20)
24 / n

Al nivel de significancia del 5%, de podría declarar una curtosis significativa si z2 cae fuera
del intervalo (-2, +2).

• Suma - la suma de los valores de los datos.

• Suma de Cuadrados - la suma de los valores al cuadrado de los datos.

Para los datos de temperatura corporal, todas las medidas de tendencia central son muy similares,
como debieran ser si la temperatura corporal siguiera una distribución simétrica tal como la
normal. El sesgo y la curtosis estandarizados están ambos entre -2 y +2, indicando que no hay
desviación significativa en forma con respecto a una distribución normal.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 9


STATGRAPHICS – Rev. 4/25/2007
Opciones de Ventana

Seleccione las estadísticas deseadas.

Gráfico de Caja y Bigotes


Esta ventana presenta el gráfico de caja y bigotes.

Gráfico de Caja y Bigotes

96 97 98 99 100 101
Temperature

Este gráfico se construye de la siguiente forma:

• Se dibuja una caja que se extienda desde el cuartil inferior de la muestra hasta el
cuartil superior. Este es el intervalo cubierto por el 50% central de los valores de los
datos cuando se ordenan de menor a mayor.

• Se dibuja una línea vertical en la mediana (el valor de en medio).

• Si se solicita, un signo de más se coloca en el lugar de la media muestral.


© 2005 por StatPoint, Inc. Análisis de Una Variable - 10
STATGRAPHICS – Rev. 4/25/2007

• Los bigotes se dibujan desde los extremos de la caja hasta los valores mínimo y
máximo de los datos, a menos que haya valores inusualmente muy alejados de la caja
(a los cuales Tukey llama puntos extremos). Los puntos extremos, que son puntos a
más de 1.5 veces el rango intercuartílico (ancho de la caja) por arriba o por debajo de
la caja, se indican por símbolos de señalamiento. Cualesquiera puntos a más de 3
veces el rango intercuartílico por arriba o por debajo de la caja se les llama puntos
extremos lejanos, y se indican por símbolos de señalamiento con signos de más
superpuestos por arriba de ellos. Si hay presentes puntos aberrantes (extremos o
extremos lejanos), los bigotes se dibujan a los valores máximo y mínimo que no sean
puntos aberrantes.

El gráfico anterior para los datos de temperatura corporal es muy simétrico. El signo de más para
la media se encuentra muy cerca de la línea para la mediana, mientras que los bigotes son
aproximadamente de igual longitud. Hay 3 puntos extremos. Cuando se muestrean 130
observaciones de una distribución normal, se puede esperar que se presenten puntos extremos tan
solo por azar como la mitad de las veces, pero generalmente sólo uno o dos. Puntos extremos
lejanos, de los cuales no hay, se presentan de manera extremadamente rara.

Opciones de Ventana

• Dirección: la orientación del gráfico, correspondiente a la dirección de los bigotes.


• Muesca sobre la Mediana: si se selecciona, se agregará una muesca al gráfico que muestra
un intervalo de confianza de aproximadamente 100(1-α)% para la mediana al nivel de
confianza por omisión del sistema (establecido en la pestaña General de la caja de diálogo de
las Preferencias en el menú Editar).
• Mostrar aberrantes: si se selecciona, indica la localización de los puntos extremos.
• Mostrar Media: si se selecciona, muestra la localización de la media muestral así como la
mediana.

Ejemplo – Gráfico de Caja y Bigotes con Muescas


El siguiente gráfico muestra la adición de unas muescas a la mediana a un nivel de confianza del
95%.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 11


STATGRAPHICS – Rev. 4/25/2007

Gráfico de Caja y Bigotes


Intervalos de confianza del 95% para la mediana: [98.1567, 98.4433]

96 97 98 99 100 101
Temperature

La muesca cubre el intervalo

1.25( RIC )
mediana muestral ± zα / 2 (21)
1.35 n

donde RIC es el rango intercuartílico muestral, n es el tamaño de la muestra, y zα/2 es el valor


crítico superior del (α/2)% de una distribución normal estándar. La muesca, que va de
aproximadamente 98.16 a 98.44, provee de una indicación del potencial error de muestreo en la
mediana, suponiendo que los datos son una muestra aleatoria de una población normal. Advierta
que este intervalo no contiene el valor generalmente citado para la temperatura corporal
promedio del humano de 98.6°.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 12


STATGRAPHICS – Rev. 4/25/2007

Tabla de Frecuencias
Un método común de resumir datos cuantitativos es construir k intervalos que cubran el rango de
los datos y luego calcular el número de observaciones que caen dentro de cada intervalo.
STATGRAPHICS presenta este tipo de tabla en la ventana Tabla de Frecuencias:

Tabla de Frecuencias para Temperature


Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 96.0 0 0.0000 0 0.0000
1 96.0 96.25 96.125 0 0.0000 0 0.0000
2 96.25 96.5 96.375 2 0.0154 2 0.0154
3 96.5 96.75 96.625 2 0.0154 4 0.0308
4 96.75 97.0 96.875 3 0.0231 7 0.0538
5 97.0 97.25 97.125 6 0.0462 13 0.1000
6 97.25 97.5 97.375 8 0.0615 21 0.1615
7 97.5 97.75 97.625 7 0.0538 28 0.2154
8 97.75 98.0 97.875 23 0.1769 51 0.3923
9 98.0 98.25 98.125 13 0.1000 64 0.4923
10 98.25 98.5 98.375 17 0.1308 81 0.6231
11 98.5 98.75 98.625 18 0.1385 99 0.7615
12 98.75 99.0 98.875 17 0.1308 116 0.8923
13 99.0 99.25 99.125 6 0.0462 122 0.9385
14 99.25 99.5 99.375 5 0.0385 127 0.9769
15 99.5 99.75 99.625 0 0.0000 127 0.9769
16 99.75 100.0 99.875 2 0.0154 129 0.9923
17 100.0 100.25 100.125 0 0.0000 129 0.9923
18 100.25 100.5 100.375 0 0.0000 129 0.9923
19 100.5 100.75 100.625 0 0.0000 129 0.9923
20 100.75 101.0 100.875 1 0.0077 130 1.0000
21 101.0 101.25 101.125 0 0.0000 130 1.0000
22 101.25 101.5 101.375 0 0.0000 130 1.0000
23 101.5 101.75 101.625 0 0.0000 130 1.0000
24 101.75 102.0 101.875 0 0.0000 130 1.0000
mayor de 102.0 0 0.0000 130 1.0000
Media = 98.2492 Desviación Estándar = 0.733183

Esta tabla está vinculada con el Histograma de Frecuencias y presenta la siguiente información
para cada intervalo o “clase”:

• Límite Inferior – el límite inferior de la clase.

• Límite Superior - el límite superior de la clase

• Punto Medio – el punto medio de la clase (a la mitad del recorrido entre los límites
superior e inferior).

• Frecuencia – el número de observaciones fj que son mayores que el límite inferior de


la clase y menores o iguales al límite superior.

• Frecuencia Relativa - la proporción de observaciones que caen en cada clase, dada


por fj/n.

• Frecuencia Acumulada - el número de observaciones que caen en la clase actual o


en las previas:
© 2005 por StatPoint, Inc. Análisis de Una Variable - 13
STATGRAPHICS – Rev. 4/25/2007
j

∑f
i =1
i (22)

• Frecuencia Relativa Acumulada – la proporción de observaciones que caen en la


clase actual o en las previas:

∑f
i =1
i
(23)
n

La columna más a la derecha es de considerable interés, ya que corresponde a la distribución


acumulada de las observaciones. Por ejemplo, 62.31% de los datos es menor o igual a 98.5°.

Opciones de Ventana

• Número de Clases: el número de intervalos en los que se dividirán los datos. Los intervalos
son adyacentes unos a otros y de la misma amplitud.

• Límite Inferior: límite inferior del primer intervalo.

• Límite Superior: límite superior del último intervalo.

• Mantener: conserva el número de intervalos y límites seleccionados aún cuando cambien los
datos fuente. Por omisión, el número de clases y los límites se recalculan siempre que
cambien los datos. Esto es necesario para que todas las observaciones se exhiban aun cuando
algunos de los nuevos datos cayeran fuera de los límites originales.

El número de intervalos en los cuales los datos son agrupados por omisión se establece por el
criterio especificado en la pestaña AED de la caja de diálogo de Preferencia en el menú Editar.
Cada criterio determina el número de intervalos m como una función del tamaño muestral n. Los
criterios son:

Regla de Sturges: m = ceiling(1 + 3.322 log(n) ) (24)

10 log10(n): m= ceiling(10 log(n) ) (25)

Regla de Scott: m = ceiling[ (max-min) / (3.5 s / n1/3) ] (26)


© 2005 por StatPoint, Inc. Análisis de Una Variable - 14
STATGRAPHICS – Rev. 4/25/2007

Regla de Freedman-Diaconis: m = ceiling[ (max-min) /(2.0 RIC/ n1/3) ] (27)

Número fijo: m = número pre-definido (28)

donde min es igual al valor del dato más pequeño en la muestra, max es igual al valor del dato
más grande, s es igual a la desviación estándar muestral, RIC es igual al rango intercuartílico
muestral, y la función ceiling (techo) encuentra el entero más pequeño mayor o igual a su
argumento, es decir, redondea al entero superior. Puede experimentar con diferentes criterios
para determinar cuál da un buen número de intervalos para su tipo de datos más común.

Histograma de Frecuencias
La ventana Histograma de Frecuencias presenta el resultado de la tabla de frecuencias en la
forma de un diagrama de barras o un gráfico de líneas, dependiendo de las definiciones de
configuración de las Opciones de Ventana.

Histograma

24

20

16
frecuencia

12

0
96 97 98 99 100 101 102
Temperature

La altura de cada barra en el gráfico anterior representa el número de observaciones en cada


clase.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 15


STATGRAPHICS – Rev. 4/25/2007
Opciones de Ventana

• Número de Clases: el número de intervalos en los que se dividirán los datos. Los intervalos
son adyacentes unos a otros y de la misma amplitud.

• Límite Inferior: límite inferior del primer intervalo.

• Límite Superior: límite superior del último intervalo.

• Mantener: conserva el número de intervalos y límites seleccionados aún cuando cambien los
datos fuente. Por omisión, el número de clases y los límites se recalculan siempre que
cambien los datos. Esto es necesario para que todas las observaciones se exhiban aun cuando
algunos de los nuevos datos cayeran fuera de los límites originales.

• Frecuencia: si es Relativa, la altura representa la proporción de las observaciones con


respecto al total en la muestra, y de no señalarse la altura representa el número de
observaciones. Si es Acumulada, la altura representa las observaciones en el intervalo
indicado y en todos los intervalos a su izquierda, y de no señalarse la altura representa las
observaciones en un solo intervalo.

• Tipo de Gráfico: si es Histograma, las frecuencias de las clases se mostrarán como un


diagrama de barras. Si es Polígono, las frecuencias de las clases se mostrarán usando un
gráfico de líneas conectadas.

Ejemplo – Polígono de Frecuencias Acumuladas

Estableciendo el Tipo de Gráfico como Polígono y señalando los cuadros de Acumulada y


Relativa da una presentación de la distribución acumulada de los datos:

© 2005 por StatPoint, Inc. Análisis de Una Variable - 16


STATGRAPHICS – Rev. 4/25/2007

Histograma

100

porcentaje 80

60

40

20

0
96 97 98 99 100 101 102
Temperature

El gráfico anterior muestra el porcentaje de observaciones en el o por debajo del límite superior
de cada intervalo dentro del cual se agruparon los datos. Se puede ver que alrededor del 50% de
los datos caen por debajo de 98.3°.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 17


STATGRAPHICS – Rev. 4/25/2007

Diagrama de Tallo y Hojas


El diagrama de tallo y hojas también presenta una tabla de los datos.

Diagrama de Tallo y Hoja para Temperature: unidad = 0.1 1|2 representa 1.2

BAJO|96.3 96.4

2 96|
6 96|7789
19 97|0111222344444
40 97|556666777888888899999
(38) 98|00000000000111222222222233333444444444
52 98|555666666666677777777888888888899
19 99|000001112223344
4 99|59
2 100|0

ALTO|100.8

Este diagrama, debido a John Tukey (1977), toma cada valor de los datos y lo divide en un tallo
y una hoja. Por ejemplo, la temperatura del primer sujeto en la muestra de datos tiene una
temperatura de 98.4°. Llamemos a los dos primeros dígitos (“98”) el tallo, y al tercer dígito
(“4”) la hoja. Cada fila del diagrama de tallo y hojas corresponde a valores con el mismo tallo,
mostrado a la izquierda de la línea vertical. A la derecha de la línea vertical, se muestra un solo
dígito presentado la hoja para cada valor de los datos. Por ejemplo, la fila que muestra

98|00000000000111222222222233333444444444

indica que hubo 11 sujetos con temperatura de 90.0°, 3 sujetos con temperatura de 98.1°, 10 con
98.2°, 5 con 98.3°, y 9 con una de 98.4°. Puntos extremos, definidos de igual forma que para el
gráfico de caja y bigotes, se grafican en tallos especiales HI y LO (alto y bajo).

Los números en la columna de hasta la izquierda, llamados profundidades (depths), dan una
cuenta acumulada de las observaciones de arriba y abajo hacia el centro del diagrama. En la fila
que contiene la medina, en cambio se muestra puesto entre paréntesis el número de
observaciones en esa fila.

Aunque similar a un histograma volcado en su costado, Tukey pensó que el gráfico de tallo y
hojas era preferible a un diagrama de barras ya que los valores de los datos podían recuperarse a
partir del diagrama. Él usaba las profundidades para localizar la median y los cuartiles cuando
tabulaba los datos a mano.

Opciones de Ventana

• Marcar Aberrantes: si se selecciona, los puntos aberrantes se pondrán en tallos separados


HI (de high, alto) y LO (de low, bajo). De otro modo, se incluirán en la parte principal del
gráfico.
© 2005 por StatPoint, Inc. Análisis de Una Variable - 18
STATGRAPHICS – Rev. 4/25/2007

Percentiles
El p-ésimo percentil de una distribución de probabilidad continua se define como el valor de X
para el cual la probabilidad de ser menor o igual a X es de p/100. Por ejemplo, el 90ọ percentil
es el valor por debajo del cual está el 90% de la población. La ventana de Percentiles presenta
una tabla de percentiles seleccionados con base en los datos muestrales.

Percentiles para Temperature


Percentiles Límite Inferior Límite Superior
1.0% 96.4 96.2713 96.7643
5.0% 97.0 96.829 97.2211
10.0% 97.25 97.1232 97.4677
25.0% 97.8 97.6062 97.8882
50.0% 98.3 98.1222 98.3762
75.0% 98.7 98.6102 98.8922
90.0% 99.1 99.0308 99.3753
95.0% 99.3 99.2774 99.6695
99.0% 100.0 99.7342 100.227

El informe incluye 95.0% de límites de confianza Normal.

Por ejemplo, el 90ọ percentil de los datos de temperatura corporal es igual a 99.1°, lo que implica
que 90% de todos los sujetos tuvo temperatura de 99.1° o inferior. Si se solicitan usando las
Opciones de Ventana, también se pueden incluir los límites inferior y superior de confianza o
cotas de confianza unilaterales, asumiendo que los datos son muestras aleatorias de una
distribución normal. El intervalo del 95% de confianza para la temperatura a la cual o debajo de
la cual uno encontraría el 90% de todos los individuos semejantes a los del estudio va de 99.03°
a 99.38°.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 19


STATGRAPHICS – Rev. 4/25/2007
Opciones de Ventana

• Percentiles: los porcentajes a los que se deberán calcular los percentiles. Poner en 0 para
eliminar el cálculo.

• Incluir Límites Normales: señalar para incluir límites de confianza o cotas con base en el
supuesto de que los datos son muestras aleatorias de una distribución normal.

• Nivel de Confianza: nivel para los límites o las cotas.

• Tipo: seleccione Bi-Lateral para un intervalo de confianza, o una cota unilateral, Cota
inferior o Cota superior, para calcular una cota inferior o superior, respectivamente, para el
percentil.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 20


STATGRAPHICS – Rev. 4/25/2007

Gráfico de Cuantiles

Esta ventana grafica los cuantiles (percentiles) de los datos.

Gráfico Cuantil

0.8
proporción

0.6

0.4

0.2

0
96 97 98 99 100 101
Temperature

En este gráfico, los datos se ordenan de menor a mayor y se grafican en las coordenadas

⎛ j − 0.5 ⎞
⎜ x( j ) , ⎟ (29)
⎝ n ⎠

La forma de S mostrada arriba es típica de una distribución normal con forma de campana.

Gráfico de Probabilidad Normal


A semejanza del Gráfico de Cuantiles, el Gráfico de Probabilidad Normal muestra los datos de
menor a mayor. Sin embargo, lo hace de manera que es posible juzgar si los datos provienen o no
de una distribución normal.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 21


STATGRAPHICS – Rev. 4/25/2007

Gráfico de Probabilidad Normal

99.9
99
95
porcentaje

80
50
20
5
1
0.1
96 97 98 99 100 101
Temperature

El eje vertical se escala de tal manera que, si los datos provienen de una distribución normal, los
puntos deberán caer aproximadamente a lo largo de una línea recta. Para construir el gráfico, los
puntos se grafican en las coordenadas

⎛ ⎛ j − 0.375 ⎞ ⎞
⎜⎜ x( j ) , Φ −1 ⎜ ⎟ ⎟⎟ (30)
⎝ ⎝ n + 0.25 ⎠ ⎠

donde Φ −1 (u ) representa la distribución normal estándar inversa evaluada en u. Las etiquetas a


lo largo del eje vertical son iguales a 100u%, para valores de u que van de 0.001 a 0.999.

Para ayudar a determinar que tan cercanamente los puntos corresponden a una línea recta, se
puede superponer una línea de referencia en el gráfico que corresponda a una distribución normal
con media μ y desviación estándar σ. Hay dos opciones para ajustar la línea:

1. Usando la mediana y los cuartiles muestrales:

μ̂ = mediana muestral (31)

σ̂ = rango intercuartílico / 1.35 (32)

2. Ajustando una regresión por mínimos cuadrados de los cuantiles normales de los
valores de los datos ordenados.

μ̂ = - intercepto / pendiente (33)

σ̂ = 1 / pendiente (34)

El primer método es más robusto a desviaciones de la normalidad en las colas de la distribución,


ya que esencialmente se apoya solo en la mitad central. Valores aberrantes o colas largas
tendrán una mayor influencia al usar el método de mínimos cuadrados.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 22


STATGRAPHICS – Rev. 4/25/2007
Como generalmente es el caso, la opción de mínimos cuadrados muestra un ajuste mucho más
cercano a los datos de temperatura:

Gráfico de Probabilidad Normal

99.9
99
95
porcentaje

80
50
20
5
1
0.1
96 97 98 99 100 101
Temperature

Excepto por un valor, los demás puntos están muy próximos a la línea.

Nota: establezca el método por omisión para ajustar líneas en el gráfico de probabilidad normal
usando la ventana AED en la caja de diálogo de las Preferencias, del menú Editar.

Opciones de Ventana

• Dirección: la orientación del gráfico. Si es Vertical, el Porcentaje se presenta en el eje


vertical. Si es Horizontal, el Porcentaje se presenta en el eje horizontal.

• Línea Ajustada: el método usado para ajustar la línea de referencia a los datos. Si es Usando
Cuartiles, la línea pasa por la mediana cuando el Porcentaje es de 50 con una pendiente
determinada a partir del rango intercuartílico. Si es Usando Mínimos Cuadrados, la línea se
ajusta con la regresión por mínimos cuadrados de los cuantiles normales de las estadísticas de
orden. El primer método basado en los cuartiles da más peso a la forma de los datos cerca del
centro y frecuentemente permite mostrar desviaciones de la normalidad en las colas que no
serían evidentes usando el método de mínimos cuadrados.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 23


STATGRAPHICS – Rev. 4/25/2007
Intervalos de Confianza
La ventana Intervalos de Confianza muestra intervalos de confianza para la media y la
desviación estándar. Si se le solicita, también incluye intervalos para la media, mediana y
desviación estándar calculados por el método bootstrap.

Intervalos de Confianza para Temperature


Intervalos de confianza del 95.0% para la media: 98.2492 +/- 0.127228 [98.122, 98.3765]
Intervalos de confianza del 95.0% para la desviación estándar: [0.653586, 0.835043]

Intervalos Bootstrap
Media: [98.1262, 98.3938]
Desviación Estándar: [0.624436, 0.833003]
Mediana: [98.15, 98.4]

Los intervalos de confianza al 95% se construyen de tal manera que, en repetidos muestreos,
95% de tales intervalos contendrán el verdadero valor del parámetro que se estima. También
puede ver un intervalo de confianza como especificando el “margen de error” de la misma forma
como se enuncia cuando se hace una encuesta de opinión. En el ejemplo anterior, aunque la
temperatura media en la muestra fue de 98.25°, la media en la población de la cual los datos
fueron muestreados bien puede diferir de esa estimación por 0.13° en cualquier dirección.

Los intervalos de confianza para la media y la desviación estándar descansan en el supuesto de


que los datos provienen de una distribución normal. Si esto no se puede sostener, entonces una
alternativa es construir intervalos usando el método bootstrap. En este método, se forman q
submuestras seleccionando aleatoriamente con reemplazo (i.e., la misma observación puede ser
seleccionada más de una vez) m observaciones de la muestra original. Para cada una de las q
submuestras, se calculan la media, la median y la desviación estándar. Luego se obtienen
intervalos de confianza bilaterales o unilaterales usando percentiles de la distribución observada
de las estadísticas de las submuestras. Si los datos no provienen de una distribución normal, los
intervalos bootstrap pueden diferir considerablemente de los obtenidos analíticamente. También,
a causa de la naturaleza aleatoria de este procedimiento, se obtendrán diferentes resultados cada
vez que el método bootstrap se lleve a cabo.

Opciones de Ventana

• Nivel de Confianza: nivel para los intervalos bilaterales o unilaterales.


• Tipo de Intervalo: seleccione Bi-Lateral para un intervalo de confianza o para una cota de
confianza seleccione Cota Superior o Cota Inferior.
• Incluir Bootstrap: incluye intervalos bootstrap en la salida.
• Número de Submuestras: el número de submuestras q en las que se basarán los intervalos.
Nota: cada submuestra tendrá m = n observaciones, muestreadas con reemplazo.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 24


STATGRAPHICS – Rev. 4/25/2007
Pruebas de Hipótesis
Frecuentemente surgen circunstancias donde es necesario determinar si la muestra proviene de
una distribución con una media o desviación estándar particulares. Por ejemplo, comúnmente se
asume que la temperatura media del ser humano es de 98.6°. Para determinar si esta es o no una
aseveración razonable dados los datos que han sido colectados, son posibles dos enfoques:

1. Construir un intervalo de confianza para la media y determinar si 98.6° está o no dentro


del intervalo de confianza.

2. Realizar una prueba de hipótesis estadística formal.

La ventana de las Pruebas de Hipótesis da soporte al último enfoque.

Prueba t para la Media

A continuación se muestra la parte superior de la salida:


Prueba de Hipótesis para Temperature
Media Muestral = 98.2492
Mediana Muestral = 98.3
Desviación Estándar de la Muestra = 0.733183

Prueba t
Hipótesis Nula: media = 98.6
Alternativa: no igual

Estadístico t = -5.45482
Valor-P = 4.37123E-7
Se rechaza la hipótesis nula para alfa = 0.05.

Para correr una prueba de hipótesis, se formulan dos hipótesis que entran en competencia:

• Hipótesis Nula: una hipótesis tal como μ = 98.6° a la que se le dará el beneficio de la
duda. El valor especificado por la hipótesis nula se etiqueta μ0.

• Hipótesis Alternativa: una hipótesis tal como μ ≠ 98.6° que conducirá al rechazo de la
hipótesis nula si hay suficiente evidencia en contra de la nula.

El enfoque estadístico estándar a este problema es construir una prueba t usando:

x − μ0
t= (35)
s/ n

y comparándola con una distribución t de Student con ν = n - 1 grados de libertad.

La tabla anterior muestra los resultados de esta prueba:

• Estadístico t calculado – el valor calculado t = -5.455

© 2005 por StatPoint, Inc. Análisis de Una Variable - 25


STATGRAPHICS – Rev. 4/25/2007
• Valor de P – un valor que puede ser usado para rechazar la hipótesis nula si es lo
suficientemente pequeño. Al nivel de significancia α = 5%, la hipótesis nula se
rechazará si P < 0.05.

En este caso, hay una muy fuerte evidencia de que los datos no provienen de una población en la
cual la media sea igual a 98.6°.

Prueba para la Mediana

Si la distribución de la que provienen los datos no es normal, tal vez sea de mayor interés probar una
hipótesis sobre la mediana poblacional más que sobre la media. STATGRAPHICS realiza dos de
tales pruebas: una prueba de los signos y una prueba de rangos con signo.
Prueba de los signos
Hipótesis Nula: mediana = 98.6
Alternativa: no igual

Número de valores menores a la mediana hipotética: 81


Número de valores mayores a la mediana hipotética: 39

Estadístico para Grandes Muestras = 3.74277 (aplicada la corrección por continuidad)


Valor-P = 0.000182057
Se rechaza la hipótesis nula para alfa = 0.05.

Prueba de rangos con signo


Hipótesis Nula: mediana = 98.6
Alternativa: no igual

Rango medio de valores menores a la mediana hipotética: 67.7222


Rango medio de valores mayores a la mediana hipotética: 45.5

Estadístico para Grandes Muestras = 4.86 (aplicada la corrección por continuidad)


Valor-P = 0.00000117545
Se rechaza la hipótesis nula para alfa = 0.05.

La Prueba de los Signos se basa en la comparación del número de observaciones por debajo de
la mediana hipotética con el número de observaciones por arriba de la misma. Una gran
discrepancia conduce al rechazo de la hipótesis nula. La Prueba de Rangos con Signo le da rango
a las diferencias absolutas entre los datos y la mediana hipotética de menor a mayor y compara el
rango promedio de las observaciones por debajo de la media hipotética con el rango promedio de
las de por arriba.

De primordial importancia en la tabla anterior son los Valores de P. Valores pequeños (por
debajo de 0.05 si se trabaja al nivel de significancia del 5%) conducen al rechazo de la hipótesis
nula. En el presente ejemplo, ambas pruebas rechazan la idea de que la mediana de la
temperatura corporal es igual a 98.6°.

Prueba para la Desviación Estándar

También es posible probar hipótesis sobre la desviación estándar de la población. El estadístico


de prueba es

© 2005 por StatPoint, Inc. Análisis de Una Variable - 26


STATGRAPHICS – Rev. 4/25/2007
Χ2 =
(n − 1)s 2
(36)
σ 02

que se compara con una distribución chi-cuadrada con ν = n - 1 grados de libertad. Pequeños
valores de P conducen al rechazo del valor de la desviación estándar σ0 especificado por la
hipótesis nula.

Opciones de Ventana

• Prueba t, Prueba de los Signos, Prueba de Rangos con Signo, Prueba Chi-Cuadrada: definen
las pruebas que se llevarán a cabo.

• Media/Mediana: μ0, el valor de la media o mediana especificada por la hipótesis nula.

• Desviación Estándar: σ0, el valor de la desviación estándar especificada por la hipótesis nula.

• Alfa: el nivel de significancia de la prueba, generalmente establecido en 0.01, 0.05 ó 0.10. Éste es
igual a la probabilidad de rechazar la hipótesis nula siendo cierta. No afecta al Valor de P, solo las
concusiones expuestas inmediatamente a continuación del Valor de P.

• Hipótesis Alternativa.: la hipótesis alternativa puede ser de dos colas (“Diferente de”) o de una
cola (tal como μ < 98.6 si se especifica “Menor que”).

© 2005 por StatPoint, Inc. Análisis de Una Variable - 27


STATGRAPHICS – Rev. 4/25/2007
Densidad Suavizada
La Densidad Suavizada provee una estimación no paramétrica de la función de densidad de
probabilidad de la población de la cual fueron muestreados los datos. Se crea contando el número de
observaciones que caen dentro de una ventana de ancho fijo que se mueve a través del rango de los
datos.

Densidad Suavizada

0.4

0.3
densidad

0.2

0.1

0
96 97 98 99 100 101
Temperature

La función de densidad estimada está dada por:

1 n ⎛ x − xi ⎞
f ( x) = ∑W ⎜
hn i =1 ⎝ h ⎠
⎟ (37)

donde h es el ancho de la ventana en unidades de X y W(u) es una función ponderadora


determinada por la selección en la caja de diálogo de las Opciones de ventana. Se ofrecen dos
formas de función ponderadora:

Método del Vagón

⎧1 si u ≤ 1 / 2
W (u ) = ⎨ (38)
⎩0 en otro caso

Función Coseno

⎧1 + cos(2πu ) si u ≤ 1 / 2
W (u ) = ⎨ (39)
⎩0 en otro caso

La última selección generalmente da un resultado más suave, con el valor deseado de h


dependiendo del tamaño de la muestra de datos.

Para los datos muestrales, la densidad suavizada se parece mucho a una distribución normal.
© 2005 por StatPoint, Inc. Análisis de Una Variable - 28
STATGRAPHICS – Rev. 4/25/2007

Opciones de Ventana

• Método: la función ponderadora deseada. El Método del Vagón pondera todos los valores de
igual forma dentro de la ventana. La función coseno da pesos decrecientes a las
observaciones más alejadas del centro de la ventana. La selección por omisión está
determinada por las definiciones de configuración en la pestaña AED de la caja de diálogo de
las Preferencias del menú Editar.

• Ancho del Intervalo: el ancho h de la ventana dentro de la cual las observaciones afectan la
densidad estimada, como un porcentaje del rango cubierto por el eje x. h = 60% no es
irrazonable para una muestra pequeña pero puede no dar tanto detalle como lo haría un valor
menor en muestras más grandes.

• Resolución del Eje X: el número de puntos en los cuales se estimará la densidad.

Gráfico de Simetría
El gráfico de simetría se usa para ayudar a juzgar si los datos provienen de una distribución
simétrica, i.e., una distribución que tiene una función de densidad con la misma forma a cada
lado de la mediana.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 29


STATGRAPHICS – Rev. 4/25/2007

Gráfico de Simetría

2.5

distancia sobre mediana 2

1.5

0.5

0
0 0.5 1 1.5 2 2.5
distancia abajo mediana

Para crear este gráfico, los valores de los datos se ordenan y luego se hacen pares con base en su
localización con respecto a la mediana. Por ejemplo, con 130 observaciones, los puntos
ordenados se aparean así:

(x(65),x(66), (x(64),x(67)), (x(63),x(68)), …, (x(1),x(100))

Se grafica la distancia de cada par por arriba y por debajo de la mediana. Si los datos provienen
de una distribución simétrica, los puntos deberán caer cerca de una línea a 45 grados. Si no, los
puntos se desviarán de la línea en una dirección particular. La gráfica anterior tiende a desviarse
por debajo de la línea diagonal sobre mucho del rango de X, lo que indicaría una cola inferior
más larga que la superior. Unos valores extremos al final, sin embargo, rompen ese patrón.

Salvar Resultados
Se pueden salvar los siguientes resultados en la hoja de datos:

1. Resumen Estadístico – los valores de las estadísticas mostradas en la ventana Resumen


Estadístico.
2. Etiquetas de las Estadísticas – las etiquetas para las estadísticas mostradas en la ventana
Resumen Estadístico.
3. Percentiles – los valores de los percentiles exhibidos en la ventana Percentiles.
4. Frecuencias – las frecuencias de clase exhibidas en la ventana Tabla de Frecuencias.
5. Frecuencias Acumuladas – las frecuencias acumuladas de clase exhibidas en la ventana
Tabla de Frecuencias.
6. Frecuencias Relativas – las frecuencias relativas de clase exhibidas en la ventana Tabla
de Frecuencias.
7. Frecuencias Relativas Acumuladas – las frecuencias relativas acumuladas de clase
exhibidas en la ventana Tabla de Frecuencias.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 30


STATGRAPHICS – Rev. 4/25/2007
Cálculos

Percentiles

1. Calcule la estadística de orden x(j) = j-ésimo valor más pequeño de dato.

2. Para el p-ésimo percentile, sea q=p/100. (40)

3. Si nq es un entero, sean

j1=nq (41)

j2 = 1+nq (42)

4. De otro modo si nq no es un entero, sea

j1 = j2 = floor(1+nq) (43)

donde la función floor (piso) devuelve el entero más grande menor o igual a su
argumento.

5. El p-ésimo percentil está dado por

x( j1 ) + x( j2 )
(44)
2

Intervalo de Confianza para la Media

s
x ± tα / 2,n −1 (45)
n

Intervalo de Confianza para la Desviación Estándar

⎡ (n − 1)s 2 (n − 1)s 2 ⎤
⎢ , ⎥ (46)
⎣⎢ χ α / 2,n −1 χ 12−α / 2,n −1 ⎦⎥
2

Prueba de los Signos

Dada una mediana hipotética θ0, sea

n- = número de xi < θ0 (47)

n+ = número de xi > θ0 (48)

Entonces

© 2005 por StatPoint, Inc. Análisis de Una Variable - 31


STATGRAPHICS – Rev. 4/25/2007
(n− + n+ )
max(n− , n+ ) − 0.5 −
z= 2 (49)
n− + n+
4

se compara con una distribución normal estándar.

Prueba de Rangos con Signo

Dada una mediana hipotética θ0, asigne el rango a las desviaciones de la mediana hipotética |xi -
θ0|. Sea

T- = suma de rangos para todas las xi < θ0 (50)

T+ = suma de rangos para todas las xi > θ0 (51)

Entonces
n(n + 1)
T − − 0.5 −
z− = 4 (52)
n(n + 1)(2n + 1) S

24 48

n(n + 1)
T + − 0.5 −
z+ = 4 (53)
n(n + 1)(2n + 1) S

24 48

donde n = n- + n+ y S=0 a menos que haya observaciones empatadas. Si hay g grupos de


observaciones empatadas, y tj es igual al tamaño del j-ésimo grupo de empates, entonces

g
S = ∑ t j (t j − 1)(t j + 1) (54)
j =1

Para una prueba de dos colas, la mayor de las dos estadísticas Z se compara con una distribución
normal estándar. Para una prueba de una cola, solo se usa la estadística correspondiente a la
dirección de la hipótesis alternativa.

© 2005 por StatPoint, Inc. Análisis de Una Variable - 32

You might also like