Professional Documents
Culture Documents
4/25/2007
Resumen
El procedimiento Análisis de Una Variable es uno de los principales procedimientos para
analizar una sola columna de datos numéricos. Calcula estadísticas de resumen, lleva a cabo
pruebas de hipótesis, y crea una variedad de gráficos. Los gráficos incluyen gráfico de
dispersión, histograma, gráfico de caja y bigotes, gráfico de cuantiles, gráfico de probabilidad
normal, densidad suavizada, gráfico de simetría. Las tablas incluyen percentiles y diagrama de
tallo y hojas.
Datos de Ejemplo:
El archivo bodytemp.sf3 contiene datos que describen la temperatura corporal de una muestra de
n = 130 personas. Se obtuvo del Journal of Statistical Education Data Archive
(www.amstat.org/publications/jse/jse data_archive.html) y originalmente apareció en el Journal
of the American Medical Association. A continuación se muestran las primeras 20 filas del
archivo.
Ingreso de Datos
Los datos a analizar consisten de una sola columna numérica con n = 2 o más observaciones.
Gráfico de Dispersión
El gráfico de dispersión grafica cada valor de los datos.
Gráfico de Dispersión
96 97 98 99 100 101
Temperature
Los valores de los datos se grafican a lo largo del eje horizontal. A lo largo del eje vertical, los
puntos se separan aleatoriamente hacia arriba o hacia abajo. Esto se hace para evitar que puntos
con igual valor se traslapen. La cantidad de separación se controla con el botón Separar en la
barra de herramientas de análisis:
Gráfico de Dispersión
96 97 98 99 100 101
Temperature
Advierta que la nube de puntos es más densa cerca del rango medio de temperatura y se hace
menos densa en los valores superiores o inferiores. También hay un punto a 100.8° que parece
algo extremo. Si hace clic sobre ese punto, verá que corresponde a la fila #15 del archivo.
Resumen Estadístico
La ventana del Resumen Estadístico calcula un número de diferentes estadísticas que
comúnmente se usan para resumir una muestra de n observaciones:
• Promedio o media aritmética (medida de tendencia central) - el centro de masa de los datos, dado
por:
∑x i
x= i =1
(1)
n
• Mediana (medida de tendencia central) - el valor de en medio cuando los datos se ordenan de
menor a mayor. Si n es impar, la mediana muestral es igual a x(0.5+n/2), donde x(i) representa la i-
ésima observación más pequeña. Si n es par, la mediana muestral es igual al promedio de los dos
valores de en medio:
x(n / 2 ) + x(1+ n / 2 )
(2)
2
• Moda (medida de tendencia central) – el valor del dato que se presenta con mayor frecuencia
(si lo hubiera). Si ningún valor se presenta con mayor frecuencia que cualquier otro, esta
estadística no se calcula.
• Media Geométrica (medida de tendencia central) – estima el centro de los datos de acuerdo con
1/ n
⎛ n ⎞
⎜⎜ ∏ xi ⎟⎟ (3)
⎝ i =1 ⎠
Esta estadística se usa frecuentemente para datos que tienen un sesgo positivo, ya que estará
más cerca del pico de la distribución que la media aritmética. Nota: esta estadística sólo está
definida para una muestra de datos en la cual todos los valores son mayores que 0. El
programa calcula la estadística promediando el logaritmo natural de los valores de los datos y
tomando el antilogaritmo del resultado.
• Media Recortada en 100α% (medida de tendencia central) – la media dela muestra después
de remover una fracción α de los valores de los datos más pequeños y la misma fracción de
los mayores:
⎡ n − r −1
⎤
T (α ) =
1
⎢ k (x ( r +1) + x ( n−r ) ) + ∑ x(i ) ⎥ (4)
n(1 − 2α ) ⎣ i =r +2 ⎦
• Media Winsorizada (medida de tendencia central) – una medida robusta que se obtiene
calculando la media muestral después de haber remplazado con copias de x(r+1) y x(n-r) los
valores de los datos que se eliminarían en una media recortada:
TW =
1 ⎧ n−r
[ ⎫
⎨ ∑ x (i ) + r x ( r +1) + x( n − r ) ⎬
n ⎩i = r +1
] (5)
⎭
La media truncada y la media Winsorizada son ambas menos afectada por valores extremos
que la media aritmética.
© 2005 por StatPoint, Inc. Análisis de Una Variable - 6
STATGRAPHICS – Rev. 4/25/2007
∑ (x − x)
2
i
s2 = i =1
(6)
n −1
∑ (x − x)
2
i
s= i =1
(7)
n −1
s
sx = (9)
n
⎧ n−r
[ ]
2 ⎫
n ⎨ ∑ (x (i ) − TW ) + r (x( r +1) − TW ) + (x( n − r ) − TW ) ⎬
2 2
SW = ⎩i = r +1 ⎭ (10)
(n − 2r )(n − 2r − 1)
• DAM – la desviación absoluta mediana:
DAM = medianai { xi − ~
x} (11)
• Sbi (medida de dispersión) – una estimación basada en una suma ponderada de cuadrados
alrededor de la mediana muestral:
( )
n
n∑ ( xi − ~
x ) 1 − u i2
4
i =1
S bi = (12)
∑ (1 − u )(1 − 5u )
n
2 2
i i
i =1
donde
xi − ~
x
ui = (13)
9 DAM
• Cuartil Inferior - el 25ọ percentil. Aproximadamente 25% de los valores de los datos
estarán por debajo de este valor.
• Cuartil Superior - el 75ọ percentil. Aproximadamente 75% de los valores de los datos
estarán por debajo de este valor.
g1 = i =1
(17)
(n − 1)(n − 2)s 3
Un valor cercano a 0 correspondería a una muestra de datos casi simétrica. Un sesgo
positivo indica una cola superior más larga que la inferior, mientras que un sesgo negativo
indica una cola inferior más larga.
g1
z1 = (18)
6/n
Al nivel de significancia del 5%, de podría declarar un sesgo significativo si z1 cae fuera del
intervalo (-2, +2).
• Curtosis (medida de forma) – una medida de lo relativamente picudo o plano comparado con
una curva con forma de campana:
n
n(n + 1)∑ ( xi − x )
4
3(n − 1)
2
g2 = i =1
− (19)
(n − 1)(n − 2)(n − 3)s 4 (n − 2)(n − 3)
Un valor cercano a 0 correspondería a una distribución normal con forma casi de campana.
Una curtosis positiva indica una distribución que es más picuda en el centro y tiene colas más
largas que la normal. Una curtosis negativa indica una distribución que es más aplanada que
la normal con colas más cortas. Esta medida generalmente es relevante sólo para caracterizar
muestras de datos simétricos.
g2
z2 = (20)
24 / n
Al nivel de significancia del 5%, de podría declarar una curtosis significativa si z2 cae fuera
del intervalo (-2, +2).
Para los datos de temperatura corporal, todas las medidas de tendencia central son muy similares,
como debieran ser si la temperatura corporal siguiera una distribución simétrica tal como la
normal. El sesgo y la curtosis estandarizados están ambos entre -2 y +2, indicando que no hay
desviación significativa en forma con respecto a una distribución normal.
96 97 98 99 100 101
Temperature
• Se dibuja una caja que se extienda desde el cuartil inferior de la muestra hasta el
cuartil superior. Este es el intervalo cubierto por el 50% central de los valores de los
datos cuando se ordenan de menor a mayor.
• Los bigotes se dibujan desde los extremos de la caja hasta los valores mínimo y
máximo de los datos, a menos que haya valores inusualmente muy alejados de la caja
(a los cuales Tukey llama puntos extremos). Los puntos extremos, que son puntos a
más de 1.5 veces el rango intercuartílico (ancho de la caja) por arriba o por debajo de
la caja, se indican por símbolos de señalamiento. Cualesquiera puntos a más de 3
veces el rango intercuartílico por arriba o por debajo de la caja se les llama puntos
extremos lejanos, y se indican por símbolos de señalamiento con signos de más
superpuestos por arriba de ellos. Si hay presentes puntos aberrantes (extremos o
extremos lejanos), los bigotes se dibujan a los valores máximo y mínimo que no sean
puntos aberrantes.
El gráfico anterior para los datos de temperatura corporal es muy simétrico. El signo de más para
la media se encuentra muy cerca de la línea para la mediana, mientras que los bigotes son
aproximadamente de igual longitud. Hay 3 puntos extremos. Cuando se muestrean 130
observaciones de una distribución normal, se puede esperar que se presenten puntos extremos tan
solo por azar como la mitad de las veces, pero generalmente sólo uno o dos. Puntos extremos
lejanos, de los cuales no hay, se presentan de manera extremadamente rara.
Opciones de Ventana
96 97 98 99 100 101
Temperature
1.25( RIC )
mediana muestral ± zα / 2 (21)
1.35 n
Tabla de Frecuencias
Un método común de resumir datos cuantitativos es construir k intervalos que cubran el rango de
los datos y luego calcular el número de observaciones que caen dentro de cada intervalo.
STATGRAPHICS presenta este tipo de tabla en la ventana Tabla de Frecuencias:
Esta tabla está vinculada con el Histograma de Frecuencias y presenta la siguiente información
para cada intervalo o “clase”:
• Punto Medio – el punto medio de la clase (a la mitad del recorrido entre los límites
superior e inferior).
∑f
i =1
i (22)
∑f
i =1
i
(23)
n
Opciones de Ventana
• Número de Clases: el número de intervalos en los que se dividirán los datos. Los intervalos
son adyacentes unos a otros y de la misma amplitud.
• Mantener: conserva el número de intervalos y límites seleccionados aún cuando cambien los
datos fuente. Por omisión, el número de clases y los límites se recalculan siempre que
cambien los datos. Esto es necesario para que todas las observaciones se exhiban aun cuando
algunos de los nuevos datos cayeran fuera de los límites originales.
El número de intervalos en los cuales los datos son agrupados por omisión se establece por el
criterio especificado en la pestaña AED de la caja de diálogo de Preferencia en el menú Editar.
Cada criterio determina el número de intervalos m como una función del tamaño muestral n. Los
criterios son:
donde min es igual al valor del dato más pequeño en la muestra, max es igual al valor del dato
más grande, s es igual a la desviación estándar muestral, RIC es igual al rango intercuartílico
muestral, y la función ceiling (techo) encuentra el entero más pequeño mayor o igual a su
argumento, es decir, redondea al entero superior. Puede experimentar con diferentes criterios
para determinar cuál da un buen número de intervalos para su tipo de datos más común.
Histograma de Frecuencias
La ventana Histograma de Frecuencias presenta el resultado de la tabla de frecuencias en la
forma de un diagrama de barras o un gráfico de líneas, dependiendo de las definiciones de
configuración de las Opciones de Ventana.
Histograma
24
20
16
frecuencia
12
0
96 97 98 99 100 101 102
Temperature
• Número de Clases: el número de intervalos en los que se dividirán los datos. Los intervalos
son adyacentes unos a otros y de la misma amplitud.
• Mantener: conserva el número de intervalos y límites seleccionados aún cuando cambien los
datos fuente. Por omisión, el número de clases y los límites se recalculan siempre que
cambien los datos. Esto es necesario para que todas las observaciones se exhiban aun cuando
algunos de los nuevos datos cayeran fuera de los límites originales.
Histograma
100
porcentaje 80
60
40
20
0
96 97 98 99 100 101 102
Temperature
El gráfico anterior muestra el porcentaje de observaciones en el o por debajo del límite superior
de cada intervalo dentro del cual se agruparon los datos. Se puede ver que alrededor del 50% de
los datos caen por debajo de 98.3°.
Diagrama de Tallo y Hoja para Temperature: unidad = 0.1 1|2 representa 1.2
BAJO|96.3 96.4
2 96|
6 96|7789
19 97|0111222344444
40 97|556666777888888899999
(38) 98|00000000000111222222222233333444444444
52 98|555666666666677777777888888888899
19 99|000001112223344
4 99|59
2 100|0
ALTO|100.8
Este diagrama, debido a John Tukey (1977), toma cada valor de los datos y lo divide en un tallo
y una hoja. Por ejemplo, la temperatura del primer sujeto en la muestra de datos tiene una
temperatura de 98.4°. Llamemos a los dos primeros dígitos (“98”) el tallo, y al tercer dígito
(“4”) la hoja. Cada fila del diagrama de tallo y hojas corresponde a valores con el mismo tallo,
mostrado a la izquierda de la línea vertical. A la derecha de la línea vertical, se muestra un solo
dígito presentado la hoja para cada valor de los datos. Por ejemplo, la fila que muestra
98|00000000000111222222222233333444444444
indica que hubo 11 sujetos con temperatura de 90.0°, 3 sujetos con temperatura de 98.1°, 10 con
98.2°, 5 con 98.3°, y 9 con una de 98.4°. Puntos extremos, definidos de igual forma que para el
gráfico de caja y bigotes, se grafican en tallos especiales HI y LO (alto y bajo).
Los números en la columna de hasta la izquierda, llamados profundidades (depths), dan una
cuenta acumulada de las observaciones de arriba y abajo hacia el centro del diagrama. En la fila
que contiene la medina, en cambio se muestra puesto entre paréntesis el número de
observaciones en esa fila.
Aunque similar a un histograma volcado en su costado, Tukey pensó que el gráfico de tallo y
hojas era preferible a un diagrama de barras ya que los valores de los datos podían recuperarse a
partir del diagrama. Él usaba las profundidades para localizar la median y los cuartiles cuando
tabulaba los datos a mano.
Opciones de Ventana
Percentiles
El p-ésimo percentil de una distribución de probabilidad continua se define como el valor de X
para el cual la probabilidad de ser menor o igual a X es de p/100. Por ejemplo, el 90ọ percentil
es el valor por debajo del cual está el 90% de la población. La ventana de Percentiles presenta
una tabla de percentiles seleccionados con base en los datos muestrales.
Por ejemplo, el 90ọ percentil de los datos de temperatura corporal es igual a 99.1°, lo que implica
que 90% de todos los sujetos tuvo temperatura de 99.1° o inferior. Si se solicitan usando las
Opciones de Ventana, también se pueden incluir los límites inferior y superior de confianza o
cotas de confianza unilaterales, asumiendo que los datos son muestras aleatorias de una
distribución normal. El intervalo del 95% de confianza para la temperatura a la cual o debajo de
la cual uno encontraría el 90% de todos los individuos semejantes a los del estudio va de 99.03°
a 99.38°.
• Percentiles: los porcentajes a los que se deberán calcular los percentiles. Poner en 0 para
eliminar el cálculo.
• Incluir Límites Normales: señalar para incluir límites de confianza o cotas con base en el
supuesto de que los datos son muestras aleatorias de una distribución normal.
• Tipo: seleccione Bi-Lateral para un intervalo de confianza, o una cota unilateral, Cota
inferior o Cota superior, para calcular una cota inferior o superior, respectivamente, para el
percentil.
Gráfico de Cuantiles
Gráfico Cuantil
0.8
proporción
0.6
0.4
0.2
0
96 97 98 99 100 101
Temperature
En este gráfico, los datos se ordenan de menor a mayor y se grafican en las coordenadas
⎛ j − 0.5 ⎞
⎜ x( j ) , ⎟ (29)
⎝ n ⎠
La forma de S mostrada arriba es típica de una distribución normal con forma de campana.
99.9
99
95
porcentaje
80
50
20
5
1
0.1
96 97 98 99 100 101
Temperature
El eje vertical se escala de tal manera que, si los datos provienen de una distribución normal, los
puntos deberán caer aproximadamente a lo largo de una línea recta. Para construir el gráfico, los
puntos se grafican en las coordenadas
⎛ ⎛ j − 0.375 ⎞ ⎞
⎜⎜ x( j ) , Φ −1 ⎜ ⎟ ⎟⎟ (30)
⎝ ⎝ n + 0.25 ⎠ ⎠
Para ayudar a determinar que tan cercanamente los puntos corresponden a una línea recta, se
puede superponer una línea de referencia en el gráfico que corresponda a una distribución normal
con media μ y desviación estándar σ. Hay dos opciones para ajustar la línea:
2. Ajustando una regresión por mínimos cuadrados de los cuantiles normales de los
valores de los datos ordenados.
σ̂ = 1 / pendiente (34)
99.9
99
95
porcentaje
80
50
20
5
1
0.1
96 97 98 99 100 101
Temperature
Excepto por un valor, los demás puntos están muy próximos a la línea.
Nota: establezca el método por omisión para ajustar líneas en el gráfico de probabilidad normal
usando la ventana AED en la caja de diálogo de las Preferencias, del menú Editar.
Opciones de Ventana
• Línea Ajustada: el método usado para ajustar la línea de referencia a los datos. Si es Usando
Cuartiles, la línea pasa por la mediana cuando el Porcentaje es de 50 con una pendiente
determinada a partir del rango intercuartílico. Si es Usando Mínimos Cuadrados, la línea se
ajusta con la regresión por mínimos cuadrados de los cuantiles normales de las estadísticas de
orden. El primer método basado en los cuartiles da más peso a la forma de los datos cerca del
centro y frecuentemente permite mostrar desviaciones de la normalidad en las colas que no
serían evidentes usando el método de mínimos cuadrados.
Intervalos Bootstrap
Media: [98.1262, 98.3938]
Desviación Estándar: [0.624436, 0.833003]
Mediana: [98.15, 98.4]
Los intervalos de confianza al 95% se construyen de tal manera que, en repetidos muestreos,
95% de tales intervalos contendrán el verdadero valor del parámetro que se estima. También
puede ver un intervalo de confianza como especificando el “margen de error” de la misma forma
como se enuncia cuando se hace una encuesta de opinión. En el ejemplo anterior, aunque la
temperatura media en la muestra fue de 98.25°, la media en la población de la cual los datos
fueron muestreados bien puede diferir de esa estimación por 0.13° en cualquier dirección.
Opciones de Ventana
Prueba t
Hipótesis Nula: media = 98.6
Alternativa: no igual
Estadístico t = -5.45482
Valor-P = 4.37123E-7
Se rechaza la hipótesis nula para alfa = 0.05.
Para correr una prueba de hipótesis, se formulan dos hipótesis que entran en competencia:
• Hipótesis Nula: una hipótesis tal como μ = 98.6° a la que se le dará el beneficio de la
duda. El valor especificado por la hipótesis nula se etiqueta μ0.
• Hipótesis Alternativa: una hipótesis tal como μ ≠ 98.6° que conducirá al rechazo de la
hipótesis nula si hay suficiente evidencia en contra de la nula.
x − μ0
t= (35)
s/ n
En este caso, hay una muy fuerte evidencia de que los datos no provienen de una población en la
cual la media sea igual a 98.6°.
Si la distribución de la que provienen los datos no es normal, tal vez sea de mayor interés probar una
hipótesis sobre la mediana poblacional más que sobre la media. STATGRAPHICS realiza dos de
tales pruebas: una prueba de los signos y una prueba de rangos con signo.
Prueba de los signos
Hipótesis Nula: mediana = 98.6
Alternativa: no igual
La Prueba de los Signos se basa en la comparación del número de observaciones por debajo de
la mediana hipotética con el número de observaciones por arriba de la misma. Una gran
discrepancia conduce al rechazo de la hipótesis nula. La Prueba de Rangos con Signo le da rango
a las diferencias absolutas entre los datos y la mediana hipotética de menor a mayor y compara el
rango promedio de las observaciones por debajo de la media hipotética con el rango promedio de
las de por arriba.
De primordial importancia en la tabla anterior son los Valores de P. Valores pequeños (por
debajo de 0.05 si se trabaja al nivel de significancia del 5%) conducen al rechazo de la hipótesis
nula. En el presente ejemplo, ambas pruebas rechazan la idea de que la mediana de la
temperatura corporal es igual a 98.6°.
que se compara con una distribución chi-cuadrada con ν = n - 1 grados de libertad. Pequeños
valores de P conducen al rechazo del valor de la desviación estándar σ0 especificado por la
hipótesis nula.
Opciones de Ventana
• Prueba t, Prueba de los Signos, Prueba de Rangos con Signo, Prueba Chi-Cuadrada: definen
las pruebas que se llevarán a cabo.
• Desviación Estándar: σ0, el valor de la desviación estándar especificada por la hipótesis nula.
• Alfa: el nivel de significancia de la prueba, generalmente establecido en 0.01, 0.05 ó 0.10. Éste es
igual a la probabilidad de rechazar la hipótesis nula siendo cierta. No afecta al Valor de P, solo las
concusiones expuestas inmediatamente a continuación del Valor de P.
• Hipótesis Alternativa.: la hipótesis alternativa puede ser de dos colas (“Diferente de”) o de una
cola (tal como μ < 98.6 si se especifica “Menor que”).
Densidad Suavizada
0.4
0.3
densidad
0.2
0.1
0
96 97 98 99 100 101
Temperature
1 n ⎛ x − xi ⎞
f ( x) = ∑W ⎜
hn i =1 ⎝ h ⎠
⎟ (37)
⎧1 si u ≤ 1 / 2
W (u ) = ⎨ (38)
⎩0 en otro caso
Función Coseno
⎧1 + cos(2πu ) si u ≤ 1 / 2
W (u ) = ⎨ (39)
⎩0 en otro caso
Para los datos muestrales, la densidad suavizada se parece mucho a una distribución normal.
© 2005 por StatPoint, Inc. Análisis de Una Variable - 28
STATGRAPHICS – Rev. 4/25/2007
Opciones de Ventana
• Método: la función ponderadora deseada. El Método del Vagón pondera todos los valores de
igual forma dentro de la ventana. La función coseno da pesos decrecientes a las
observaciones más alejadas del centro de la ventana. La selección por omisión está
determinada por las definiciones de configuración en la pestaña AED de la caja de diálogo de
las Preferencias del menú Editar.
• Ancho del Intervalo: el ancho h de la ventana dentro de la cual las observaciones afectan la
densidad estimada, como un porcentaje del rango cubierto por el eje x. h = 60% no es
irrazonable para una muestra pequeña pero puede no dar tanto detalle como lo haría un valor
menor en muestras más grandes.
Gráfico de Simetría
El gráfico de simetría se usa para ayudar a juzgar si los datos provienen de una distribución
simétrica, i.e., una distribución que tiene una función de densidad con la misma forma a cada
lado de la mediana.
Gráfico de Simetría
2.5
1.5
0.5
0
0 0.5 1 1.5 2 2.5
distancia abajo mediana
Para crear este gráfico, los valores de los datos se ordenan y luego se hacen pares con base en su
localización con respecto a la mediana. Por ejemplo, con 130 observaciones, los puntos
ordenados se aparean así:
Se grafica la distancia de cada par por arriba y por debajo de la mediana. Si los datos provienen
de una distribución simétrica, los puntos deberán caer cerca de una línea a 45 grados. Si no, los
puntos se desviarán de la línea en una dirección particular. La gráfica anterior tiende a desviarse
por debajo de la línea diagonal sobre mucho del rango de X, lo que indicaría una cola inferior
más larga que la superior. Unos valores extremos al final, sin embargo, rompen ese patrón.
Salvar Resultados
Se pueden salvar los siguientes resultados en la hoja de datos:
Percentiles
3. Si nq es un entero, sean
j1=nq (41)
j2 = 1+nq (42)
j1 = j2 = floor(1+nq) (43)
donde la función floor (piso) devuelve el entero más grande menor o igual a su
argumento.
x( j1 ) + x( j2 )
(44)
2
s
x ± tα / 2,n −1 (45)
n
⎡ (n − 1)s 2 (n − 1)s 2 ⎤
⎢ , ⎥ (46)
⎣⎢ χ α / 2,n −1 χ 12−α / 2,n −1 ⎦⎥
2
Entonces
Dada una mediana hipotética θ0, asigne el rango a las desviaciones de la mediana hipotética |xi -
θ0|. Sea
Entonces
n(n + 1)
T − − 0.5 −
z− = 4 (52)
n(n + 1)(2n + 1) S
−
24 48
n(n + 1)
T + − 0.5 −
z+ = 4 (53)
n(n + 1)(2n + 1) S
−
24 48
g
S = ∑ t j (t j − 1)(t j + 1) (54)
j =1
Para una prueba de dos colas, la mayor de las dos estadísticas Z se compara con una distribución
normal estándar. Para una prueba de una cola, solo se usa la estadística correspondiente a la
dirección de la hipótesis alternativa.