You are on page 1of 49

Estadstica Bsica

en SPSS
1

Clase 3:
Medidas Bsicas de Estadstica
Descriptiva; Medidas de Tendencia Central
y de Forma

Juan Ignacio Venegas

Clase Anterior
2

Presentacin de Datos en la Estadstica Descriptiva:


Tablas de frecuencia
Histogramas y grficos de barras.
Tablas de contingencia
Taller N1

Clase Anterior
3

Clase N 3
4

Parmetros y estimadores
Medidas bsicas de estadstica descriptiva: Medidas de
tendencia central.
Medidas bsicas de estadstica descriptiva: Medidas de
forma.
Taller N2.

Estadstica Descriptiva
5

La estadstica descriptiva puede definirse como un


mtodo para organizar y describir datos utilizando
tablas, grficos y diferentes medidas de resumen.
Todo anlisis a ser realizado a los datos va a depender
de los niveles de medicin de las variables.

Poblacin y Muestra
6

Poblacin

Es un conjunto de elementos del que se pretende


obtener informacin

Ejemplos:
ciudadanos
chilenos,
latinoamericanos, hospitales pblicos.

Su tamao se define con la letra N

Censo: observar
poblacin

todos

los

elementos

pases

de

una

Poblacin y Muestra
7

Muestra

Una muestra hace referencia a una parte de la


poblacin

Su tamao se define con la letra n

Parmetros y Estimadores
8

Parmetro:
Medida resumen calculada respecto a toda una
poblacin. Ej: El peso promedio de la poblacin de las
mujeres chilenas mayores de 18: 56,3 kg.
La idea es resumir toda la informacin que hay en la
poblacin en unos pocos nmeros (parmetros).
Estimador:
Medida resumen calculada sobre una muestra: Ej: El
peso promedio de una muestra de 3284 mujeres
chilenas mayores de 18: 57,5kg.
Esperamos que sea lo ms cercano a su valor
poblacional.

Parmetros y Estimadores
9

Parmetros o Estimadores son medidas resmenes que


permiten describir o caracterizar distribuciones de datos
poblacionales o mustrales.
Una distribucin de datos hace referencia a la forma que
toman (o se distribuyen) los diferentes valores de una variable
en una poblacin o muestra.
Algunas medidas resumen:
estndar, Curtosis, etc.

Media,

Moda,

Desviacin

250

200

150

100

50

20

40

60

Edad del encuestado

80

Parmetros y Estimadores
10

Poblacin

Parmetro: Valor numrico que


resume todos los datos de una
poblacin.

Muestra

Estadstico
o
Estadgrafo
o
Estimador :Valor numrico que
resume los datos de una muestra

Para cada medida resumen existen diferentes notaciones segn


si se trata del parmetro o del estadstico.

Estadsticos Descriptivos
11

Medidas numricas estimadas para resumir informacin de las


distribuciones mustrales o poblacionales. Hay diferentes
tipos:
Medidas de Tendencia Central:
valores situados al centro de las
distribuciones que representan
espacios donde los datos tienden
a agruparse (Media, Mediana,
Moda) .

Medidas de Posicin: describen


la localizacin relativa de los datos
de una distribucin en base a la
divisin de los datos en diferentes
grupos (percentiles, deciles).

Medidas de Forma comparan la


forma
de
las
distribuciones
respecto a la distribucin normal
(Asimetra, Curtosis).

Medidas
de
Dispersin:
describen la variabilidad de los
datos de una distribucin (Rango,
Varianza, Desv. Std).

Estadsticos Descriptivos
12

Clase de Hoy
13

Medidas numricas estimadas para resumir informacin de las


distribuciones mustrales o poblacionales. Hay diferentes
tipos:
Medidas de Tendencia Central:
valores situados al centro de las
distribuciones que representan
espacios donde los datos tienden
a agruparse (Media, Mediana,
Moda)

Medidas de Posicin: describen


la localizacin relativa de los datos
de una distribucin en base a la
divisin de los datos en diferentes
grupos (percentiles, deciles).

Medidas de Forma comparan la


forma
de
las
distribuciones
respecto a la distribucin normal
(Asimetra, Curtosis).

Medidas
de
Dispersin:
describen la variabilidad de los
datos de una distribucin. (Rango,
Varianza, Desv. Std).

Medidas de Tendencia Central


14

Medidas resumen que permiten caracterizar las


distribuciones respecto a valores donde los datos
tienden a agruparse o concentrarse.
Se sitan al centro de las distribuciones.
Moda, Mediana y Media.
No son aplicables a toda distribucin, dependiendo su
pertinencia del nivel de medicin de la variable que
origina la distribucin.

La Moda (Mode)
15

Es el valor de la distribucin de una variable que aparece


o se da con mayor frecuencia en una muestra o
poblacin.
Es pertinente para analizar distribuciones de variables
nominales, ordinales y numricas.
En una distribucin de frecuencias, es el valor donde la
distribucin de frecuencias alcanza su mximo.
Ej: Notas Prueba Matemticas: 6 - 3 - 4 4 - 7 - 4 - 5 66-6

La Moda (Mode)
16

Una distribucin de datos puede tener ms de una moda:


dos modas= distribucin bimodal.

La Moda (Mode)
17

En variables nominales y ordinales, la moda no


corresponde al nmero asignado a la categora que tenga
mayor frecuencia, sino que a la categora en si misma.
Ej: Nivel de Acuerdo con la frase:
Me gusta como funciona la democracia en nuestro pas

Muy de Acuerdo (5)


De Acuerdo (4)
Ni de Acuerdo Ni en Desacuerdo
(3)
En Desacuerdo (2)
Muy en Desacuerdo (1)
No Sabe (99)
Total

Frecuencia

Porcentaje %

58
384

1,7%
11,1%

500
1392
1034
88
3456

14,5%
40,3%
29,9%
2,5%
100%

La Moda (Mode)
18

Limitacin: no sabemos qu ocurre con el resto de la


distribucin.
Es poco informativa para variables intervalares.
Sirve ms para describir variables nominales, ordinales y
numricas discretas con pocas categoras.
Pese a servir para variables nominales, la moda no tiene
mucho sentido como medida de algo central en este
tipo de variables.
No es una medida muy confiable respecto a datos
mustrales, dado que su valor puede variar mucho entre
diferentes muestras.

La Mediana (Median)
19

Valor de la distribucin que divide los casos en dos mitades


iguales.
50% de las observaciones sern mayores que la mediana y
50% de las observaciones sern menores que la mediana.
Es pertinente para analizar distribuciones de variables
ordinales y numricas, dado que se requiere que el orden
de los datos tenga sentido.
Es el valor cntrico de una serie de datos ordenados de
menor a mayor.
En
2 2datos
3 4 ordenados
4 4 8 con
8 9un 9 nmero
10 10impar
10 de
observaciones, el valor = (n+1)/2 = (13+1)/7 = 7to caso
6 casos

Mediana

6
casos

La Mediana (Median)
20

Cuando el tamao de la muestra es par, la mediana


corresponde al promedio de los dos valores que se
encuentran al medio de la distribucin.
No tiene porque ser uno de los valores del conjunto de las
observaciones.
Sirve igualmente la frmula (n+1)/2 : (14+1)/2 = 7,5 =
mediana es el valor entre el caso 7to y 8vo.
No se deja influenciar por valores extremos.
2

7 casos

4 8

10

7
casos
Mediana = (4+8)/2 =6

10

10

La Mediana en Variables Ordinales


21

Es aquella categora donde se alcanza el 50% o ms de


los valores (La mitad).
Se puede observar fcilmente en la columna porcentaje
acumulado de una tabla de frecuencias.

Ejemplo Mediana
22

Mediana= 5
El valor 5 divide la
distribucin
de
las
respuestas en 2 grupos
iguales.
En una escala de 1 a 7, el
50% de la muestra otorga
un grado de importancia
de al menos 5 al cambio
de la constitucin.
En una escala donde 1 es nada de importante y 7 es muy
importante,
Qu tan importante crees que es cambiar la
constitucin?

Ejemplo Mediana
23

Porcentaje
Vlido

Porcentaje
Acumulado

10,2%

10,2%

5,8%

16%

6,3%

22,4%

14,1%

36,4%

19,6%

56%

17,9%

73,9%

26,1%

100%

Total

100%

Mediana= 5
En una escala de 1 a 7, el
50% o ms otorga un
grado de importancia de 5
o ms al cambio de la
constitucin.

En una escala donde 1 es nada de importante y 7 es muy


importante,
Qu tan importante crees que es cambiar la
constitucin?

La Media (Mean)
24

Suma de las puntuaciones dividida por el nmero de


observaciones.
Se obtiene sumando los valores de una variable y
dividiendo luego por el nmero de casos.
Solamente puede utilizarse para variables de nivel
intervalar o de razn.
Tambin es conocida como el promedio o la media
aritmtica.
Ej: Media de 2,2,3,7 es (2+2+3+7)/4=3,5

La Media (Mean)
25

Es la medida de tendencia central ms utilizada.


Es mayormente conveniente cuando los datos
concentran simtricamente con respecto a este valor.

se

Es muy sensible a los valores extremos o outliers (Ojo con


valores perdidos extremos).
Ej: Promedio de Ingreso Mensual del Jefe de Hogar.
1.
2.
3.
4.
5.
6.
7.

$320.000
$220.000
$450.000
$670.000
$1.320.000
$770.000
$23.520.000

Promedio de Ingreso: $3.895.714

La Media (Mean)
26

Media de una muestra:


X

donde

indica la suma de todos las X

n es el nmero total de valores en la muestra

Media de una poblacin:


X

N
indica la media poblacional.
N es el nmero total de observaciones en la poblacin

Cundo usar Moda, Media y/o Media?


27

Las tres medidas pueden ser tiles para describir una


distribucin, siendo en algunos casos unas ms
relevantes que otras.
Lo primero: Niveles de Medicin:
Moda

Mediana

Nominales

Ordinales

Intervalo o razn

Media

Cundo usar Moda, Media y/o Media?


28

Habiendo calculado las medidas atingentes a cada


variable, preguntarse Cul(es) de esta(s) medida(s)
resume de mejor forma lo ocurrido en mi distribucin de
datos?
Consejos:

La Moda no es muy relevante en variables numricas con muchas categoras.

Para datos mustrales, es complejo usar la moda dado que pueda variar mucho entre muestras.

La mediana es ms estable entre muestras, siendo un buena medida descriptiva para datos mustrales y poblacionales.

Cundo usar Moda, Media y/o Media?


29

Habiendo calculado las medidas atingentes a cada


variable, preguntarse Cul(es) de esta(s) medida(s)
resume de mejor forma lo ocurrido en mi distribucin de
datos?
Consejos:

Si hay muchos valores extremos es mejor la mediana que la media.

La media no es tan til si los datos no son simtricos, ya que los valores extremos distorsionan el valor de la media como un valor representativo de la distribucin.

Al haber muchos valores extremos usar media recortada.

En relacin a datos mustrales, la media es la medida ms estable.

Ejemplo 1
30

Valor Hogar en UF

Estadsticos
Precio_Hogar_UF
Media
999,8
Mediana
Moda

1310,5
1312

Ejemplo 2
31

Gasto Mensual Luz (Pesos)

Estadsticos
Gasto Luz
Media
19.708,5
7
Mediana
18.000
Moda
20.000

Medidas de Forma
32

Medidas que comparan la forma de las distribuciones


respecto a la distribucin normal.
Sirven para estudiar que forma tiene la distribucin
de la variable examinada.
La distribucin normal o distribucin de Gauss, es
una distribucin terica de variables continuas.
La DN es una distribucin simtrica cuyo modelo
permite comparar otras distribuciones respecto a la
forma de estas: Asimetra/Curtosis
Slo para variables numricas.

Asimetra (Skewness)
33

Medida referida a la deformacin horizontal de la


distribucin de los datos.
Se utiliza para conocer que tanto la distribucin
analizada se parece a la DN respecto a su simetra.
Se denomina asimetra a la carencia de una forma
simtrica en la distribucin de los datos.

Asimetra (Skewness)
34

Si no hay asimetra, la media, mediana y moda son


iguales.
En una distribucin simtrica, la mitad de las
observaciones esta por encima del promedio y la
mitad por debajo de l.
Discrepancias entre las medidas de tendencia central
son indicacin de la existencia de asimetra en la
distribucin analizada.

Media
Mediana
Moda

Asimetra (Skewness)
35

La asimetra se puede medir con un ndice, donde 0


indica simetra.
Coeficiente de Asimetra de Pearson (C.A):

Va en general entre 3 y 3, indicando el 0 una


simetra

Asimetra (Skewness)
36

Cuando el C.A es positivo, quiere decir que hay ms


valores agrupados hacia la izquierda de la curva.
Cuando el C.A es negativo significa que los valores
tienden a agruparse hacia la derecha de la curva.

Media

Media
Moda
Mediana

Asimetra Positiva
Positivamente
Asimtrica
Asimtrica hacia la
derecha

Moda
Mediana

Asimetra Negativa
Negativamente
Asimtrica
Asimtrica hacia la
izquierda

Ejemplo Asimetra
37

Gasto Mensual Luz (Pesos)

Estadsticos
Gasto Luz
2,468
Asimetra

Al
tener
un
coeficiente
de
Asimetra mayor a 0,
sealamos que la
distribucin del gasto
mensual en luz tiene
una
asimetra
positiva o que es
asimtrica hacia la
derecha.

Curtosis (Kurtosis)
38

Mide el grado de deformacin vertical (apuntamiento) de


una distribucin.
Se estima el grado de concentracin que presentan las
observaciones respecto a la zona central de la
distribucin.
Estima que tan puntiaguda es una distribucin.

Curtosis (Kurtosis)
39

Se mide tambin en base a coeficiente:

Si el coeficiente es 0, significa que los datos se


distribuyen como una curva normal.
Si es positivo, significa que la curva de la distribucin es
ms levantada, o concentrada mayormente en la zona
central de la distribucin.
Si es negativo, quiere decir que la curva es ms plana, y
que por ende se concentra menos en la zona central de la
distribucin.

Curtosis (Kurtosis)
40

Las curvas de las distribuciones


respecto a su curtosis.

Curva leptocrtica

>
0

Curva mesocrtica

reciben

nombres

Curva platicrtica

<
0

Ejemplo Curtosis
41

Gasto Mensual Luz (Pesos)

Estadsticos
Gasto Luz
Curtosis

14.687

El
coeficiente
de
Curtosis de 14,687
indica que los datos
estn
muy
concentrados en el
centro
de
esta
distribucin.
La distribucin del
gasto mensual en luz
presenta una curva
leptocrtica.

Aplicacin SPSS
42

Medidas de Tendencia Central:

Al igual que en el caso de las tablas de frecuencias se va a En SPSS a


Analizar>Estadsticos
descriptivos>Frecuencias
;
para
luego
seleccionar las variables a ser analizadas.

Aplicacin SPSS
43

Medidas de Tendencia Central

En la Parte Frecuencias se entra a Estadsticos, y se seleccionan las


medidas de tendencia central a utilizar.
OJO: En este caso solicitamos media, mediana y moda debido que la
variable utilizada (edad) es intervalar. Sin embargo, la pertinencia de
obtener distintas medidas de tendencia central depende de las variables
a ser analizadas.

Aplicacin SPSS
44

Interpretacin: El promedio de edad de la muestra es de 44.85 aos.


La mitad de las personas en la muestra tienen menos de 45 aos y
la mitad de las personas en la muestra tienen ms de 45 aos. La
edad ms frecuente es 45 aos.

Aplicacin SPSS
45

Medidas de Forma

En SPSS: Analizar>Estadsticos descriptivos>Frecuencias>Estadsticos

Aplicacin SPSS
46

Medidas de Forma: se recomienda solicitar en


conjunto con Histograma, pidiendo que se visualice la
curva normal.

En SPSS: Analizar>Estadsticos descriptivos>Frecuencias>Grficos

Aplicacin SPSS
47

Para el caso de la sintaxis, en vez de apretar aceptar poner


Pegar y los comandos se abrirn en un archivo de sintaxis.
Ej: Pedir las 5 medidas observadas para la variable edad
FREQUENCIES VARIABLES=Edad
/FORMAT=NOTABLE
/STATISTICS=MEAN MEDIAN MODE SKEWNESS SESKEW
KURTOSIS SEKURT
/ORDER=ANALYSIS.

Ejercicio Prctico
48

Abrir la base de datos Rendimiento_Arica_Mineduc_Sav.


Analizar
la
variable
COD_ENSE2
(Dependencia
Establecimiento) respecto a las Medidas de Tendencia
Central que le correspondan. Utilice tambin una tabla de
frecuencia para estimar las MTC.

Analice comparativamente las distribuciones de las


variables PROM_GRL (promedio notas) y ASISTENCIA (%
Asistencia) en base al clculo de medidas de tendencia
central y de forma utilizando tambin histogramas.
Qu se puede concluir respecto a sus MTC?
Y a sus medidas de forma?
Hay casos extremos? Qu hacer?

Taller N2
49

Leer instrucciones del documento en Word Taller N2


Se puede trabajar durante esta clase y aclarar dudas.
Entregar el da Jueves 28 de Abril va email al profesor
juanignacio.venegas@gmail.com y a la ayudante
catalina.tapiap@mail.udp.cl hasta las 17:00 hrs.

You might also like