You are on page 1of 8

Estadstica descriptiva

1. Concepto de variable aleatoria y tipos de variables


2. Clculo de medidas resumen para variables cuantitativas: - de tendencia central: media, mediana, moda - de dispersi n: rango, variancia, desviaci n tpica - de posici n: cuartiles, percentiles 3. Representaciones grficas Variables cuantitativas: diagrama de puntos, diagrama de caja, histograma Variables cualitativas: tabulaci n, diagrama de barras, diagrama de sectores 4. Introduccin al SPSS

1. Concepto de variable aleatoria


Es una aplicacin que a cada suceso elemental le hace corresponder un nmero real Formalizacin matemtica de las variables reales que estamos habituados a tratar
Estudios 1.Sin estudios 2.Primarios 3.Secundarios 4.Universitarios

Sexo 1. Hombre 2. Mujer

Temperatura 35 C 128 F

Peso, Talla 60 kilos 175 cm

1. Tipos de variables
- Cualitativas : estudian una cualidad de las unidades de la poblacin, como por ejemplo: sexo, color de los ojos, estado civil, clase de fertilizante... - Cuantitativas: estudian una caracterstica de la poblacin que puede ser cuantificada, como por ejemplo: temperatura, humedad, nmero de especies de una determinada zona... - Discretas : solo pueden tomar unos determinados valores, por ejemplo: nmero de hijos - Continuas: pueden tomar cualquier valor dentro de un intervalo, por ejemplo: temperatura

1. Tipos de variables

Ejercicio
Sea la siguiente encuesta. Decidir, para cada una de las preguntas o variables, el tipo al que pertenecen:
NOMINALES

CUALITATIVAS Variables estadsticas

ORDINALES

DISCRETAS CUANTITATIVAS CONTINUAS

Edad en aos Sexo (1= hombre, 2= mujer) Nmero de hermanos (incluido uno mismo) Lugar de nacimiento (1= Catalunya, 2= resto de Espaa, 3= extranjero 5. Bronquitis crnica (1= si, 2= no) 6. Nmero de cigarrillos que fuma al da 7. Nmero de tazas de caf que toma al d a 8. Tiene dolores de cabeza (1= nunca, 2= a veces, 3= muchas veces, 4= siempre) 9. Peso en kilogramos 10. Talla en cent metros

1. 2. 3. 4.

2. Clculo de medidas resumen


Medidas de tendencia central:

2. Clculo de medidas resumen


Tendencia central: media
x=

x
i =1

media: x mediana: md moda


x=
4, 2, 7, 1, 9

x 1 + x 2 + x3 + ... + x n n

Ejemplo: calcular la media de los siguientes datos

4+2+7+1+9 5

= 4,6

10

2. Clculo de medidas resumen


Tendencia central: media
Indica el centro de gravedad de la distribuci n Tiene presente el valor de todos los datos de la distribuci n Es un estad stico muy sensible (poco robusto) en presencia de datos atpicos o extremos. Por esta raz n podemos calcular tambin la media truncada que se obtiene calculando la media de la variable despu s de suprimir el 5% de los valores superiores y el 5% de los inferiores (u otro porcentage). De esta forma, la media que se obtiene es ms robusta ante la posible presencia de datos atpicos. Si los valores obtinidos son diferentes, es senyal de presencia de datos atpicos. Si son iguales puede o no haver datos atpicos.

2. Clculo de medidas resumen


Tendencia central: media
Alguna observaci n a la izquierda con mucho peso

Alguna observaci n a la derecha con mucho peso

No hay observaciones atpicas

2. Clculo de medidas resumen


Tendencia central: mediana
Es el punto medio de los datos ordenados; es el valor que tiene por enzima i per debajo el 50% de los datos ordenados
Ordena los valores de pequeo a ms grande Nmero impar de datos: Valor que queda en medio Nmero par de datos: Promedio de los 2 centrales

2. Clculo de medidas resumen


Tendencia central: mediana

Indica el centro de la distribucin

No tiene en cuenta el valor de las observaciones Es un estadstico robusto en presencia de datos atpicos

Ejemplo: Calcular la mediana de: 4, 2, 7, 1, 9 Los ordenamos de menor a mayor: 1, 2, 4, 7, 9 Mediana

md

10

2. Clculo de medidas resumen


Tendencia central: moda
Es el valor ms frecuente de la distribucin de los datos. No tiene frmula Podemos tener ms de una moda Cuando todas las observaciones de una muestra tienen la misma frecuencia decimos que la muestra no tiene moda Tiene sentido para variables categricas

EJERCICIO:
Para poder calcular los rendimientos mdicos (horas trabajadas/horas contratadas), decidimos averiguar los tiempos de las primeras visitas de Medicina Interna en las consultas externas de un hospital rea lizadas durante el da de hoy. Como primera informacin, decidimos llamar a recepcin y pedir que tomen los tiempos y se los den a Estadstica para que calculen la media, la mediana y la moda. Estadstica contesta: n=6, media=62 moda=30 mediana=45

Cul de estos tres valores utilizara como medida de tendencia central?

2. Clculo de medidas resumen


CENTRO Y SIMETRA:

2. Clculo de medidas resumen


CENTRO Y SIMETRA:
Distribuci n de datos simtrica

Distribucin de datos simtrica

x= Md
x > Md

Distribucin de datos sesgada a la derecha Distribucin de datos sesgada a la izquierda

x < Md

Distribuci n de datos sesgada a la derecha

Distribuci n de datos sesgada a la izquierda

2. Clculo de medidas resumen


Medidas de dispersin: rango o amplitud: R, A variancia: s 2 desviacin tpica: s

2. Clculo de medidas resumen


Dispersin: rango o amplitud
Rango = valor mximo valor mnimo
Fcil de utilizar pero poco informativo (especialmente si se dispone de muchos datos) Muy influenciable en presencia de valores extremos
R=8

10

2. Clculo de medidas resumen


Dispersin: variancia
Promedio del cuadrado de las distancias de cada valor a la media

2. Clculo de medidas resumen


Dispersin: variancia
(9 4,6) 2 + (7 4,6) 2 + (4 4,6) 2 + (2 4,6) 2 + (1 4,6) s2 = 5-1 (4,4)
2+ 2

=
2 + (-

s2 = i = 1

( x-x )
i

(2,4)

2+

(- 0,6) 4
0,6

2+

(- 2,6)

3,6)

= 11,3

n-1
2,6

2,4 4,4

La variancia mide el grado de dispersi n (variabilidad ) de los datos alrededor de la media .

3,6

x
0 1 2 3 4 5 6 7 8 9 10

4,6

2. Clculo de medidas resumen


Dispersin: desviacin tpica
s = s2
Medida de dispersi n de uso ms cuotidiano Mismas unidades que los datos Orden de magnitud comparable a los datos
Ejemplo: Pesos de 4 personas (en kg): 65, 94, 81, 72 Variancia: s2 = 156,67 kg 2 (!) Desviacin t pica: s = 12,52 kg

2. Clculo de medidas resumen

Medidas de posicin: percentiles: Pq cuartiles: Q1, Q2 , Q 3

Pero la desviaci n tpica no tiene las propiedades matemticas de la variancia

2. Clculo de medidas resumen


Posicin: percentiles
Son los valores que dividen una serie ordenada de datos en 100 partes iguales, se representan por P1, P 2 ... P 99

2. Clculo de medidas resumen


Posicin: percentiles
q Ejemplo: calcular el percentil del 10% de los siguientes datos: 3, 2, 5, 5, 2, 7, 1, 10, 7, 9, 14, 12, 13, 14, 10

El primer percentil, P1 , es el valor que tiene por debajo el 1% de los datos ordenados; el segundo percentil, P2 , es el valor que tiene por debajo el 2% de los datos ordenados... El lugar que ocupa el primer percentil es el N/100 El lugar que ocupa el segundo percentil es el 2N/100 El lugar que ocupa el percentil 99 es el 99N/100

Ordenamos los datos: 1, 2, 2, 3, 5, 5, 7, 7, 9, 10, 10, 12, 13, 14, 14 Lugar que ocupa el P10 : 10x15/100 =1.5 Cogemos el dato de la segunda posici n: 1, 2, 2, 3, 5, 5, 7, 7, 9, 10, 10, 12, 13, 14, 14 P10

2. Clculo de medidas resumen


Posicin: cuartiles
El percentil 25 (P 25) representa el 1r cuartil (Q1) El percentil 50 (P 50) es la Mediana (Md) o 2do cuartil (Q 2) El percentil 75 (P 75) representa el 3r cuartil (Q3)

2. Clculo de medidas resumen


Menor 50 52 57 58 59 60 61 61 61 64 68 69 71 72 73 78 78 80 81 82 82 84 86 90 92 93 94 95 98 100

25 % Q1 = 61: Primer cuartil 75 % 50 % 75,5 Mediana 50 % 75 % Q3 = 86: Tercer cuartil 25 %

Datos ordenados de menos a m s

Mayor

3. Representaciones grficas
Para variables cuantitativas:

Vamos a recoger datos de nuestra funcin pulmonar

Diagrama de puntos (dot plot) Diagrama de caja (box plot) Tabla de frecuencias: histograma

3. Representaciones grficas
Diagrama de puntos: dot plot
Representa cada dato como un punto encima de un eje Cuando tenemos pocos datos, un diagrama de puntos es mejor que un histograma
Ejemplo. Diagrama de puntos con los datos: 1, 2, 4, 7, 9

3. Representaciones grficas
Diagrama de caja: box plot
Fija la atenci n en las medidas de posici n y en los valores extremos
Orden: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

5, 7, 7, 9, 9, 9, 9, 9, 9, 9, 10, 11, 11, 11, 11, 11, 14, 15, 16, 18 Q1 Mediana Q3

ltimos valores antes de entrar en zona de outliers

10

Zona outliers extremos

Zona outliers moderados 1,5*IQR 1,5*IQR

Q1 IQR

Q3 1,5*IQR

Zona outliers moderados 1,5*IQR

Zona outliers extremos

Ejemplo. Diagrama de puntos con los datos: 1, 2, 4, 7, 7, 9

*
0 1 2 3 4 5 6 7 8 9 10
3 4 5 6 7 8 9 10 11 12 13 14

*
15

*
16 1 7

18

3. Representaciones grficas
Box plot: ejemplos

3. Representaciones grficas
Tabla de frecuencias : Histograma
Ejemplo :

Peso en funci n del sexo en un grupo de 92 participantes en un estudio de obesidad


10

Evoluci n de la humedad de un producto fabricado en una semana

200

Hu med ad

Weig ht

150

100 1 2

8 Lunes Martes Mir coles J ueves Vier nes

Sex

TABLA 1: Longitud (cm) de 90 plantas

3. Representaciones grficas
Tabla de frecuencias : Histograma
Ejemplo :

3. Representaciones grficas
Tabla de frecuencias : Histograma

Necesitamos una solucin mejor, cuando tenemos muchos datos distintos

AGRUPAR LOS DATOS EN INTERVALOS!!

TABLA 1 bis: Longitud (cm) de 90 plantas (lista ordenada)

3. Representaciones grficas
Tabla de frecuencias : Histograma
NMERO DE INTERVALOS:

3. Representaciones grficas
Tabla de frecuencias : Histograma

Tabla de frecuencias: 10 intervalos de clase

3. Representaciones grficas
Tabla de frecuencias : Histograma
20 0

3. Representaciones grficas
Tipos de histogramas (segn distintos datos ):
120

200

15 0 80 10 0 40 5 0

150

100

50

0 30 35 40 4 5 50 55 60 6 5 70

0 25 30 35 40 45 50 5 5 6 0 65 70 75

0 0 5 10 15 20 25

Variabilidad natural

Bimodal

Sesgado a la derecha

20 0

200

200

15 0

150

150

10 0

100

100

5 0

50

50

0 30 3 5 40 45 5 0 55 60 6 5 70

0 35 40 45 50 55 6 0 6 5 70 75 80 85 9 0

0 35 4 0 45 50 55 60 65 70 7 5 80 8 5 90

Censurado

Con outliers, errores, etc,

3. Representaciones grficas
Tipos de histogramas (segn distintos datos ):
Petit superposament
100

3. Representaciones grficas
Para variables cualitativas:

Superposament mitj
100

Superposament gran
1 00

Fre q n ci a

F re q n ci a

50

50

Fre q n ci a

50

0 95 1 05 1 15

0 90 1 00 110

0 95 10 0 105 11 0

Tabulacin Diagrama de barras (bar chart) Diagrama de sectores (pie chart)

100 90
100

80

1 00

Fre q n ci a

F re q n ci a

70 60 50 40 30 20 10 0

50

Fre q n ci a
90 1 00 110

50

0 95 1 05 1 15

0 95 10 0 105 11 0

100

10 0

150

Fre q n ci a

F re q n ci a

F re q n ci a
90 10 0 110

100

50

50

50

0 95 1 05 1 15

0 95 1 00 105 110

3. Representaciones grficas
Tabulacin:
Frecuencia absoluta: nk Frecuencia absoluta acumulada: Nk Frecuencia relativa: fk fk= nk / N , donde N = nmero total de casos Frecuencia relativa acumulada: Fk Fk= Nk / N Sexo Hombre Mujer nk 57 35 Nk 57 92 fk Fk
Valid

3. Representaciones grficas
Tabulacin:
Autovaloracin estado de salud Cumulative Percent 4,2 22,3 75,9 96,4 100,0

No tiene en cuenta los missings en los clculos


Percent 4,2 18,1 53,6 20,5 3,6 100,0 Valid Percent 4,2 18,1 53,6 20,5 3,6 100,0

Excelente Muy buena Buena Regular Mala Total

Frequency 7 30 89 34 6 166

0,62 (=57/92) 0,62 0,38 (=35/92) 1

Frecuencia Frecuencia absoluta Relativa (nk) (fk ) *100

Frecuencia relativa Acumulada (Fk) *100

SPSS porcentua

3. Representaciones grficas
Diagrama de barras Eje horizontal: valores discretos de la variable Eje vertical: frecuencia absoluta o relativa Sobre cada valor de la variable se dibuja una barra con altura igual a su nk o fk
Distribucin sexo
100 80 60 40 20 0 Hombres Mujeres 38

3. Representaciones grficas
Diagrama de sectores Cada sector representa un valor de la variable El rea del sector representa su frecuencia relativa (360 * fk)
Distribuci n sexo

38% 62%

62

Hombres

Mujeres

INTRODUCCIN SPSS

You might also like