You are on page 1of 44

I.

ESTADISTICA DESCRIPTIVA

Tablas de distribución de frecuencias.


 (Frecuencias relativas y relativas acumuladas.
)Graficas estadísticas
 Histogramas
 Polígonos
 Ojivas
Medidas de tendencia central
 Media
 Mediana
 Moda
Medidas de dispersión
 Rango
 Varianza
 desviación estándar
 coeficiente de variación
 Actividad: Práctica en sala de cómputo.
instrucciones sobre manejo de paquete
estadístico para descripción de datos
1. Introducción:

 La palabra "estadística" suele utilizarse


como colección de datos numéricos.-
esto es el significado más vulgar de la
palabra estadística. Se sobrentiende
que dichos datos numéricos han de
estar presentados de manera ordenada
y sistemática. Una información numérica
cualquiera puede no constituir una
estadística, para merecer este
apelativo, los datos han de constituir un
conjunto coherente, establecido de
forma sistemática y siguiendo un criterio
de ordenación
En si, es una serie de técnicas ligadas
con el fin de recolectar puede ser por
medio de test, encuestas, censos, entre
otras formas, un conjunto de datos.
Luego organizar de manera cuantitativa
o cualitativamente, según sea el caso.
Presentar ya sea por tablas o por
gráficos y finalmente analizar el
conjunto de datos para sacar
conclusiones y así poder tomar una
buena decisión.
 Es obvio que todo estudio estadístico ha
de estar referido a un conjunto o
colección de personas o cosas. Este
conjunto de personas o cosas es lo que
denominaremos población.
 Las personas o cosas que forman parte
de la población se denominan
elementos. En sentido estadístico un
elemento puede ser algo con existencia
real, como un automóvil o una casa, o
algo más abstracto como la
temperatura, un voto, o un intervalo de
tiempo.
A su vez, cada elemento de la población
tiene una serie de características que
pueden ser objeto del estudio estadístico.
Así por ejemplo si consideramos como
elemento a una persona, podemos
distinguir en ella los siguientes caracteres:
Sexo, edad, nivel de estudios, profesión,
peso, altura, color de pelo, etc.
Luego por tanto de cada elemento de la
población podremos estudiar uno o más
aspectos cualidades o caracteres.
Tipos de población
La población puede ser según su tamaño de
dos tipos:
Población Finita: cuando el número de
elementos que la forman es finito, por ejemplo
el número de alumnos de un centro de
enseñanza, o grupo clase.
Población Infinita: cuando el número de
elementos que la forman es infinito, o tan
grande que pudiesen considerarse infinitos...
Como por ejemplo si se realizase un estudio
sobre los productos que hay en el mercado.
Hay tantos y de tantas calidades que esta
población podría considerarse infinita.
Población
 En un estudio estadístico, no se puede trabajar
con todos los elementos de la población sino que
se realiza sobre un subconjunto de la misma.
 Este subconjunto puede ser una muestra, cuando
se toman un determinado número de elementos
de la población, sin que en principio tengan nada
en común; o una subpoblación, que es el
subconjunto de la población formado por los
elementos de la población que comparten una
determinada característica, por ejemplo de los
alumnos del centro la subpoblación formada por
los alumnos de 3º eso, o la subpoblación de los
varones.
Variables y Atributos.

 Como hemos visto, los caracteres de un


elemento pueden ser de muy diversos
tipos, por lo que los podemos clasificar
en: dos grandes clases:
 Variables cuantitativas.
 Variables cualitativas o atributos
Variables cuantitativas.
 Las variables cuantitativas son las que se describen
por medio de números, como por ejemplo el peso,
altura, edad, número de suspensos…
 A su vez este tipo de variables se puede dividir en dos
subclases:
 Cuantitativas discretas. Aquellas a las que se les
puede asociar un número entero, es decir, aquellas
que por su naturaleza no admiten un fraccionamiento
de la unidad, por ejemplo número de hermanos,
páginas de un libro, etc.
 Cuantitativas continuas: aquellas que no se pueden
expresar mediante un número entero, es decir,
aquellas que por su naturaleza admiten que entre dos
valores cualquier la variable pueda tomar cualquier
valor intermedio, por ejemplo peso, tiempo. Etc.
 No obstante en muchos casos el tratamiento
estadístico hace que a variables discretas las
trabajemos como si fuesen continuas y viceversa.
 Los atributos son aquellos caracteres que para su
definición precisan de palabras, es decir, no le
podemos asignar un número. Por ejemplo sexo
profesión, estado civil, etc. A su vez las podemos
clasificar en:
 Ordenables: aquellas que sugieren una
ordenación, por ejemplo la graduación militar, el
nivel de estudios, etc.
 No ordenables: aquellas que sólo admiten una
mera ordenación alfabética, pero no establece
orden por su naturaleza, por ejemplo el color de
pelo, sexo, estado civil, etc.
 CENSO. Decimos que realizamos un censo
cuando se observan todos los elementos de la
población estadística
TABLAS DE DISTRIBUCION DE FRECUENCIAS.

Es una técnica estadística para organizar datos en


clases y cada una se les aplica la frecuencia
correspondiente. Sirve para visualizar y organizar
los datos. Una de los primeros pasos que se
realizan en cualquier estudio estadístico es la
tabulación de resultados, es decir, recoger la
información de la muestra resumida en una tabla
en la que a cada valor de la variable se le asocian
determinados números que representan el número
de veces que ha aparecido, su proporción con
respecto a otros valores de la variable, etc. Estos
números se denominan frecuencias: así tenemos
los siguientes tipos de frecuencia:
 Frecuencia Absoluta: La frecuencia
absoluta de una variable estadística es
el número de veces que aparece en la
muestra dicho valor de la variable, la
representaremos por ni
 Frecuencia Relativa:
 La frecuencia absoluta, es una medida
que está influida por el tamaño de la
muestra, al aumentar el tamaño de la
muestra aumentará también el tamaño
de la frecuencia absoluta. Esto hace
que no sea una medida útil para poder
comparar. Para esto es necesario
introducir el concepto de frecuencia
relativa, que es el cociente entre la
frecuencia absoluta y el tamaño de la
muestra. La denotaremos por fi
Frecuencia Relativa:

Donde n = tamaño de la
muestra
Porcentaje:

 La frecuencia relativa
es un tanto por uno, sin
embargo, hoy día es
bastante frecuente
hablar siempre en
términos de tantos por Pi  Fi 100%
ciento o porcentajes,
por lo que esta medida
resulta de multiplicar la
frecuencia relativa por
100. La denotaremos
por pi.
Frecuencia Absoluta
Acumulada:
 Para poder calcular este tipo de
frecuencias hay que tener en cuenta
que la variable estadística ha de ser
cuantitativa o cualitativa ordenable. En
otro caso no tiene mucho sentido el
cálculo de esta frecuencia. La
frecuencia absoluta acumulada de un
valor de la variable, es el número de
veces que ha aparecido en la muestra
un valor menor o igual que el de la
variable y lo representaremos por Ni.
Frecuencia Relativa Acumulada:

Al igual que en el


caso anterior la
frecuencia relativa
acumulada es la Ni
frecuencia absoluta
acumulada dividido
Fi 
por el tamaño de la N
muestra, y la
denotaremos por Fi
Porcentaje Acumulado:

Análogamente se
define el porcentaje
acumulado y lo vamos Pi  Fi 100%
a denotar por pi como
la frecuencia relativa
acumulada por 100.
Ejemplo
 Veamos esto con un ejemplo: tomamos para
ello los datos relativos a las personas activas.

Personas Número
activas familias
Xi Ni Fi Pi Ni Fi Pi
1 16 16/50 32% 16 16/50 32%
2 20 20/50 40% 36 36/50 72%
3 9 9/50 18% 45 45/50 90%
4 5 5/50 10% 50 50/50 100%
Total 50

 En este ejemplo se puede ver fácilmente como


se calculan estas frecuencias.
Tablas de frecuencias

 Existen dos formas diferentes de tablas


de frecuencia, teniendo …
 Que la variable estadística tome pocos
valores diferentes (ya sea grande o
pequeño el tamaño de la muestra).
 Que, en una muestra de gran
tamaño, la variable estadística tome
muchos valores diferentes, ya se trate
de variable estadística discreta como
de variable estadística continua (este
último caso es el más habitual).
En el primer caso no
es necesario agrupar
los datos, y la tabla
de distribución
presenta el siguiente
aspecto (ordenando
los datos de menor a
mayor) :
 En el segundo caso por tratarse de variable continua
o discreta pero con un número de datos muy grande,
es aconsejable agrupar los datos en clases.
 Agrupamos los valores de la variable estadística en
intervalos de clase contiguos y elegidos
convenientemente para no perder mucha
información. No existe un criterio claro de cuál debe
ser el número de intervalos que debemos escoger,
Norcliffe establece que el número de clases debe ser,
aproximadamente igual a la raíz cuadrada positiva
del número de datos. Normalmente, el número de
intervalos de clase se suele fijar entre 5 y 15 y de tal
manera que en cada clase se tengan, al menos, 5
observaciones. De todas formas el investigador los
acomodará a las condiciones especificas del
problema estadístico objeto de estudio (se tomarán
tantos intervalos solapados como sean necesarios
para recubrir todo el recorrido de la variable).
 Los extremos de los intervalos de clase se denominan
extremos de clase y sus puntos medios marcas de
clase (valor que nos representa la información que
contiene un intervalo).

 Como cada observación debe quedar


perfectamente encasillada en uno y sólo un intervalo
de clase, debemos decidir a qué intervalos
pertenecen los extremos de las clases, por lo que
habrán de tomarse intervalos semi abiertos o tomando
el extremo de cada clase con un decimal más que las
observaciones. Con el fin de que la clasificación esté
bien hecha, los intervalos se deben construir de
manera que el límite superior de una clase coincida
con el límite inferior de la siguiente, y además,
adoptando el criterio de que los intervalos sean
cerrados por la izquierda y abiertos por la derecha.
 Por otro lado tenemos la amplitud de cada
intervalo, que puede ser constante o variable.
Si procuramos que todas las clases tengan la
misma amplitud y los límites de cada clase sean
números redondos (múltiplos p. ej. de 5)
conseguiremos simplificar mucho los cálculos
(siempre y cuando no se pierda demasiada
información con estas consideraciones).
 Debemos observar un hecho importante, se
entiende que cuando hacemos una
agrupación en intervalos de clase, para
nosotros solamente cuenta el número de
observaciones que caen dentro de cada uno
de los intervalos y no la colocación en su
interior, es decir, suponemos que la distribución
de estos valores en el intervalo es homogénea,
en esto radica la pérdida de información que
supone agrupar los datos de las observaciones.
Tabla de
frecuencias
de una
variable
estadística
agrupada
en
intervalos.
(Frecuencias relativas y relativas
acumuladas.)Graficas estadísticas

Datos f (en Fr(%)


Ejemplo. (vacunas) miles) (redondeado
 En la siguiente
tabla se muestra BCG 47 17
el total de
vacunas SABIN 111 41
aplicadas
durante el DPT 73 27
verano de l991
en un estado de SARAMPION 41 15
la República
Mexicana. TOTAL 272 100
HISTOGRAMA.

 Es una representación grafica de una


distribución de frecuencias por medio de
rectángulos.
 Es un recurso común e importante para
representar datos, consiste en una escala
horizontal para valores de los datos que se
están representando, una escala vertical de
las frecuencias de dichos datos.
 El histograma es especialmente útil cuando
se tiene un amplio número de datos que es
preciso organizar.
 Histograma de frecuencia absoluta. (Xi y fi)
 Histograma de frecuencia relativa (Xi y Fi)
 Histograma de frecuencia relativa
porcentual (Xi y hi)
 Histograma de frecuencia relativa
acumulada (Xi y Hi)
 Con la distribución de frec. anterior se
tiene:
POLIGONOS DE FRECUENCIA
 Es una representación grafica de la distribución de
frecuencia que resulta esencialmente equivalente al
histograma y se obtiene uniendo mediante
segmentos los centros de las bases superares de los
rectángulos del histograma.
 PARAMETRO
 Es un número que caracteriza a un conjunto
de datos, se clasifican en:
 Parámetro de centralización
 Miden alrededor de que valor se agrupan
los datos. Ejemplo, media, mediana, moda,
cuarteles, percentiles, etc.
 Media
 También llamado promedio o esperanza
matemática, es un numero calculado
mediante ciertas operaciones a partir de los
elementos de un conjunto de números, x1,
x2,…, xn, y que sirve para representara este.
Hay distintos tipos de media.
 Media Aritmética:
 La media aritmética de una variable se
define como la suma ponderada de los
valores de la variable por sus frecuencias
relativas y lo denotaremos por y se
calcula mediante la expresión:

Xi representa el valor de la variable o en su caso la marca de clase.


 Propiedades:
 Si multiplicamos o dividimos todas las
observaciones por un mismo número, la
media queda multiplicada o dividida por
dicho numero.
 Si le sumamos a todas las observaciones
un mismo número, la media aumentará
en dicha cantidad.
 Además de la media aritmética existen
otros conceptos de media, como son la
media geométrica y la media armónica.
 Media geométrica:
 La media geométrica de n observaciones es la raíz de índice n
del producto de todas las observaciones. La representaremos
por g.

 Media armónica:
 La media armónica de n observaciones es la inversa de la media
de las inversas de las observaciones y la denotaremos por h

 Al igual que en el caso de la media geométrica su


utilización es bastante poco frecuente.
 Mediana:
 La mediana es el valor central de la variable, es decir,
supuesta la muestra ordenada en orden creciente o
decreciente, el valor que divide en dos partes la
muestra.
 Para calcular la mediana debemos tener en cuenta
si la variable es discreta o continua.
 Cálculo de la mediana en el caso discreto:
 Tendremos en cuenta el tamaño de la muestra.
 Si n es impar, hay un término central, el término
que será el valor de la mediana.
 Si n es par, hay dos términos centrales,
la mediana será la media de esos dos valores
 Ejemplo

N par N impar

1,4,6,7,8,9,12,16,20, 24,25,27 1,4,6,7,8,9,12,16,20, 24,25,27,30


n=12 n=13
Términos centrales el 6º y 7º 9 Término central el 7º , 12
y 12
Me=12
Me=
 Cálculo de la mediana en el caso continúo:
 Si la variable es continua, la tabla vendrá en
intervalos, por lo que se calcula de la siguiente forma:

 Nos vamos a apoyar en un gráfico de un histograma


de frecuencias acumuladas. De donde la mediana
vale: donde ai es la amplitud del intervalo
 Veámoslo por medio de un ejemplo.
 Supongamos los pesos de un grupo de 50 personas se
distribuyen de la siguiente forma:
Li-1 Li Ni Ni
45 55 6 6
55 65 10 16
65 75 19 35
75 85 11 46
85 95 4 50

 Como el tamaño de la muestra es n=50, buscamos el


intervalo en el que la frecuencia acumulada es
mayor que 50/2=25, que en este caso es el 3º y
aplicamos la fórmula anterior. Luego la mediana será

Me=
 MODA
 La moda es el valor de la variable que tenga
mayor frecuencia absoluta, la que más se repite,
es la única medida de centralización que tiene
sentido estudiar en una variable cualitativa, pues
no precisa la realización de ningún cálculo.
 Por su propia definición, la moda no es única, pues
puede haber dos o más valores de la variable que
tengan la misma frecuencia siendo esta máxima.
En cuyo caso tendremos una distribución bimodal
o polimodal según el caso.
 Por lo tanto el cálculo de la moda en distribuciones
discretas o cualitativas no precisa de una
explicación mayor; sin embargo, debemos
detenernos un poco en el cálculo de la moda
para distribuciones cuantitativas continuas.
 Apoyándonos en el gráfico podemos llegar a la
determinación de la expresión para la moda que es:

 Otros autores dan una expresión aproximada para la


moda que viene dada por la siguiente expresión:

 Veamos su cálculo mediante un ejemplo, para ello


usaremos los datos del apartado anterior
Parámetro de dispersión.
 Las medidas de dispersión indican que tan lejos o tan
cerca se encuentran unos datos de otros en una
distribución de frecuencia. La medida representativa
mas utilizada para analizar la dispersión de datos es
la media. Las más importantes son el rango, la
desviación media, la desviación típica o estándar, el
coeficiente de variación, la varianza.

 Rango
 Es la medida de dispersión que indica la distancia
entre el valor mayor y menor en un grupo de datos
 Se denota como r. Realmente no es una medida muy
significativa e la mayoría de los casos, pero
indudablemente es muy fácil de calcular.
 Desviación:
 Es la diferencia que se observa entre el valor de la
variable y la media aritmética. La denotaremos por
di.
 No es una medida, son muchas medidas, pues cada
valor de la variable lleva asociada su
correspondiente desviación, por lo que precisaremos
una medida que resuma dicha información.

 Varianza:
Es una medida de dispersión que se halla mediante la
suma de los cuadrados de la desviación respecto a
las medias, divididas entre el número de datos. Es la
media de los cuadrados de las desviaciones, y la
denotaremos por si se trata de una muestra o
también por si se habla de una población.
Aunque también es posible calcularlo como:

Este estadístico tiene el inconveniente de ser


poco significativo, pues se mide en el cuadrado
de la unidad de la variable, por ejemplo, si la
variable viene dada en cm. La varianza vendrá
en cm2.
 Desviación Típica:
 Es la raíz cuadrada de la varianza, se denota por sx o
x.

45 55 6 6 50 300 -19,4 116,4 2258,16 15000


55 65 10 16 60 600 -9,4 94 883,6 36000
65 75 19 35 70 1330 0,6 11,4 6,84 93100
75 85 11 46 80 880 10,6 116,6 1235,96 70400
85 95 4 50 90 360 20,6 82,4 1697,44 32400
N= 50 3470 420,8 6082 246900
=

Dm=

C.v.=

 Este estadístico se mide en la misma unidad que la


variable por lo que se puede interpretar mejor.
 Coeficiente De Variación:
 Es un estadístico de dispersión que tiene la ventaja de
que no lleva asociada ninguna unidad, por lo que
nos permitirá decir entre dos muestras, cual es la que
presenta mayor dispersión. La denotaremos por c.v.

 Diagrama de cajas.????
 Actividad: práctica en sala de cómputo.
Instrucciones sobre manejo de paquete estadístico
para descripción de datos

You might also like