You are on page 1of 36

CLASE PRÁCTICA

Estadística Descriptiva

Dr. Gilberto de Jesús López Canteñs


MC. Edgar Ramírez Galeano
CÓMO CARGAR DATOS DE EXCEL
Los datos de excel deben guardarse de la siguiente
forma:
 Dar click en archivo
 Seleccionar la opción guardar como
 Después de definir y escribir el nombre que le pondrá a
su archivo, seleccionar la opción: texto (delimitado
por tabulaciones).
 Finalmente dar click en guardar
IMPORTAR DATOS A SAS

Nota: importar el archivo de estatura de senadores.


Estadística descriptiva
• La Estadística descriptiva registra los datos en tablas y los representa en
gráficos. Calcula los parámetros estadísticos (medidas de centralización,
medidas de posición y de dispersión), que describen el conjunto estudiado.

• La distribución de frecuencias o tabla de frecuencias es una ordenación


en forma de tabla de los datos estadísticos, asignando a cada dato su
frecuencia correspondiente

• La frecuencia absoluta es el número de veces que aparece un determinado


valor en un estudio estadístico

• La suma de las frecuencias absolutas es igual al número total de datos, que


se representa por N.

• La frecuencia relativa es el cociente entre la frecuencia absoluta de un


determinado valor y el número total de datos. Se puede expresar en tantos
por ciento y se representa por ni.
8068 este número sólo apareció 25 veces en los 3.4 millones de contraseñas
analizadas, lo que equivale al 0.000744% de la muestra.
10 mil combinaciones posibles
PROC FREQ
 Cuenta valores y genera tablas de frecuencias simples, dobles o más
entradas.

Formato:
PROC FREQ opciones;
<instrucciones generales>
opciones
DATA = data set selecciona el data set que se ordenará
Instrucciones generales del procedimiento FREQ.
TABLES <var1> * <var2> * ... /opciones;

PROC FREQ PROC FREQ


DATA=misdatos.salario_completo ; DATA=misdatos.salario_completo ;
table sueldo nivel ant; table sueldo*ant;
RUN; RUN;
Salida
Programa en SAS

proc freq data=misdatos.senadores;


table estatura;
run;
Ejercicio
 Utilizando la tabla de “tractores_exist” hacer una tabla
de frecuencia cuyos datos estén agrupados en 4
intervalos.
 Calcula la siguiente información:
 Rango
 Amplitud
 Intervalos
 Crear una tabla “tractores_grupos” con una variable de
clasificación “grupo” utilizando los intervalos calculados.
 Hacer una tabla de frecuencia utilizando la variable de
clasificación.
 Interprete los resultados obtenidos

Máximo: 25981 Mínimo: 165


• Máximo: 25981
• Mínimo: 165
• Recorrido:
• Amplitud:

Int LI LS PM
1 165
2
3
4
• Máximo: 25981
Int LI LS
• Mínimo: 165 1 165 6619
• Recorrido:25816 2 6619 13073
• Amplitud:6454
3 13073 19527
4 19527 25981
PROC FORMAT
PROC FORMAT;
VALUE Name(options)
Range1 = 'Label1'
Range2 = 'Label2' ;
Run;

Keywords: LOW, HIGH, OTHER


Uso de la sentencia GCHART para
hacer histograma de frecuencia
Crea un gráfico de barras verticales que representan las frecuencias en un proceso o
una operación. Tiene un eje horizontal en el cual se enumeren las categorías. El eje
vertical primario aparece en el lado izquierdo de la carta y se utiliza leer las
longitudes de las barras en la carta.

PROC GCHART;
VBAR variable /MIDPOINTS=(valor menor TO valor mayor BY intervalo)

Ejemplo: proc gchart


proc gchart data=misdatos.salario_completo;
data=misdatos.salario_completo; vbar nivel/MIDPOINTS=(1 TO 2 BY 1);
vbar sueldo; run;
run;
DONUT pie3d VBAR3D HBAR3D
OTRO PROCEDIMIENTO PARA
REALIZAR GRÁFICOS
Procedimiento CHART
 Hace gráficas de diferentes formas: histogramas verticales y
horizontales , gráficas de bloques, pies y gráficas de estrella.

 Tiene como formato general:


PROC CHART;Tipo de gráfica;
pattern color=brown;
Donde tipo de gráfica puede ser: proc gchart data=Datos1.salarios;
vbar sueldo;
 VBAR variables; run;
 HBAR variables;
 BLOCK variables; proc gchart data=Datos.salarios;
hbar sueldo / type=pct;
 PIE variables; Where sueldo>10000;
 STAR variables; run;
Int LI LS PM
1 165 6619 3392
2 6619 13073 9846
3 13073 19527 16300
4 19527 25981 22754
Grafica de dispersión
TITLE 'RELACIÓN LONGITUD-ALTURA';
AXIS2 LABEL=('LONGITUD');
AXIS1 LABEL=('ALTURA') ORDER=(1 TO 10 BY 3);
PROC GPLOT DATA=grafico;
PLOT y*x /haxis=axis1 hminor=0 vaxis=axis2;
SYMBOL1 VALUE=DOT COLOR=BLUE ;
RUN;

ORDER define el rango y el


intervalo para cada eje
proc gplot data=misdatos.salarios;
HAXIS define el eje horizontal
plot sueldo*operador;
(X)
SYMBOL1 VALUE=DOT COLOR=BLUE
HMINOR define cantidad de
run;
subdivisiones en el eje
VAXIS define el eje vertical (Y)
TITLE titulo del gráfico
Parámetros estadísticos
 Un parámetro estadístico es un número que se
obtiene a partir de los datos de una distribución
estadística.

 Los parámetros estadísticos sirven para sintetizar la


información dada por una tabla o por una gráfica.

 Hay tres tipos parámetros estadísticos:


 De centralización.
 De posición.
 De dispersión.
Medidas de centralización
 Media aritmética: Es el valor promedio de la
distribución.

 Mediana: Es la puntación de la escala que separa la


mitad superior de la distribución y la inferior, es
decir divide la serie de datos en dos partes iguales.

 Moda: Es el valor que más se repite en una


distribución.
Medidas de posición
 Las medidas de posición dividen un conjunto de datos en
grupos con el mismo número de individuos.

 Para calcular las medidas de posición es necesario que los


datos estén ordenados de menor a mayor.

 Cuantiles:

 Cuartiles : Dividen la serie de datos en cuatro partes


iguales.

 Deciles: Dividen la serie de datos en diez partes iguales.

 Percentiles: Dividen la serie de datos en cien partes iguales.


Medidas de dispersión
 Las medidas de dispersión nos informan sobre cuánto se alejan
del centro los valores de la distribución.

 Las medidas de dispersión son:

 Rango o recorrido: Es la diferencia entre el mayor y el menor


de los datos de una distribución estadística.

 Desviación media: Es la media aritmética de los valores


absolutos de las desviaciones respecto a la media.

 Varianza: Es la media aritmética del cuadrado de las


desviaciones respecto a la media.

 Desviación típica : Es la raíz cuadrada de la varianza.


Sentencia PROC MEANS
 Determina la media, desviación estándar, mínimo y
máximo de un conjunto de datos.
PROC MEANS DATA=nombre del programa;
RUN;

proc means data=salarios; proc means data=salarios;


run; output out=resultado;

proc print data=resultado;


run;
SALIDA (OUTPUT)
Instrucción VAR
 Se utiliza en diferentes procedimientos para indicar
sobre que variable quiere que se haga el análisis que se
indica en el programa.
Sintaxis: VAR variable;
 Ejemplos:
Ejemplo:
PROC MEANS DATA=salarios;
VAR salario;
RUN;
Instrucción BY
 Se utiliza en diferentes procedimientos para indicar
como quiere que se haga el análisis que se indica en el
programa.
Sintaxis: BY variable;
 Ejemplo:
proc means data=salarios; proc means data=salarios; proc means data=salarios;
var salario; var salario; var salario;
by sexo; by sexo; class sexo;
run; where sexo='Hombre'; run;
run;

Nota: La instrucción CLASS es optativa y es muy similar a la opción BY,


pero la diferencia es que con la primera los resultados en la ventana
OUTPUT son mucho más compactos.
SENTENCIA PARA DIFERENTES
ESTADISTICOS
proc means max min mean std range kurtosis data=salarios
maxdec=2;
var salario;
by sexo;
where sexo='Hombre';
run;

PROC MEANS permite realizar diferentes cálculos relacionados con los


parámetros de tendencia central y medida de dispersión

MEAN es el valor medio proc means max min mean std range data=salarios;
MEDIAN es la mediana var salario;
STD es la desviación estándar output out=resultado max=maximo mean=media;
STDERR es el error estándar proc print data=resultado;
RANGE es el rango Run;
Los estadísticos a incluir en el proc means y en el
dataset_salida mediante la instrucción OUTPUT son:
 N Número de observaciones no faltantes.
 NMISS Número de observaciones faltantes.
 NOBS Número de observaciones.
 MEAN Media.
 STDMEAN Desviación estándar de la media.
 SUM Suma de los valores.
 STD Desviación estándar.
 VAR Varianza.
 CV Coeficiente de variación.
 USS Suma de cuadrados no corregida.
 CSS Suma de cuadrados corregida.
 SKEWNESS Asimetría.
 KURTOSIS Kurtosis.
 SUMWGT Suma de los pesos de los valores.
 MAX Valor máximo.
 MIN Valor mínimo.
 RANGE Rango de valores.
 Q3 Percentil del 75% (3er Cuartil).
Ejercicio
 Utilizando la tabla senadores obtener los siguientes
parámetro estadísticos: Máximo Mínimo Media
Moda Mediana Varianza Dev tip Coeficiente de
variación Kurtosis Asimetría.

 Tabla de frecuencias.

 Explique los resultados obtenidos


Los estadísticos a incluir en el proc means y en el
dataset_salida mediante la instrucción OUTPUT son:
 MEDIAN Mediana.
 Q1 Percentil del 25% (1er Cuartil).
 QRANGE Diferencia entre Q3 y Q1.
 P1 Percentil 1.
 P5 Percentil 5.
 P10 Percentil 10.
 P90 Percentil 90.
 P95 Percentil 95.
 P99 Percentil 99.
 T t-Student para la hipótesis nula que la media de la variable es igual a cero.
 PROBT Probabilidad que el valor absoluto de t sea superior a T.
 MSIGN Estadístico de signo.
 PROBM Probabilidad que el valor absoluto del estadístico de signo sea
superior a MSIGN.
 SIGNRANK Estadístico de signo del rango.
 PROBS Probabilidad que el valor absoluto del estadístico de signo del rango
sea superior a SIGNRANK centrado.
Asimetría
CURTOSIS
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución.

g2> 0 g2 = 0

g2< 0
Asimetría

(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe


aproximadamente la misma cantidad de valores a los dos lados de la media.

(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden
a reunir más en la parte izquierda que en la derecha de la media.

(g1 < 0): La curva es asimétricamente negativa por lo que los valores se
tienden a reunir más en la parte derecha de la media.
Uso del procedimiento
UNIVARIATE
Permite el cálculo de estadísticas univariadas simples para variables numéricas.
Es apropiada para variables continuas o para variables discretas con un gran
número de valores, si estos valores tienen una media.

SINTAXIS:
PROC UNIVARIATE opciones DATA=Nombre del programa;
VAR listado de variables;
BY variable;

2. Resumir la variable salario y calcular las medidas de posición y


variabilidad para el salario
PROC UNIVARIATE
DATA=misdatos.salarios;
var sueldo;
RUN;
ESTADISTICOS QUE SE OBTIENEN
CON EL PROC UNIVARIATE
OPCIONES DE PROC UNIVARIATE
 PROC UNIVARIATE FREQ; Genera una tabla de
frecuencias.
 PROC UNIVARIATE PLOT; Genera un diagrama de tallo y
hojas y la caja de dispersión de la variable.
 PROC UNIVARIATE NORMAL; Produce dos pruebas
diferentes para probar la hipótesis de que los valores de la
variable analizada se distribuyen normalmente. Y un
gráfico de probabilidad normal acumulada.

Cuando el número de observaciones por variable es igual o inferir a 2000, PROC


UNIVARIATE calcula el estadístico de Shapiro & Wilks con su respectiva
probabilidad asociada. La prueba se identifica con valores de W: Normal y Pr<W
respectivamente.
Si las observaciones por variable son superiores a 2000, PROC UNIVARIATE
calcula el estadístico de Kolmogorov y su probabilidad asociada. La prueba se
identifica con D: Normal y Pr<D.
Uso del procedimiento
UNIVARIATE
3. Comparar la variable salario para las dos submuestras que define la
variable sexo.

Antes de realizar un PROC UNIVARIATE para distintas submuestras los datos


deben estar odenados según la variable que define las submuestras.

Para ordenar los datos en orden ascendente (DEFAULT) o descendente, o en


orden alfabético si se trata de una variable alfanumérica, se usa el procedimiento
PROC SORT. Para ordenar de forma descendente se agrega la opción by
descending
PROC SORT DATA=Nombre del fichero; PROC SORT; BY DESCENDING variable;
BY variable;
proc univariate data=salario_agrupados;
var sueldo;
by sexo;
run;

You might also like