Aplicacion de Sas-Descriptiva 1

CLASE PRÁCTICA
Estadística Descriptiva
Dr. Gilberto de Jesús López Canteñs

MC. Edgar Ramírez Galeano
CÓMO CARGAR DATOS DE EXCEL
Los datos de excel deben guardarse de la siguiente
forma:
 Dar click en archivo
 Seleccionar la opción guardar como
 Después de definir y escribir el nombre que le pondrá a
su archivo, seleccionar la opción: texto (delimitado
por tabulaciones).
 Finalmente dar click en guardar
IMPORTAR DATOS A SAS
Nota: importar el archivo de estatura de senadores.

Estadística descriptiva
• La Estadística descriptiva registra los datos en tablas y los representa en
gráficos. Calcula los parámetros estadísticos (medidas de centralización,
medidas de posición y de dispersión), que describen el conjunto estudiado.
• La distribución de frecuencias o tabla de frecuencias es una ordenación

en forma de tabla de los datos estadísticos, asignando a cada dato su
frecuencia correspondiente
• La frecuencia absoluta es el número de veces que aparece un determinado

valor en un estudio estadístico
• La suma de las frecuencias absolutas es igual al número total de datos, que

se representa por N.
• La frecuencia relativa es el cociente entre la frecuencia absoluta de un

determinado valor y el número total de datos. Se puede expresar en tantos
por ciento y se representa por ni.
8068 este número sólo apareció 25 veces en los 3.4 millones de contraseñas
analizadas, lo que equivale al 0.000744% de la muestra.
10 mil combinaciones posibles
PROC FREQ
 Cuenta valores y genera tablas de frecuencias simples, dobles o más
entradas.
Formato:
PROC FREQ opciones;
<instrucciones generales>
opciones
DATA = data set selecciona el data set que se ordenará
Instrucciones generales del procedimiento FREQ.
TABLES <var1> * <var2> * ... /opciones;
PROC FREQ PROC FREQ

DATA=misdatos.salario_completo ; DATA=misdatos.salario_completo ;
table sueldo nivel ant; table sueldo*ant;
RUN; RUN;
Salida
Programa en SAS
proc freq data=misdatos.senadores;

table estatura;
run;
Ejercicio
 Utilizando la tabla de “tractores_exist” hacer una tabla
de frecuencia cuyos datos estén agrupados en 4
intervalos.
 Calcula la siguiente información:
 Rango
 Amplitud
 Intervalos
 Crear una tabla “tractores_grupos” con una variable de
clasificación “grupo” utilizando los intervalos calculados.
 Hacer una tabla de frecuencia utilizando la variable de
clasificación.
 Interprete los resultados obtenidos
Máximo: 25981 Mínimo: 165

• Máximo: 25981
• Mínimo: 165
• Recorrido:
• Amplitud:
Int LI LS PM
1 165
2
3
4
• Máximo: 25981
Int LI LS
• Mínimo: 165 1 165 6619
• Recorrido:25816 2 6619 13073
• Amplitud:6454
3 13073 19527
4 19527 25981
PROC FORMAT
PROC FORMAT;
VALUE Name(options)
Range1 = 'Label1'
Range2 = 'Label2' ;
Run;
Keywords: LOW, HIGH, OTHER

Uso de la sentencia GCHART para
hacer histograma de frecuencia
Crea un gráfico de barras verticales que representan las frecuencias en un proceso o
una operación. Tiene un eje horizontal en el cual se enumeren las categorías. El eje
vertical primario aparece en el lado izquierdo de la carta y se utiliza leer las
longitudes de las barras en la carta.
PROC GCHART;
VBAR variable /MIDPOINTS=(valor menor TO valor mayor BY intervalo)
Ejemplo: proc gchart

proc gchart data=misdatos.salario_completo;
data=misdatos.salario_completo; vbar nivel/MIDPOINTS=(1 TO 2 BY 1);
vbar sueldo; run;
run;
DONUT pie3d VBAR3D HBAR3D
OTRO PROCEDIMIENTO PARA
REALIZAR GRÁFICOS
Procedimiento CHART
 Hace gráficas de diferentes formas: histogramas verticales y
horizontales , gráficas de bloques, pies y gráficas de estrella.
 Tiene como formato general:

PROC CHART;Tipo de gráfica;
pattern color=brown;
Donde tipo de gráfica puede ser: proc gchart data=Datos1.salarios;
vbar sueldo;
 VBAR variables; run;
 HBAR variables;
 BLOCK variables; proc gchart data=Datos.salarios;
hbar sueldo / type=pct;
 PIE variables; Where sueldo>10000;
 STAR variables; run;
Int LI LS PM
1 165 6619 3392
2 6619 13073 9846
3 13073 19527 16300
4 19527 25981 22754
Grafica de dispersión
TITLE 'RELACIÓN LONGITUD-ALTURA';
AXIS2 LABEL=('LONGITUD');
AXIS1 LABEL=('ALTURA') ORDER=(1 TO 10 BY 3);
PROC GPLOT DATA=grafico;
PLOT y*x /haxis=axis1 hminor=0 vaxis=axis2;
SYMBOL1 VALUE=DOT COLOR=BLUE ;
RUN;
ORDER define el rango y el

intervalo para cada eje
proc gplot data=misdatos.salarios;
HAXIS define el eje horizontal
plot sueldo*operador;
(X)
SYMBOL1 VALUE=DOT COLOR=BLUE
HMINOR define cantidad de
run;
subdivisiones en el eje
VAXIS define el eje vertical (Y)
TITLE titulo del gráfico
Parámetros estadísticos
 Un parámetro estadístico es un número que se
obtiene a partir de los datos de una distribución
estadística.
 Los parámetros estadísticos sirven para sintetizar la

información dada por una tabla o por una gráfica.
 Hay tres tipos parámetros estadísticos:

 De centralización.
 De posición.
 De dispersión.
Medidas de centralización
 Media aritmética: Es el valor promedio de la
distribución.
 Mediana: Es la puntación de la escala que separa la

mitad superior de la distribución y la inferior, es
decir divide la serie de datos en dos partes iguales.
 Moda: Es el valor que más se repite en una

distribución.
Medidas de posición
 Las medidas de posición dividen un conjunto de datos en
grupos con el mismo número de individuos.
 Para calcular las medidas de posición es necesario que los

datos estén ordenados de menor a mayor.
 Cuantiles:
 Cuartiles : Dividen la serie de datos en cuatro partes

iguales.
 Deciles: Dividen la serie de datos en diez partes iguales.
 Percentiles: Dividen la serie de datos en cien partes iguales.

Medidas de dispersión
 Las medidas de dispersión nos informan sobre cuánto se alejan
del centro los valores de la distribución.
 Las medidas de dispersión son:
 Rango o recorrido: Es la diferencia entre el mayor y el menor

de los datos de una distribución estadística.
 Desviación media: Es la media aritmética de los valores

absolutos de las desviaciones respecto a la media.
 Varianza: Es la media aritmética del cuadrado de las

desviaciones respecto a la media.
 Desviación típica : Es la raíz cuadrada de la varianza.

Sentencia PROC MEANS
 Determina la media, desviación estándar, mínimo y
máximo de un conjunto de datos.
PROC MEANS DATA=nombre del programa;
RUN;
proc means data=salarios; proc means data=salarios;

run; output out=resultado;
proc print data=resultado;

run;
SALIDA (OUTPUT)
Instrucción VAR
 Se utiliza en diferentes procedimientos para indicar
sobre que variable quiere que se haga el análisis que se
indica en el programa.
Sintaxis: VAR variable;
 Ejemplos:
Ejemplo:
PROC MEANS DATA=salarios;
VAR salario;
RUN;
Instrucción BY
 Se utiliza en diferentes procedimientos para indicar
como quiere que se haga el análisis que se indica en el
programa.
Sintaxis: BY variable;
 Ejemplo:
proc means data=salarios; proc means data=salarios; proc means data=salarios;
var salario; var salario; var salario;
by sexo; by sexo; class sexo;
run; where sexo='Hombre'; run;
run;
Nota: La instrucción CLASS es optativa y es muy similar a la opción BY,

pero la diferencia es que con la primera los resultados en la ventana
OUTPUT son mucho más compactos.
SENTENCIA PARA DIFERENTES
ESTADISTICOS
proc means max min mean std range kurtosis data=salarios
maxdec=2;
var salario;
by sexo;
where sexo='Hombre';
run;
PROC MEANS permite realizar diferentes cálculos relacionados con los

parámetros de tendencia central y medida de dispersión
MEAN es el valor medio proc means max min mean std range data=salarios;
MEDIAN es la mediana var salario;
STD es la desviación estándar output out=resultado max=maximo mean=media;
STDERR es el error estándar proc print data=resultado;
RANGE es el rango Run;
Los estadísticos a incluir en el proc means y en el
dataset_salida mediante la instrucción OUTPUT son:
 N Número de observaciones no faltantes.
 NMISS Número de observaciones faltantes.
 NOBS Número de observaciones.
 MEAN Media.
 STDMEAN Desviación estándar de la media.
 SUM Suma de los valores.
 STD Desviación estándar.
 VAR Varianza.
 CV Coeficiente de variación.
 USS Suma de cuadrados no corregida.
 CSS Suma de cuadrados corregida.
 SKEWNESS Asimetría.
 KURTOSIS Kurtosis.
 SUMWGT Suma de los pesos de los valores.
 MAX Valor máximo.
 MIN Valor mínimo.
 RANGE Rango de valores.
 Q3 Percentil del 75% (3er Cuartil).
Ejercicio
 Utilizando la tabla senadores obtener los siguientes
parámetro estadísticos: Máximo Mínimo Media
Moda Mediana Varianza Dev tip Coeficiente de
variación Kurtosis Asimetría.
 Tabla de frecuencias.
 Explique los resultados obtenidos

Los estadísticos a incluir en el proc means y en el
dataset_salida mediante la instrucción OUTPUT son:
 MEDIAN Mediana.
 Q1 Percentil del 25% (1er Cuartil).
 QRANGE Diferencia entre Q3 y Q1.
 P1 Percentil 1.
 P5 Percentil 5.
 P10 Percentil 10.
 T t-Student para la hipótesis nula que la media de la variable es igual a cero.
 PROBT Probabilidad que el valor absoluto de t sea superior a T.
 MSIGN Estadístico de signo.
 PROBM Probabilidad que el valor absoluto del estadístico de signo sea
superior a MSIGN.
 SIGNRANK Estadístico de signo del rango.
 PROBS Probabilidad que el valor absoluto del estadístico de signo del rango
sea superior a SIGNRANK centrado.
Asimetría
CURTOSIS
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución.
g2> 0 g2 = 0
g2< 0
Asimetría
(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe

aproximadamente la misma cantidad de valores a los dos lados de la media.
(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden
a reunir más en la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimétricamente negativa por lo que los valores se
tienden a reunir más en la parte derecha de la media.
Uso del procedimiento
UNIVARIATE
Permite el cálculo de estadísticas univariadas simples para variables numéricas.
Es apropiada para variables continuas o para variables discretas con un gran
número de valores, si estos valores tienen una media.
SINTAXIS:
PROC UNIVARIATE opciones DATA=Nombre del programa;
VAR listado de variables;
BY variable;
2. Resumir la variable salario y calcular las medidas de posición y

variabilidad para el salario
PROC UNIVARIATE
DATA=misdatos.salarios;
var sueldo;
RUN;
ESTADISTICOS QUE SE OBTIENEN
CON EL PROC UNIVARIATE
OPCIONES DE PROC UNIVARIATE
 PROC UNIVARIATE FREQ; Genera una tabla de
frecuencias.
 PROC UNIVARIATE PLOT; Genera un diagrama de tallo y
hojas y la caja de dispersión de la variable.
 PROC UNIVARIATE NORMAL; Produce dos pruebas
diferentes para probar la hipótesis de que los valores de la
variable analizada se distribuyen normalmente. Y un
gráfico de probabilidad normal acumulada.
Cuando el número de observaciones por variable es igual o inferir a 2000, PROC

UNIVARIATE calcula el estadístico de Shapiro & Wilks con su respectiva
probabilidad asociada. La prueba se identifica con valores de W: Normal y Pr<W
respectivamente.
Si las observaciones por variable son superiores a 2000, PROC UNIVARIATE
calcula el estadístico de Kolmogorov y su probabilidad asociada. La prueba se
identifica con D: Normal y Pr<D.
Uso del procedimiento
UNIVARIATE
3. Comparar la variable salario para las dos submuestras que define la
variable sexo.
Antes de realizar un PROC UNIVARIATE para distintas submuestras los datos

deben estar odenados según la variable que define las submuestras.
Para ordenar los datos en orden ascendente (DEFAULT) o descendente, o en

orden alfabético si se trata de una variable alfanumérica, se usa el procedimiento
PROC SORT. Para ordenar de forma descendente se agrega la opción by
descending
PROC SORT DATA=Nombre del fichero; PROC SORT; BY DESCENDING variable;
BY variable;
proc univariate data=salario_agrupados;
var sueldo;
by sexo;
run;

Aplicacion de Sas-Descriptiva 1

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aplicacion de Sas-Descriptiva 1

Uploaded by

Copyright:

Available Formats

CLASE PRÁCTICA

Dr. Gilberto de Jesús López Canteñs

Nota: importar el archivo de estatura de senadores.

• La distribución de frecuencias o tabla de frecuencias es una ordenación

• La frecuencia absoluta es el número de veces que aparece un determinado

• La suma de las frecuencias absolutas es igual al número total de datos, que

• La frecuencia relativa es el cociente entre la frecuencia absoluta de un

PROC FREQ PROC FREQ

proc freq data=misdatos.senadores;

Máximo: 25981 Mínimo: 165

Keywords: LOW, HIGH, OTHER

Ejemplo: proc gchart

 Tiene como formato general:

ORDER define el rango y el

 Los parámetros estadísticos sirven para sintetizar la

 Hay tres tipos parámetros estadísticos:

 Mediana: Es la puntación de la escala que separa la

 Moda: Es el valor que más se repite en una

 Para calcular las medidas de posición es necesario que los

 Cuartiles : Dividen la serie de datos en cuatro partes

 Deciles: Dividen la serie de datos en diez partes iguales.

 Percentiles: Dividen la serie de datos en cien partes iguales.

 Las medidas de dispersión son:

 Rango o recorrido: Es la diferencia entre el mayor y el menor

 Desviación media: Es la media aritmética de los valores

 Varianza: Es la media aritmética del cuadrado de las

 Desviación típica : Es la raíz cuadrada de la varianza.

proc means data=salarios; proc means data=salarios;

proc print data=resultado;

Nota: La instrucción CLASS es optativa y es muy similar a la opción BY,

PROC MEANS permite realizar diferentes cálculos relacionados con los

 Explique los resultados obtenidos

(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe

2. Resumir la variable salario y calcular las medidas de posición y

Cuando el número de observaciones por variable es igual o inferir a 2000, PROC

Antes de realizar un PROC UNIVARIATE para distintas submuestras los datos

Para ordenar los datos en orden ascendente (DEFAULT) o descendente, o en

You might also like