You are on page 1of 7

Traducido y adaptado de ayuda de Stata y dataninja.wordpress.

com
Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

REFERENCIA RPIDA PARA INSTRUCCIN EN STATA
Descripcin y anlisis de datos en Stata



Este documento se puede usar como referencia durante y despus del entrenamiento en Stata, particularmente para los vdeos sobre descripcin y anlisis
de datos. Se presentarn algunos ejemplos para esclarecer ciertos comandos. Varios comandos pueden ser especificados con abreviaciones (por ejemplo,
tanto tabulate como tab son apropiados para indicar tabulate), presentndose a continuacin varios ejemplos.

El texto en courier new rojo se refiere a un comando a ser digitado en la ventana de comandos del programa Stata.
El texto en courier new rojo itlico se refiere a informacin a ser digitada que vara con el banco de datos/archivo del usuario.

En la mayora de los casos, hay opciones adicionales que pueden seguir comandos iniciales para funciones y operaciones ms especficas/detalladas.
Slo algunos ejemplos de lneas de comandos aparecen en este documento.

I. Descripcin de datos

I.1. Describir datos
1

Describir el banco datos en la memoria (formato, leyendas, etc.): describe o des o de
Describir una variable (formato, leyendas, etc.): describe variable o des variable

I.2. Resumir datos
Reportar promedio, desviacin estndar, errores, etc., de variables: su var1 var2 var3, detail detail adiciona otras estadsticas

I.3. Tabla de sentido nico
Reportar cada valor nico y su frecuencia, porcentaje, y porcentaje acumulado en formato de tabla:
tabulate var1 [in][if][options] o tab var1 o tab1 var1
Con expresin condicional: tab var1 if var1==3 & var2!=1
Reportar por grupo: bysort grupo: tab var2 o by grupo sort: tab var2 Ejemplo: bysort comunidad: tab ingresos
Con datos estadsticos:
tabstat var1 , stat(count mean sd p10 p50 p90) o tabstat var1 if var2==1, stat(count min max sd cv sk)
Con sumas/promedios de variables por grupo:
table grupo, contents (mean var3 var4 var7) o table grupo, contents (sum var3 var4 var7)
Reportar el promedio, desviacin estndar y frecuencia de las observaciones por grupo en var1.
tab var1, su(var2)


"
variable = variable de inters var# = cada variable de inters grupo = variable categrica
Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com
Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

I.4. Tabla de sentido doble
Tabla bsica: tab2 var1 var2 La primera variable ser presentada en lneas, la segunda en columnas
Producir tres tablas de sentido doble con cada combinacin: tab2 var1 var2 var3
Separar las tablas en grupos: bysort grupo: tab2 var2 var3
Ejemplo: bysort comunidad: tab2 ingresos_agric ingresos_bosque

I.5. Histogramas
Histograma de la distribucin de valores de una variable: histogram variable [in][if][options]
Exhibir la frecuencia de cada observacin en cada columna: histogram variable, frequency
Especificar nmero de columnas (i.e. 15): histogram variable, bin(15) frequency
Exhibir las porcentajes de los valores: histogram variable, percent
Exhibir la curva normal en el mismo grfico: histogram variable, normal percent
Ejemplo: histogram ingresos, normal percent

I.6. Diagrama de caja y bigotes (Box and whisker plot)
graph box var1 [in][if][options]
Ejemplo: graph box educacion in 1/100

I.7. Diagrama de tallo y hojas (Stem and leaf plot)
stem var1 [in][if][options]
Ejemplo: stem educacion if genero==1, lines(5) digits(3) lines = exhibir hasta # lneas digits = exhibir hasta # dgitos


II. Anlisis de datos

II.1. Evaluacin de sesgo y curtosis
Prueba de normalidad Shapiro Wilk: swilk variable o by grupo, sort: swilk var1
Prueba de sesgo/curtosis de Stata (parecido con prueba Shapiro Wilk): sktest variable

II.2. Correlacin
Correlaciones entre variables normalmente distribuidas:
correlate var1 var2 var3 [in][if][options] o corr var1 var2 var3 o corr var1 var2 var3, covariance
Todas las correlaciones entre cada par de variables:
pwcorr var1 var2 var3 [in][if][options]
pwcorr var1 var2 var3 displ, sig obs
pwcorr var1 var2 var3 displ, print(.05) star(.01) bon
sig obs = mostrar nivel de significancia para cada observacin star = exhibir nivel de significancia con una estrella bon = correccin Bonferroni

Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com
Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

II.3. Prueba de Chi^2
tabulate var1 var2, chi2
Ejemplo: tabulate genero alfabetizacion, chi2

II.4. Prueba de igualdad de varianza
sdtest variable, by (grupo) #vlido slo cuando se comparan dos grupos
Ejemplo: sdtest educacion, by(comunidad)

II.5. Prueba T
1

Comparar promedio de 1 muestra con un valor (#) especificado
ttest var1 = #
Ejemplo: ttest crecimiento = 0
Comparar promedio de 2 muestras (no-pareado o pareado)
ttest var1 = var2 o ttest var1 = var2, unpaired
Ejemplo: ttest ingresos_grupo1 = ingresos_grupo2, unpaired
Comparar promedio de 2 muestras exhibiendo p-valor de .05:
ttest var1 = var2, level(95)
Comparar promedio de 2 grupos (presupuesto de varianza igual o desigual)
ttest var1, by(grupo) o ttest var1, by(grupo) unequal

II.6. Prueba de Mann-Whitney U (Wilcoxon Rank Sum)
Comparar 2 muestras que no tienen distribuciones normales:
ranksum var1, by(grupo)
Ejemplo: ranksum ingresos, by(comunidad)


"
Presupuestos claves de la Prueba t: Las poblaciones siguen una distribucin normal. Las muestras son independientes.
Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com
Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

II.7. Regresin
Regresin lineal:
regress vardepend varindep o reg vardepend varindep
1

Ejemplo: reg ingreso_total ingreso_bosque
Regresin computando un estimador de varianza robusto:
reg vardepend varindep, vce(robust)
Regresin lineal realizada para cada grupo:
by grupo, sort: reg vardepend varindep
Ejemplo: by comunidad, sort: ingreso_total ingreso_bosque
Regresin mltiple con expresin condicional:
reg var1 var3 var4 if var2 !="x
Ejemplo: reg ingreso_total ingreso_bosque ingreso_gobierno if comunidad != 3
Regresin logstica (mismas opciones que para la regresin):
logit var1 var2 var3 [options]
Regresin por pasos conservando slo las variables predictoras estadsticamente significativas al nivel .05):
stepwise, pr(.05): regress var1 var2 var3 var4 var5 [options]
Regresin por pasos (conservando slo las variables predictoras estadsticamente significativas al nivel .05, fijando var1):
stepwise, pr(.05) lockterm1: regress var1 var2 var3 var4 var5 [options]
Regresin por pasos (incluyendo variables predictoras que son significativas al nivel .10):
stepwise, pr(.10): regress var1 var2 var3 var4 (var5 var6 var7) var5 var6 y var7 son incluidas o excluidas como un conjunto
Regresin robusta
rreg var1 var2 var3 var4
Regresin cuantlica
qreg var1 var2 var3 var4 o bsqreg var1 var2 var3 var4, rep(#)
bsqreg aplica el mtodo bootstrap (data resampling) para estimar errores estndar. rep(#) controle el nmero de repeticiones

II.8. Grficos en regresin:
Grfico de dispersin de sentido doble, con prediccin linear:
twoway scatter var1 var2 || lfit var1 var2
Ejemplo: twoway scatter ingreso_total ingreso_bosque || lfit ingreso_total ingreso_bosque
Grfico de dispersin de sentido doble, con prediccin cuadrtica:
twoway scatter var1 var2 || qfit var1 var2
Ejemplo: twoway scatter ingreso_total ingreso_bosque || qfit ingreso_total ingreso_bosque
Grficos de dispersin para cada grupo o para cada grupo junto con muestra total:
scatter var1 var2, by (grupo) o scatter var1 var2, by (grupo, total)
Ejemplo: scatter ingresototal ingresobosque, by(comunidad, total)

1
vardepend = variable dependiente (y) varindep = variable independiente (x)
Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com
Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

II.9. Diagnsticos realizados a continuacin de la regresin
1

Predecir residuos:
predict resid, residuals
Predecir residuos conforme distribucin estndar o distribucin students t:
predict stdres, rstandard o predict studres, rstudent
Predecir influencia (leverage) de cada observacin:
predict lev, leverage
Ordenar residuos estndar:
sort stdres
Tabular residuos estndar:
tabulate stdres
Resumir residuos estndar:
su stdres
Evaluar sesgo/curtosis de residuos:
sktest resid En caso de no cumplirse el criterio de normalidad, hay que transformar los datos
Exhibir cuantiles de variable contra cuantiles de la distribucin normal:
qnorm resid Mientras ms cercanos los puntos a la lnea, mejor
Exportar grfico qnorm:
graph export caminho\graf_normresid.tif, replace
Evaluar homocedasticidad/heterocedasticidad (test Cook-Weisburg (1983)):
hettest
Grfico de influencia-versus-residuos al cuadrado (leverage versus squared residuals)
lvr2plot Valores extremos con mucha influencia aparecen en el cuadro noreste
Estimacin por estimadores tipo ncleo (kernels) de una funcin de densidad univariada:
kdensity r, normal
Grfico de resduos versus fitted:
rvfplot
Calcular factores centrados o descentrados de inflacin de la varianza (FIVs) para los regresores especificados en el modelo de regresin linear:
estat vif Este comando tiene que seguir la regresin. El FIV mayor no debera ser >10. Para excluir muliticolinearidad, el FIV promedio no deberia ser >1
Computar varas medidas de colinearidad entre variables (i.e. VIF, tolerancia, valores eigen, etc.) :
collin var1 var2 Si collin no funciona, escriba findit collin en la ventana de comandos y instalar el archivo para usarlo.


"
Valores de standard residuals con valor absoluto > 3.5 o valores de leverage entre 1/n y 1 pueden representar valores atpicos y merecen ms atencin
Presupuestos claves de regresin: La muestra debe representar la poblacin para realizar una previsin de inferencia. Las variables independientes deben ser
linealmente independientes (ausencia de multicolinearidad). Los errores no estn correlacionados. La varianza de error es constante para todas las observaciones
(homocedasticidad).

Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com
Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

Ejemplo de secuencia potencial de diagnsticos a continuacin de la regresin:
predict resid, residuals
predict stdres, rstandard
predict lev, leverage
sort stdres
tabulate stdres
su stdres
sktest resid
qnorm resid
graph export camino/graf_normresid.tif, replace
estat hettest
lvr2plot
kdensity r, normal
rvfplot
vif
collin var1 var2


II.10. ANOVA
1

Sentido nico:
anova vardepend varindep
Ejemplo: anova ingresos educacion
One-way incluyendo tabla con pruebas de comparacin mltipleSidak, Scheffe, y Bonferroni :
anova vardepend varindep, tabulate sidak scheffe bonferroni *cualquier comparacin o combinacin de las tres puede ser especificada
Sentido nico grande (ofrece opciones adicionales que oneway no ofrece)
loneway vardepend varindep
Sentido doble:
anova vardepend varindep1 varindep2
Ejemplo: anova ingresos educacion comunidad
Sentido doble con interaccin:
anova vardepend varindep1 varindep2 varindep1*varindep2
Ejemplo: anova ingresos comunidad distancia_estrada comunidad*distancia_estrada
Anidado (Nested):
anova vardepend varindep2 / varindep1|varindep2 /
Ejemplo: anova ingresos comunidad / municipalidad|comunidad /
Medidas Repetidas (Repeated measures):
anova vardepend varindep1 varindep2, repeated(varindep2)
Ejemplo: anova resultado individuo tratamiento, repeated(tratamiento)

"
vardepend=variable dependiente (y) varindep=variable independiente (x)
Presupuestos claves de ANOVA: Las poblaciones siguen una distribucin normal. Las muestras son independientes. Las distribuciones de los residuos son normales.
Las varianzas son iguales (homocedasticidad). Los grupos tienen el mismo tamao de la muestra.
Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com
Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

II.11. Kruskal Wallace (alternativa no-parametrica al ANOVA)
kwallis variable, by(grupo)


III. Consejos adicionales

III.1. Transformaciones de datos no-normales:
Mostrar la distribucin que resulta despus de transformaciones comunes: gladder var1 o gladder, frequency o gladder, percent
Visualizar Chi2 y nivel de significancia de transformaciones comunes: ladder variable

III.2. Creacin de nuevas variables basado en transformaciones comunes:
Para normalizar distribucin con sesgo positivo (tipo Poisson), generar la raz cuadrada de la variable:
gen sqrt_var1 = sqrt(var1)
Para normalizar distribucin con sesgo negativo, generar el cuadrado de la variable:
gen var1_sq = (var1)^2
Para normalizar distribucin exponencial, generar el log o recproco de la variable:
gen log_var1 = log(var1) o gen recip_var = (1/var1)
Otras transformaciones: (variable)^3 1/(variable)^2 1/(variable)^3 1/sqrt(variable)

You might also like