Com An Dos Des Tata

PAQUETES ESTADISTICOS
GUIA DE MANEJO DE STATA

_____________________________________________________________________
Ma. Constanza Camargo Bohórquez
Maestría en Ciencias de la Salud con Área de Concentración en Epidemiología
El presente documento resume los principales comandos utilizados para el análisis de

bases de datos en STATA
1. ADMINISTRACIÓN GENERAL DE BASES DE DATOS
• COMANDOS PARA ABRIR BASE DE DATOS:
COMANDO USO
using unidad:/nombre de la base.dta Estos comando se utilizan para abrir una
use a:/ nombre de la base.dta base de datos. Es importante mencionar que
STATA solo puede ejecutar bases con
extensión dta. Para transformar las bases se
utiliza un paquete anexo denominado STATA
TRANSFER.
• Click a file - Archivo Esta opción hace uso del menu propuesto
• Open – Abrir por el programa
• Seleccionar el archivo a ejecutar
• Abrir
• Icono de carpeta
• Seleccionar el archivo a ejecutar
• Abrir
• COMANDOS PARA GUARDAR INFORMACIÓN – ARCHIVO LOG
COMANDO USO
• Click al icono (pergamino) Para abrir archivo log que permite grabar
• Elegir localización para guardar el automáticamente toda la información de
archivo comandos y resultados generados en el
• Asignar nombre al archivo con análisis de la base de datos. Puede ser leído
extensión log en el procesador de texto word.
• Abrir
• Para cerrar click en el icono y en
close log file
Log using a:/nombre del archivo.log Para abrir un archivo log ya existente en el
• Click al icono (pergamino) cual se quieren anexar nuevos resultados.
• Elegir localización del archivo
• Elegir el archivo
• Click a la opción de append to
existing file
• Para cerrar click en el icono y en
close log file
• COMANDO PARA DESCRIPCIÓN DE LA BASE DE DATOS
COMANDO (DIFERENTES OPCIONES) USO

• describe Se utiliza para describir las generalidades de
1
• de la base de datos (numero de observaciones,
• desc numero de variables y tamaño de la base)
• d
codebook Se utiliza para ubicar valores perdidos o
faltantes y observar generalidades de las
variables
list if Se utiliza para listar cualquier observación
Ej. list if edad==. contenida en la base de datos. En este caso
List if edad <. se ejemplifica la búsqueda de valores
faltantes de la variable edad
• COMANDOS PARA EDICIÓN DE LA BASE DE DATOS
COMANDO USO
browse Se utiliza para ver la hoja con los datos (tabla)
Icono data browser
edit Para edición de la base de datos
list Para listar observaciones y las variables de cada
individuo
label var variable Para etiquetar variables
Ej. label var edad “edad en años”
label define Para cambiar la codificación de la variable
Ej. label define edad 1”0/20” 2”21/40”
3”41/max”
label value Para asignar los valor etiquetados a las variables
Ej. label value edad edad
• generate Para genera una nueva variable idéntica a partir
• gen de una existente en la base de datos. En este caso
• gene se ejemplifica la generación de una variable
• gener idéntica a la edad
Ej. gen edad2=edad
• recode Para recodificar los valores o categorías de una
• rec variable. En este caso se ejemplifica la
• reco recategorización de variable edad2 generada.
• recod
Ej. recode edad2 min/45=1 45/max=2
• replace Para reemplazar valores o categorías de una
• rep variable. En este caso se ejemplifica el reemplazo
• repl de las edades menores o iguales a 20 por el valor
Ej. replace edad=1 if edad<=20 1 en la variable edad.
Keep Para guardar variables, principalmente con el fin
de construir una nueva base de datos a partir de
una existente
drop Para borrar variables
Ej. drop all (borra todas las variables)
drop edad (borra la variable edad)
Sort Para ordenar las variables de la base de datos
Ej. sort folio (ordena numéricamente por folio
la base de datos)
order Para cambiar orden de las variables dentro de la
Ej. order edad talla genero base de datos
Move Para mover o ubicar una variable en la hoja de
Ej move peso datos al comienzo
save as Para guardar los cambios de la base de datos
2
save, replace Para guardar los cambios de la base de datos
clear Para cerrar base de datos o limpiar comandos
anteriores
• COMANDOS PARA PEGAR BASES DE DATOS
PASO COMANDO USO
1 using a:/nombre de la Para abrir una base genérica localizada en A

base principal.dta
2 sort folio Organizar esta base de datos de acuerdo con el
número de folio
3 Keep folio var1 var2.... Selección de las variables que se desean conservar
varp
4 save as a:/nombre de la Guardar archivo de las variable seleccionadas en el

base de datos hija.dta punto anterior
5 using a:/nombre de la Para abrir la base a la cual deseamos pegar las
base.dta variables seleccionadas archivo: nombre de la base
de datos hija.dta
6 Sort folio Organizar esta base de datos con base en la variable
folio. La variable folio debe ser igual en todos los
archivos
7 merge folio using a:/ Para unir las variables al archivo en uso. La unión se
nombre de la base de evidencia por la creación automática de la variable
datos hija.dta _merge
8 tab_merge Para verificar la unión. Debe observarse una sola
categoría (3) con el total de las observaciones
9 save, replace Para guardar los cambios hechos en la base de datos
nombre de la base principal.dta
10 describe Para revisar que la nuevas variables fueron incluidas
11 drop _merge Para borrar la variable creada _merge, dejando la
posibilidad de nueva uniones
• CREACIÓN DE UN ARCHIVO DO
Es un archivo que construye incluye la relación de todos los comandos necesarios para
abrir, ejecutar y analizar una base de datos. Es una rutina de comandos.
2. ANALISIS DE BASES DE DATOS
• COMANDOS DESCRIPCIÓN UNIVARIADA
COMANDO USO
• summarize Para estimar de una o más variables
• summ continuas numero de observaciones, media,
• sum desviación estándar y rango. En el ejemplo
Ej. summ edad peso talla se describirán las variables edad, peso y talla
• summarize Para estimar de una o mas variables
• summ continuas numero de observaciones,
• sum medidas de tendencia central, valores
adicionando var, detail mínimos y máximos, medidas de dispersión,
3
Ej. summ edad,de Percentiles, curtosis y sesgo (mayor detalle).
• tabulate Para estimar en una variable categórica
• tab número de observaciones, porcentaje y
Ej. tab raza frecuencia acumulada
• tabulate1 Para estimar simultáneamente en mas de
• tab1 una variable categórica número de
Ej. tab1 raza nivelsoc genero observaciones, porcentaje y frecuencia
acumulada
lv Para observar dispersión de los datos y
valores aberrantes
graph var Para ver la distribución de una variable
continua
Graph var, box Para ver la distribución en caja de una
variable continua
graph var, norm Para ver la distribución de una variable
qnorm var continua comparada con el patrón de
distribución normal
Sktest var Para realizar la prueba estadística de
normalidad de una variable continua (Ho:
distribución normal). Ofrece los datos de
curtosis y sesgo (la distribución normal tiene
una curtosis de 3 y un sesgo de cero)
swilk var Prueba de Shapiro Wilk para probar
normalidad de una variable continua (Ho: la
variable tiene distribución normal)
ladder var Para comprobar objetivamente la normalidad
de una variable continua y evaluar sus
posibles trasformaciones en búsqueda de
normalidad en su distribución. Ho: la variable
continua transformada tiene distribución
normal
• COMADOS PARA ANÁLISIS BIVARIADO
COMANDO USO
RELACIÓN VARIABLE CONTINUA VS. DICOTÓMICA
sdtest var, by(var) Se utiliza para comparar las varianzas una
Ej. sdtest edad, by(genero) variable continua con una dicotómica. Ho: las
varianzas son iguales
ttest var, by(var) Si las varianzas son iguales. Compara las
medias una variable continua con una
dicotómica. Ho: las medias de las categóricas
son iguales.
ttest var, by(var) unequal Si las varianzas no son iguales. Compara las
medias una variable continua con una
dicotómica. Ho: las medias de las categóricas
son iguales.
tab var, summ (var) Muestra una tabla de contingencia que
Ej. tab genero, summ (edad) relaciona una variable dicotómica con una
continua
• regress Regresión lineal con un sólo regresor
• reg
reg vardep varindep
RELACIÓN VARIABLE DICOTÓMICA VS. DICOTÓMICA
4
tab var var,chi2 Relaciona dos variables dicotómicas
mediante una prueba de chi2
tab var var, row cell exact, all Relaciona dos variables categóricas, calcula
porcentaje dentro de las filas y las columnas,
además de la prueba exacta de Fisher
cuando se tiene una celda con menos de 5
observaciones.
tabi a b c d Realiza una tabla de contingencia con los
valores exactos de las celdas, además de la
prueba de chi2
cc var var Permite obtener la razón de momios
relacionando dos variables dicotómicas
cci a b c d Relaciona una tabla de contingencia con los
valores exactos de las celdas, además de la
prueba de chi2. Ofrece el OR
cs var var Permite obtener RR relacionando dos
variables dicotómicas
csi a b c d Para realizar una tabla de contingencia con
los valores de agrupados de la tabla. Calcula
el RR
logit vardep varindep Permite realizar una regresión logística con
Logistic vardep varindep un sólo regresor
RELACIÓN VARIABLE CONTINUA VS. CATEGÓRICA DE MAS DE DOS
CATEGORIAS
tab var, summ (var) anova Realiza una tabla de contingencia que
Ej. tab genero, summ (edad) relaciona una variable categórica con una
continua. Ofrece diferencia de medias y
varianza entre las categorías
oneway var var, means bonferroni Permite comparar medias y varianzas entre
los grupos. Ho para medias: Las medias son
diferentes y Ho para varianzas: Las varianzas
son diferentes
RELACIÓN VARIABLE CONTINUA VS. CONTINUA

• pwcorr var var, sig Correlación de Pearsón. Esta correlación
• corr var var, sig ajusta por el numero de regresores. El
calculo toma en cuenta el numero de
observaciones completas.
pcorr var var Correlación parcial. El calculo se realiza sin
ponderar por otras variables
plot var1 var2 Permite graficar en diagrama de dispersión
dos variables continuas
ksm var1 var2, lox Permite graficar en diagrama de dispersión
dos variables continuas con técnica de
suavizamiento
• CONTRUCCIÓN DE VARIABLES DUMMY PARA VARIABLES DE MAS

DE DOS CATEGORIAS
COMANDO USO
tab var,gen (var) Para generar variables indicadoras de una
5
variable de más de dos categorías
• ANÁLISIS MULTIVARIADO
COMANDO USO
pwcorr vardep varindep1 varindep2….. Correlación de Pearsón. Esta correlación
varindepp, sig ajusta por el numero de regresores. Solo se
usa para variables continuas
pcorr vardep varindep1 varindep2….. Correlación parcial. Sin ponderación por
varindepp otras variables. Solo se usa para variables
continuas
Opciones: regress/reg Comando para regresión lineal múltiple para
reg vardep varindep1 varindep2 análisis multivariado con una variable
varindep3..........varindepp dependiente continua y n variables
independientes de cualquier tipo
logit vardep varindep1 varindep2…. Comando para regresión logística múltiple
varindepp con una variable dependiente dicotómica y
n variables independientes de cualquier
tipo. Los resultados estimados están en
escala logarítmica, lo que permite estimar
probabilidades y proporciones ajustadas en
estudios de cohorte y transversales
respectivamente
Logistic vardep varindep1 varindep2…. Comando para regresión logística múltiple
varindepp con una variable dependiente dicotómica y
n variables independientes de cualquier
tipo. Los resultados estimados están en
escala real (razones de momios en estudios
de casos y controles y razones de momios
de prevalencia en estudios transversales).
glm vardep varindep1 varindep2.... Comando para usar el modelo lineal
varindepp, family (poisson) link (log) generalizado para una variable con
lnoff(exposure) nolog distribución poisson medida como conteo
(regresión poisson) y n variables
independientes de cualquier tipo
Poisson vardep varindep1 varindep2..... Comando para regresión poisson múltiple
varindepp, exp(exposure) nolog para análisis multivariado con una variable
dependiente de conteo y n variables
independientes de cualquier tipo. Los
resultados están en escala logarítmica
Poisson vardep varindep1 varindep2..... Comando para regresión poisson múltiple
varindepp, exp(exposure) nolog irr para análisis multivariado con una variable
dependiente de conteo y n variables
independientes de cualquier tipo. Los
resultados están en escala real (riesgos
relativos)
Nota: la variable exposure se utiliza para
ajustar, cuando los denominadores no son
iguales
El uso de nolog es opcional, omite las
iteraciones de realiza el paquete estadístico.
6
sw El stepwise es un comando que le solicita al
Ej. sw logit vardep varindep1 paquete estadístico la búsqueda de un
varindep2.... varindepp, pr(0.2) modelo perfecto estadísticamente. Se ajusta
Forward = pe con los valores de p esperados en las
Backward = pr relaciones. Usado para cualquier tipo de
regresión
3. DIAGNOSTICO DE MODELOS MULTIVARIADOS
REGRESIÓN LINEAL MULTIPLE
COMANDO USO
VERIFICACIÓN DE SUPUESTOS / ANÁLISIS DE RESIDUOS
predict nombre de la variable de Una vez corrido el modelo propuesto,
residuos, rstudent generar residuos estudentizados
rvpplot varind1 Permite graficar los residuos estudentizados
con cada variable independiente
qnorm nombre de la variable de residuos Permite comprobar la normalidad de los
swilk nombre de la variable de residuos residuos generados
rvfplot, yline(0) Permite comprobar el supuesto de que la
media de los residuos es cero y la varianza
es constante
Hettest Esta prueba es la de heterocedasticidad
(Cook-Weisberg), se usa para comprobar el
supuesto de que los residuos tienen varianza
constante. Ho: los residuos no tienen
varianza constante
DETERMINACIÓN DE PUNTOS INFLUYENTES
predict nombre de la variable, hat Para predecir los valores de la matriz
sombrero
count nombre de la variable >2*p/n Para contra los valores mayores a 2p/n
List if nombre de la variable >2*p/n Para listar los folios de los puntos mayores
de 2p/n
PUNTOS INFLUYENTES EN EL VECTOR BETA (distancia de Cook)
predict nombre del archivo, cooksd Habiendo corrido el modelo propuesto se
predicen los valores entre cada observación
y la nube de puntos
Count nombre de la variable >1 Para contar los puntos fuera con una
distancia mayor de 1
PUNTOS INFLUYENTES EN CADA BETA
dfbeta Permite calcular los dbeta de cada regresor
sum dfvarind1 dfvarind2..... dfvarindp Permite observar el rango y la media de los
dbeta de cada regresor
for var dfvarind1 dfvarind2....... Permite identificar los puntos influyentes de
dfvarindp:count if abs(X)>2/sqrt(n) cada regresor
Nota: Cuando hay una incongruencia de detectar puntos influyentes en cada beta, pero
no en el vector se calculan los puntos influyentes en los valores predichos Dfit
predict nombre de la variable, dfits Permite predecir los valores predichos
sum nombre de la variable Permite la observación de los rangos y la
media de los valores predichos
count if abs(dfit)>2*sqrt(p/n) Permite contar los valores predichos
mayores de 2sqrt(p/n)
list vardep varind1 varind2….varindp if Permite listar los valores predichos mayores
7
abs(dfit)>2**sqrt(p/n) de 2sqrt(p/n)
Nota: luego de omitir los puntos influyentes
debe correrse nuevamente el modelo.
ANÁLISIS DE MULTICOLINEALIDAD
vif Una vez corrido el modelo propuesto se
calcula el factor de inflación de la varianza.
Valores mayores de 10 indican
multicolinealidad
REGRESIÓN POISSON
COMANDO USO
PRUEBAS DE BONDAD DE AJUSTE
poisgof Una vez corrido el modelo propuesto y
posteriormente el modelo nulo se realiza esta
prueba de bondad de ajuste que compara
estos modelos. Ho: el modelo propuesto
ajusta los datos (los regresores incluidos
explican a Y).
Lrtest, s(0) Una vez corrido el modelo propuesto se
escribe el comando “lrtest, s(0)”, luego se
corre el modelo nulo y el comando “lrtest”.
Esta prueba de bondad de ajuste compara
los dos modelos, bajo la Ho: los dos modelos
explican igualmente el comportamiento de Y
ANÁLISIS DE RESIDUOS
glmpred nombre de la variable de los Permite generar los residuos de devianza
residuos, dev
sum nombre de la variable de los Permite la observación de las características
residuos de los residuos de devianza
qnorm nombre de la variable de los Permite determinar la distribución de los
residuos residuos de devianza
swilk var Prueba de Shapiro Wilk para probar
normalidad de los residuos de devianza (Ho:
los residuos de devianza tiene distribución
normal)
REGRESIÓN LOGISTICA
COMANDO USO
PRUEBAS DE BONDAD DE AJUSTE
lfit Una vez corrido el modelo propuesto se
utiliza esta prueba para verificar si el modelo
ajusta los datos. Ho: el modelo ajusta los
datos
lfit, group(10) Modificación propuesta por Hosmer y
Lemeshow.
Ua vez corrido el modelo propuesto se utiliza
esta prueba para verificar si el modelo ajusta
los datos. Ho: el modelo ajusta los datos
lstat Permite evaluar sensibilidad y especificidad
del modelo, además de los falsos positivos y
negativos.
8
GRAFICAS DIAGNOSTICAS
lroc Permite evaluar el valor predicitvo del
modelo. Un modelo sin valor predictivo tiene
área 0.5 y un modelo perfecto tendría área 1
lsens A través de una grafica, relaciona
sensibilidad y especificidad del modelo.
ANÁLISIS DE RESIDUOS
lpredict nombre de la variable de los Permite generar residuos estandarizados
residuos
graph res nombre de la variable de los Permite graficar los residuos
residuos
graph res nombre de la variable de los
residuos, yline(0)
sum nombre de la variable de los Permite la observación del rango y la media
residuos de los residuos estandarizados
lpredict dbetas, dbeta Permite generar dbetas, en búsqueda de
puntos influyentes de cada regresor (beta)
sum dbeta Permite observar el rango y la media de los
dbetas
graph res nombre de la variable de los
residuos, twoway oneway box border
yline(0)
4. ANALISIS DE SUPERVIVENCIA
la estimación de supervivencia se hace con métodos no paramétricos, usaremos

Kaplan Meier.
Análisis utilizado para estudios longitudinales. Tiene las siguientes características:

• Presencia fundamental de censura
• Presencia de fallas (evento)
• La variable dependiente o respuesta es el tiempo
• El evento esta medido categóricamente
COMANDO USO
stset tiemdd censura1 Prepara a STATA para el análisis de
supervivencia. Se le indica la variable tiempo
y censura
tab censura1 Permite la observación de la variable censura
. sum tiemdd, detail Permite la observación de los valores
máximos y mínimos de la variable tiempo.
Incluye fallas y censuras
. sts list La descripción se hace mediante la
construcción de tablas de vida. Los
principales parámetros son:
• Time: tiempo de supervivencia
• Begtotal= individuos vivos justo antes de
este tiempo.
• fail=Numero de fallas
• fail/beg total= probabilidad estimada de
supervivencia en el tiempo
• S estimada= producto de el No. de
sujetos vivos antes del tiempo - No. de
9
• fallas / No. de individuos que están vivos
antes del tiempo.
• S estimada es la función de
supervivencia.
Este analisis esta ajustado por el tiempo de
las censuras.
. sts list, by(pap) Permite la construcción de una tabla de vida
estratificando por una variable. En este
ejemplo vemos la supervivencia de las
mujeres con antecedente de pap
Nota: No se pueden hacer análisis de
inferencias en bivariados.
. sts graph Los anteriores comandos grafican. las rayas
. sts graph, by(etapa) horizontales muestran las censuras y las
verticales las fallas.
. sts test etapa,logrank Logrank se usa para ver diferencias en las
curvas de supervivencia observadas en
Kapplan M. Ho= no hay diferencia entre las
líneas
NOTA: El análisis bivariado y multivariado se hace mediante el modelo de riesgos

proporcionales de cox.
10
Comandos y su descripción:
Ma. Esperanza Lucas Resendiz
Append. Este comando permite unir a las observaciones de dos bases de datos y no a
través de variables completas.
Browse. Favorece la visualización de datos de la base en la hoja de captura sin la
posible opción de modificación.
by var: sum var, detail Como variante del sum condiciona por cualquier variable la
descripción en detalle de cualquier otra
centile Permite observar los percentiles que se deseen de X variable con
característica de continua para que de esta forma pueda ser poder dividirla en
categorías.
Clear
Este comando oculta la base de datos sin que se salve y sin que sea necesario
salir del programa
Codebook
A través de este comando se explora una variable X ayudando a recordar sus
valores.
corr var var
A través de este comando se establece la correlación entre dos o más variables
count if abs (cook)>1
Se despliega el valor entre los residuos y beta
count if abs(dfits)>2*sqrt(p/n)
Cuenta los puntos influyentes de los valores predichos mismos que no deben
sobrepasar de 2*sqrt(p/n).
count if abs(DFvar1)>2/sqrt(n)
Cuenta los puntos influyentes en cada una de las variables independientes (X)
del modelo, mostrando el número de ellos, que no debe sobrepasar de 2/sqrt(n)
count if abs(resid)>1.96
Presente el conteo de residuales mayores a 1.96
describe
Es la descripción de una base de datos en general y de una variable (X) en particular
dfbeta
Se generan las distancias de diferentes variables independientes incluidas en el
modelo (X), es decir las distancias entre residuos y el beta-j
display
Este comando sirve para realizar cualquier operación matemática.
drop
Borra variables a indicación del investigador.
drop var-var
Borra desde una variable inicial hasta una variable final.
edit
Este comando permite la visualización de los datos de la base en la hoja de captura
con opción de algún tipo de modificación.
exit, clear
Este comando se emplea para salir del programa preservando el log pero sin salvar la
base.
fpredict dfits, dfits
A través de este comando se generan las distancias existentes entre los valores
observados o predichos y los esperados.
gen
11
Se genera una nueva variable que puede ser independiente o bien ser origen de otra.
graph DFvar1 DFvar2, box yline
Permite realizar un gráfico de caja condicionado con la finalidad de visualizar puntos
influyentes.
graph res pred
Se grafican los residuos estandarizados
graph res pred, yline twoway onaway box border
Se grafican los residuos estandarizados, con una línea paralela al eje de las x´s
perpendicular al eje de las (y), incluyendo además, a un box plot paralelo a ambos
ejes, mostrando valores aberrantes.
graph res pred, yline(0)
Esta grafica permite ver los residuos estandarizados, con una línea paralela al eje de
las X perpendicular al eje de las Y.
graph var
Permite realizar de forma sencilla, un histograma de una variable(X, Y).
graph var var
Permite realizar un gráfico de correlación entre dos variables visualizando la tendencia
graph var var, connect(l)
Se realiza un gráfico de correlación entre dos variables con una línea que permite unir
todas las observaciones.
graph var, box
Diagrama o gráfico de caja.
graph var, box by
Diagrama o gráfico de caja condicionado por valores de cualquier otra variable
graph var, box by(var) yline
Presenta una línea paralela al eje de las (X) y compatible en valores con eje de las (Y)
en diagrama de caja que compara dos variables.
graph var, his
Se realiza un histograma sencillo de la variable solicitada.
graph var, his norm
Permite realizar un histograma con línea de distribución visible.
graph var, his norm noaxis
Permite realizar un diagrama de frecuencias con línea de distribución visible.
graph var, his ylabel xlabel
Etiqueta un diagrama de frecuencias(histograma) en sus ejes de manera automática.
Keep
Retiene en la base de datos, solo las variables que se deseen, eliminando
automáticamente todas aquellas variables que no se escribieron posterior al comando.
keep if
Retiene los valores de una variable (X) de forma condicionada.
ksm var var
Permite realiza una diagrama de correlación entre dos variables continuas,
presentando una línea suavizada que se emplea para hacer un promedio de los valores
de ambas variables, pudiendo observarse una tendencia.
label data
Etiqueta la base de datos completa con el nombre que el investigador asigne.
label define
Este comando permite etiquetar categorías de exposición o grupos previamente re-
codificados.
label values
A través de este comando es posible observar como fueron nombradas las categorías
de exposición y sus valores después de haberse etiquetado.
label var
Etiqueta variables.
ladder
12
Permite visualizar los diferentes tipos de transformaciones de una variable para así,
poder elegir la mejor transformación.
lfit
A través de este comando se permite evaluar la prueba de Hosmer Lemeshow y ver si
los datos se ajustan al modelo.
lincom var-var
Realiza un prueba de asociación (OR, p, IC) entre las diferentes categorías de una
variable evaluando su igualdad y de esta forma se agrupen con la condición de haber
corrido previamente un modelo de regresión.
List
Permite explorar a la variable.
list folio if abs (DFvar1)>2/sqrt(n)
Enlista los folios con puntos influyentes de una variable DF en particular.
list folio if cook>1
Indica folios de valores influyentes.
list folio if dfits>2*sqrt(p/n)
Muestra a los folios con valores influyentes.
list folio if resid>1.96
Muestra folios que contienen los residuos condicionados a >1.96.
list if
Condiciona la observación a un valor específico.
list if abs(dfits)>2*sqrt(p/n
Lista puntos influyentes en los valores predichos.
list if abs(DFvar1)>2/sqrt(n)
Lista puntos influyentes de la primera variable DF mostrando los datos de todas las
variables de la base, incluyendo las nuevas variables que recién fueron generadas.
list if abs(resid)>1.96
Lista los residuos mayores a 1.96.
list var-var if
Lista las variables desde una inicial hasta una final (condicional).
log off
Deshabilitar el log.
log on
Habilita el log.
logistic var var
Realiza un modelo de regresión logística bivariado así como multivariado.
lpredict dbet, dbeta
Sirve para generar residuos generando las distancias de diferentes variables
independientes incluidas en el modelo.
lpredict res, rstandard
Muestra los residuos estandarizados.
lpredict stand
Genera los residuos estandarizados.
lroc
Diagnóstico del modelo através de la interpretación del área bajo la curva condicionado
por puntos de corte en su sensibilidad así como de su especificidad.
lstat
Hace diagnóstico del modelo a través de una prueba de tamiz.
lv var
Gráfico de letras, mostrando valores aberrantes.
merge
Permite reunir dos bases de datos que tienen al menos una variable en común.
predict cook, cooksd
Puntos influyentes en beta por la distancia de cook.
predict r_stu, rstu
13
Genera los residuos estudentizados posterior a correr un modelo de regresión múltiple.
pwcorr var var
Correlación entre dos o más variables.
pwcorr var var if
A través de este comando se puede establecer una correlación condicionada entre dos
o más variables por valor(es) de una de ellas con o sin significancia estadística.
pwcorr var var, sig
Permite establecer correlación entre dos o más variables, con valor de significancia
estadística.
qnorm resid
Gráfica de los residuos ajustándolos a una línea de distribución normal.
qnorm var
Gráficos que muestran el ajuste en una curva de distribución normal a los datos por
observacion.
recode
Recodifica los valores de una variable (grupos o categorías de exposición) de acuerdo a
determinados puntos de corte biológicamente plausibles o por estadística.
regress
Realiza una regresión lineal simple o múltiple.
regress var var if
Realiza una regresión lineal simple o múltiple de manera condicionada.
rename
Cambia el nombre a una variable.
replace
Reemplaza/modifica categorías de una variable.
replace var if
Reemplaza/modifica categorías de una variable(condicionada) por la misma o por otra
variable.
save, replace
Salva la base de datos por las últimas modificaciones.
sort
Ordena los datos de una variable que pueden evaluarse con la indicación "by"
stem var
Diagramas de tallo y hoja.
sum cook
Resumen de datos que permiten observar el tamaño de la distancia a la beta siendo
deseable que esta distancia de cook <1.
sum dfit
Visualiza las distancias entre valores predichos y esperados.
sum DFvar1 DFvar2 DFvar3
Visualiza los puntos influyentes en beta-j.
sum var if
Descripción de la variable acotada a valor(es) considerados por el investigador.
sumarize
A través de este comando se pueden describir una-mas variables resumiendo medidas
de tendencia central y la distribución.
sumarize var, detail
Describe una-mas variables resumiendo sus medidas de tendencia central y su
distribución.
tab var if
Permite a través de este comando observar datos de una variable acotados a cierto
valor(es).
tab var var
Explora dos variables.
tab var, gen (var)
14
A través de este comando se producen a las variables indicadoras o dummies para
cada una de las categorías de la variable.
tab var, sum var
Cruza datos descriptivos (medidas de tendencia central de la segunda variable) por
categorías de la primera variable permitiendo hacer un análisis de las variables por
grupos.
tab_merge
Visualiza la variable generada del comando merge.
tabulate
Explora variable(s).
tabulate var, nolabel
Borra la etiqueta de las categorías que tenga la variable.
ttes var if
Prueba de t de student condicionada por un valor(es).
ttest
Prueba de t de student de comparación de dos medias muestrales.
ttest var, by(var)
Prueba de t de student condicionada a la variable dependiente
vif
Inflación de la varianza (multicolinealidad). Para descartar multicolinealidad el vif debe
ser <10.
15

Com An Dos Des Tata

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Com An Dos Des Tata

Uploaded by

Copyright:

Available Formats

PAQUETES ESTADISTICOS

GUIA DE MANEJO DE STATA

El presente documento resume los principales comandos utilizados para el análisis de

1. ADMINISTRACIÓN GENERAL DE BASES DE DATOS

• COMANDOS PARA ABRIR BASE DE DATOS:

• COMANDOS PARA GUARDAR INFORMACIÓN – ARCHIVO LOG

• COMANDO PARA DESCRIPCIÓN DE LA BASE DE DATOS

COMANDO (DIFERENTES OPCIONES) USO

• COMANDOS PARA PEGAR BASES DE DATOS

PASO COMANDO USO

1 using a:/nombre de la Para abrir una base genérica localizada en A

4 save as a:/nombre de la Guardar archivo de las variable seleccionadas en el

2. ANALISIS DE BASES DE DATOS

• COMANDOS DESCRIPCIÓN UNIVARIADA

• COMADOS PARA ANÁLISIS BIVARIADO

RELACIÓN VARIABLE CONTINUA VS. CONTINUA

• CONTRUCCIÓN DE VARIABLES DUMMY PARA VARIABLES DE MAS

3. DIAGNOSTICO DE MODELOS MULTIVARIADOS

REGRESIÓN LINEAL MULTIPLE

la estimación de supervivencia se hace con métodos no paramétricos, usaremos

Análisis utilizado para estudios longitudinales. Tiene las siguientes características:

NOTA: El análisis bivariado y multivariado se hace mediante el modelo de riesgos

Ma. Esperanza Lucas Resendiz

You might also like