You are on page 1of 6

Modelos predictivos

Predecir valor desconocido que tomar variable-dependiente (explicadas), a


partir del valor conocido de variables-independientes (explicativas).

Regresin lineal mltiple


- Objetivo principal: predecir los valores que adoptar la variable
dependiente a partir de los valores de las variables independientes. Recta que
mejor representa relacin lineal entre variables incluidas en el modelo-anlisis.
- Procedimiento del mtodo de los mnimos cuadrados (MMC) lo ms usado; se
estima una recta que hace mnima la distancia vertical entre valores
pronosticados por ecuacin y valores reales, minimizando los residuos.
- Relacin depe-indepe como funcin lineal (y=a+bx+bnxn): (y) valor
pronosticado para dependiente; (a) constante o intercepto donde se intercepta
eje y, denota valor promedio de y cuando independientes=0; (b) coeficientes
de regresin parcial, cambio de promedio en la variable dependiente cuando
cambia en 1 unidad variable independiente con las otras constantes control
de multicolinealidad
- Nivel de medida dependiente/independientes: cuantitativa/cuantitativadummy-ordinales. Idealmente continuas, las ordinales se ocupan a veces igual
en dependiente e independiente con orden lgico de menor a mayor.
- Seleccin de variables: (1) modelo de inclusin forzosa (introducir),
investigaciones confirmatorias por lo general corroborando modelo concreto
obtenido en indagaciones precedentes; (2) procesos secuenciales (hacia
adelante, hacia atrs, paso a paso), conseguir modelos parsimoniosos y
fciles de interpretar, dejando variables de contribucin significativa.
Interpretacin de tablas y coeficientes
1) Variables introducidas-eliminadas. Cantidad de pasos implicados para
modelo final, con variables introducidas en cada paso. Criterio estadstico de
inclusin cumplir valores mnimos de F para entrar-salir.
2) Resumen del modelo. Cambios coeficientes de correlacin mltiple
(R), coeficiente de determinacin (R cuadrado) y estadstico F y
significacin en cada paso hasta llegar al modelo final. Cada paso como
modelo en s mismo; estadstico F contrasta hiptesis de que el cambio en R
cuadrado=0 en la poblacin. Con un 95% de nivel de confianza el cambio en r
cuadrado es significativo si F<0.05.
- coeficiente de correlacin mltiple (R) informa grado de relacin conjunta
entre variables indepes-depe.
- coeficiente de determinacin (r cuadrado) evala bondad de ajuste del
modelo; informa proporcin variacin total de la variable dependiente que es
explicada por variables independientes, expresa fuerza no direccin, *100 se
interpreta en porcentajes. Modelo final explica en un % la varianza de la

variable dependiente, o bien reduce en un % el error en la prediccin de la


variable dependiente, en comparacin a la prediccin realizada slo en base a
su media.
3) Anova. Evala significatividad del modelo en su globalidad. En cada paso
contrasta h0 de coeficiente de determinacin de ese modelo=0; observar
significatividad de F de Snedecor; F<0.05 permite afirmar con un 95% de
confianza que la relacin observada en los datos muestrales es extrapolable a
la poblacin.
4) Coeficientes. Composicin modelo en cada paso, analizar ltimo paso
exhaustivamente en referencia a los coeficientes de pasos anteriores. Primer
paso regresin simple Beta estandarizado coincide con coeficiente de
correlacin con la dependiente, en regresin multiple no pasa.
- Coeficientes Beta (B no estandarizado) coeficientes de regresin parcial
para construir ecuacin de regresin (estimacin de caso o perfiles), informan
variacin en la variable dependiente cuando vara en 1 unidad la variable
independiente, con el resto constante; coeficientes afectados por nivel de
medida de cada variable, no sirven para dar cuenta de influencia relativa de
cada una de las variables en la prediccin de la dependiente. el incremento
de una unidad en variable indepe genera un aumento de B en variable
depe, controlando el efecto de las otras variables.
- Coeficientes estandarizados sirve para influencia relativa de cada
variable, medidos en unidades de desviacin estndar permiten comparar las
diferentes variables entre s; expresan cambio en unidades estndar que se
produce en la variable dependiente por el aumento de 1 unidad de desviacin
estndar en cada una de las independientes, con las dems constantes; mayor
importancia relativa en la prediccin de la variable dependiente. Para saber si
son estimables se observa significatividad prueba t de Student para aceptar h1
de que coeficientes de regresin son significativamente distintos de 0 en la
poblacin.
5) Variables excluidas. Beta dentro es el coeficiente de regresin
estandarizado si se hubiese metido al modelo, t informa significatividad de
coeficientes, coeficiente parcial expresa correlacin de cada variable
independiente con la dependiente cuando se controla el efecto del resto,
tolerancia informa acerca de colinealidad entre variables (tolerancia<0.2
informa colinealidad importante).

Regresin logstica binaria


- Prediccin en trminos de probabilidad; busca predecir la probabilidad
de ocurrencia de un determinado evento a partir de los valores que adopten las
variables independientes.
- Objetivos: Permite determinar existencia-ausencia de relacin entre
independientes y dependiente; medir magnitud de la relacin; estimar
probabilidad de que se produzca un suceso a partir de los valores que asuman
las variables independientes, y con esa estimacin clasificar casos en grupos.
- P(y=1)=1/1+e^-(a+bx+bnxn). (e) inverso logaritmo natural, (a) constante
o intercepto expresa probabilidad de la variable dependiente cuando las
variables indepes=0, (b) informa de cunto vara probabilidad de ocurrencia de
variable dependiente ante cambio en 1 unidad en la independiente con el resto
constante. Curva sigmoidea (0-1)
- Nivel de medida: dependiente dummy (0-1), independientes cuantitativas
(intervalares) o categricas (nominales) como dummy, tambin ordinales en
orden lgico y spss interpreta como intervalares (2 doble que 1).
- Seleccin de variables. (1) inclusin forzosa (introducir), (2) procedimiento
secuenciales, ms utilizado secuencial hacia adelante (Wald).
Interpretacin de tablas-coeficientes.
1) Historial de iteraciones/tabla de clasificacin/variables en la
ecuacin/variables que no estn en la ecuacin. Bloque 0 no incluye ninguna
variable salvo la dependiente.
- tabla clasificacin muestra porcentaje de casos correctamente clasificados,
comparar con modelo con todas las variables.
2) Historial de iteraciones (con todas las variables, bloque 1). Se van
incluyendo las variables en etapas sucesivas (pasos), intenta reducir valor de
-2verosimilitud en cada caso.
- ltima iteracin de ltimo paso contiene informacin necesaria para
construir perfiles, y coincide con los coeficientes de la tabla variables en la
ecuacin.
3) Prueba ominbus. Significatividad del cambio de los logaritmos de
verosimilitud en cada paso por chi cuadrado; cambio en la prediccin entre un
modelo con ninguna variable independiente y un modelo con todas las
variables independientes. Comprueba h0 todos coeficientes, excepto la
constante, son cero en el modelo; se busca h1 al menos un coeficiente es
distinto de 0.
4) Tabla resumen del modelo. Incluye r cuadrado de cox y Snell, y r
cuadrado de nagelkerke (similares coeficiente de determinacin de regresin
lineal), no se interpretan en trminos de varianza explicada.

- Nagelkerke va de 0 a 1 (precisin en la probabilidad de la dependiente es


perfecta). Expresa reduccin proporcional en el valor del log de verosimilitud;
cercano a 1 implica modelo predice de mejor manera la probabilidad de Y, el
modelo tiene una efectividad predictiva de la probabilidad de variable
dependiente.
5) Hosmer y lemeshow. Divide recorrido de probabilidad en deciles y calcula
distribucin de valores pronosticados con los valores realmente observados. Se
busca hiptesis nula (h0, sig>0.05) de que valores observados son iguales a
los pronosticados.
6) Tabla de clasificacin. Muestra cmo mejora clasificacin en cada una de
las etapas del modelo; observar porcentaje global ltimo paso de casos bien
clasificados, y comparar con el primero obtenido; diferencia entre esos es
coherente con valor de R de nagelkerke.
7) Variables en la ecuacin. Proporciona coeficientes de la ecuacin de
regresin logstica.
- Coeficiente de pendiente (B) indica incrementos (positivo) o disminuciones
(negativo) en el logit Y (cambios en el logaritmo natural de la razn de
verosimilitud respecto a la probabilidad de no ocurrencia), se interpreta slo
signo como a medida que aumenta x aumenta la probabilidad de y.
- estadstico de Wald y su significacin contrasta h0 de coeficiente de
pendiente=0, se busca que sean significativamente distintos de 0; comprueba
significatividad estadstica de coeficientes individuales, h1: b distinto de 0, la
variable independiente tiene efectos en la prediccin de la probabilidad de la
dependiente.
- odd ratio exp (B) permite ver intensidad de relacin, va de 0 al infinito
con valor base el 1, superior a 1 aumenta probabilidad de ocurrencia de la
dependiente, inferiores asociados a disminucin de probabilidad de ocurrencia
de la variable dependiente, se resta 1 y se multiplica por 100 y se habla en
trminos de porcentaje; para cada incremento en una unidad de la variable,
manteniendo las dems variables predictoras constante, la chance de
probabilidad de variable independiente (p(y=1)) disminuye/aumenta en
diferencia respecto de 1&.; variable independiente- genera un aumento en
porcentaje- en la chance de probabilidad de variable dependiente-, o el
aumento de 1 unidad en variable indepe- disminuye en porcentaje- la
probabilidad de dependiente-.

Anlisis discriminante
- Informa acerca de la pertenencia a distintos grupos; estimar variable
dependiente a partir de una combinacin lineal de las variables. Anlisis
multivariable que pretende encontrar combinacin lineal de variables
independientes/funcin
discriminante
que
mejor
permita
diferenciar
pertenencia a distintos grupos.
- Pertenencia a los grupos como variable dependiente; las que supone se
diferencian los grupos como independientes, discriminantes o de clasificacin.
Anlisis discriminante de dos grupos o mltiple.
- Operaciones de discriminar y clasificar, dos objetivos: (1) determinar las
variables que mejor explican la pertenencia a diferentes grupos, (2) clasificar
en grupos segn las caractersticas que presentan en las variables que se han
establecido como discriminantes.
- Objetivo 1 estimacin de funciones discriminantes, que son combinaciones
lineales de las variables independientes que maximicen varianza entre grupos
y minimicen varianza al interior del grupo. Cantidad de funciones
discriminantes = cantidad de grupos -1.
- Nivel de medida: dependiente categrica (2 o ms categoras),
independientes intervalares y de razn, dummy y ordinales igual, pero se
procesan como variables cuantitativas.
- Mtodos de seleccin de variables. (1) estimacin simultnea, mtodo de
inclusin forzosa no importa capacidad discriminante. (2) estimacin por
etapas, incluye independientes dentro de la funcin discriminante de una en
una segn capacidad discriminatoria, genera modelo ms parsimonioso.
Interpretacin de tablas-coeficientes
1) Resumen del procesamiento para el anlisis de casos. Indica nmero
de casos con que se hace el anlisis, tambin los excluidos y el porqu.
2) Estadsticos de grupo. Muestra comportamiento de cada variable
independiente en cada uno de los grupos y en la muestra total, informa sobre
media y desviacin estndar de cada variable. Meramente descriptiva, permite
observar caractersticas.
3) Pruebas de igualdad de las medias de los grupos. Observar si las
medias de los grupos son significativamente distintas entre s para cada una de
las variables del anlisis.
- Estadstico F permite contrastar h0 de igualdad de media entre los grupos
en cada independiente, si tienen significaciones menor al alfa estipulado 0.05
se puede determinar que las variables generan diferencias entre los grupos,
discriminan;

- lambda de wilks indicativo de existencia de grandes diferencias,


proporciona variabilidad no explicada por la pertenencia a distintos grupos,
cercano a 1 implican no existencia de diferencia de medias entre grupos,
cercano a 0 grupos distintos entre s.
4) Prueba M de box: logaritmo de los determinantes/resultados de la
prueba. Contraste de h0 igualdad de matrices de varianzas-covarianzas
poblaciones, supuesto del anlisis discriminante es que matrices de varianzas
de los grupos son iguales entre s, se busca aceptar h0>0.05; significacin
menor a 0.05 informa matrices no son similares, uno de los grupos tiene mayor
variabilidad que el otro.
5) Autovalores (% de varianza). Comparar % de varianza explicada por cada
funcin discriminante, slo 1 funcin explica el 100% de las diferencias
existentes entre los sujetos de los grupos. Correlacin cannica es combinacin
entre funcin discriminante y pertenencia a los grupos (0.3 no es muy alta, por
ejemplo).
6) Lambda de wilks. Contrastar h0 medias mutivariantes de los grupos
(centroides) son iguales. (0.8 es alto) si es alto implica solapamiento entre los
grupos, significacin de chi cuadrado permite rechazar h0 de que grupos tienen
centroides iguales.
7) Coeficientes estandarizados. Permiten valorar contribucin neta de cada
variable a la funcin discriminante; interpretacin anloga a coeficientes beta
regresin lineal. Valor es contribucin relativa de la variable a la funcin en
unidades de desviacin estndar, por cada cambio en 1 unidad de desviacin
estndar de la independiente, cunto vara la funcin discriminante cannica.
Signo denota si contribucin de variable es positiva-negativa.
8) Matriz de estructura. Coeficientes de estructura muestran relacin bruta
entre cada variable y funcin discriminante; valor no se encuentra afectado por
colinealidad entre variables, como coeficientes estandarizados. Mientras ms
cercano a 1 mayor relacin del coeficiente con la funcin. Coeficientes
estandarizados y matriz de estructura son formas diferentes de sealar
variables que discriminan.
9) Objetivo clasificatorio de la tcnica:
-(1) resumen del proceso de clasificacin. Informa casos con que se
trabaj para hacer clasificacin.
-(2) probabilidades previas para los grupos. Informa probabilidades de
pertenecer a cada uno de los grupos de acuerdo a la distribucin original de la
muestra.
-(3) resultados de la clasificacin. Informa resultados de clasificacin;
columnas grupos predichos, filas grupos originales. Si modelo realmente
discrimina debera haber gran concordancia entre predicho-observado. Se
compara la clasificacin original con la nota al pie de la tabla ltima
clasificacin, se espera en un buen modelo un aumento mnimo de 25%.

You might also like