You are on page 1of 29

CAPITULO III

VARIABLE DEPENDIENTE CUALITATIVA Y LIMITADA

1. MODELOS DE ELECCION DISCRETA

Los modelos de eleccin discreta consideran una variable indicadora dependiente.


Esta variable indicadora podr tomar dos o ms valores, si toma slo dos valores (cero
o uno) se trata de una variable dicotmica.

Existen numerosos ejemplos de variables explicadas, a saber:

Existen tambin muchos mtodos de analizar los modelos de regresin en lo que


el valor de la variable dependiente es cero o uno. Por ejemplo: el modelo de probabilidad
lineal, la funcin discriminante, modelo probit y modelo logit.

1.1. MODELO DE PROBABILIDAD LINEAL

Se utiliza para denotar un modelo de regresin en el que la variable dependiente


Y es dicotmica, y toma el valor de uno o cero. Por simplicidad, asumiremos una sola
variable explicativa (X).

La variable Y es una variable indicadora que denota la ocurrencia o no ocurrencia


de un evento.

El modelo se describe como:

con .

La esperanza condicional , se interpreta como la


probabilidad de que ocurre el evento, dado .

El valor calculado de Y a partir de la ecuacin de regresin ( ) nos da


la probabilidad estimada de que ocurre el evento, dado un valor especfico para X. En
la prctica, estas probabilidades estimadas pueden encontrarse fuera del rango admisible
(0, 1).
78

Las razones por las cuales no se puede aplicar mnimos cuadrados ordinarios son:

1 La no normalidad de las perturbaciones.-

Dado que toma los valores de 1 o 0 entonces los errores en la


regresin tomar los valores siguientes:

En realidad los siguen una distribucin binomial. Aunque el mtodo de


mnimos cuadrados ordinarios no requiere esto, se asumen con fines de inferencia
estadstica. Por lo tanto, existe un problema con la aplicacin de las pruebas
usuales de significancia.

El supuesto de normalidad no es tan crtico, porque las estimaciones


puntuales de mnimos cuadrados ordinarios siguen siendo insesgados; adems,
a medida que aumenta indefinidamente el tamao de la muestra los estimadores
de mnimos cuadrados ordinarios tienden por lo general a tener una distribucin
normal.

Por lo tanto, para muestras grandes, la inferencia estadstica de los


modelos de probabilidad lineal seguir el procedimiento usual de mnimos
cuadrados ordinarios bajo el supuesto de normalidad.

2 La varianza de la perturbacin es heterocedstica.-

Las probabilidades respectivas de los eventos son:

se tiene que:

sacando factor comn ( ) y simplificando nos da:

tambin se puede expresar de la siguiente forma:


79

La varianza de es heterocedstica porque depende de la esperanza


condicional de , que depende del valor que tome .

Los estimados de mnimos cuadrados ordinarios de no sern eficientes.


Es posible utilizar el procedimiento siguiente para estimar el modelo:

I.- Se estima el modelo (ecuacin 1) por mnimos cuadrados ordinarios y a


continuacin se calcula .

II.- Se estima por mnimos cuadrados ponderados el modelo transformado


siguiente:

se soluciona el problema heterocedstico, pero subsiste los otros.

3 La prediccin cae fuera de los limites ( 0 , 1 ).-

La crtica ms importante se refiere a la propia formulacin, que la


esperanza condicional puede estar fuera de los lmites (0,1).

El grfico de la siguiente pgina revela la acumulacin de puntos sobre


y . Es fcil que los valores predichos se encuentren fuera del
intervalo (0,1) y que los errores de prediccin sean muy grandes.

Existen dos mtodos para saber si los estimadores estn efectivamente


entre 0 y 1; son:
80

1.- Estimar el modelo de probabilidad lineal por mnimos cuadrados


ordinarios y ver si los se encuentran entre 0 y 1, si alguno de ellos es
menor a cero entonces se supone que para estos casos es cero; si son
mayores a 1, se suponen iguales a uno.

2.- Disear una tcnica de estimacin que garantice que las probabilidades
condicionales estimadas de estn entre 0 y 1. Los modelos Logit y
Probit garantizarn que todas las probabilidades estimadas se encuentren
entre los lmites lgicos 0 y 1.

4 La medida de bondad de ajuste.-

El coeficiente de determinacin considerado tiene un valor limitado en los


modelos de respuesta dicotmica.

El coeficiente de determinacin ser alto, nicamente cuando la dispersin


especfica est muy cercana a los puntos A y B del grfico anterior, puesto que
en este caso es fcil fijar la lnea recta uniendo los dos puntos. En este caso el
predicho est muy cerca de 0 o 1.

John Aldrich y Forrest Nelson plantean que el uso del coeficiente de


determinacin como un estadstico resumen debe evitarse en aquellos modelos
que contengan variables dependientes cualitativas.

1.2. EJEMPLO

El modelo especificado es:

Las variables se definen:

NOMBRE DEFINICIN UNIDAD DE


MEDIDA
CAPAGO CAPACIDAD DE PAGO NUEVOS SOLES
CLIENTE CONDICIN DEL CLIENTE PUNTUAL = 1
MOROSO = 0
EDAD EDAD DEL CLIENTE AOS
GARANTA MONTO DE LA GARANTA NUEVOS SOLES
INTERS TASA DE INTERS EFECTIVA PORCENTAJE
MENSUAL
81

NOMBRE DEFINICIN UNIDAD DE


MEDIDA
NUMCUOTA NMERO DE CUOTAS
PERODO DURACIN DEL PRSTAMO MESES
PRSTAMO MONTO DEL PRSTAMO NUEVOS SOLES
SEXO SEXO MASCULINO = 1
FEMENINO = 0
VALCUOTA VALOR DE LA CUOTA NUEVOS SOLES

Para estimarlo se dispone de informacin estadstica recopilada de una institucin


financiera del Departamento de Piura.

El mtodo de estimacin es mnimos cuadrados ponderados y el procedimiento


a seguir es el siguiente:

1 Estimar el modelo por mnimos cuadrados ordinarios

Se escribe en el Eviews:
LS CLIENTE C EDAD PRESTAMO SEXO PERIODO
a continuacin se oprime ENTER y nos da el resultado siguiente:

Dependent Variable: CLIENTE


Method: Least Squares
Sample: 1 60
Included observations: 60
===========================================================
Variable Coefficient Std. Error z-Statistic Prob.
===========================================================
C -0.815473 0.306770 -2.658258 0.0103
EDAD 0.014550 0.005161 2.819315 0.0067
PRESTAMO 1.89E-05 9.95E-06 1.895651 0.0633
SEXO 0.159441 0.110854 1.438297 0.1560
PERIODO 0.064383 0.022997 2.799581 0.0070
===========================================================
R-squared 0.332861 Mean dependent var 0.516667
Adjusted R-squared 0.284341 S.D. dependent var 0.503939
S.E. of regression 0.426316 Akaike info criteri 1.212381
Sum squared resid 9.995971 Schwarz criterion 1.386910
Log likelihood -31.37144 F-statistic 6.860387
Durbin-Watson stat 1.511575 Prob(F- statistic) 0.000149
===========================================================
82

2 Se realiza la estimacin de la probabilidad de la siguiente forma:

Abrir la ecuacin Procs Forecast OK y se muestra un grfico y el


software crea un icono con el nombre que se le coloc a la estimacin
(CLIENTEF).

Para observar los resultados de la variable CLIENTEF se da dos clic y


paquete nos muestra lo siguiente:

CLIENTEF
==========================================================
Modified: 1 60 // fit(f=actual) clientef
1 0.417364 1.104751 0.155492 0.803627 0.554091
6 0.814965 0.515421 0.486014 0.909758 0.899076
11 0.475652 0.765374 0.770710 1.321578 0.987106
16 0.536256 0.575847 1.014905 0.341672 0.405989
21 0.230938 0.643846 0.488985 0.437800 0.606510
26 0.259805 0.262450 0.206271 0.085420 0.620479
31 0.717948 -0.136817 0.397171 0.315820 0.243069
36 0.389929 0.804237 0.755200 0.045541 0.188897
41 0.618349 0.155769 0.417060 0.830059 0.278586
46 1.075758 0.486799 0.248942 0.408926 0.518848
51 0.317095 0.186445 0.067943 0.465541 0.483412
56 0.673622 0.643638 0.507839 0.651220 0.545000
==========================================================

3 Estimamos la varianza generndola de la siguiente forma:


GENR W = CLIENTEF * ( 1 - CLIENTEF )
y el Eviews nos da el siguiente resultado:

W
=====================================================
Modified: 1 60 // w=clientef*(1-clientef)
1 0.243171 -0.115724 0.131314 0.157811 0.247074
6 0.150797 0.249762 0.249804 0.082099 0.090738
11 0.249407 0.179577 0.176716 -0.424990 0.012728
16 0.248686 0.244247 -0.015127 0.224932 0.241162
21 0.177606 0.229308 0.249879 0.246131 0.238656
26 0.192306 0.193570 0.163723 0.078124 0.235485
31 0.202498 -0.155536 0.239426 0.216078 0.183987
36 0.237884 0.157440 0.184873 0.043467 0.153215
41 0.235993 0.131505 0.243121 0.141061 0.200976
46 -0.081498 0.249826 0.186970 0.241706 0.249645
51 0.216546 0.151683 0.063327 0.248813 0.249725
56 0.219855 0.229368 0.249939 0.227132 0.247975
=====================================================
83

4 Por ltimo, se estima el modelo transformado por mnimos cuadrados ordinarios,


es decir, se aplica mnimos cuadrados ponderados. El comando que se aplica es
el siguiente:

Quick Estimate Equation escribir en la pantalla en blanco lo siguiente:


CLIENTE C EDAD PRESTAMO SEXO PERIODO, luego clic en OPTIONS
se marca WEIGHTED LS / TSLS y en Weight se escribe: 1 / SQR( W )
OK OK y se muestra el siguiente resultado:

Dependent Variable: CLIENTE


Method: Least Squares
Sample: 1 60
Included observations: 55
Excluded observations: 5
Weighting series: 1/SQR(W)
==========================================================
Variable Coefficient Std. Error z-Statistic Prob.
==========================================================
C -0.861520 0.236827 -3.637769 0.0007
EDAD 0.014138 0.005080 2.782852 0.0076
PRESTAMO 2.84E-05 1.09E-05 2.597112 0.0123
SEXO 0.187273 0.106147 1.764279 0.0838
PERIODO 0.064795 0.019214 3.372355 0.0014
==========================================================
Weighted Statistics
==========================================================
R-squared 0.639966 Mean dependent var 0.496512
Adjusted R-squared 0.611163 S.D. dependent var 0.632757
S.E. of regression 0.394567 Akaike info criteri 1.064452
Sum squared resid 7.784153 Schwarz criterion 1.246937
Log likelihood -24.27243 F-statistic 13.15823
Durbin-Watson stat 1.394854 Prob(F- statistic) 0.000000
==========================================================
Unweighted Statistics
==========================================================
R-squared 0.290121 Mean dependent var 0.490909
Adjusted R-squared 0.233330 S.D. dependent var 0.504525
S.E. of regression 0.441760 Sum squared resid 9.757613
Durbin-Watson stat 1.391563
==========================================================

Las variables edad, prstamo y periodo son significativas al 5% (Prob < 0.05) y
la variable sexo es significativa al 10 % (Prob < 0.10) y el modelo es estadsticamente
significativo al 5 % (Prob < 0.05).
84

Se predice dentro de la muestra con la instruccin siguiente:

Abrir la ecuacin Procs Forecast OK y se muestra un grfico y el software


crea un icono con el nombre que se le coloc a la estimacin (CLIENTEF1).

Para observar los resultados de la variable CLIENTEF1 se da dos clic y paquete


nos muestra lo siguiente:
CLIENTEF1
=========================================================
Modified: 1 60 // modproblin.fit(f=actual) clientef1
1 0.453183 1.264643 0.135592 0.836835 0.598836
6 0.850146 0.519971 0.488047 1.081373 0.993891
11 0.530495 0.822073 0.907713 1.590984 0.994447
16 0.531559 0.572147 0.991846 0.311970 0.395700
21 0.185995 0.640793 0.466289 0.421358 0.568752
26 0.200522 0.216839 0.177498 0.057164 0.580712
31 0.705757 -0.186881 0.349757 0.259422 0.188732
36 0.333220 0.805080 0.713630 0.020425 0.178108
41 0.585508 0.103903 0.390143 0.822291 0.239000
46 1.073549 0.468637 0.223544 0.397997 0.464635
51 0.294014 0.161586 0.019346 0.446526 0.426291
56 0.618380 0.623329 0.494666 0.619459 0.525189
=========================================================

y los resultados se comparan con los valores observados de la variable endgena,


obteniendose 42 predicciones correctas ( 20 para CLIENTE = 1 y 22 PARA CLIENTE
= 0) y nos da un Coeficiente de Bondad de Conteo de 70 %.

1.3. MODELO LOGIT Y PROBIT

Un enfoque alternativo es suponer un modelo de regresin:

no se observa ( se conoce como variable " latente " ).

Lo que se observa es una variable indicadora definida por:

La diferencia entre la especificacin (2) y el modelo de probabilidad lineal es que


en este ltimo se analizan las variables dicotmicas tal como son, en tanto que en (2) se
supone la existencia de una variable latente subyacente para la que se observa una
85

evidencia dicotmica. Ejemplo:

1 la persona tiene o no empleo.


la propensin o capacidad de encontrar empleo.

2 si la persona compra o no un automvil.


el deseo o capacidad de adquirir un automvil.

por lo tanto, las variables explicativas de (2) contendrn variables que expliquen ambos
elementos.

Supongamos que , esto nos permite fijar la escala de .


Combinando (2) y (3) obtenemos:

donde F es la funcin de distribucin acumulada de u.

Si la distribucin de u es simtrica, entonces , la expresin


anterior se puede escribir:

Los Observados son slo realizaciones de un proceso binomial cuyas


probabilidades estn dadas por (4) y que varan de un ensayo a otro (de pendiendo de
), entonces la funcin de verosimilitud se puede escribir:

La forma funcional para F en (4) depender de la suposicin en torno al trmino


de error u.

Se ha creado un problema de estimacin porque es no lineal no solamente en


sino tambin en los ; entonces, no se puede estimar mediante mnimos cuadrados
ordinarios. En esta situacin, es preciso recurrir al mtodo de mxima verosimilitud para
estimar los parmetros.

El mtodo de mxima verosimilitud consiste en la maximizacin de la funcin de


verosimilitud (ecuacin 5) para el modelo LOGIT y PROBIT y sto se logra por medio
de mtodos no lineales de estimacin. La funcin de verosimilitud es cncava (no tiene
86

mltiples mximos) y, por lo tanto, cualquier valor inicial de los parmetros ser til. Es
costumbre comenzar las iteraciones para el modelo logit y probit con los estimados del
modelo de probabilidad lineal.

Si la informacin disponible es sobre familias individuales, donde si una


familia posee una casa y si no la posee; entonces el modelo a estimar es (5) por
el mtodo de mxima verosimilitud.

1.3.1. CONSTRUCCIN DE UN MODELO LOGIT O PROBIT

Los requisitos para la construccin de un modelo logit o probit son:

1 Contar con una muestra representativa de clientes cumplidos e incumplidos, cuyo


tamao mnimo se establece va criterios estadsticos.

2 Contar con suficiente informacin de los clientes contenida en sus solicitudes de


crdito o expedientes.

3 Seleccionar las posibles variables explicativas de la probabilidad de default de los


clientes, en base al conocimiento o experiencia previa y a procedimientos
estadsticos (test de significancia individual).

4 Escoger el modelo ms apropiado en base a tests estadsticos sobre la "bondad de


ajuste" o "calidad predictiva" del modelo.

El procedimiento a seguir es:

1 El significado de las variables aparece en el tem 1.2.

2 Buscar el mejor modelo explicativo de la probabilidad de default (cumplimiento)


de los clientes, en base al siguiente procedimiento general:

2.1. Realizacin de regresiones bivariables y seleccin de variables explicativas segn


signo y significancia estadstica individual (escogemos las de probabilidad menor
del 10 por ciento).

Se estiman varias regresiones de la siguiente forma:


Clientei = + X i + ui
para seleccionar la variable se requiere analizar: el signo correcto, la significancia
de (si es altamente significativo, significativo o relativamente significativo)

y el R 2 (debe estar entre 0.2 y 0.6).


2.2. Comparacin de correlaciones entre variables a fin de eliminar el problema de
87

multicolinealidad. Entre las variables correlacionadas optamos por la de mayor


R2 de Mc Fadden.

Una vez identificadas las variables ms relevantes a partir de modelos


bivariables, podemos descartar algunas de ellas en base a su correlaciones.
Variables altamente correlacionadas (con coeficientes de correlacin mayores a
0.5) resultan redundantes, es decir, basta con que me quede con una de ellas en
el modelo, ya que si las incluyo todas sus significancias estadsticas individuales
tienden a ser bajas (no se puede distinguir el impacto de cada una de ellas sobre
la variable dependiente). El criterio prctico es eliminar las variables
correlacionadas con menor significancia estadstica individual en las regresiones
bivariables, con menor R2 (Mc Fadden).

Para obtener la Matriz de Correlaciones entre variables, aplico:


Quick/Group Statistics/Correlations
y se escribe el nombres de las variables seleccionadas en el tem anterior.

2.3. Construccin de modelos multivariables en sus versiones logit, probit y lineal


incorporando las variables escogidas luego de los pasos 1 y 2. Los modelos se
van perfilando para dejar slo las variables estadsticamente significativas
(probabilidad menor del 10 por ciento).

Con las variables explicativas escogidas, luego de los pasos 2.1. y 2.2. se
estima el modelo en su versin logit, probit o lineal. El modelo se perfila para
dejar slo las variables con signos adecuados y estadsticamente significativas
(prob < 0.10).

2.4. Evaluacin de los modelos alternativos en base a siguientes criterios arrojados


por el programa E-views:

1.- Signo correcto de los coeficientes.


2.- Significancia estadstica individual de los parmetros de acuerdo al
z-statistic y su probabilidad correspondiente.
3.- Significancia conjunta del modelo.
4.- Bondad de ajuste en base a R2 de Mc Fadden, Expectation-Prediction
Table, Goodness-of-Fit Test (Hosmer-Lemeshow).

A) Bondad de ajuste: La regla prctica nos dice que este valor debe
encontrarse entre 0.2 y 0.6 para considerarse
aceptable en el contexto de la modelacin de
probabilidades.

Se han sugerido varias medidas de bondad de ajuste para


este tipo de modelos, por ejemplo:

1.- La correlacin entre CALF y CALFF al cuadrado:


88

2.- Basada en la suma de cuadrados residual:

3.- Amemiya:

4.- Mc - Fadden:

= Funcin de Mxima Verosimilitud con


respecto a todos los parmetros.
= Funcin de Mxima Verosimilitud cuando se
hace con la restriccin

5.- Cragg - Uhler:

6.- R2 de conteo:

B) Expecation-Prediction Table: Esta prueba nos permite averiguar


cul es el porcentaje de acierto en las
predicciones que obtiene el modelo.
89

C) Goodness-of-Fit Test: (test de Hosmer-Lemeshow). Esta prueba


parte de agrupar las observaciones en
quantiles y evala el desempeo del modelo
en cada uno de ellos en trminos del nmero
de observaciones que predice el modelo que
deben ubicarse en cada quantil vs el nmero
de observaciones real.
Por defecto, me indica que la
informacin se va a agrupar en 10 quantiles o
grupos segn niveles. Lo ideal es que el
nmero total de observaciones por quantil sea
el ms grande posible (prueba para muestras
grandes).
Se recomienda hacer esta prueba con
el mayor nmero posible de observaciones
posible en cada quantil.

5.- Criterio de Hannan Quinn (por ser una "funcin de prdida", conviene
minimizarlo frente a los modelos alternativos).

Este es un criterio para comparar modelos alternativos. La regla es


escoger el modelo con menor H-Q (no se aplica al MLP).

6.- Curva de Respuesta de Probabilidad de cada variable explicativa del


modelo.

Esta prueba es ratificatoria del test de significancia estadstica


individual de las variables explicativas. Nos permite evidenciar mediante
un grfico ad hoc si cada una de estas variables tiene poder para
discriminar entre buenos y malos pagadores, partiendo de un valor "c"
como parmetro de corte entre quienes se consideran dentro de ambas
categoras; usualmente este valor se sita en 0.5, es decir, quienes tienen
una probabilidad de cumplir menor o igual que 0.5 (50 por ciento), se
asumen como malos clientes y los que tienen una mayor, buenos clientes.

2.5. Seleccin del modelo final en base a la perfomance relativa de ste al comparar,
entre modelos alternativos, los resultados de los test sugeridos en el tem
anterior.

Lo primero que cabe destacar es que, en el caso del MLP, los efectos
marginales de las variables explicativas son constantes para todos los individuos,
mientras que en los casos del logit y el probit, estos efectos son diferentes para
cada individuo, dependiendo de los valores de las variables explicativas que lo
caracterizan.

Usualmente, en los modelos logit y probit se calculan los efectos


90

marginales de una variable o regresor para cada individuo, a fin de tener una idea
del rango de variacin de dichos efectos y se asume que el promedio de estos
efectos individuales es una buena aproximacin al "efecto marginal global" de
la variable (si se quiere tener un nmero - resumen), lo cual, desde luego, parte
de la premisa de que se cuenta con una muestra suficientemente representativa.

Pese a que los parmetros j de cada regresor, en los modelos logit y


probit, no nos miden, por s solos el, efecto marginal de dicho regresor, si nos
indican la direccin (signo) del cambio inducido en la probabilidad por la
variable explicativa.

2.6. Una vez elegido el modelo final, clculo de los efectos marginales respectivos

Los efectos de los cambios en las variables explicativas sobre las


probabilidades de que cualquier observacin pertenezca a uno de los dos grupos,
son proporcionados por:

donde: y es la funcin de densidad normal

estndar.

1.3.2. MODELO LOGIT PARA DATOS AGRUPADOS

Si la distribucin acumulada de es logstica, se tiene el llamado modelo


LOGIT, es decir:

donde

Las probabilidades son:


91

El cociente entre ambas probabilidades es:

aplicando logaritmo neperiano, nos da:

En el modelo de probabilidad lineal se supone como funcin lineal de las


variables explicativas; aqu, la razn logartmica de momios o logit es una funcin lineal
de las variables explicativas.

Tiene las siguientes caractersticas:

1.- Dado que P va de 0 a 1, es decir, a medida que Z vara entre y el logit


est entre y . En otras palabras, aunque las probabilidades se encuentran
entre 0 y 1, los logit no tienen estos lmites.

2.- Aunque el logit es lineal en X, las probabilidades mismas no lo son, en contraste


con el modelo de probabilidad lineal, donde las probabilidades aumentan
linealmente con X.

3.- La interpretacin del modelo logit es: mide el cambio en logit por un cambio
unitario en X, es decir, nos muestra cmo vara la factibilidad del logit en favor
de poseer una casa a medida que X cambia en una unidad.

Si es relativamente grande y si cada observacin en una clase de , est


distribuida en forma independiente como una variable binomial, entonces:

por lo tanto, el trmino de perturbacin en el modelo logit es heterocedstico y el mtodo


de estimacin adecuado es mnimos cuadrados ponderados.

El procedimiento para estimar una regresin logit (7) es:


92

(1) Para cada nivel de , se calcula la probabilidad estimada de poseer una casa

como .

(2) Para cada valor de , obtngase el logit como:

(3) Para solucionar el problema de heterocedasticidad, se transforma as:

donde las ponderaciones , porque se distribuye normal

con varianza igual a si es suficientemente grande.

(4) Estimar el modelo transformado utilizando mnimos cuadrados ordinarios (es un


modelo sin intercepto).

(5) Establecer los intervalos de confianza y/o las pruebas de hiptesis en el marco
usual de mnimos cuadrados ordinarios, pero manteniendo en mente que todas las
conclusiones sern validas, si la muestra es razonablemente grande. Para
pequeas muestras los resultados estimados deben interpretarse cuidadosamente.

1.3.3. MODELO PROBIT PARA DATOS AGRUPADOS

Si los errores siguen una distribucin normal, se tiene un modelo PROBIT (o


NORMIT), es decir:

donde es un ndice de conveniencia no observable que est determinado por una o


varias variables explicativas, as:

y t es la variable normal estandarizada, es decir, t se distribuye .

Es razonable suponer que para cada familia hay un nivel crtico o umbral del
ndice, , tal que si excede a , ocurre el evento, de lo contrario no suceder. El
93

umbral al igual que no es observable, pero si se supone que esta distribuido


normalmente con la misma media y varianza. Por lo tanto, es posible estimar los
parmetros y los valores del ndice no observable. Es decir, la probabilidad sera:

Como representa la probabilidad de que un evento ocurra, P se mide por el


rea de la curva normal estndar desde hasta . Para obtener la informacin de
, como tambin de y , tomamos el inverso de la funcin de distribucin
probabilstica acumulada normal.

Se ha creado un problema de estimacin porque es no lineal no solamente en


sino tambin en los ; entonces, no se puede estimar mediante mnimos cuadrados
ordinarios.

Si es relativamente grande y si cada observacin en una clase de , est


distribuida en forma independiente como una variable binomial, entonces:

por lo tanto, el trmino de perturbacin en el modelo probit es heterocedstico y el


mtodo de estimacin adecuado es mnimos cuadrados ponderados.

El procedimiento para estimar una regresin probit es:

(1) Para cada nivel de , se calcula la probabilidad estimada de poseer una casa

como .

(2) Dado , obtngase el ndice de utilidad como:

(3) Para solucionar el problema de heterocedasticidad, se transforma as:


94

donde las ponderaciones , porque se distribuye normal

con varianza igual a si es suficientemente grande.

(4) Estimar el modelo transformado utilizando mnimos cuadrados ordinarios (es un


modelo sin intercepto).

(5) Establecer los intervalos de confianza y/o las pruebas de hiptesis en el marco
usual de mnimos cuadrados ordinarios, pero manteniendo en mente que todas las
conclusiones sern validas, si la muestra es razonablemente grande. Para
pequeas muestras los resultados estimados deben interpretarse cuidadosamente.

Si la informacin esta agrupada o replicada (observaciones repetidas), entonces


se puede obtener informacin sobre la variable dependiente y el ndice de utilidad; por
lo tanto, el modelo a estimar se aplica mnimos cuadrados ponderados.

1.3.4. MODELO LOGIT VERSUS MODELO PROBIT

Desde el punto de vista terico, la diferencia entre ambos modelos es la


distribucin de probabilidades (normal para el modelo probit y logstica para el modelo
logit); ambas distribuciones estn muy prximas entre s, excepto en los extremos, la
logstica tiene colas ligeramente ms planas, es decir, la curva normal o probit se acerca
a los ejes ms rpidamente que la curva logstica. Por esta razn, no es probable obtener
resultados muy diferentes, a menos que las muestras sean grandes.

Sin embargo, los estimados de los parmetros de ambos mtodos no son

directamente comparables; porque la distribucin logstica tiene una varianza y la

distribucin normal tiene una varianza de 1. Entonces ambos coeficientes se relacionan


de la siguiente forma:

Amemiya sugiere multiplicar los estimados LOGIT por 1/1.6 = 0.625 porque esta
transformacin produce una aproximacin ms cercana entre la distribucin logstica y
la funcin de distribucin normal estndar. Es decir, la relacin sera:

Tambin sugiere que los coeficientes del modelo de probabilidad lineal


95

y los coeficientes del modelo logit se relacionan as:

Aplicando regla de tres simple logramos encontrar la relacin entre los


coeficientes del modelo probit y el modelo de probabilidad lineal, que nos da:

Si se tiene muestras de tamaos desiguales, no se afectan la estimacin de los


coeficientes de la variables explicativas del modelo logit, pero si se afecta el trmino
constante. Este resultado no es valido para el modelo probit ni para el modelo de
probabilidad lineal. Si el modelo estimado se utiliza para propsitos de prediccin, es
necesario ajustar el trmino constante.

Desde el punto de vista prctico, es generalmente utilizado con preferencia el


modelo logit sobre el modelo probit.

2. MODELOS DE ELECCIN MLTIPLE

Existen varias formas en que se pueden analizar este problema:

1 Con datos no ordenados: se utiliza cuando las alternativas que presenta la


variable endgena no indican ningn orden. Pueden
ser:

1.1. Multinomial, se utiliza cuando los regresores del modelo hacen referencia a las
observaciones muestrales, por lo que varan entre observaciones pero no entre
alternativas.

1.2. Condicional, se utiliza cuando los regresores del modelo hacen referencia a las
alternativas, por lo que sus valores varan entre alternativas pudiendo hacerlo o
no entre observaciones.

2 Con datos ordenados: se utiliza cuando las alternativas de la variable


endgena representan un orden entre ellas.

Generalizaremos los resultados anteriores a casos en los que los individuos hacen
elecciones entre tres o ms alternativas mutuamente excluyentes.

Un modelo multinomial de respuesta cualitativa se define de la siguiente forma:


96

Asume que la variable dependiente Yi toma mi + 1 valores {0, 1, 2, ..., mi }, entonces


el modelo multinomial vendr dado:

(
P(Yi = j ) = FY X * , ; ) i = 1,2,..., n y j = 1,2,..., mi .

*
donde X y son vectores de variables independientes y parmetros respectivamente.
De esta forma, mi depende de un i en particular cuando los individuos tienen diferentes
conjuntos de eleccin. Para definir el estimador de en el modelo usualmente se
definen in = 1 (mi + 1) variables binarias, de la forma:

= 1 si Yi = j
Yij
= 0 si Yi j; i = 1,2..., n y j = 1,2,..., mi .

La funcin de verosimilitud viene definida como:


n mi
ln L = Yij ln Fij
i =1 j = 0

donde el estimador insesgado $ de se define como una solucin a la ecuacin:

ln L
= 0.

Los modelos multinomiales de respuestas cualitativas se pueden clasificar en


modelos ordenados y no ordenados.

2.1. MODELOS ORDENADOS

Un modelo ordenado se define como:

P(Y = j X , ) = p S j ( )
para alguna medida de probabilidad p, sobre X y , y una secuencia finita de intervalos
sucesivos {S } que depende sobre X y tal queU
j jS j = .

En los modelos ordenados, los valores que Y toma, corresponden a una particin
sobre la lnea real. A diferencia de modelo no ordenado, donde la particin
correspondera a particiones no sucesivas sobre la lnea real o a particiones de
dimensiones mayores sobre el espacio euclidiano. En la mayora de las aplicaciones, el
modelo ordenado toma la forma:
97

( ) ( )
P(Y = j X , , ) = F j +1 X F j X ; j = 0,1,..., m; 0 = ; j j +1 ; m+1 =

Para alguna distribucin F, se puede definir un modelo Logit ordenado o Probit


ordenado.

2.1.1. MODELO LOGIT

El modelo logit multinomial se define como:


1
mi
( ) ( )
P(Yi = j ) = exp X ij exp X ij ; i = 1,2,..., n y j = 0,1,..., mi
k =0
Mc Fadden (1974) considera el siguiente modelo multiecuacional derivado del
problema del consumidor. Considere a un individuo i cuyas utilidades estn asociadas
con tres alternativas, de la forma siguiente:
U ij = ij + ij , con j = 0,1,2

donde U ij no es una funcin estocstica sino deterministica. Por otro lado, ij es el usual
trmino aleatorio de error. De esta forma, el individuo elige aquella alternativa en la que
obtiene la mayor utilidad. El multinomial logit se puede derivar del problema de
maximizar la utilidad s y slo s los ij son independientes y la funcin de distribucin

de ij viene dada por exp [exp( ) ]. De esta manera, la probabilidad de que el i


ij
individuo elija una alternativa j, ser:

P(Yi = 2) = P(U i 2 > U i1 ,U i 2 > U i 0 )


P(Yi = 2) = P( 2 + 2 1 > 1 , 2 + 2 0 > 0 )
exp( i 2 )
P(Yi = 2) =
exp( i 0 ) + exp( i1 ) + exp( i 2 )

y tomar una forma parecida a la definicin del modelo logit multinomial s hacemos
i 2 i 0 = X i2 y i1 i 0 = X i1 .

2.2. MODELOS NO ORDENADOS

Se enfocara el caso en que las alternativas no estn ordenadas.


98

2.2.1. MODELO LINEAL DE PROBABILIDAD

Si asumimos que hay tres opciones j = 1, 2, 3, escribimos el modelo:

P1i = 1 + 1 X i P2i = 2 + 2 X i P3i = 3 + 3 X i

Pji es la probabilidad de que el individuo i elegir la j sima opcin, mientras que Xi


es el valor de X para el j simo individuo.

Para estimar cada una de las tres ecuaciones en el modelo por mnimos cuadrados
ordinarios, no es necesario ejecutar las tres regresiones lineales de probabilidad.

Dado que las probabilidades estimadas estn restringidas para sumar 1, los
interceptos estimados para sumar 1 y los parmetros de pendiente para sumar 0.

Entonces, slo se necesita ejecutar dos de las tres regresiones de mnimos


cuadrados. La solucin para los parmetros de la tercera ecuacin se deriva de las
primeras dos.

2.2.2. MODELO LOGIT

En este tipo de modelos las alternativas de la variable respuesta indican la


pertenencia de las observaciones a un determinado grupo sin incorporar informacin
ordinal. La formulacin de un Logit Multinomial queda recogida a travs de la siguiente
ecuacin:
j X i
e
Pr ob(Yi = j ) = Pij = j 1
e
j X i

j =0

Donde para el caso sencillo de un modelo en el que la variable endgena presenta


tres posibles alternativas de eleccin y slo existe una variable explicativa en la
modelizacin, la probabilidad asociada a cada una de las alternativas posibles de eleccin
tomaran las siguientes expresiones:

1 e1 + 1 Xi
P0 = P0 =
1 + e1 + 1 Xi + e2 + 2 Xi 1 + e1 + 1 Xi + e2 + 2 Xi
e1 + 1 Xi
P0 =
1 + e1 + 1 Xi + e2 + 2 Xi

con P0 + P1 + P2 = 1 .
99

3. MODELO CON VARIABLE DEPENDIENTE LIMITADA

Existen un gran nmero de datos cuya observacin nos muestra que estn
limitados o acotados de alguna forma. Este fenmeno lleva a dos tipos de efectos: el
truncamiento y la censura.

El efecto de truncamiento ocurre cuando la muestra de datos es extrada


aleatoriamente de una poblacin de inters, por ejemplo, cuando se estudia el ingreso y
la pobreza se establece un valor sobre el cual el ingreso se encuentra por encima o por
debajo del mismo.. De esta forma, algunos individuos podrn no ser tenidos en cuenta.

Por otro lado, censurar es un procedimiento en el cual los rangos de una variable
son limitados a priori por el investigador; este procedimiento produce una distorsin
estadstica similar al proceso de truncamiento.

3.1. MODELO TRUNCADO

Una distribucin truncada es la parte de una distribucin no truncada antes o


despus de un valor especfico; imagnese por ejemplo que nosotros deseamos conocer
la distribucin de los ingresos anteriores a 100,000 o el nmero de viajes a una zona
mayores de 2, sta ser tan slo una parte de la distribucin total.

Si una variable continua aleatoria X, tiene una funcin de densidad de


probabilidades, y a es una constante, entonces:
f (X)
f ( X X > a) =
Pr ob( X > a )

si X tiene una distribucin normal con media y desviacin estndar , entonces:

a
Pr ob( X > a ) = 1 = 1 ( )

a
donde = y ( ) es funcin de densidad acumulativa, entonces la

distribucin normal truncada ser:

1 X
2
1 ( X )

f ( X X > a) =
f (X)
=
(
2 )
2 2
e 2
2

1 ( ) 1 ( ) 1 ( )
donde ser la funcin de densidad de probabilidades normal estndar. La distribucin
normal estndar truncada con = 0 y = 1 para a igual a -0.5, 0 y 0.5, ser:
100

Si [
X N , 2 ] con constante, entonces la media vendr dada por:
E [ X truncamiento] = + ( )

y la varianza por:

var[ X truncamiento] = 2 (1 ( ))

donde = (a ) / . Por otro lado, nosotros observamos que:

( )
( ) = si el truncamiento ocurre en X > a
1 ( )
( )
( ) = si el truncamiento ocurre en X < a
1 ( )

Tomando el logaritmo de la distribucin normal truncada, y al realizar la suma de


los logaritmos de estas densidades, se obtiene:

n 1 n
a X i
ln L =
2
(
ln( 2 ) + ln 2
2 2
) (Yi X i )
2
ln1



i i =1

Las condiciones necesarias para maximizar ln L sern:


101

ln L n
Yi X i i

= 2 X i = 0
i =1

ln L n 1 (Yi X i ) 2 X
2
= 2 2 + 2 4 2i 2i = 0
i =1

a i X i ( i )
donde i = y i = .
1 ( i )

3.2. MODELO CENSURADO

Un procedimiento normal con datos microeconmicos, consiste en censurar la


variable dependiente. Cuando la variable dependiente es censurada, los valores en un
determinado rango son todos transformados a un valor singular. De esta forma, si
definimos una variable aleatoria y transformada de la variable original como:

Y = 0 si Y * 0 Y = Y * si Y * > 0

El grfico de la distribucin censurada es:


(
Pr ob(Y = 0) = Pr ob Y * 0 =
)
= 1

La distribucin correspondiente a Y
*
(
N , 2 ) ser:
si Y * > 0 y tiene la densidad de Y * , entonces la distribucin tiene partes discretas y
102

continuas, donde la probabilidad total ser de 1como se requiere. Para lograr esto, se
asigna la probabilidad total en la regin censurada al punto de censuramiento.

La media de una variable censurada vendr dada por:


E (Y ) = a + (1 )( + )

y la varianza:

[
Var (Y ) = 2 (1 ) (1 ) + ( )
2
]
a
d o n d e :

= ( ) = Pr ob Y *
(
a = ; ) =
1
;

= 2 .

3.3. MODELO TOBIT

El modelo Tobit se origin en el estudio de consumo de bienes no perecederos por


parte de las economas domsticas; el importe dedicado al consumo de estos bienes se
anula en el caso de familias que no pueden dedicar un mnimo de renta a la adquisicin
de este tipo de productos. As, el modelo Tobit es de la forma:

+ 1 xi + ui si y*i mi
yi = 0
mi si y *i < mi

en el que el valor mi es el lmite mnimo por debajo del cual la variable endgena no
puede caer. Este modelo puede considerarse como uno de eleccin binaria, en el que la
variable endgena toma valores dependientes de las exgenas o bien un mnimo que no
depende de stas.

Supongamos que se observa si , y no si . Entonces, se


definir como:

asume que .
103

Se le llama modelo Tobit o probit de Tobin o modelo censurado de regresin


normal, debido a que se censura (no se permite observar) algunas observaciones de
(aquellas que ). El objetivo es estimar los parmetros y .

Ejemplo

1.- Se especifica la demanda de automviles de la siguiente forma:

donde Son los gastos en automviles y x el ingreso. En la muestra habra


un gran nmero de observaciones para las cuales los gastos en automviles son
cero. El modelo censurado de regresin se puede especificar como:

2.- Si existen observaciones sobre varias personas, de las cuales slo algunas tienen
empleo, podemos especificar el modelo:

Caso horas trabajadas,

Caso salarios,

Mtodo de estimacin

La estimacin de y mediante mnimos cuadrados ordinarios no se puede


utilizar con observaciones positivas , pues cuando se escribe el modelo:

el trmino de error no tiene media cero. Dado que las observaciones con
se omiten, esto supone que slo se incluyen en la muestra las observaciones para las
104

cuales . Por lo tanto, la distribucin de es normal truncada y su media no


es cero. La Distribucin normal truncada es:

donde la funcin de densidad estndar normal es:

y la funcin de distribucin acumulada estndar normal es:

Un mtodo de estimacin que se sugiere comnmente es el de mxima


verosimilitud, que es el siguiente:

si maximizamos la funcin de verosimilitud con respecto a y , obtendremos los


estimados de mxima verosimilitud de estos parmetros.

Los modelos Tobit se refiere a modelos censurados o truncados donde el rango


de la variable dependiente se restringe de alguna forma.

Dado el creciente uso de los modelos tipo Tobit, Amemiya realiz la laboriosa
tarea de clasificar, los modelos Tobit de acuerdo con similitudes en la funcin de
verosimilitud. La caracterizacin de los tipos de modelos Tobit es la siguiente:
105

TIPO VARIABLE DEPENDIENTE


Y1 Y2 Y3

1 CENSURADO - -
2 BINARIO CENSURADO -
3 CENSURADO CENSURADO -
4 CENSURADO CENSURADO CENSURADO
5 BINARIO CENSURADO CENSURADO

You might also like