Professional Documents
Culture Documents
AUTÓNOMA DE PUEBLA
FACULTAD DE CIENCIAS FÍSICO MATEMÁTICAS
TESIS
LICENCIADO EN ACTUARÍA
presenta:
Directores de tesis:
TESIS
LICENCIADO EN ACTUARÍA
presenta:
Directores de tesis:
A Dios por la vida, por las bendiciones que ha concedido para mı́ y
para mi familia y por la oportunidad de haberme permitido concluir una
meta más en mi vida.
A mis padres por todo su apoyo, y a toda mi familia por su ayuda in-
condicional.
A todos y cada uno de los profesores con los que tuve el privilegio de
aprender y convivir.
Página
Introducción 1
Objetivos 5
1. Preliminares 7
1.1. Escalas de Medición . . . . . . . . . . . . . . . . . . . . . 7
1.2. Modelos para Variables de Respuesta Binaria . . . . . . . 8
1.2.1. Modelo de Probabilidad Lineal . . . . . . . . . . . 9
1.2.2. Modelos Probit y Logit . . . . . . . . . . . . . . . 11
1.3. Modelo de Regresión Logı́stica . . . . . . . . . . . . . . . 12
1.3.1. Transformación Logit . . . . . . . . . . . . . . . . 13
1.4. Estimación del Modelo de Regresión Logı́stica . . . . . . . 15
1.5. Selección de Variables . . . . . . . . . . . . . . . . . . . . 18
1.6. Evaluación del Modelo . . . . . . . . . . . . . . . . . . . . 19
1.6.1. Medidas de Confiabilidad del Modelo . . . . . . . . 19
1.6.2. Estadı́sticos Influenciales . . . . . . . . . . . . . . 20
1.6.3. Interpretación de los Coeficientes . . . . . . . . . . 22
1.6.4. Valoración de la Capacidad Predictiva del Modelo 24
2. Credit Score 27
2.1. ¿Qué son los Credit Scoring? . . . . . . . . . . . . . . . . 27
2.2. Ventajas y Desventajas del Scoring . . . . . . . . . . . . . 28
2.2.1. Ventajas del Scoring . . . . . . . . . . . . . . . . . 28
i
ii ÍNDICE
2.2.2. Desventajas del Scoring . . . . . . . . . . . . . . . 30
2.3. Modelos Utilizados en el Desarrollo de Sistemas Credit
Scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Conclusiones 59
B. Funciones de densidad 67
D. Residuales de Pearson 75
Bibliografı́a 77
Introducción
1
2 Introducción
Durante las últimas decadas en las grandes ciudades, para los presta-
mistas, el scoring ha sido una de las herramientas más importantes de
mayor eficiencia, estos prestamistas clasifican a los prestatarios poten-
ciales sobre la base de historiales de crédito, ası́ como la experiencia
y caracterı́sticas socio-económicas del prestatario, basándose fundamen-
talmente en información cuantitativa. Pero experimentos en Bolivia y
Colombia sugieren que el scoring de las microfinanzas puede mejorar el
juicio de riesgo y por lo tanto, reducir costos, el scoring puede ser la
siguiente innovación tecnológica importante en las microfinanzas [16].
Capı́tulo 1: Preliminares.
Donde se presenta la teorı́a estadı́stica importante que se necesi-
ta para la implementación y desarrollo del Modelo de Regresión
Logı́stica.
5
6 Objetivos
Preliminares
7
8 1.2. Modelos para Variables de Respuesta Binaria
Pero tales mediciones no dicen cuánto más alto o más fuerte es uno
que el otro. Estadı́sticamente no puede hacerse mucho más con las
medidas ordinales, excepto determinar la mediana y los centiles,
ası́ como los coeficientes de correlación de los rangos.
yi = xi T β + i . (1.1)
yi = α + βxi + i . (1.2)
P (yi = 1|xi ) = xi β.
La interpretación de los parámetros en este caso es: por cada unidad que
incremente xk , el cambio esperado en la probabilidad de que ocurra el
evento es βk manteniendo las variables restantes constantes. Dado que el
modelo es lineal, un cambio unitario en xk siempre resultará en el mismo
cambio en la probabilidad.
Dos de las más importantes desventajas del modelo de Regresión Lineal
son, que las probabilidades estimadas obtenidas pueden ser menores a
cero o mayores que uno y los efectos parciales de cualquier variable ex-
plicatoria es constante.
Mientras que la interpretación de los parámetros no cambia al tener
una variable de respuesta binaria, varias suposiciones del modelo son
quebrantados. Algunos de los problemas que presenta el Modelo de pro-
babilidad lineal para la estimación de E(Y |X) son [10]:
exp(z)
G(z) = . (1.4)
1 + exp(z)
Esta es la función de distribución acumulada para una variable aleatoria
logı́stica estándar, la cual está entre cero y uno para todos los números
reales z.
12 1.3. Modelo de Regresión Logı́stica
Esta elección de G asegura que (1.3) está entre cero y uno para todos
los valores de los parámetros y variables explicativas.
Las funciones G en (1.4) y (1.5) son ambas funciones crecientes. Cada
una crece más rápido, cuando z → −∞, G(z) → 0, y G(z) → 1, cuando
z → ∞.
(Y ),
1 ex 1 ex
π(x) = −x
= x −x
= . (1.7)
1+e e 1+e 1 + ex
exp(β0 +β1 x)
π(x) = . (1.8)
1 + exp(β0 +β1 x)
exp(β0 +β1 x) 1
π(x) = (β +β x)
= −(β
. (1.9)
1 + exp 0 1 1 + exp 0 +β1 x)
Se obtiene lo siguiente,
1
π(x) =
1 + exp−(β0 +β1 x)
1
⇒ 1 + exp−(β0 +β1 x) =
π(x)
1
⇒ exp−(β0 +β1 x) = −1
π(x)
1
⇒ exp(β0 +β1 x) = 1−π(x)
π(x)
π(x)
⇒ exp(β0 +β1 x) =
1 − π(x)
π(x)
∴ β0 + β1 x = ln .
1 − π(x)
Por tanto,
h π(x) i
logit[π(x)] = ln = β0 + β1 x. (1.10)
1 − π(x)
Al realizar esta transformación, g(x) tiene varias de las propiedades de un
modelo de Regresión Lineal. El logit, es lineal en sus parámetros, puede
ser continua, y su dominio (Valores de x puede estar en un rango de
(−∞, ∞), y codominio (Valores de π(x)) en el intervalo (0, 1), conforme
1.4. Estimación del Modelo de Regresión Logı́stica 15
1. π(x) > 0.
1
y = π(x) + = P (y|x) + = + .
1 + e−x
Donde puede tomar uno de dos valores posibles. Si y = 1 entonces
= 1 − π(x) con probabilidad π(x), y si y = 0 entonces = −π(x) con
probabilidad 1 − π(x), por lo que tiene una distribución con media cero
y varianza igual a π(x)[1 − π(x)].
n
Y
l(β0 , β1 ) = f1 (y1 ) × f2 (y2 ) × · · · × fn (yn ) = π(xi )yi (1 − π(xi ))1−yi
i=1
n β0 +β1 x1
yi 1−yi
Y e eβ0 +β1 x1
= 1− . (1.13)
i=1
1 + eβ0 +β1 x1 1 + eβ0 +β1 x1
n
X
L(β) = ln(l(β0 , β1 )) = [yi ln(π(xi )) + (1 − yi ) ln(1 − π(xi ))] .
i=1
(1.14)
Para encontrar el valor del vector β que maximiza L(β), se deriva L(β)
con respecto a β0 y β1 , se igualan las derivadas a 0. Obteniendo las
ecuaciones:
n
X n
X
[yi − π(xi )] = 0 y [yi − π(xi )]xi = 0. (1.15)
i=1 i=1
H0 : βi = 0 vs H1 : βi 6= 0
β̂i
W ald = . (1.16)
σ̂(βi )
La obtención de significación indica que dicho coeficiente es diferen-
te de 0 y merece la pena su conservación en el modelo. En modelos
con errores estándar grandes, el estadı́stico de Wald puede propor-
cionar falsas ausencias de significación (es decir, se incrementa el
error tipo II).
de hipótesis:
Existen varios criterios que se pueden aplicar para evaluar los modelos
1.6. Evaluación del Modelo 19
n
X p̂ 1 − p̂
D = −2 yi ln + (1 − yi ) ln . (1.17)
i=1
yi 1 − yi
exp(β0 +β1 x)
H0 : π̂j = ∀j = 1, . . . , J.
1 + exp(β0 +β1 x)
vs.
exp(β0 +β1 x)
H1 : π̂j 6= para algún j.
1 + exp(β0 +β1 x)
Se define como:
g
X (Ok − n0 π̄k )2
k
Ĉ = . (1.18)
n0k π̄k (1 − π̄k )
k=1
Donde:
g es el número de grupos,
n0k es el número total de observaciones en el k-ésimo grupo,
Ok es la suma de las Y en el k-ésimo grupo y
π̄k es el promedio de las πk en el k-ésimo grupo.
Si el modelo es correcto, la distribución del estadı́stico Ĉ es aproxi-
mada a la distribución Chi-cuadrada con g − 2 grados de libertad,
χ2 (g − 2) [8].
eĝ(xj )
ŷj = mj π̂j = mj . (1.19)
1 + eĝ(xj )
yj − mj π̂j
rj = r(yj , π̂j ) = p . (1.20)
mj π̂j (1 − π̂j )
Cox y Snell:
! N2
2 L̂c
R =1− . (1.22)
L̂0
Donde:
El modelo logı́stico con una variable independiente puede ser escrito co-
mo:
ln Ω(x) = β0 + β1 x. (1.24)
Donde
P (y = 1|x) P (y = 1|x)
Ω(x) = = . (1.25)
P (y = 0|x) 1 − P (y = 1|x)
Es la probabilidad (odds) del evento dado x, y el ln(Ω(x)) es el logaritmo
de la probabilidad.
Siendo este cociente de probabilidades de las estimaciones más comunes
que se usan para la Regresión Logı́stica.
Y en consecuencia,
∂ ln Ω(x)
= βk . (1.26)
∂xk
Dado que el modelo es lineal, βk se interpreta de la siguiente manera:
((Para un cambio unitario en xk , se espera que el logit cambie por βk ,
manteniendo todas las demás variables constantes [10].))
Otra forma de verlo es:
Tomando en cuenta las probabilidades de respuesta que se presentan
entre los individuos cuando x = 1 la probabilidad está definida como
π(1) π(0)
1−π(1) , y para los individuos con x = 0 similarmente, 1−π(0) . La razón
de probabilidades (odds ratio), se define como la razón entre las proba-
1.6. Evaluación del Modelo 23
π(1)
1−π(1)
OR = π(0)
. (1.27)
1−π(0)
Estos cocientes enumeran el número de veces que será más probable que
ocurra un éxito del evento correspondiente con cada variable k.
1. Clasificación.
Realidad y0
1 0
1 VP FP
Modelo ye
0 FN VN
Donde:
VP=Valores Verdaderos Positivos.
FP=Falsos Positivos.
FN=Falsos Negativos.
VN=Verdaderos Negativos.
VP
Sensibilidad = V P +F N .
VN
Especificidad = V N +F P .
1.6. Evaluación del Modelo 25
Credit Score
27
28 2.2. Ventajas y Desventajas del Scoring
35
36 3.2. Contexto Histórico
0 =Carro (Nuevo)
1 =Carro (Usado)
2 = Muebles\Equipo
5 Propósito Propósito por Categórica 3 = Radio\Televisión
el que se ob-
tuvo el crédi- 4 =Aparatos domésticos
to
5 =Reparaciones
6 =Educación
38 3.3. Descripción de la Base de Datos
No. Nombre de Descripción Tipo de Descripción en el código
la variable variable
7 =Vacaciones
8 =Capacitación
9 =Negocios
10 =Otros
6 Monto Cré Monto del Numérica
dito crédito otor-
gado
1 =Menor a 100 DM
2 =Entre 100 y 500 DM
3 =Entre 500 y 1000 DM
7 Cuenta Aho Monto de la Categórica
rros cuenta de 4 =Mayor a 1000 DM
ahorros del 5 =Monto desconoci-
cliente do\No tiene cuenta de
ahorro
1 =Desempleado
2 =Menos de 1 año
8 Duración Años en Categórica 3 =Entre 1 y 4 años
en trabajo el trabajo 4 =Entre 4 y 7 años
actual
5 =Mayor o igual a 7
años
9 Tasa De Tasa de Numérica
Crédito Crédito
1 =Hombre Divorcia-
do\Separado
2 =Mujer Divorcia-
da\Separada\Casada
10 Género Categorı́as en Categórica
Edo Civil las que se 3 =Hombre soltero
clasificaron a 4 =Hombre Casa-
los clientes de do\Viudo
acuerdo a su
género y 5 =Mujer Soltera
estado civil
1 =Ninguno
11 Otros Deu Tipo de per- Categórica 2 =Co-Solicitante
dores sonas que en-
Fiadores traron igual- 3 =Fiador
mente con el
cliente dentro
del contrato
12 Duración Años vivien- Numérica
Residencia do en su resi-
dencia actual
1 =Bienes raı́ces
2 =Contrato Ahorro de
Vivienda\Seguro de vida
13 Propiedades Tipo de pro- Categórica 3 =Carro (Diferente al
piedades im- del campo de Propósito
portantes dis-
ponibles con 4 =Desconocido\Sin
las que cuenta propiedad
el cliente
14 Edad Edad a la que Numérica
el cliente soli-
citó el crédito
3.3. Descripción de la Base de Datos 39
No. Nombre de Descripción Tipo de Descripción en el código
la variable variable
1 =Bancario
15 Otros Plan Otro tipo de Categórica 2 =Tiendas departamen-
es Pago pagos que el tales
cliente realice 3 =Ninguno
a la par con el
crédito
1 =Rentada
16 Tipo Vivien Tipo de vi- Categórica 2 =Propia
da vienda en la
que reside el 3 =Libre
cliente
17 NoCrédi- Número de Numérica
tos Banco créditos en
este banco
1 =Desempleado\Inca
pacitado\No residente
2 =Incapacitado- Resi-
dente
18 Ocupación Tipo de tra- Categórica 3 = Empleado Capacita-
bajo en el que do\Oficial
se desenvuel-
ve el cliente 4 = Gerente\Por cuen-
ta propia\Altamente ca-
lificado\Oficial
19 Personas Número de Numérica
Depen- personas que
dientes dependen del
cliente
1 =No
20 Telefono ¿Tiene el Binaria
cliente núme- 2 =Si
ro de telefono
registra-
do bajo su
nombre?
1 =Si
21 Trabajador Si es o no Binaria
Foráneo trabajador 2 =No
foráneo
Cuadro 3.1: Variables de la base de datos German Credit.
3.4. Definición de la Variable Respuesta y las Variables
40 Explicativas
Edad
Estado civil
Género
Tipo de ocupación
Si es trabajador foráneo
Clase Total
Malo Bueno
Hombre: Divorciado/soltero 20 30 50
Mujer: Divorciada/Separada/Casada 109 201 310
Hombre:Soltero 146 402 548
Hombre: Casado/Viudo 25 67 92
Total 300 700 1000
Clase Total
Malo Bueno
Desempleado/Incapacitado/No Residente 7 15 22
Incapacitado/Residente 56 144 200
Empleado Capacitado/Oficial 186 444 630
Gerente/Por cuenta propia/Altamente Ca- 51 97 148
lificado
Total 300 700 1000
Clase Total
Malo Bueno
Desempleado 23 39 62
Menos de 1 año 70 102 172
Entre 1 y 4 años 104 235 339
Entre 4 y 7 años 39 135 174
Mayor o igual a 7 años 64 189 253
Total 300 700 1000
Clase Total
Malo Bueno
No tiene créditos tomados/Todos los 25 15 40
créditos pagados debidamente
Todos los créditos de este banco paga- 28 21 49
dos debidamente
Créditos existentes debidamente paga- 169 361 530
dos hasta ahora
Retraso en el pago en el pasado 28 60 88
Cuenta crı́tica/Otros créditos existen- 50 243 293
tes (No en este banco)
Total 300 700 1000
Clase Total
Malo Bueno
Bancario 57 82 139
Tiendas departamentales 19 28 47
Ninguno 224 590 814
Total 300 700 1000
Variables independientes
Las variables independientes seleccionadas de acuerdo a las caracterı́sti-
cas de la base de datos de entrenamiento, son:
1. Duración de crédito:
Esta variable se refiere a los meses que hasta el momento de la
conformación de la base ha estado activo el crédito. Es de caracter
cuantitativo.
2. Monto de crédito:
Variable numérica que expresa el monto total del crédito otorgado.
3. Tasa de crédito:
Variable numérica que expresa la tasa del cŕedito.
4. Balance de cuenta:
Variable categórica que expresa el estado de la cuenta corriente de
cada cliente, tiene cuatro categorı́as:
4 = No existe cuenta.
0 = Carro (Nuevo).
1 = Carro (Usado).
2 = Muebles/Equipo.
3 = Radio/Televisión.
4 = Aparatos domésticos.
5 = Reparaciones.
6 = Educación.
7 = Vacaciones.
8 = Capacitación.
9 = Negocios.
10 = Otros.
8. Duración en el trabajo:
1 = Desempleado.
2 = Menos de 1 año.
3 = Entre 1 y 4 años.
4 = Entre 4 y 7 años.
5 = Mayor o igual a 7 años.
9. GéneroEdoCivil:
3.5. Selección de Variables Aplicadas al Modelo 49
1 = Hombre: Divorciado/Separado.
2 = Mujer: Divorciada/Separada/Casada.
3 = Hombre: Soltero.
5 = Mujer: Soltera.
1 = Bancario.
2 = Tiendas departamentales.
3 = Ninguno.
50 3.6. Estimación del Modelo en SPSS
3.6.3. Clasificación
3.6.5. Interpretación
Por último, ya es posible realizar el cálculo de la probabilidad de in-
cumplimiento a través de la ecuación de Regresión Logı́stica y los valores
estimados de sus coeficientes junto con los valores de OR:
3.6.6. Validación
El scoring estadı́stico tiene la capacidad de ser probado antes de
usarse. Este procedimiento expone como funciona el scoring si se aplicara
en el presente. La validación se realiza con una muestra no utilizada
para construir el modelo. Para validar el modelo se usó una muestra
denominada Muestra de validación que se extrajo de la muestra original,
siendo el 30 % del total de datos, la muestra es aleatoria y se asegura que
el 30 % de los datos contiene una proporción similar de buenos y malos
como la muestra del 70 %. Cuando se estimaron los coeficientes se aplica
el modelo a esta muestra con el mismo punto de corte. Los resultados
revelaron una sensibilidad del 92.86 % y una especificidad del 42.22 %,
con una clasificación total correcta del 77.7 %
Conclusiones
Balance de cuenta.
Historia crediticia.
Monto de crédito.
Tasa de crédito.
Propósito.
Cuenta de ahorros.
Género-Estado Civil.
59
60 Conclusiones
Muestra de 100 observaciones de la Base de datos German Credit. Tasa del Crédito
Crédito(Meses)
Otros deudores
Duración en el
trabajo actual
Género - Edo.
Duración del
Propiedades
Edad (años)
Balance de
Residencia
Monto del
Cuenta de
Crediticia
Propósito
Duración
Fiadores
Historia
Crédito
ahorros
Cuenta
Clase
Civil
No.
1 0 1 18 4 2 1049 1 2 4 2 1 4 2 21
2 0 1 9 4 0 2799 1 3 2 3 1 2 1 36
3 0 2 12 2 9 841 2 4 2 2 1 4 1 23
4 0 1 12 4 0 2122 1 3 3 3 1 2 1 39
5 0 1 12 4 0 2171 1 3 4 3 1 4 2 38
6 0 1 10 4 0 2241 1 2 1 3 1 3 1 48
7 0 1 8 4 0 3398 1 4 1 3 1 4 1 39
8 0 1 6 4 0 1361 1 2 2 3 1 4 1 40
9 0 4 18 4 3 1098 1 1 4 2 1 4 3 65
10 0 2 24 2 3 3758 3 1 1 2 1 4 4 23
11 0 1 11 4 0 3905 1 3 2 3 1 2 1 36
12 0 1 30 4 1 6187 2 4 1 4 1 4 3 24
13 0 1 6 4 3 1957 1 4 1 2 1 4 3 31
14 0 2 48 3 10 7582 2 1 2 3 1 4 4 31
15 0 1 18 2 3 1936 5 4 2 4 1 4 3 23
16 0 1 6 2 3 2647 3 3 2 3 1 3 1 44
Continúa en la siguiente página.
61
62 A. Base de datos German Credit
Trabajador foraneo
No. Créditos en el
No. Créditos en el
Tipo de Vivienda
Tipo de Vivienda
No. dependientes
No. dependientes
Ocupación
Ocupación
Teléfono
Teléfono
banco
banco
No.
No.
1 3 1 1 3 1 1 1 51 3 2 1 3 1 2 1
2 3 1 2 3 2 1 1 52 3 2 1 4 2 2 1
3 3 1 1 2 1 1 1 53 3 2 4 2 1 2 1
4 3 1 2 2 2 1 2 54 3 2 2 2 1 2 1
5 1 2 2 2 1 1 2 55 3 2 1 3 1 1 2
6 3 1 2 2 2 1 2 56 3 2 1 3 1 2 1
7 3 2 2 2 1 1 2 57 3 2 1 3 1 1 1
8 3 2 1 2 2 1 2 58 3 2 1 3 1 2 1
9 3 2 2 1 1 1 1 59 3 2 1 4 1 2 1
10 3 1 1 1 1 1 1 60 3 2 1 3 1 2 1
11 3 1 2 3 2 1 1 61 3 2 2 3 2 2 1
12 3 1 2 3 1 1 1 62 3 2 2 2 2 1 1
13 3 2 1 3 1 1 1 63 3 2 2 3 1 1 1
14 3 2 1 4 1 2 1 64 3 2 1 3 1 2 1
15 3 1 2 2 1 1 1 65 3 2 1 3 1 2 1
16 3 1 1 3 2 1 1 66 3 2 1 3 1 2 1
17 3 2 2 2 2 1 1 67 3 3 2 3 1 2 1
18 3 1 1 3 1 1 1 68 3 2 2 3 1 2 1
19 3 2 1 3 1 1 1 69 3 2 1 3 1 2 1
20 3 2 2 2 1 1 1 70 3 2 1 3 1 1 1
21 3 1 3 3 2 1 1 71 2 2 1 3 1 2 1
22 1 2 2 2 2 1 1 72 3 2 1 4 1 1 1
23 3 2 1 3 1 1 1 73 3 2 1 3 1 2 1
24 3 2 2 2 2 1 1 74 3 2 1 4 1 2 1
25 3 2 1 3 1 1 1 75 3 2 1 3 1 2 1
26 3 1 1 3 1 1 1 76 3 2 2 3 1 2 1
27 3 2 3 2 1 1 1 77 3 2 1 3 1 1 1
28 3 2 1 3 1 1 1 78 3 2 1 3 1 2 1
29 3 3 1 3 1 1 1 79 3 2 1 3 1 2 1
30 3 2 1 3 1 1 1 80 3 2 2 3 1 2 1
31 3 2 2 3 1 2 1 81 3 2 1 3 1 2 1
32 3 2 2 4 1 2 1 82 3 2 1 3 1 1 1
33 3 2 1 3 1 1 1 83 3 2 1 3 2 1 1
34 3 2 1 3 1 1 1 84 3 2 2 3 1 2 1
35 3 2 2 3 1 2 1 85 3 2 2 3 1 1 1
36 3 2 2 2 2 1 1 86 3 2 2 2 1 2 1
37 3 2 2 3 1 1 1 87 3 1 2 3 1 2 1
38 3 2 1 3 1 2 1 88 3 2 1 3 1 1 1
Continúa en la siguiente página.
A. Base de datos German Credit 65
Funciones de densidad
e−(x−α)/β
f (x; α, β) =
β(1 + e−(x−α)/β )2
67
68 B. Funciones de densidad
1
F (x) =
−( x−α
β )
1+e
E(X) = α
v. Y la varianza:
π2 β 2
V ar(X) =
3
B. Funciones de densidad 69
vi. Propiedades:
Si α = 0 y β = 0.5513, entonces Log(0, 0.5513) ∼ N ormal(0, 1).
U
X = ln( ) (B.1)
1−U
1 (x−µ)2
f (x) = √ e− 2σ2 , con − ∞ < x < ∞.
σ 2π
de una integral:
Z x
1 (u−µ)2
Φµ,σ2 (x) = √ e− 2σ 2 du, con − ∞ < x < ∞.
σ 2π −∞
E(X) = µ
4. Su varianza es:
V ar(X) = σ 2
1 x2
f (x) = √ e− 2 , con − ∞ < x < ∞.
2π
B. Funciones de densidad 71
y = α + βx + e.
y = α + βx + e.
E(e) = 0.
E(y) = α + βx.
73
74 C. Supuestos del Modelo lineal de probabilidad
var(e) = σ 2 = var(y).
cov(ei , ej ) = cov(yi , yj ) = 0.
Esta suposición se puede hacer más fuerte asumiendo que los valo-
res de los errores aleatorios e son estadı́sticamente independientes,
en cuyo caso los valores de la variable independiente y son también
estadı́sticamente independientes.
Residuales de Pearson
La devianza es una de las medidas más utilizadas para ver que tan
bien el modelo ajusta los datos, pero existen alternativas, como es el caso
del Estadı́stico Chi-cuadrado.
De acuero a Faraway [7], el estadı́stico χ2 de Pearson, tiene la forma
general:
n
X (Oi − Ei )2
χ2 = . (D.1)
i=1
Ei
Donde:
Oi es el valor observado y Ei es el valor estimado bajo el modelo pro-
puesto para el caso i.
Para una respuesta binomial, se tiene que para los éxitos, el valor
observado es, Oi = yi y su respectivo valor estimado, Ei = ni π̂i y para
los fracasos para se tiene que Oi = ni − yi y Ei = ni (1 − π̂i ) lo cual da
como resultado:
n
X (yi − ni π̂i )2
χ2 = . (D.2)
n π̂ (1 − π̂i )
i=1 i i
yi − ni π̂i
riP = p . (D.3)
V ar(yˆi )
75
76 D. Residuales de Pearson
Donde:
V ar(ŷi ) = ni π̂i (1 − π̂i ).
Los cuales se pueden ver como un tipo de residuales estandarizados, en-
Pn
tonces χ2 = i=1 (riP )2 .
Subgrupos
1 2 ... N
Éxitos Y1 Y2 ... YN
Fracasos n1 − Y1 n2 − Y2 . . . nN − YN
Totales n1 n2 ... nN
N
X yi n i − yi
D=2 yi ln + (ni − yi ) ln (D.4)
i=1
ni π̂i ni − ni π̂i
s 1 (s − t)2
s ln = (s − t) + + ... (D.5)
t 2 t
Ası́,
N
X 1 (yi − ni π̂i )2
D=2 {(yi − ni π̂i ) + + [(ni − yi ) − (ni − ni π̂i )]
i=1
2 ni π̂i
1 [(ni − yi ) − (ni − ni π̂i )]2
+ + ...}
2 ni − ni π̂i
N
∼
X (yi − ni π̂i )2
= = χ2 .
i=1
ni π̂ i (1 − π̂ i )
[1] Agresti A., Categorical Data Analysis, John Wiley Sons, Inc, (1990).
[4] Carter R., Griffiths W., Lim G., Principles of Econometrics, John
Wiley Sons, Inc, (2011).
[7] Faraway J., Extending the Linear Model with R: Generalized Li-
near, Mixed Effects and Nonparametric Regression Models, Chap-
man & Hall/CRC , (2006).
[8] Hosmer D. & Lemeshow S., Applied Logistic Regression, John Wi-
ley & Sons, (2000).
79
80 BIBLIOGRAFÍA
[11] Malhotra D.K., Malhotra R., McLeod R., Artificial Neural Systems
in Commercial Lending, The Bankers Magazine, (1994).