Professional Documents
Culture Documents
So Paulo
2009
CRISTIANE KARCHER
rea de Concentrao:
Engenharia Eltrica - Sistemas
Eletrnicos
So Paulo
2009
FICHA CATALOGRFICA
Karcher, Cristiane
Redes bayesianas aplicadas anlise do risco de crdito /
C. Karcher. -- ed.rev. --So Paulo, 2009.
103 p.
Dissertao (Mestrado) - Escola Politcnica da Universidade
de So Paulo. Departamento de Engenharia de Sistemas Eletrnicos.
1. Crdito 2. Estatstica para inteligncia artificial 3. Modelos
lineares generalizados 4. Inferncia estatstica I. Universidade de
So Paulo. Escola Politcnica. Departamento de Engenharia de
Sistemas Eletrnicos II. t.
DEDICATRIA
AGRADECIMENTOS
Ao professor Dr. Flvio Almeida de Magalhes s Cipparrone, pela orientao e
oportunidade de crescimento acadmico.
minha querida irm Viviane Karcher e aos amigos Paulo do Canto Hubert Jr,
Cludio de Nardi Queiroz e Pedro Savadovsky pelas contribuies a este trabalho.
EPGRAFE
Se quisermos progredir, no
devemos repetir a histria, mas
fazer uma histria nova.
(Mahatma Ghandi)
RESUMO
ABSTRACT
Credit Scoring Models are used to estimate the insolvency probability of a customer,
in a period, based on their personal and financial information. In this text, the
proposed model for Credit Scoring is Bayesian Networks (BN) and its results were
compared to Logistic Regression. The BN evaluated were the Bayesian Networks
Classifiers, with structures of type: Naive Bayes, Tree Augmented Naive Bayes (TAN)
and General Bayesian Network (GBN). The RB structures were developed using a
Structure Learning technique from a real database. The models performance were
evaluated and compared through the hit rates observed in Confusion Matrix,
Kolmogorov-Smirnov statistic and Gini coefficient. The development and validation
samples were obtained using a Cross-Validation criteria with 10-fold. The analysis
showed that the fitted BN models have the same performance as the Logistic
Regression Models, evaluating the Kolmogorov-Smirnov statistic and Gini coefficient.
The TAN Classifier was selected as the best BN model, because it performed better
in prediction of bad customers and allowed an interaction effects analysis between
variables.
LISTA DE ILUSTRACES
Figura 1 - Exemplo de Rede Bayesiana aplicada em diagnstico mdico. _______29
Figura 2 - Conexo Serial: X e Y esto d-separados se V recebeu uma evidncia. 31
Figura 3 - Conexo Divergente: X e Y esto d-separados se V recebeu uma
evidncia. ______________________________________________________31
Figura 4 - Conexo Convergente: X e Y esto d-separados se nem V nem seus
descendentes recebeu uma evidncia. _______________________________31
Figura 5 - Outro exemplo de Rede Bayesiana _____________________________32
Figura 6 - Estrutura do Classificador Naive Bayes com 5 atributos e uma classe __39
Figura 7 - Estrutura de um Classificador TAN com seis atributos e uma classe ___41
Figura 8 - Estrutura de um Classificador GBN com quatro atributos e uma classe _42
Figura 9 - Exemplo de curva ROC (Receiver Operating Characteristic). _________49
Figura 10 - Exemplo de clculo da estatstica Kolmogorov-Smirnov.____________50
Figura 11 Esquema das metodologias aplicadas neste trabalho. _____________52
Figura 12 - Estrutura da Rede Bayesiana do Classificador Naive Bayes com seleo
de variveis pelo mtodo Wrapper com busca Backward Elimination. _______74
Figura 13 - Estrutura da RB do Classificador TAN com aprendizado de estrutura
utilizando a medida Bayes e seleo de variveis pelo mtodo Wrapper com
busca por Backward Elimination. ____________________________________78
Figura 14 - Estrutura da RB do Classificador GBN com aprendizado de estrutura
utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da
varivel resposta. ________________________________________________85
LISTA DE TABELAS
Tabela 1 - Probabilidades Condicionais de "Doena" dado "Sintomas" e distribuio
de "Idade". _____________________________________________________30
Tabela 2 Matriz de confuso de um modelo de Credit Scoring. ______________47
Tabela 3 - Valores crticos da estatstica Kolmogorov-Smirnov aplicada em modelos
de Credit Scoring.________________________________________________51
Tabela 4 - Variveis da base de dados German Credit.______________________54
Tabela 5 - Exemplo de categorizao de uma varivel preditora. ______________56
Tabela 6 - Categorizao das variveis originalmente contnuas da base de dados
German Credit e clculo do Risco Relativo e Weights of Evidence (WOE) de
cada categoria.__________________________________________________58
Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente
categricas da base de dados German Credit, aps o agrupamento de alguns de
seus nveis. ____________________________________________________59
Tabela 8 - Estatstica KS, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB), dos clientes maus (TAM) e nmero de variveis dos modelos de
Regresso Logstica ajustados. _____________________________________67
Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica
Final, juntamente as medidas descritivas: Risco Relativo, Nmero de Clientes
bons (#Bons) e maus (#Maus), Total de clientes (Total) por categoria,
Percentual de clientes da categoria em relao ao total de clientes (%Total) e
Percentual de Maus por categoria (dummy) (Bad Rate). __________________69
Tabela 10 - Variveis preditoras ordenadas pela sua contribuio individual para o
ganho de informao em relao varivel resposta (Cliente bom ou mau
pagador). ______________________________________________________72
Tabela 11 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total
(TAT), dos clientes bons (TAB) e dos clientes maus (TAM) e nmero de
variveis dos Classificadores Naive Bayes ajustados utilizando Cross-Validation.
______________________________________________________________73
Tabela 12 - Probabilidades dos clientes se tornarem bons e maus pagadores,
dado a observao dos nveis das variveis preditoras, sem que haja alterao
nas categorias das demais variveis, do Classificador Naive Bayes final._____75
Tabela 13 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total
(TAT), dos clientes bons (TAB) e dos clientes maus (TAM) e nmero de
variveis dos Classificadores TAN com aprendizado de estrutura utilizando
diferentes medidas. ______________________________________________77
Tabela 14 - Variveis preditoras e respectivos pais do Classificador TAN final. ___78
Tabela 15 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a
observao de cada varivel preditora isoladamente, no Classificador TAN com
aprendizado utilizando a medida Bayes e com seleo com o mtodo Wrapper
com busca por Backward Elimination. ________________________________80
ROC
TAN
12
SUMRIO
1. INTRODUO ___________________________________________________ 14
2. REVISO BIBLIOGRFICA_________________________________________ 19
2.1 Modelos de Credit Scoring_______________________________________ 19
2.2 Redes Bayesianas e Classificadores Bayesianos _____________________ 22
2.3 Redes Bayesianas aplicadas anlise do Risco de Crdito _____________ 25
3. FUNDAMENTAO TERICA ______________________________________ 27
3.1 Redes Bayesianas_____________________________________________
3.1.1 Inferncia em Redes Bayesianas _______________________________
3.1.2 Aprendizado em Redes Bayesianas _____________________________
3.2 Classificao Bayesiana ________________________________________
3.2.1 Classificador Naive Bayes _____________________________________
3.2.2 Classificador Tree Augmented Naive Bayes (TAN)__________________
3.2.3 Classificador General Bayesian Network (GBN) ____________________
3.3 Regresso Logstica ___________________________________________
3.4 Medidas de Avaliao dos Modelos de Classificao __________________
3.4.1 Matriz de Confuso __________________________________________
3.4.2 Coeficiente Gini _____________________________________________
3.4.3 Estatstica Kolmogorov-Smirnov ________________________________
27
32
34
39
39
41
42
43
46
47
48
49
4. METODOLOGIA _________________________________________________ 52
4.1
4.2
4.3
4.4
4.5
53
55
61
64
65
5. RESULTADOS___________________________________________________ 66
5.1 Regresso Logstica ___________________________________________
5.2 Classificadores Bayesianos ______________________________________
5.2.1 Classificador Naive Bayes _____________________________________
5.2.2 Classificador TAN ___________________________________________
5.2.3 Classificador GBN ___________________________________________
5.3 Comparao dos Modelos de Classificao _________________________
67
71
73
76
83
89
13
1. INTRODUO
15
16
com a crise no crdito imobilirio para o segmento de clientes subprime (de segunda
linha). O segmento de crdito subprime o dos clientes com renda muito baixa, por
vezes com histrico de inadimplncia e com dificuldade de comprovar renda. Como
os emprstimos a clientes subprime tm uma qualidade mais baixa, por terem maior
risco de no serem pagos, eles oferecem uma taxa de retorno mais alta, a fim de
compensar esse risco assumido pelos credores.
preditoras,
seleo
de
variveis,
construo
das
amostras
de
18
2. REVISO BIBLIOGRFICA
Neste captulo sero descritos alguns estudos sobre aplicaes de modelos de
Credit Scoring. Posteriormente, apresentaremos alguns estudos tericos e de
aplicaes de RB em problemas de classificao de dados, que a tcnica proposta
para modelos de Credit Scoring.
20
21
22
Os
Classificadores
Naive
Bayes,
na
presena
de
variveis
altamente
24
25
26
3. FUNDAMENTAO TERICA
Por definio, uma Rede Bayesiana (RB) composta dos seguintes elementos
(JENSEN, 2001):
i.
ii.
iii.
iv.
P( X 1 , X 2 ,..., X n ) = P( X i Pai )
n
(1)
i =1
i = P ( X i Pa i )
i = 1,..., n
(2)
{X 1 , X 2 ,..., X n } .
Um importante aspecto de uma RB a sua estrutura (topologia do grafo), que
permite a representao de complexas relaes entre variveis de forma grfica e
intuitiva. A estrutura grfica de uma RB facilita o entendimento das relaes entre
variveis do seu domnio, alm de permitir o uso combinado de informaes obtidas
do conhecimento de especialistas com dados histricos para obter a distribuio
conjunta de probabilidades da rede.
(3)
Utilizando somente as letras iniciais de cada varivel a equao (3) pode ser
reescrita como,
P(I,P,C,D,S) = P(I) . P(P) . P(C) . P(D |I,P,C) . P(S |D)
(4)
as
tabelas
P(Idade),
P(Profisso),
P(Clima),
0.46
0.54
Doena
lcera no Estmago
Infarto
0.8
0.05
0.15
0.90
0.05
0.05
Nenhuma
0.05
0.10
0.85
30
31
P( D = d ) = P( I = i, P = p, C = c, D = d , S = s)
i
d (5)
32
P( X Y = Yo ) dada por,
P ( X Y = Yo ) =
P ( X , Y = Yo )
P (Y = Yo )
(7)
d ' (8)
que igual a,
d ' (9)
P( I =' < 45' ).P( P = p) P(C = c).P( D = d ' I =' < 45' , P = p, C = c) P(S =' Dor de estmago' D = d ' )
p
(10)
33
P( I =' < 45' ).P ( P = p) P(C = c).P ( D = d I =' < 45' , P = p, C = c) P( S =' Dor de estmago' D = d ) (11)
34
P ( S D, S ) = P ( i D, S h )
h
(12)
i =1
A obteno dos parmetros a partir de bases de dados pode ser feita atravs da
simples contagem de freqncias (NEAPOLITAN, 2004) ou a partir da abordagem
combinada de dados observados em D com alguma informao a priori de
especialistas. Esta abordagem combinada baseada em distribuies de Dirichlet
(NEAPOLITAN, 2004). Alm disso, se os dados observados em D estiverem
incompletos,
so
utilizados
algoritmos
EM
(Expectation
Maximization)
(HECKERMAN, 1995).
P ( S D) =
h
P( S h ) P( D S h )
P( D)
(13)
I ( xi , x j c) =
P( X i , X j C )
P
(
X
,
X
,
C
)
ln
i
j
P
(
X
C
)
P
(
X
C
)
X i , X j ,C
i
j
(14)
36
Entropia:
ScoreEntropia (S ,D) =
h
qi
ri
N
i =1 j =1 k =1
ijk
N ijk
. ln
N
ij
(15)
S
N
ln
ScoreAIC (S ,D) =
ijk
N
i =1 j =1 k =1
ij
h
h
ScoreAIC (Sh,D) = S + ScoreEntropia S , D
(16)
2
i =1 j =1 k =1
N ij
ScoreMDL(Sh,D)=
1 h
S ln N + ScoreEntropia S h , D
2
(17)
ScoreBayes (Sh,D) = P S , D
h
)
37
qi
i =1
j =1
(N 'ij )
(N '
ij
+ N ij
ri
)
k =1
(N 'ijk + N ijk )
(N 'ijk )
(18)
Heckerman (1995)
ScoreBayes(Sh,D), dado pela equao (18). Sendo que, a expresso N 'i jk = 1 /(ri .qi )
resulta em N 'i j = 1 / qi .
38
so
chamadas
de
Classificadores
Bayesianos.
Nos
Classificadores
P ( A1 ,...., An , C ) = P (C ). P ( Ai C )
(19)
i =1
39
P (C = 1 | A1 = a1 ,..., An = an ) =
P (C = 1).P( A1 = a1 ,..., An = an | C = 1)
P( A1 = a1 ,..., An = an )
(20)
P (C = 0 | A1 = a1 ,..., An = an ) =
P (C = 0).P( A1 = a1 ,..., An = an | C = 0)
P( A1 = a1 ,..., An = an )
(21)
P (C = 1 | A1 = a1 ,..., An = an )
1
P (C = 0 | A1 = a1 ,..., An = an )
(22)
P (C = 1) P ( A1 = a1 ,..., An = an | C = 1)
.
1
P (C = 0) P ( A1 = a1 ,..., An = an | C = 0)
No
caso
do
Classificador
bayesiano
Naive
Bayes,
(23)
um
novo
caso
P (C = 1) n P ( Ai = ai | C = 1)
.
1
P (C = 0) i =1 P ( Ai = ai | C = 0)
(24)
40
41
A Regresso Logstica mltipla pode ser escrita como um caso particular dos
Modelos Lineares Generalizados (MCCULLAGH; NELDER, 1989) (PAULA, 2004),
com funo de ligao logito e varivel resposta Yi com distribuio Bernoulli com
probabilidade de sucesso (mdia) i .
Seja Yi {0,1} a varivel resposta para o cliente i (0 = o i-simo cliente mau
pagador, 1= o i-simo cliente bom pagador), o modelo de Regresso Logstica
pode ser escrito como,
ln i
1 i
exp(xiT )
= o + 1 xi1 + .... + p xip = xiT ou i =
1 + exp(xiT )
(25)
em que, i a probabilidade do cliente i ser bom pagador, xi = (1, xi1 ,..., xip ) T o
vetor de variveis preditoras do cliente i e = ( 0 , 1 ,..., p ) T o vetor dos parmetros
(coeficientes) do modelo.
43
P (Yi = y i ) = i
yi
(1 i )1 y
para i=1,...,n
(26)
i =1
i =1
L( y1 , y 2 ,..., y n , ) = P (Yi = y i ) = i i (1 i )
y
1 yi
(27)
n
n
ln (L( y1 , y 2 ,..., y n , ) ) = ln P (Yi = y i ) = y i . ln i
i =1
i =1
1 i
n
+ ln (1 i ) (28)
i =1
que 1 i = 1 + exp(xiT )
T
i
i =1
))
(29)
44
que
()
E =
() (
Var = X T V 1 X
(30)
j=1,2,...,p
O teste de Wald (MONTGOMERY; PECK; VINING, 2001) pode ser utilizado para
avaliar a significncia de cada parmetro e sua estatstica dada por,
Zo =
j
se( j )
(31)
Sob a hiptese nula, H0, a estatstica do teste de Wald, Z0, tem distribuio
Normal com = 0 e = 1 (normal padro).
46
Previsto
Mau
Bom
Total
Mau
n00
n01
n0.
Bom
Total
n10
n.0
n11
n.1
n1.
n..
em que,
noo: Nmero de clientes maus corretamente classificados como maus;
no1: Nmero de clientes maus incorretamente classificados como bons;
n1o: Nmero de clientes bons corretamente classificados como maus;
n11: Nmero de clientes bons incorretamente classificados como bons;
e, n.0 = n00+n10 ; n.1 = n01+n11 ; n0. = n00+n01 ; n1. = n10+n11 ; n..=n00+n01+n10+n11
Com isso, os modelos de classificao sero avaliados e comparados a partir das
trs taxas de acerto definidas por,
(32)
(33)
(34)
47
A taxa de acerto dos bons (TAB) tambm pode ser chamada de sensibilidade
ou true positive rate, e a taxa de acerto dos maus (TAB) tambm pode ser chamada
de especificidade ou false positive rate. Outras medidas de avaliao de modelos de
classificao binria so os erros tipo I e do tipo II, definidos como (ANDERSON,
2007)
Erro tipo I = (n10) / n1.
(35)
(36)
Coeficiente Gini = 1 ( FM ( si ) FM ( si 1 ) ) ( FB ( si ) FB ( si 1 ) )
(37)
i =1
48
49
KS = max FM ( s ) FB ( s )
s
(38)
50
Discrimanao
Credit Scoring
<15%
15 a 25%
25 a 35%
35 a 45%
45 a 55%
55 a 65%
65 a 75%
>75%
51
4. METODOLOGIA
Base de dados
German Credit
Amostragem
Retrospectiva
Amostra
Balanceada
Cross-Validation
com 10 parties
(10-fold)
Amostras de
desenvolvimento
e de validao
Desenvolvimento dos
modelos de classificao
Regresso
Logstica
Redes
Bayesianas
Seleo de
variveis
Seleo por
Forward Stepwise
Classificador
Naive Bayes
Classificador
TAN
Classificador
GBN
Aprendizado de estrutura
utilizando as medidas
MDL, AIC, Bayes, Bdeu,
Entropia
Seleo do
Markov Blanket
da varivel resposta
Seleo pelo
mtodo Wrapper
52
A base de dados contm 1000 clientes, dos quais 700 foram previamente
classificados como bons pagadores e 300 como maus pagadores. Alm de, 20
variveis preditoras categricas ou contnuas (Tabela 4), representando as
informaes pessoais e financeiras dos clientes.
53
Tipo de
Varivel
Nm. de
Categorias
Categorias
Salrio
categrica
ordinal
Durao
do Emprstimo
Contnua
Histrico
de Crdito
categrica
ordinal
Finalidade
categrica
nominal
11
Nome original
(em ingls)
Status of existing
checking account
Duration
in months
Credit history
Purpose
Valor do
Emprstimo
Poupana
do Cliente
Contnua
Credit amount
categrica
ordinal
Tempo
de Trabalho
categrica
ordinal
Taxa de juros em %
do valor do
emprstimo
Contnua
Savings
account/bonds
Present
employment
since
Installment rate
in % of disposable
income
Estado Civil
e Sexo
Categrica
nominal
Outras dvidas
ou garantias
Tempo
de Residncia
categrica
nominal
Contnua
Bens
Idade
Outros
Emprstimos
Moradia
Nmero de crditos
Concedidos em seu
banco
Emprego
Nmero
de dependentes
Telefone Prprio
Estrangeiro
Cliente
categrica
nominal
Contnua
categrica
nominal
categrica
nominal
Contnua
categrica
ordinal
Contnua
categrica
binria
categrica
binria
categrica
binria
Personal status
and sex
Other debtors/
Guarantors
Present residence
since
Housing
Number of existing
credits at this bank
Job title
Number of people
being liable to
provide
maintenance for
Sim, No
Telephone
Sim, No
Foreign worker
Bom ou Mau
Good or bad
credit rating
Property
Age in years
Other
installment plans
54
No modelo de Regresso Logstica necessrio que o intercepto seja recalculado (PAULA, 2004) por:
o = 0* ln 1
2
(39)
Nmero Nmero
%bons %maus Risco Relativo
WOE
de "bons" de "maus"
b1
m1
b1/b. m1/m. (b1/b.)/(m1/m.) ln[(b1/b.)/(m1/m.)]
b2
m2
b2/b. m2/m. (b2/b.)/(m2/m.) ln[(b2/b.)/(m2/m.)]
b3
m3
b3/b. m3/m. (b3/b.)/(m3/m.) ln[(b3/b.)/(m3/m.)]
b4
m4
b4/b. m4/m. (b4/b.)/(m4/m.) ln[(b4/b.)/(m4/m.)]
b5
m5
b5/b. m5/m. (b5/b.)/(m5/m.) ln[(b5/b.)/(m5/m.)]
b.
m.
1
1
1
0
56
O Risco Relativo e o WOE tambm podem ser utilizados para agrupar categorias
com valores prximos, ou seja, categorias com risco de inadimplncia prximas. No
entanto, este agrupamento s pode ser feito se houver interpretao lgica.
Nvel
<12
12<= X<16
Durao do emprstimo
16<= X<36
>=36
<1000
1000<= X<4000
Valor do Emprstimo
4000<= X<7500
>=7500
<4
Taxa de juros em % do
valor do emprstimo
>=4
<3
Tempo de Residncia
3<= X<4
>=4
<25
25<= X<30
30<= X<32
Idade
32<= X<35
35<= X<51
>=51
<2
Nmero de Dependentes
>=2
<2
Nmero de crditos
concedidos em seu banco
>=2
Total
Nmero
Nmero
%bons
de "bons" de "maus"
69
82
110
39
25
216
42
17
170
130
150
44
106
32
63
30
28
115
32
248
52
177
123
300
27
62
129
82
37
158
61
44
141
159
133
43
124
61
76
22
33
77
31
254
46
200
100
300
23.00%
27.33%
36.67%
13.00%
8.33%
72.00%
14.00%
5.67%
56.67%
43.33%
50.00%
14.67%
35.33%
10.67%
21.00%
10.00%
9.33%
38.33%
10.67%
82.67%
17.33%
59.00%
41.00%
100.00%
%maus
9.00%
20.67%
43.00%
27.33%
12.33%
52.67%
20.33%
14.67%
47.00%
53.00%
44.33%
14.33%
41.33%
20.33%
25.33%
7.33%
11.00%
25.67%
10.33%
84.67%
15.33%
66.67%
33.33%
100.00%
Risco
WOE
Relativo
2.556
1.323
0.853
0.476
0.676
1.367
0.689
0.386
1.206
0.818
1.128
1.023
0.855
0.525
0.829
1.364
0.848
1.494
1.032
0.976
1.130
0.885
1.230
1.000
0.938
0.280
-0.159
-0.743
-0.392
0.313
-0.373
-0.951
0.187
-0.201
0.120
0.023
-0.157
-0.645
-0.188
0.310
-0.164
0.401
0.032
-0.024
0.123
-0.122
0.207
0.000
58
Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente categricas da
base de dados German Credit, aps o agrupamento de alguns de seus nveis.
Varivel
Categoria
Imvel
Seguro de Vida, Carro e outros
No possui bens
X < $0
0 <= X < 200
Salrio
X >=200
Sem remunerao
< $500
Poupana
>= $500
do Cliente
No possui ou no conhecida
Nenhum
Outros
Emprstimos
Bancos e Lojas
Nenhuma
Outras dvidas
Co-aplicante
Ou garantias
Fiador
Compra de carro novo
Compra de carro usado
Mveis
Rdio e TV
Utenslios domsticos
Finalidade
Reforma
Educao
Cursos
Negcios
Outros
Sem emprstimos tomados
ou todos os emprstimos
pagos pontualmente
Existem emprstimos
Histrico
pagos pontualmente
de Crdito
Histrico de atraso
no pagamento
Atraso no pagamento
ou com emprstimos tomados
em outras Instituies
Desempregado
ou menos de 1 ano
Tempo
1 <= X < 4 anos
de Trabalho
X >= 4anos
Divorciado(a) ou separado(a)
ou mulher casada
Estado Civil
Masculino solteiro
e Sexo
Masculino casado ou vivo.
Prpria
Moradia
Alugada ou Moradia gratuita
Desempregado ou empregado
com baixa qualificao
Empregado qualificado
Emprego
ou funcionrio pblico
Executivo, profissional liberal,
empregado altamente
qualificado ou oficial
Bens
101
161
38
51
76
21
152
189
35
76
259
41
271
11
18
57
36
52
96
2
9
9
5
29
5
60
173
67
135
105
14
46
251
17
32
224
76
272
18
10
89
17
58
62
4
8
22
1
34
5
33.67%
53.67%
12.67%
17.00%
25.33%
7.00%
50.67%
63.00%
11.67%
25.33%
86.33%
13.67%
90.33%
3.67%
6.00%
19.00%
12.00%
17.33%
32.00%
0.67%
3.00%
3.00%
1.67%
9.67%
1.67%
20.00%
57.67%
22.33%
45.00%
35.00%
4.67%
15.33%
83.67%
5.67%
10.67%
74.67%
25.33%
90.67%
6.00%
3.33%
29.67%
5.67%
19.33%
20.67%
1.33%
2.67%
7.33%
0.33%
11.33%
1.67%
Risco
Relativo
1.683
0.931
0.567
0.378
0.724
1.500
3.304
0.753
2.059
2.375
1.156
0.539
0.996
0.611
1.800
0.640
2.118
0.897
1.548
0.500
1.125
0.409
5.000
0.853
1.000
12
53
4.00%
17.67%
0.226
-1.485
154
169
51.33%
56.33%
0.911
-0.093
28
28
9.33%
9.33%
1.000
0.000
106
50
35.33%
16.67%
2.120
0.751
67
93
22.33%
31.00%
0.720
-0.328
105
128
104
103
35.00%
42.67%
34.67%
34.33%
1.010
1.243
0.010
0.217
94
129
31.33%
43.00%
0.729
-0.317
179
27
233
67
146
25
186
114
59.67%
9.00%
77.67%
22.33%
48.67%
8.33%
62.00%
38.00%
1.226
1.080
1.253
0.588
0.204
0.077
0.225
-0.532
81
63
27.00%
21.00%
1.286
0.251
176
186
58.67%
62.00%
0.946
-0.055
43
51
14.33%
17.00%
0.843
-0.171
Nmero Nmero
de "bons" de "maus"
%bons
%maus
WOE
0.521
-0.072
-0.567
-0.973
-0.323
0.405
1.195
-0.284
0.722
0.865
0.145
-0.617
-0.004
-0.492
0.588
-0.446
0.750
-0.109
0.437
-0.693
0.118
-0.894
1.609
-0.159
0.000
Continuao da Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente
categricas da base de dados German Credit aps o agrupamento de alguns de seus nveis.
Risco
Nmero Nmero
Varivel
Categoria
%bons %maus
WOE
de "bons" de "maus"
Relativo
Sim
Telefone
116
113
38.67% 37.67% 1.027 0.026
Prprio
No
184
187
61.33% 62.33% 0.984 -0.016
Sim
20
4
6.67%
1.33%
5.000 1.609
Estrangeiro
No
280
296
93.33% 98.67% 0.946 -0.056
300
300
100.00% 100.00% 1.000 0.000
Total
(40)
categoria das variveis preditoras originas. O uso de dummies foi adotado para que
nas selees de variveis preditoras, descritas na Seo 4.3 a seguir, fossem
selecionadas somente as caractersticas dos clientes que mais contribussem para a
discriminao entre os bons e maus pagadores, dado um modelo de classificao.
Alm disso, tambm se observou que no desenvolvimento dos Classificadores
bayesianos o uso dummies contribuiu para uma melhora na assertividade das
previses dos clientes bons e maus dos modelos de classificao.
62
(41)
H ( X ) = P ( xi ) ln ( P ( xi ) )
(42)
i =1
H ( X Y ) = P ( xi , yi ) ln ( P( xi yi ) )
(43)
i =1 j =1
necessariamente,
pois
estratgias
eficientes
de
busca
tm
sido
63
65
5. RESULTADOS
As amostras de desenvolvimento e de validao foram obtidas por CrossValidation com 10 parties. O desempenho dos modelos de classificao sero
avaliados e comparados em relao estatstica Kolmogorov-Smirnov, coeficiente
Gini e as taxas de acerto obtidas da Matriz de Confuso, descritas na Seo 3.4. O
ponto de corte adotado para classificar os clientes da amostra de validao foi de 50.
Logo, na amostra de validao, se o modelo ajustado previu score acima de 50,
ento o cliente foi classificado como um bom pagador, e caso contrrio, o cliente foi
classificado como mau pagador.
66
TAT
TAB
TAM
KS
Gini
Regresso Logstica
72.7% 70.7% 74.7% 45.33% 55.94%
(Modelo Saturado)
Regresso Logstica com Seleo
74.83% 74.00% 75.67% 50.33% 61.46%
por Forward Stepwise
N de
Variveis
48
28
300 / 700
2.451
1
o = 1.6039 ln
com, 1 = 300 / 700 ,
(44)
exp(2.451)
= 0.9206
1 + exp(2.451)
(45)
68
Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica Final, juntamente
as medidas descritivas: Risco Relativo, Nmero de Clientes bons (#Bons) e maus (#Maus), Total
de clientes (Total) por categoria, Percentual de clientes da categoria em relao ao total de clientes
(%Total) e Percentual de Maus por categoria (dummy) (Bad Rate).
Varivel Preditora
Bens
Salrio
Poupana do Cliente
Outros Emprstimos
Outras dvidas
ou garantias
Finalidade
Histrico de Crdito
Tempo de Trabalho
Imvel
Seguro de Vida, Carro e outros
No possui bens
X < $0
0 <= X < 200
X >=200
Sem remunerao
< $500
>= $500
No possui ou no conhecida
Nenhum
Bancos e Lojas
Nenhuma
Co-aplicante
Fiador
Compra de carro novo
Compra de carro usado
Mveis
Rdio e TV
Utenslios domsticos
Reforma
Educao
Cursos
Negcios
Outros
Sem emprstimos tomados ou
todos os emprstimos
pagos pontualmente
Existem emprstimos pagos
pontualmente
Histrico de atraso no
pagamento
Atraso no pagamento ou com
emprstimos tomados em
outras Instituies
Desempregado ou menos de 1
ano
1 <= X < 4 anos
X >= 4anos
Divorciado(a) ou separado(a)
ou mulher casada
Masculino solteiro
Masculino casado ou vivo.
Coef.
2.451
-1.988
-1.262
-0.943
-0.871
0.886
-1.073
-1.470
-2.033
-1.387
-1.279
-1.685
-1.610
-2.345
-1.488
-
Risco
Bad
#Bons #Maus Total %Total
Relativo
Rate
1.683
101
60
161 26.8% 37.3%
0.931
161
173 334 55.7% 51.8%
0.567
38
67
105 17.5% 63.8%
0.378
51
135 186 31.0% 72.6%
0.724
76
105 181 30.2% 58.0%
1.500
21
14
35 5.8% 40.0%
3.304
152
46
198 33.0% 23.2%
0.753
189
251 440 73.3% 57.0%
2.059
35
17
52 8.7% 32.7%
2.375
76
32
108 18.0% 29.6%
1.156
259
224 483 80.5% 46.4%
0.539
41
76
117 19.5% 65.0%
0.996
271
272 543 90.5% 50.1%
0.611
11
18
29 4.8% 62.1%
1.800
18
10
28 4.7% 35.7%
0.640
57
89
146 24.3% 61.0%
2.118
36
17
53 8.8% 32.1%
0.897
52
58
110 18.3% 52.7%
1.548
96
62
158 26.3% 39.2%
0.500
2
4
6
1.0% 66.7%
1.125
9
8
17 2.8% 47.1%
0.409
9
22
31 5.2% 71.0%
5.000
5
1
6
1.0% 16.7%
0.853
29
34
63 10.5% 54.0%
1.000
5
5
10 1.7% 50.0%
-1.278
0.226
12
53
65
10.8% 81.5%
-0.487
0.911
154
169
1.000
28
28
56
2.120
106
50
0.720
67
93
1.010
1.243
105
128
104
103
0.729
94
129
0.448
-
1.226
1.080
179
27
146
25
9.3% 50.0%
69
Continuao da Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica Final,
juntamente as medidas descritivas: Risco Relativo, Nmero de Clientes bons (#Bons) e maus
(#Maus) , Total de clientes (Total) por categoria e Percentual de clientes da categoria em relao ao
total de clientes (%Total) e Percentual de Maus por categoria (dummy) (Bad Rate).
Varivel Preditora
Prpria
Alugada ou Moradia gratuita
Desempregado ou empregado
com baixa qualificao
Empregado qualificado ou
Emprego
funcionrio pblico
Executivo, profissional liberal,
empregado altamente
qualificado ou oficial
Sim
Telefone Prprio
No
Sim
Estrangeiro
No
<12
12<= X<16
Durao do
emprstimo
16<= X<36
>=36
<1000
1000<= X<4000
Valor do Emprstimo
4000<= X<7500
>=7500
Taxa de juros
>=4
em % do valor do
<4
emprstimo
<3
Tempo de
3<= X<4
Residncia
>=4
<25
25<= X<30
30<= X<32
Idade
32<= X<35
35<= X<51
>=51
>=2
Nmero de
Dependentes
<2
Nmero de crditos
>=2
concedidos em seu
<2
banco
Moradia
Risco
Bad
#Bons #Maus Total %Total
Relativo
Rate
0.489
1.253
233
186 419 69.8% 44.4%
0.588
67
114 181 30.2% 63.0%
Coef.
1.286
81
63
0.946
176
186
0.843
43
51
94
15.7% 54.3%
1.858
0.960
0.678
1.003
1.686
0.926
-0.465
1.027
0.984
0.946
5.000
2.556
1.323
0.853
0.476
0.676
1.367
0.689
0.386
0.818
116
184
280
20
69
82
110
39
25
216
42
17
130
113
187
296
4
27
62
129
82
37
158
61
44
159
229
371
576
24
96
144
239
121
62
374
103
61
289
38.2%
61.8%
96.0%
4.0%
16.0%
24.0%
39.8%
20.2%
10.3%
62.3%
17.2%
10.2%
48.2%
49.3%
50.4%
51.4%
16.7%
28.1%
43.1%
54.0%
67.8%
59.7%
42.2%
59.2%
72.1%
55.0%
0.630
0.556
-
1.206
1.128
1.023
0.855
0.525
0.829
1.364
0.848
1.494
1.032
1.130
0.976
1.230
170
150
44
106
32
63
30
28
115
32
52
248
123
141
133
43
124
61
76
22
33
77
31
46
254
100
311
283
87
230
93
139
52
61
192
63
98
502
223
51.8%
47.2%
14.5%
38.3%
15.5%
23.2%
8.7%
10.2%
32.0%
10.5%
16.3%
83.7%
37.2%
45.3%
47.0%
49.4%
53.9%
65.6%
54.7%
42.3%
54.1%
40.1%
49.2%
46.9%
50.6%
44.8%
0.885
177
200
70
atraso no pagamento) a que menos contribui para a previso dos clientes bons e
maus pagadores, seguida das dummies Tempo de
VarivelPreditora (Nvel)
Ganho de
Informao
0.067934
0.040192
0.037357
0.003132
0.028955
0.027069
0.021194
0.017302
0.003021
0.002325
0.002155
0.001905
0.015834
Estrangeiro (Sim)
Idade (35<= X<51)
Idade (<25)
0.014534
0.013363
0.013051
0.012013
0.011215
0.010544
0.000549
0.009168
0.008808
0.008359
0.008025
0.007118
Finalidade (Negcios)
Nmero de Dependentes (>=2)
Finalidade (Mveis)
Telefone Prprio (Sim)
Finalidade (Reforma)
0.000534
0.000528
0.000482
0.000076
0.000073
0.006950
0.000023
0.006760
0.005111
0.000016
0.000009
0.004545
0.004405
VarivelPreditora (Nvel)
0.003567
0.003532
0.001815
0.001799
0.001626
0.001170
0.000837
0.000825
0.000000
-
72
TAT
TAB
TAM
KS
Gini
N de
Variveis
Modelo Saturado
Filtragem pelo Ganho de Informao
Seleo Wrapper Forward
Seleo Wrapper Backward
72.00%
72.50%
74.00%
74.50%
68.30%
68.70%
73.00%
72.30%
75.70%
76.30%
75.00%
76.70%
44.33%
46.67%
48.33%
49.33%
56.83%
59.39%
54.28%
57.47%
48
31
12
28
Apesar do modelo Naive Bayes com busca por Forward Selection ser o mais
parcimonioso, ser escolhido o Classificador Naive Bayes com seleo pelo mtodo
Wrapper com busca por Backward Elimination como o melhor modelo (Classificador
Naive Bayes final); e est indicado em negrito na Tabela 11. Pois, este o modelo
73
Figura 12 - Estrutura da Rede Bayesiana do Classificador Naive Bayes com seleo de variveis pelo
mtodo Wrapper com busca Backward Elimination.
74
Tabela 12 - Probabilidades dos clientes se tornarem bons e maus pagadores, dado a observao
dos nveis das variveis preditoras, sem que haja alterao nas categorias das demais variveis, do
Classificador Naive Bayes final.
VarivelPreditora
Nvel(varivel dummy)
Bens
Imvel
X < $0
0 <= X < 200
< $500
>= $500
Nenhum
Salrio
Poupana do Cliente
Outros Emprstimos
Outras dvidas
ou garantias
Co-aplicante
0.404
0.705
0.295
0.601
0.782
0.504
0.875
0.399
0.218
0.496
0.125
0.729
0.667
0.709
0.697
0.271
0.333
0.291
0.303
0.360
0.640
0.731
0.269
0.628
0.372
0.724
0.276
0.630
0.370
0.737
0.263
0.741
0.745
0.259
0.255
0.647
0.580
0.353
0.420
0.749
0.251
0.683
0.317
0.907
0.854
0.755
0.666
0.615
0.093
0.146
0.245
0.334
0.385
0.688
0.664
0.681
0.722
0.709
0.312
0.336
0.319
0.278
0.291
0.656
0.344
0.738
0.262
0.724
0.554
0.776
0.276
0.446
0.224
0.677
0.723
0.660
0.323
0.277
0.340
0.741
0.259
0.674
0.326
76
Medida
Modelo
Modelo Saturado
Filtragem
pelo Ganho
MDL
de Informao
Seleo Wrapper
Modelo Saturado
Filtragem pelo Ganho
Bayes
de Informao
Seleo Wrapper
Modelo Saturado
Filtragem
pelo Ganho
AIC
de Informao
Seleo Wrapper
Modelo Saturado
Filtragem
pelo Ganho
Bdeu
de Informao
Seleo Wrapper
Modelo Saturado
Entropia Filtragem pelo Ganho
de Informao
Seleo Wrapper
N de
Variveis
72.83% 70.00% 75.70% 47.00% 58.74%
48
TAT
TAB
TAM
KS
Gini
31
27
48
31
27
48
31
27
48
31
26
48
31
27
77
Pais (Nvel)
Durao do emprstimo
(X <12), Cliente
Tempo de Residncia (X <3),
Cliente
Label da Varivel
Preditora
property_magnitude_1
duration_1, class
checking_status_1
checking_status_2
Poupana do Cliente
(X < $500)
savings_status_1
residence_since_1,
class
checking_status_1,
class
checking_status_1,
class
other_payment_plans
credit_history_1, class
other_parties_2
existing_credits, class
purpose_1
purpose_4, class
purpose_2
credit_amount_2, class
purpose_4
purpose_2, class
78
Pais (Nvel)
Label da Varivel
Preditora
Finalidade (Educao)
Finalidade
(Compra de carro novo) ,
Cliente
purpose_7
purpose_1, class
checking_status_2,
class
personal_status_2,
class
personal_status_2,
class
Class
purpose_2, class
property_magnitude_1,
class
duration_1, class
duration_2, class
credit_amount_1, class
credit_amount_2, class
credit_amount_3, class
personal_status_2,
class
credit_amount_1, class
housing, class
personal_status_2,
class
age_1, class
79
0.361
0.452
0.977
0.264
0.361
0.255
0.950
0.877
0.791
0.864
0.713
0.763
0.820
0.546
0.814
0.697
0.781
0.735
0.750
0.717
0.287
0.237
0.180
0.454
0.186
0.303
0.219
0.265
0.250
0.283
0.833
0.167
0.673
0.327
0.524
0.476
0.754
0.246
0.009
0.991
0.923
0.077
0.741
0.407
0.259
0.593
0.647
0.851
0.353
0.149
0.831
0.169
0.640
0.360
0.890
0.094
0.895
0.025
0.029
0.811
0.110
0.906
0.105
0.975
0.971
0.189
0.691
0.732
0.502
0.766
0.879
0.675
0.309
0.268
0.498
0.234
0.121
0.325
0.805
0.195
0.431
0.569
0.833
0.463
0.167
0.537
0.577
0.735
0.423
0.265
0.566
0.434
0.748
0.252
80
Tabela 16 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de
cada varivel preditora isoladamente, no Classificador TAN Classificador TAN com aprendizado
utilizando a medida Bayes e com seleo com o mtodo Wrapper com busca por Backward
Elimination.
Filhos (Nvel)
Pais (Nvel)
Durao do emprstimo
(X <12)
Tempo de Residncia
Salrio (X < $0)
(X <3)
Histrico de Crdito (Sem
Outros Emprstimos
emprstimos tomados ou
(Nenhum)
todos os emprstimos
pagos pontualmente)
Outras dvidas ou
Nmero de crditos
garantias
concedidos em seu banco
(Co-aplicante)
(X >=2)
Finalidade
Valor do Emprstimo
(Compra de carro usado)
(1000<= X <4000)
Histrico de Crdito (Sem
emprstimos tomados ou
Salrio (0 <= X < 200 )
todos os emprstimos
pagos pontualmente)
Tempo de Trabalho
Estado Civil e Sexo
(Desempregado ou
(Masculino solteiro)
menos de 1 ano)
Finalidade (Compra de
Moradia (Prpria)
carro usado)
Emprego (Desempregado
Bens (Imvel)
ou empregado com baixa
qualificao)
Durao do emprstimo
Estrangeiro (No)
(X <12)
Durao do emprstimo
Valor do Emprstimo
(12<= X <16)
(X <1000)
Valor do Emprstimo
Estado Civil e Sexo
(4000<= X <7500)
(Masculino solteiro)
Taxa de juros em % do
Valor do Emprstimo
valor do emprstimo
(X <1000)
(X >=4)
Tempo de Residncia
Moradia (Prpria)
(X <3)
Estado Civil e Sexo
Idade (X <25)
(Masculino solteiro)
Nmero de crditos
concedidos em seu banco
Idade (X <25)
(X >=2)
Bens (Imvel)
0.180
0.820
0.680
0.320
0.764
0.236
0.479
0.521
0.768
0.232
0.614
0.386
0.211
0.789
0.578
0.422
0.015
0.985
0.372
0.628
0.117
0.883
0.848
0.152
0.583
0.417
0.469
0.531
0.088
0.912
0.455
0.545
0.827
0.173
0.833
0.167
0.382
0.618
0.920
0.080
0.050
0.950
0.935
0.065
0.916
0.084
0.708
0.292
0.030
0.970
0.848
0.152
0.574
0.426
0.935
0.065
0.509
0.491
0.432
0.568
0.246
0.754
0.624
0.376
interao mostra que, entre os clientes sem emprstimos tomados ou com todos os
emprstimos pagos pontualmente (em dia), aqueles com salrio inferior a $200
possuem alto risco de inadimplncia, se comparados demais clientes com outras
faixas salariais e com mesmo histrico de crdito. Estes clientes com outras faixas
salariais e com mesmo histrico de crdito, por sua vez, possuem baixo risco de
inadimplncia, em determinado perodo. Com isso, fica clara a importncia de se
avaliar o efeito combinado entre variveis e de seus pais na RB.
que
no
podem
ser
observadas
analisando
as
variveis
varivel
"Estrangeiro(Sim)
com
pai
"Durao
do
82
Analisando a Tabela 17, nota-se que a seleo de variveis pelo Markov Blanket
da varivel resposta melhorou o desempenho dos Classificadores GBN nos
aprendizados de estrutura empregando as medidas MDL, Bayes e Bdeu em relao
estatstica KS, coeficiente Gini e taxas de acerto.
Tabela 17 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB), dos clientes maus (TAM) e nmero de variveis dos Classificadores GBN com
aprendizado de estrutura utilizando diferentes medidas.
Medida
MDL
Bayes
AIC
Bdeu
Entropia
Modelo
TAT
TAB
TAM
KS
Gini
N de
Variveis
Modelo Saturado
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket
Seleo Markov Blanket
70.67%
73.00%
68.50%
71.67%
72.50%
70.33%
71.50%
74.67%
65.83%
69.30%
72.70%
65.30%
67.70%
70.30%
68.70%
71.30%
76.30%
67.70%
72.00%
73.30%
71.70%
75.70%
74.70%
72.00%
71.70%
76.30%
64.00%
42.00%
46.00%
40.00%
43.67%
45.33%
43.00%
44.67%
49.67%
33.00%
53.69%
59.40%
51.47%
57.03%
55.70%
54.54%
55.84%
58.84%
43.23%
48
16
48
30
48
37
48
15
48
A anlise das dependncias entre variveis preditoras ser realizada pela anlise
dos efeitos de interao entre dummies. Para isso, foram calculadas as
probabilidades dos clientes se tornarem bons (ou maus) pagadores, dada as
observaes das dummies preditoras e dada a observao (ou no) de seus pais na
RB, nas Tabela 20 e Tabela 21.
85
Tabela 18 - Variveis preditoras (dummies) e respectivos pais do Classificador GBN com aprendizado
de estrutura utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel
resposta.
Filho (Nvel)
Pais (Nvel)
Label Filhos
Cliente,
checking_status_1
Salrio (0 <= X < 200 )
Histrico de Crdito
Salrio (0 <= X < 200 )
(Sem emprstimos tomados ou todos os checking_status_2
emprstimos pagos pontualmente)
Poupana do Cliente (< $500)
Cliente
savings_status_1
Outros Emprstimos (Nenhum)
Cliente
other_payment_plans
Finalidade (Compra de carro
Valor do Emprstimo
purpose_2
usado)
(1000<= X<4000)
Finalidade (Educao)
Cliente
purpose_7
Cliente, Emprego (Empregado
Finalidade (Cursos)
purpose_8
qualificado ou funcionrio pblico)
Histrico de Crdito (Sem
emprstimos tomados ou
Cliente
credit_history_1
todos os emprstimos pagos
pontualmente)
Histrico de Crdito
Histrico de Crdito
(Sem emprstimos tomados ou todos os
credit_history_3
emprstimos pagos pontualmente),
(Histrico de atraso no
pagamento)
Valor do Emprstimo(4000<= X<7500),
Cliente
Cliente, Finalidade (Compra de carro
Moradia (Prpria)
housing
usado)
Emprego (Empregado
Salrio (0 <= X < 200 )
job_2
qualificado ou funcionrio
pblico)
Cliente,
Durao do emprstimo (<12)
duration_1
Valor do Emprstimo (4000<= X<7500)
Valor do Emprstimo
Valor do Emprstimo (4000<= X<7500)
credit_amount_2
(1000<= X<4000)
Valor do Emprstimo
credit_amount_3
(4000<= X<7500)
Valor do Emprstimo (1000<= X<4000),
Cliente
class
Finalidade (Compra de carro usado)
Salrio (X < $0)
Label Pais
class,
checking_status_2
credit_history_1
class
class
credit_amount_2
class
class, job_2
class
credit_history_1,
credit_amount_3,
class
class, purpose_2
checking_status_2
class,
credit_amount_3
credit_amount_3
credit_amount_2,
purpose_2
86
Tabela 19 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de
cada varivel preditora isoladamente, do Classificador GBN com aprendizado de estrutura utilizando a
medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta.
Varivel Preditora (Nvel)
0.4459
0.6845
0.6375
0.5541
0.3155
0.3625
0.7884
0.7067
0.8402
0.2116
0.2933
0.1598
0.7296
0.2704
0.5588
0.4412
0.1649
0.4964
0.8719
0.8351
0.5036
0.1281
0.6846
0.7096
0.6974
0.3154
0.2904
0.3026
0.3529
0.6471
0.7313
0.2687
0.6964
0.3036
0.7005
0.2995
Moradia (Prpria)
0.7446
0.2554
0.5808
0.4192
0.7012
0.2988
0.6984
0.3016
0.8546
0.1454
0.6637
0.3363
0.7524
0.2476
0.6078
0.3922
0.6078
0.3922
0.7177
0.2823
Tabela 20 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de
cada varivel preditora isoladamente e dada a observao (ou no) de seus pais, do Classificador GBN
com aprendizado de estrutura utilizando a medida Bdeu e com seleo de variveis pelo Markov
Blanket da varivel resposta.
Varivel Preditora
(Nvel)
Pai (Nvel)
Histrico de Crdito
(Sem emprstimos tomados
Salrio (0 <= X < 200 )
ou todos os emprstimos
pagos pontualmente)
Finalidade (Compra de
Valor do Emprstimo
carro usado)
(1000<= X<4000)
Emprego
Finalidade (Cursos) (Empregado qualificado ou
funcionrio pblico)
Finalidade
Moradia (Prpria)
(Compra de carro usado)
Emprego (Empregado
Salrio (0 <= X < 200 )
qualificado ou
funcionrio pblico)
Durao do
Valor do Emprstimo
emprstimo (<12)
(4000<= X<7500)
P(Cliente=1|
P(Cliente=0|
P(Cliente=1|
P(Cliente=0|
Filho=1,Pai=1) Filho=1,Pai=1) Filho=1,Pai=0) Filho=1,Pai=0)
0.3529
0.6471
0.7313
0.2687
0.0232
0.9768
0.2666
0.7334
0.4525
0.5475
0.9591
0.0409
0.0648
0.9352
0.7302
0.2698
0.6845
0.3155
0.7067
0.2933
0.3089
0.6911
0.8653
0.1347
87
Tabela 21 - Probabilidades dos clientes proprietrios de imveis se tornarem inadimplentes (ou no),
dada observao (ou no) e seus pais, do Classificador GBN com aprendizado de estrutura
utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta.
Filho (Nvel)
Pai 1 (Nvel)
Pai 2 (Nvel)
P(Cliente=1|
P(Cliente=0|
Histrico de Crdito
Histrico de Crdito (Sem
Valor do
Filho,Pai1,Pai2) Filho,Pai1,Pai2)
(Histrico de atraso emprstimos tomados ou todos os
Emprstimo
no pagamento) emprstimos pagos pontualmente) (4000<= X<7500)
1
0
1
0.7276
0.2724
1
0
0
0.6741
0.3259
0
1
1
0.1575
0.8425
0
1
0
0.6335
0.3665
0
0
1
0.6176
0.3824
0
0
0
0.754
0.246
88
Para a comparao dos modelos, foi construda a Tabela 22, com as medidas de
avaliao dos Classificadores Naive Bayes, TAN e GBN finais e da Regresso
Logstica com seleo de variveis por Forward Stepwise, calculadas a partir das
amostras de validao obtidas por Cross-Validation com 10 parties.
Tabela 22 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB), dos clientes maus (TAM) e nmero de variveis dos modelos de classificao finais.
Modelos de
Medida
Classificao
Regresso
Logstica
Naive Bayes
TAN
Bayes
GBN
Bdeu
Modelo
TAT
TAB
TAM
KS
Gini
N de
Variveis
28
28
27
15
A Tabela 22 mostra que as taxas de acerto total (TAT) dos modelos finais
apresentaram valores prximos. Mas, analisando a taxa de acerto dos maus, o
Classificador TAN final apresentou melhor desempenho, pois sua assertividade nas
previses dos clientes maus pagadores foi mais de 3% superior s taxas observdas
nos modelos de classificao.
89
90
Por isso, o Classificador TAN foi escolhido como o melhor modelo, pois
apresentou o melhor desempenho nas previses dos clientes maus pagadores e
permitiu uma anlise dos efeitos de interao entre variveis.
assertivo.
Podendo
ser
utilizadas
como
medidas
de
desempenho
92
Para uma anlise mais detalhada das dependncias obtidas nos aprendizados de
estrutura, sugerida a aplicao de aprendizados a partir de uma estrutura
conhecida. A base de dados utilizada pode ser gerada a partir da distribuio
conjunta desta RB, podendo ser geradas amostras com diferentes nmeros de
observaes e com diferentes nmeros de variveis preditoras. Este estudo permitir
uma anlise da estabilidade dos Classificadores Bayesianos com alteraes em
parmetros amostrais.
93
94
REFERNCIAS
AGRESTI, W.J. Practical nonparametric statistics. 3a ed. New York: John Wiley and
Sons, 1999. 584p.
ANDERSON, R. The Credit Scoring Toolkit: Theory and Practice for Retail Credit
Risk Management and Decision Automation. 1a ed. New York: Oxford University
Press, 2007. 731p.
ARMINGER, G.; ENACHE, D.; BONNE, T. Analyzing Credit Risk Data: A
Comparison of Logistic Discrimination, Classification Tree Analysis, and Feedforward
Networks. Computational Statistics, v.12, n.2, p.293-310, 1997.
BAESENS, B. et al. Learning bayesian network Classifiers for Credit Scoring Using
Markov Chain Monte Carlo Search. In: Proceedings of the 16th International
Conference on Pattern Recognition (ICPR'02), v.3, p.49-52, 2002.
BAESENS, B. et al. Bayesian network classifiers for identifying the slope of the
customer lifecycle of long-life customers. European Journal of Operational Research,
v. 127, n.2, p. 508-523, 2004.
BANCO CENTRAL DO BRASIL. Relatrio de Inflao. v.9, n.3. Braslia: 2007.
Disponvel
em:
<http://www.bcb.gov.br/htms/relinf/port/2007/09/ri200709P.pdf>
Acesso em: 02/12/2007.
BANCO CENTRAL DO BRASIL. Relatrio de Inflao. v.9, n.1. Braslia: 2007.
Disponvel
em:
<http://www.bcb.gov.br/htms/relinf/port/2007/03/ri200703P.pdf>
Acesso em: 02/12/2007.
BANCO CENTRAL DO BRASIL. Resoluo 2682. Braslia: Banco Central do Brasil,1999.
95
96
97
NEAPOLITAN, R.E. Learning Bayesian Networks. New Jersey: Prentice Hall, 2004.
674 p.
PAIVA, P. Operaes de emprstimos j substituram aplicaes no mercado como
maior fonte de ganho das instituies. Estados de Minas, 19/11/2007. Disponvel
em:
<http://www.uasf.sebrae.com.br/uasfgestao/uasfnoticias/nov%202007/not3332/view >
Acesso em: 02/12/2007.
PAULA, G.A. (2004). Modelos de Regresso com Apoio Computacional. So Paulo:
Instituto de Matemtica e Estatstica Universidade So Paulo. 2004. 245p.
Disponvel em: <http://www.ime.usp.br/~giapaula/livro.pdf>. Acesso em: 01dez.2007.
PEREIRA, G. H. A. Modelos de Risco de Crdito de Clientes: Uma Aplicao a
Dados Reais. 2004. 96p. Dissertao (Mestrado) Instituto de Matemtica e
Estatstica, Universidade So Paulo, So Paulo, 2004.
POKU, K.A. Operational Risk management - Implementing a Bayesian Network for
Foreign Exchange and Money Market Settlement. 2005. 134p. Ph.D. Thesis - Faculty
of Economics and Business Administration, University of Gttingen, Alemanha, 2005.
ROSA, P. T. M. Modelos de Credit Scoring: Regresso Logstica, CHAID e REAL.
2000. 68p. Dissertao (Mestrado) Instituto de Matemtica e Estatstica,
Universidade So Paulo, So Paulo, 2000.
SAHEKI, A. H. Construo de uma Rede Bayesiana aplicada ao diagnstico de
doenas cardacas. 2005. 70p. Dissertao (Mestrado) Escola Politcnica,
Universidade So Paulo, So Paulo, 2005.
SECURATO, J. R. Crdito: Anlise e Avaliao do Risco Pessoas Fsicas e
Jurdicas. 1 ed. So Paulo: Saint Paul, 2002. 354 p.
SIQUEIRA, J. Expanso do crdito em 2007 supera estimativas do Ita. Reuters,
06/11/2007. Disponvel em:
<http://oglobo.globo.com/economia/mat/2007/11/06/327051496.asp> Acesso em:
02/12/2007.
VASCONCELLOS, M. S. Proposta de Mtodo para anlise de concesses de Crdito
a Pessoas Fsicas. 2002. 119p. Dissertao (Mestrado) - Faculdade de Economia,
Administrao e Contabilidade, Universidade de So Paulo, So Paulo, 2002.
ZHANG, N.; POOLE, D. Exploiting Causal Independence in Bayesian Network
Inference. Journal of Artificial Intelligence Research, v. 5, p. 301-328, 1996.
WEST, D. Neural Network Credit Scoring Models. Computers and Operations
Research, v. 27, n.11, pp. 1131-1152, 2000.
WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and
Techniques. 2 ed. San Francisco: Morgan Kaufmann, 2005. 525p.
98
APNDICE DE TABELAS
Tabela A. 1 - Nomes das variveis da base de dados German Credit.
Varivel
Tabela A. 2 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Histrico de Crdito, antes do agrupamento de algumas de suas categorias.
Nmero
de "bons"
Nmero
de "maus"
5
7
154
28
Total
Categoria
%maus
Risco
WOE
Relativo
25
28
169
28
1.67% 8.33%
2.33% 9.33%
51.33% 56.33%
9.33% 9.33%
0.200 -1.609
0.250 -1.386
0.911 -0.093
1.000 0.000
106
50
35.33% 16.67%
2.120
0.751
300
300
100.00% 100.00%
1.000
0.000
%bons
99
Tabela A. 3 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Bens, antes do agrupamento de algumas de suas categorias.
Nmero
Nmero
de "bons" de "maus"
Categoria
%bons
%maus
Risco
WOE
Relativo
20.00%
23.67%
34.00%
22.33%
1.683 0.521
0.930 -0.073
0.931 -0.071
0.567 -0.567
Imvel
Seguro de Vida
Carro ou outros
No possui bens
101
66
95
38
60
71
102
67
33.67%
22.00%
31.67%
12.67%
Total
300
300
100.00% 100.00%
1.000
0.000
Tabela A. 4 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Poupana do Cliente, antes do agrupamento de algumas de suas categorias.
Nmero
Nmero
de "bons" de "maus"
Categoria
%bons
%maus
Risco
Relativo
WOE
< $100
$100<= X < $500
$500<= X < $1000
>= $1000
No possui ou no conhecida
163
26
19
16
76
217
34
11
6
32
54.33%
8.67%
6.33%
5.33%
25.33%
72.33%
11.33%
3.67%
2.00%
10.67%
0.751
0.765
1.727
2.667
2.375
-0.286
-0.268
0.547
0.981
0.865
Total
300
300
100.00% 100.00%
1.000
0.000
Tabela A. 5 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Outros Emprstimos, antes do agrupamento de algumas de suas categorias.
Categoria
Nmero
de "bons"
Nmero
de "maus"
%bons
%maus
Risco
Relativo
WOE
Bancos
Lojas
Nenhum
32
9
259
57
19
224
10.67%
3.00%
86.33%
19.00%
6.33%
74.67%
0.561
0.474
1.156
-0.577
-0.747
0.145
Total
300
300
100.00%
100.00%
1.000
0.000
Tabela A. 6 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Tempo de Trabalho, antes do agrupamento de algumas de suas categorias.
Categoria
Nmero
Nmero
de "bons" de "maus"
%bons
%maus
Risco
Relativo
WOE
Desempregado
X < 1 ano
1 <= X < 4 anos
4 <= X < 7 anos
X >= 7 anos
19
48
105
46
82
23
70
104
39
64
6.33%
16.00%
35.00%
15.33%
27.33%
7.67%
23.33%
34.67%
13.00%
21.33%
0.826
0.686
1.010
1.179
1.281
-0.191
-0.377
0.010
0.165
0.248
Total
300
300
100.00%
100.00%
1.000
0.000
100
Tabela A. 7 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Moradia, antes do agrupamento de algumas de suas categorias.
Categoria
Nmero
de "bons"
Nmero
de "maus"
%bons
%maus
Risco
Relativo
WOE
Alugada
Prpria
Moradia gratuita
41
233
26
70
186
44
13.67%
77.67%
8.67%
23.33%
62.00%
14.67%
0.586
1.253
0.591
-0.535
0.225
-0.526
Total
300
300
100.00% 100.00%
1.000
0.000
Tabela A. 8 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Estado Civil e Sexo, antes do agrupamento de algumas de suas categorias.
Categoria
Risco
WOE
Relativo
Nmero
de "bons"
Nmero
de "maus"
%bons
%maus
15
20
5.00%
6.67%
0.750
-0.288
79
109
26.33%
36.33%
0.725
-0.322
179
27
146
25
59.67%
9.00%
48.67%
8.33%
1.226
1.080
0.204
0.077
Total
300
300
100.00% 100.00%
1.000
0.000
Tabela A. 9 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Emprego, antes do agrupamento de algumas de suas categorias.
Categoria
Desempregado ou empregado com baixa
qualificao ou sem trabalho formal
Empregado com baixa qualificao e com
trabalho formal
Nmero Nmero
%bons
de "bons" de "maus"
%maus
Risco
WOE
Relativo
2.67%
2.33%
1.143
0.134
73
56
24.33% 18.67%
1.304
0.265
176
186
58.67% 62.00%
0.946
43
51
14.33% 17.00%
0.843
Total
300
300
100.00% 100.00%
1.000
0.055
0.171
0.000
101
Tabela A. 10 - Risco Relativo das variveis preditoras (dummies) e de seus pais no Classificador TAN
com aprendizado de estrutura utilizando a medida Bayes e com seleo com o mtodo Wrapper com
busca por Backward Elimination.
Pais (Nvel)
Risco Relativo
Bens (Imvel)
2.654
0.516
2.641
0.307
0.751
0.361
2.030
0.355
1.560
0.292
3.492
8.434
5.961
2.013
2.923
Moradia (Prpria)
Estado Civil e Sexo
(Masculino solteiro)
3.974
Idade (X <25)
0.354
0.305
102
Tabela A. 11 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxa de acerto total (TAT), taxa de
acerto dos clientes bons (TAB), taxa de acerto dos clientes maus (TAM) e nmero de variveis dos
Classificadores GBN com aprendizado de estrutura utilizando diferentes medidas.
Medida
Modelo
Modelo Saturado
Seleo
Markov
Blanket com Filtragem
MDL
pelo Ganho de Informao
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket com Filtragem
Bayes
pelo Ganho de Informao
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket com Filtragem
AIC
pelo Ganho de Informao
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket com Filtragem
Bdeu
pelo Ganho de Informao
Seleo Markov Blanket
Seleo Markov Blanket
Entropia Seleo Markov Blanket com Filtragem
pelo Ganho de Informao
TAT
TAB
TAM
KS
Gini
N de
Variveis
48
13
16
48
21
30
48
30
37
48
17
15
48
31
103