You are on page 1of 103

CRISTIANE KARCHER

REDES BAYESIANAS APLICADAS ANLISE DO RISCO DE


CRDITO

So Paulo
2009

CRISTIANE KARCHER

REDES BAYESIANAS APLICADAS ANLISE DO RISCO DE


CRDITO

Dissertao apresentada Escola


Politcnica da Universidade de So
Paulo para obteno do ttulo de
Mestre em Engenharia

rea de Concentrao:
Engenharia Eltrica - Sistemas
Eletrnicos

Orientador: Prof. Livre-Docente


Flavio Almeida de Magalhes
Cipparrone

So Paulo
2009

Este exemplar foi revisado e alterado em relao verso original, sob


responsabilidade nica do autor e com a anuncia de seu orientador.
So Paulo, 28 de maro de 2009.

Assinatura do autor ___________________________

Assinatura do orientador _______________________

FICHA CATALOGRFICA

Karcher, Cristiane
Redes bayesianas aplicadas anlise do risco de crdito /
C. Karcher. -- ed.rev. --So Paulo, 2009.
103 p.
Dissertao (Mestrado) - Escola Politcnica da Universidade
de So Paulo. Departamento de Engenharia de Sistemas Eletrnicos.
1. Crdito 2. Estatstica para inteligncia artificial 3. Modelos
lineares generalizados 4. Inferncia estatstica I. Universidade de
So Paulo. Escola Politcnica. Departamento de Engenharia de
Sistemas Eletrnicos II. t.

DEDICATRIA

Dedico esse trabalho ao


Daniel pelo amor, compreenso e
incentivo ao longo de anos.

AGRADECIMENTOS
Ao professor Dr. Flvio Almeida de Magalhes s Cipparrone, pela orientao e
oportunidade de crescimento acadmico.

Ao professor Dr. Afonso de Campos Pinto pela orientao, apoio e incentivo


durante a preparao deste trabalho.

minha querida irm Viviane Karcher e aos amigos Paulo do Canto Hubert Jr,
Cludio de Nardi Queiroz e Pedro Savadovsky pelas contribuies a este trabalho.

empresa MAPS Solues & Servios pelo conhecimento, incentivo e


compreenso durante a preparao desse trabalho.

meus pais e minha av Esther pelo incentivo e pelas lies de vida.

EPGRAFE

Se quisermos progredir, no
devemos repetir a histria, mas
fazer uma histria nova.
(Mahatma Ghandi)

RESUMO

Modelos de Credit Scoring so utilizados para estimar a probabilidade de um


cliente proponente ao crdito se tornar inadimplente, em determinado perodo,
baseadas em suas informaes pessoais e financeiras. Neste trabalho, a tcnica
proposta em Credit Scoring Redes Bayesianas (RB) e seus resultados foram
comparados aos da Regresso Logstica. As RB avaliadas foram as Bayesian
Network Classifiers, conhecidas como Classificadores Bayesianos, com seguintes
tipos de estrutura: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General
Bayesian Network (GBN). As estruturas das RB foram obtidas por Aprendizado de
Estrutura a partir de uma base de dados real. Os desempenhos dos modelos foram
avaliados e comparados atravs das

taxas de acerto obtidas da Matriz de

Confuso, da estatstica Kolmogorov-Smirnov e coeficiente Gini. As amostras de


desenvolvimento e de validao foram obtidas por Cross-Validation com 10
parties. A anlise dos modelos ajustados mostrou que as RB e a Regresso
Logstica apresentaram desempenho similar, em relao a estatstica KolmogorovSmirnov e ao coeficiente Gini. O Classificador TAN foi escolhido como o melhor
modelo, pois apresentou o melhor desempenho nas previses dos clientes maus
pagadores e permitiu uma anlise dos efeitos de interao entre variveis.

Palavras-chave: Redes Bayesianas, Risco de Crdito, Regresso Logstica.

ABSTRACT

Credit Scoring Models are used to estimate the insolvency probability of a customer,
in a period, based on their personal and financial information. In this text, the
proposed model for Credit Scoring is Bayesian Networks (BN) and its results were
compared to Logistic Regression. The BN evaluated were the Bayesian Networks
Classifiers, with structures of type: Naive Bayes, Tree Augmented Naive Bayes (TAN)
and General Bayesian Network (GBN). The RB structures were developed using a
Structure Learning technique from a real database. The models performance were
evaluated and compared through the hit rates observed in Confusion Matrix,
Kolmogorov-Smirnov statistic and Gini coefficient. The development and validation
samples were obtained using a Cross-Validation criteria with 10-fold. The analysis
showed that the fitted BN models have the same performance as the Logistic
Regression Models, evaluating the Kolmogorov-Smirnov statistic and Gini coefficient.
The TAN Classifier was selected as the best BN model, because it performed better
in prediction of bad customers and allowed an interaction effects analysis between
variables.

Keywords: Bayesian Networks, Credit Risk, Logistic Regression.

LISTA DE ILUSTRACES
Figura 1 - Exemplo de Rede Bayesiana aplicada em diagnstico mdico. _______29
Figura 2 - Conexo Serial: X e Y esto d-separados se V recebeu uma evidncia. 31
Figura 3 - Conexo Divergente: X e Y esto d-separados se V recebeu uma
evidncia. ______________________________________________________31
Figura 4 - Conexo Convergente: X e Y esto d-separados se nem V nem seus
descendentes recebeu uma evidncia. _______________________________31
Figura 5 - Outro exemplo de Rede Bayesiana _____________________________32
Figura 6 - Estrutura do Classificador Naive Bayes com 5 atributos e uma classe __39
Figura 7 - Estrutura de um Classificador TAN com seis atributos e uma classe ___41
Figura 8 - Estrutura de um Classificador GBN com quatro atributos e uma classe _42
Figura 9 - Exemplo de curva ROC (Receiver Operating Characteristic). _________49
Figura 10 - Exemplo de clculo da estatstica Kolmogorov-Smirnov.____________50
Figura 11 Esquema das metodologias aplicadas neste trabalho. _____________52
Figura 12 - Estrutura da Rede Bayesiana do Classificador Naive Bayes com seleo
de variveis pelo mtodo Wrapper com busca Backward Elimination. _______74
Figura 13 - Estrutura da RB do Classificador TAN com aprendizado de estrutura
utilizando a medida Bayes e seleo de variveis pelo mtodo Wrapper com
busca por Backward Elimination. ____________________________________78
Figura 14 - Estrutura da RB do Classificador GBN com aprendizado de estrutura
utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da
varivel resposta. ________________________________________________85

LISTA DE TABELAS
Tabela 1 - Probabilidades Condicionais de "Doena" dado "Sintomas" e distribuio
de "Idade". _____________________________________________________30
Tabela 2 Matriz de confuso de um modelo de Credit Scoring. ______________47
Tabela 3 - Valores crticos da estatstica Kolmogorov-Smirnov aplicada em modelos
de Credit Scoring.________________________________________________51
Tabela 4 - Variveis da base de dados German Credit.______________________54
Tabela 5 - Exemplo de categorizao de uma varivel preditora. ______________56
Tabela 6 - Categorizao das variveis originalmente contnuas da base de dados
German Credit e clculo do Risco Relativo e Weights of Evidence (WOE) de
cada categoria.__________________________________________________58
Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente
categricas da base de dados German Credit, aps o agrupamento de alguns de
seus nveis. ____________________________________________________59
Tabela 8 - Estatstica KS, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB), dos clientes maus (TAM) e nmero de variveis dos modelos de
Regresso Logstica ajustados. _____________________________________67
Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica
Final, juntamente as medidas descritivas: Risco Relativo, Nmero de Clientes
bons (#Bons) e maus (#Maus), Total de clientes (Total) por categoria,
Percentual de clientes da categoria em relao ao total de clientes (%Total) e
Percentual de Maus por categoria (dummy) (Bad Rate). __________________69
Tabela 10 - Variveis preditoras ordenadas pela sua contribuio individual para o
ganho de informao em relao varivel resposta (Cliente bom ou mau
pagador). ______________________________________________________72
Tabela 11 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total
(TAT), dos clientes bons (TAB) e dos clientes maus (TAM) e nmero de
variveis dos Classificadores Naive Bayes ajustados utilizando Cross-Validation.
______________________________________________________________73
Tabela 12 - Probabilidades dos clientes se tornarem bons e maus pagadores,
dado a observao dos nveis das variveis preditoras, sem que haja alterao
nas categorias das demais variveis, do Classificador Naive Bayes final._____75
Tabela 13 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total
(TAT), dos clientes bons (TAB) e dos clientes maus (TAM) e nmero de
variveis dos Classificadores TAN com aprendizado de estrutura utilizando
diferentes medidas. ______________________________________________77
Tabela 14 - Variveis preditoras e respectivos pais do Classificador TAN final. ___78
Tabela 15 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a
observao de cada varivel preditora isoladamente, no Classificador TAN com
aprendizado utilizando a medida Bayes e com seleo com o mtodo Wrapper
com busca por Backward Elimination. ________________________________80

Tabela 16 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a


observao de cada varivel preditora isoladamente, no Classificador TAN
Classificador TAN com aprendizado utilizando a medida Bayes e com seleo
com o mtodo Wrapper com busca por Backward Elimination. _____________81
Tabela 17 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total
(TAT), dos clientes bons (TAB), dos clientes maus (TAM) e nmero de
variveis dos Classificadores GBN com aprendizado de estrutura utilizando
diferentes medidas. ______________________________________________84
Tabela 18 - Variveis preditoras (dummies) e respectivos pais do Classificador GBN
com aprendizado de estrutura utilizando a medida BDeu e com seleo de
variveis pelo Markov Blanket da varivel resposta. _____________________86
Tabela 19 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a
observao de cada varivel preditora isoladamente, do Classificador GBN com
aprendizado de estrutura utilizando a medida BDeu e com seleo de variveis
pelo Markov Blanket da varivel resposta. _____________________________87
Tabela 20 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a
observao de cada varivel preditora isoladamente e dada a observao (ou
no) de seus pais, do Classificador GBN com aprendizado de estrutura utilizando
a medida Bdeu e com seleo de variveis pelo Markov Blanket da varivel
resposta._______________________________________________________87
Tabela 21 - Probabilidades dos clientes proprietrios de imveis se tornarem
inadimplentes (ou no), dada observao (ou no) e seus pais, do
Classificador GBN com aprendizado de estrutura utilizando a medida BDeu e
com seleo de variveis pelo Markov Blanket da varivel resposta. ________88
Tabela 22 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total
(TAT), dos clientes bons (TAB), dos clientes maus (TAM) e nmero de
variveis dos modelos de classificao finais. __________________________89

LISTA DE ABREVIATURAS E SIGLAS


AIC
BAYES
GBN
KS
MDL
RB

Medida Akaikes Information Criterion


Medida Bayesian Dirichlet
Classificador Bayesiano General Bayesian Network
Estatstica Kolmogorov-Smirnov
Medida Minimal Description Length
Rede(s) Bayesiana(s)

ROC

Receiver Operating Characteristic

TAN

Classificador Bayesiano Tree Augmented Naive Bayes

12

SUMRIO
1. INTRODUO ___________________________________________________ 14
2. REVISO BIBLIOGRFICA_________________________________________ 19
2.1 Modelos de Credit Scoring_______________________________________ 19
2.2 Redes Bayesianas e Classificadores Bayesianos _____________________ 22
2.3 Redes Bayesianas aplicadas anlise do Risco de Crdito _____________ 25
3. FUNDAMENTAO TERICA ______________________________________ 27
3.1 Redes Bayesianas_____________________________________________
3.1.1 Inferncia em Redes Bayesianas _______________________________
3.1.2 Aprendizado em Redes Bayesianas _____________________________
3.2 Classificao Bayesiana ________________________________________
3.2.1 Classificador Naive Bayes _____________________________________
3.2.2 Classificador Tree Augmented Naive Bayes (TAN)__________________
3.2.3 Classificador General Bayesian Network (GBN) ____________________
3.3 Regresso Logstica ___________________________________________
3.4 Medidas de Avaliao dos Modelos de Classificao __________________
3.4.1 Matriz de Confuso __________________________________________
3.4.2 Coeficiente Gini _____________________________________________
3.4.3 Estatstica Kolmogorov-Smirnov ________________________________

27
32
34
39
39
41
42
43
46
47
48
49

4. METODOLOGIA _________________________________________________ 52
4.1
4.2
4.3
4.4
4.5

Base de Dados _______________________________________________


Categorizao das Variveis _____________________________________
Seleo das Variveis __________________________________________
Amostra de Desenvolvimento e Validao __________________________
Softwares Utilizados ___________________________________________

53
55
61
64
65

5. RESULTADOS___________________________________________________ 66
5.1 Regresso Logstica ___________________________________________
5.2 Classificadores Bayesianos ______________________________________
5.2.1 Classificador Naive Bayes _____________________________________
5.2.2 Classificador TAN ___________________________________________
5.2.3 Classificador GBN ___________________________________________
5.3 Comparao dos Modelos de Classificao _________________________

67
71
73
76
83
89

6. CONCLUSES E TRABALHOS FUTUROS ____________________________ 91


REFERNCIAS ____________________________________________________ 95
APNDICE DE TABELAS ____________________________________________ 99

13

1. INTRODUO

Neste trabalho proposta a aplicao de Redes Bayesianas (RB) na construo


de modelos de Credit Scoring e suas aplicaes sero comparadas com a
Regresso Logstica, que a tcnica mais aplicada atualmente em Credit Scoring
(ROSA, 2000). As RB avaliadas sero as Bayesian Network Classifiers (FRIEDMAN
et al., 1997), chamadas de Classificadores Bayesianos, que so RB aplicadas em
problemas de classificao de dados.

Os modelos de Credit Scoring so utilizados para estimar a probabilidade de um


cliente proponente ao crdito se tornar inadimplente, em determinado perodo, dadas
suas informaes pessoais e financeiras que possam influenciar na capacidade do
cliente em pagar a dvida. Esta probabilidade estimada, chamada de score com
valores entre 0 e 100, uma estimativa do risco de inadimplncia de um cliente em
determinado perodo.

No processo de concesso de crdito, quando um novo cliente solicita um crdito,


o mesmo fornece suas informaes cadastrais e financeiras que, juntamente s
variveis da operao, so utilizadas para lhe gerar um score de 0 a 100 pontos.
Este score poder, ento, ser utilizado na deciso de conceder ou no o crdito ao
cliente, a partir de um ponto de corte, acima do qual o pedido do cliente ser aceito.
O ponto de corte definido a partir da anlise dos erros de rejeitar um cliente bom
pagador e de aceitar um cliente mau pagador, em determinado perodo (erros do
tipo I e II, respectivamente), e tambm a partir da anlise da rentabilidade esperada
do cliente. Atualmente so utilizadas entre trs e cinco faixas de score para a
classificao dos clientes (entre trs e cinco), principalmente em funo do requerimento
imposto pela Resoluo 2682 (BANCO CENTRAL, 1999), exigindo que os clientes
tenham uma classificao de crdito com diferentes nveis de proviso.

Os modelos de Credit Scoring so utilizados no incio do relacionamento com o


cliente, perodo em que a Instituio mensura previamente o risco do proponente e
atribui a ele ou no linhas diferenciadas em funo do seu perfil. Os modelos de
Credit Scoring comearam a ser utilizados principalmente no segmento varejista do
14

crdito ao consumidor, que tem como caractersticas o grande volume de transaes,


o baixo valor unitrio por transao, spread de taxa de juros elevado e a necessidade
de velocidade na deciso (LOURENO, 2005).

Atualmente os Credit Scoring so considerados ferramentas importantes para


pr-qualificar os tomadores de crdito e auxiliar os gestores a tomar decises de
risco mais adequadas ao negcio. O uso destes modelos permite que a deciso
sobre a concesso ou no do crdito seja tomada de forma objetiva, padronizada e
imparcial, o que no garantido na anlise julgamental. Isto possibilita que o cliente
seja tratado de forma personalizada, independente do canal de atendimento.

Existem dois tipos de modelos de mensurao utilizados para estimar a


probabilidade de um cliente se tornar inadimplente, so eles (SECURATO, 2002):

Credit Scoring obtido a partir das informaes cadastrais fornecidas pelos


clientes tais como: tipo de residncia, nvel de renda, idade, ocupao, grau de
instruo, relacionamento com instituies financeiras, consultas aos bureaus1 de
crdito.
Behavioural Scoring um sistema de pontuao com base em anlise
comportamental e utiliza as informaes que a empresa j possui sobre o cliente na
renovao, manuteno ou concesso de uma nova linha de crdito. Pode incluir
informaes relacionadas aos hbitos de consumo, de pagamento, comprometimento
de renda etc.
Neste trabalho sero empregados somente os modelos de Credit Scoring
mencionados anteriormente. Nos modelos de Credit Scoring as variveis preditoras
so as informaes pessoais e financeiras fornecidas pelos clientes na proposta de
crdito e a varivel resposta a classificao do cliente de acordo com seu risco de
inadimplncia (cliente bom pagador ou mau pagador). No decorrer do texto, a
varivel resposta tambm pode ser chamada de classe e as variveis preditoras ou
explicativas tambm podem ser chamadas de atributos.

15

Na Estatstica e a Inteligncia Artificial existem diversas tcnicas utilizadas em


Credit Scoring tais como: rvores de Classificao, Redes Neurais, Anlise do
Discriminante Linear, Regresso Logstica. No entanto, o uso das Redes Neurais
ainda restrito, apesar de ser uma ferramenta poderosa de reconhecimento de
padres, devido a sua natureza de caixa preta, pois no se conhece as relaes de
dependncia entre as variveis do modelo e nem a contribuio de cada varivel.

RB so propostas para modelos de Credit Scoring, pois se tratam de modelos


probabilsticos nos quais so conhecidas as relaes entre as variveis do domnio,
ao contrrio de Redes Neurais. As RB utilizadas em problemas de classificao de
dados so chamadas de Classificadores Bayesianos e tm como objetivo prever a
classe de objetos que no foram classificados como, por exemplo, classificar um
novo cliente como bom ou mau pagador, de acordo com a observao de suas
variveis preditoras.
A implantao do Plano Real e o fim do perodo inflacionrio contriburam para o
reaquecimento da economia e o crescimento da demanda por crdito no Brasil. Nos
ltimos anos, as operaes de crdito do sistema financeiro apresentaram
crescimento expressivo observado pelo aumento da relao do volume total dos
emprstimos privados e o Produto Interno Bruto (PIB), que passou de 26,2% em
dezembro de 2003 para 33,7% em novembro de 2006 e para 34,6% em fevereiro de
2007 (BANCO CENTRAL, 2007). Para 2008, a Febraban (Federao Brasileira dos
Bancos) espera que a proporo chegue a 38% (MARCHESINI, 2007).

No Brasil, a concesso de crdito uma atividade financeira que vem crescendo


nos ltimos anos no Brasil. Os fatores favorveis para o aumento das concesses
so: condio de mercado, maior demanda, crescimento da economia, crescimento
de renda e nvel menor de inadimplncia (SIQUEIRA, 2007). Atualmente, o crdito j
corresponde metade do lucro dos bancos, sendo superiores aos ganhos com ttulos
do governo e tarifas (PAIVA, 2007).

A avaliao do risco de crdito tem sido bastante debatida em 2007 e 2008


devido crise financeira mundial, iniciada em maro de 2007 nos Estados Unidos
1

Bureaus de crdito so informaes de mercado a respeito do risco de crdito de um cliente.

16

com a crise no crdito imobilirio para o segmento de clientes subprime (de segunda
linha). O segmento de crdito subprime o dos clientes com renda muito baixa, por
vezes com histrico de inadimplncia e com dificuldade de comprovar renda. Como
os emprstimos a clientes subprime tm uma qualidade mais baixa, por terem maior
risco de no serem pagos, eles oferecem uma taxa de retorno mais alta, a fim de
compensar esse risco assumido pelos credores.

Em busca de rendimentos maiores, gestores de fundos e bancos compravam


esses ttulos subprime das instituies que fizeram o primeiro emprstimo, o que
permitia que uma nova quantia em dinheiro fosse emprestada, antes mesmo de o
primeiro emprstimo ser pago. Tambm interessado em lucrar, um segundo gestor
tambm poderia comprar o ttulo adquirido pelo primeiro, e assim por diante, gerando
uma cadeia de venda de ttulos. Porm, se a ponta (o tomador) no consegue pagar
sua dvida inicial, ele d incio a um ciclo de no-recebimento por parte dos
compradores dos ttulos. O resultado: todo o mercado passa a ter medo de
emprestar e comprar os subprime, o que termina por gerar uma crise de liquidez
(retrao de crdito). Nesta crise financeira mundial, o medo que com menos
crdito disponvel, caia o consumo e diminua o crescimento das economias (FOLHA
ON LINE, 2007).

Um dos primeiros reflexos da crise subprime foi, em setembro de 2007, quando


trs fundos do banco francs BNP Paribas tiveram suas negociaes suspensas por
no ser possvel avali-los com preciso, devido aos problemas no mercado
subprime americano. Depois desta medida, o mercado imobilirio passou a reagir em
pnico e algumas das principais empresas de financiamento imobilirio passaram a
sofrer os efeitos da retrao. A American Home Mortgage (AHM), uma das 10
maiores empresas do setor de crdito imobilirio e hipotecas dos EUA, pediu
concordata. Entre as vtimas mais recentes da crise, esto as duas maiores
empresas hipotecrias americanas, a Fannie Mae e a Freddie Mac, que possuem
quase a metade dos US$ 12 trilhes em emprstimos para a habitao nos EUA e,
em setembro de 2008, tiveram uma ajuda de at US$ 200 bilhes. Menos sorte teve
o banco Lehman Brothers, que no teve ajuda do governo dos EUA, como a que foi
destinada s duas hipotecrias, e pediu concordata. Como medida emergencial para
evitar uma desacelerao ainda maior da economia, j que 70% do PIB americano
17

movido pelo consumo, o presidente americano George W. Bush sancionou em


fevereiro de 2008 um pacote de estmulo que incluiu o envio de cheques de
restituio de impostos a milhes de norte-americanos. Em setembro de 2008, com o
agravamento o governo dos EUA lanou um pacote no valor de 600 bilhes de
dlares de estmulo economia e diversos pases da Europa adotaram medidas
similares para tentar salvar seus sistemas financeiros (FOLHA ON LINE, 2008).

Estes fatos observados na economia mundial alertam para a necessidade de uma


gesto eficiente e responsvel do risco de crdito pelas Instituies que concedem
crdito. Para isso, as Instituies adotam processos de concesso de crdito
baseados em modelos estatsticos para mensurao e gesto do risco de
inadimplncia de suas carteiras de crdito.

A deciso sobre a concesso ou no de um produto de crdito a um cliente


fundamental para o resultado financeiro da Instituio, j que o lucro dos credores
est diretamente associado proporo de clientes aprovados e ao percentual de
clientes que pagam as dvidas contradas. Atualmente, na crise financeira mundial,
podem-se observar os reflexos de uma gesto do risco de crdito com altos nveis de
inadimplncia assumidos por diversas Instituies Financeiras ao redor do mundo.

Este trabalho organizado em seis captulos: Introduo, Reviso Bibliogrfica,


Fundamentao Terica, Metodologia, Resultados e Concluso. No segundo captulo
h uma reviso bibliogrfica de modelos de Credit Scoring, RB e Classificadores
Bayesianos, alm de serem descritos artigos de aplicaes de RB aplicadas na
anlise do Risco de Crdito. No terceiro captulo ser apresentada a fundamentao
terica de RB, Classificadores Bayesianos, Regresso Logstica Mltipla e Medidas
de Avaliao dos Modelos de Classificao. A Metodologia empregada ser descrita
no quarto captulo e est divida em: amostra German Credit, categorizao das
variveis

preditoras,

seleo

de

variveis,

construo

das

amostras

de

desenvolvimento e de validao e softwares utilizados. No quinto captulo sero


apresentados e comparados os resultados das aplicaes dos Classificadores
Bayesianos e da Regresso Logstica em modelos de Credit Scoring. Finalmente, no
sexto captulo h a concluso deste estudo e sero propostos trabalhos futuros.

18

2. REVISO BIBLIOGRFICA
Neste captulo sero descritos alguns estudos sobre aplicaes de modelos de
Credit Scoring. Posteriormente, apresentaremos alguns estudos tericos e de
aplicaes de RB em problemas de classificao de dados, que a tcnica proposta
para modelos de Credit Scoring.

2.1 Modelos de Credit Scoring

Os modelos de Credit Scoring so utilizados para estimar a probabilidade de um


cliente proponente ao crdito se tornar inadimplente, em determinado perodo, dadas
suas informaes pessoais e financeiras que possam influenciar na capacidade do
cliente em pagar a dvida. Esta probabilidade atribuda a cada novo cliente
chamada de score, assumindo valores entre 0 e 100, e considerada uma estimativa
do risco de inadimplncia do cliente, em determinado perodo. Assim, o score do
cliente pode ser utilizado na deciso de conceder ou no o crdito, a partir de um
ponto de corte acima do qual o pedido do cliente ser aceito.

Com isso, do ponto de vista de modelagem estatstica, o problema de concesso


de crdito por uma Instituio a um cliente um problema prtico de classificao.
Inmeras tcnicas j foram aplicadas em Credit Scoring tais como: Regresso
Linear, Anlise Discriminante, Regresso Logstica, Redes Neurais, Algoritmos
Genticos, rvores de Deciso. Na literatura cientfica tambm existem diversos
estudos comparativos das aplicaes de diferentes tcnicas e alguns sero descritos
a seguir.

A Anlise Discriminante Linear foi um dos primeiros modelos de Credit Scoring.


Eisenbeis (1978) discute diversos problemas em aplicar Anlise Discriminante Linear
em Credit Scoring. Eisenbeis (1978) discutiu que um ponto desfavorvel ao uso
destes modelos est no fato das matrizes de varincias e covarincia das classes
bom e mau provavelmente no serem iguais. Alm isso, outro ponto desfavorvel
19

o fato das variveis explicativas no apresentarem normalidade multivariada, por


serem predominantemente categricas.

A Regresso Linear Mltipla outra tcnica utilizada na formulao de modelos


de Credit Scoring com resposta do tipo binria (bom ou mau). Hand (2001)
discutiu que em dados de Credit Scoring estes modelos apresentam problemas de
heterocedasticidade. Mas, a principal limitao apontada foi a de que os valores
estimados para a varivel de resposta no pertencem ao intervalo [0,1], podendo
assumir valores negativos e at mesmo maiores que um, o que no uma resposta
esperada.

Rosa (2000) apresentou a uma aplicao de Regresso Logstica no problema de


concesso de crdito em um produto de financiamento de veculos, comparada com
aplicaes de modelos baseados em rvores de deciso. Em seu trabalho, Rosa
(2000) concluiu que as ferramentas baseadas em rvore de deciso classificaram os
clientes de forma um pouco mais precisa, em relao s taxas de acerto nas
previses dos clientes bons e maus pagadores. No entanto, a Regresso
Logstica, que apresentou bons resultados tambm, possui a vantagem de ser um
modelo de fcil compreenso e interpretao dos parmetros. A Regresso Logstica
tambm tem a vantagem de produzir como resultado uma probabilidade, o que
permite a ordenao dos clientes quanto ao risco de inadimplncia.

Arminger, Enache e Bonne (1997) comparam aplicaes de Regresso Logstica,


rvore de Classificao e um tipo de Rede Neural chamada Feedforward Network.
Atravs da avaliao da proporo de classificaes corretas, o estudo concluiu que
o modelo de Regresso Logstica apresentou desempenho melhor do que os
modelos de rvore de Classificao e de Redes Neurais, sendo que os dois ltimos
modelos apresentaram resultados equivalentes. Os autores tambm propem um
procedimento combinado dos trs modelos utilizando seus valores previstos e
observados. Este procedimento apresentou resultados superiores aos obtidos nos
modelos de rvore de Classificao e de Redes Neurais, porm inferiores ao modelo
de Regresso Logstica.

20

West (2000) fez um estudo comparativo da aplicao em Credit Scoring de


diversos tipos de Redes Neurais e diversas tcnicas como: Regresso Logstica,
Anlise Discriminante Linear e rvores de Deciso. O estudo sugeriu que os modelos
de Redes Neurais apresentaram acurcia maior se comparados aos demais modelos
aplicados, mas necessitam de um conhecimento maior para a construo da
topologia e para realizar o treinamento da rede. O estudo tambm sugeriu que a
Regresso Logstica uma boa alternativa aos modelos de Redes Neurais. West
(2000) tambm mostra que os modelos de Regresso Logstica apresentaram
acurcia maior do que os modelos de Anlise Discriminante Linear nos dados
analisados e nesta base de dados os modelos de rvore de Deciso no apresentou
resultados satisfatrios.

Modelos de Credit Scoring, quando so aplicados em bases de dados diferentes,


podem apresentar resultados distintos devido s caractersticas da base de dados
empregada, tais como: a representatividade da amostra em relao populao
alvo, o nmero de observaes disponvel, alm de poderem apresentar
caractersticas particulares populao alvo. Por isso, recomendvel que os
modelos sejam comparados em uma mesma base de dados. No entanto, se os
modelos so aplicados em bases de dados diferentes possvel que alguns de seus
resultados sejam distintos, como observado nos modelos de rvores de Deciso e de
Redes Neurais em West (2000), Arminger, Enache e Bonne (1997) e Rosa (2000).

Hand e Henley (1997) elucidaram diversos cuidados para a aplicao de modelos


de Credit Scoring. Um problema de grande relevncia em Credit Scoring, apontado
no estudo, o do vis na amostra utilizada na construo dos modelos. Este
problema ocorre, pois somente as propostas de crdito que foram aceitas so
utilizadas nos modelos de Credit Scoring, o que torna a amostra de treinamento
viesada porque esta no contm toda a populao de clientes.

Os mtodos que procuram corrigir este vis amostral so conhecidos como


Inferncia dos Rejeitados e consistem em inferir qual seria o comportamento dos
indivduos rejeitados caso eles tivessem sido aprovados. Hand e Henley (1997)
tambm discutiram que a mudana na populao alvo dos modelos degrada o seu

21

desempenho e ocorre devido a presses econmicas e mudanas no ambiente


competitivo. Por isso, periodicamente novos modelos devem ser construdos.

Rosa (2000) e Hand e Henley (1997) tambm descreveram os cuidados na


definio da varivel resposta em modelos de Credit Scoring. A definio de um
cliente bom ou mau ou indeterminado depende da Instituio considerar este
cliente lucrativo ou no. Por exemplo, um cliente considerado bom se no
apresentou atraso em seus pagamentos e com isso ele pode trazer lucro ao credor.
Um cliente considerado mau se apresentou, por exemplo, atraso de mais do que
trs meses e com isso ele no lucrativo ao credor. Por fim, um cliente
indeterminado se puder ou no ser lucrativo ao credor. Apesar de um cliente poder
ser classificado em trs classes (bom, mau ou indeterminado), nos modelos de
Credit Scoring so utilizadas somente as classes bom e mau da varivel resposta,
ou seja, varivel resposta binria.

2.2 Redes Bayesianas e Classificadores Bayesianos

Redes Bayesianas (RB) so grafos acclicos e direcionados que permitem a


representao da distribuio de probabilidades conjunta de um conjunto de
variveis aleatrias. Cada vrtice do grafo representa uma varivel aleatria e as
arestas representam as dependncias diretas entre variveis. Uma RB possui a
seguinte premissa de independncia condicional: cada varivel independente das
variveis que no so suas descendentes no grafo, dada a observao de seus pais.

Em RB, estas premissas de independncia so exploradas para reduzir o nmero


de parmetros necessrios para caracterizar uma distribuio de probabilidades, e
para calcular de forma eficiente as probabilidades a posteriori dadas evidncias. Os
parmetros de uma RB so armazenados em tabelas de probabilidades condicionais
de cada varivel dado seus pais. A distribuio conjunta da RB determinada
unicamente pelas distribuies condicionais de cada varivel da RB dado seus pais,
pela Regra da Cadeia, que definida posteriormente na Seo 3.1.

22

A estrutura de uma RB, ou topologia do grafo, pode ser definida manualmente


com os relacionamentos entre variveis sendo definidos por especialistas ou pode
ser aprendida a partir de bases de dados utilizando algoritmos de aprendizado de
estrutura. Os parmetros de uma RB podem ser obtidos a partir do conhecimento de
probabilidades por especialistas, do aprendizado a partir de bases de dados ou pela
combinao de ambas as abordagens (NEAPOLITAN, 2004).

O aprendizado em RB tambm tem sido bastante estudado por diversos autores


como Neapolitan (2004), Buntine (1996) e Heckerman (1995).

RB aplicadas em problemas de classificao de dados so chamadas de


Classificadores Bayesianos. Estes modelos tm como objetivo descrever e distinguir
classes e tambm prever a classe de objetos que no foram classificados.

Neste trabalho sero descritos os seguintes Classificadores Bayesianos: Naive


Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN).

Os Classificadores Bayesianos mais simples so conhecidos como Naive Bayes


(FRIEDMAN; GEIGER; GOLDSZMIDT, 1997) e possuem a hiptese que todos os
atributos so independentes dado classe. Friedman e Goldszmidt (1996)
compararam a aplicao do Classificador Naive Bayes com o Classificador GBN (RB
Irrestritas), com aprendizado de estrutura utilizando a medida MDL, descrito Seo
3.1.2. O estudo concluiu que os Classificadores GBN apresentaram desempenho
significativamente superior ao Classificador Naive Bayes, mas apresentaram
desempenho pobre em bases de dados com mais de 15 atributos. Este fraco
desempenho observado nos Classificadores GBN com mais do que 15 atributos
deve-se ao grande nmero de parmetros destes Classificadores. Esta baixa
assertividade e baixo poder discriminante observados em alguns aprendizados dos
Classificadores GBN podem ocorrer devido ao grande nmero de dependncias
avaliadas em conjuntos de dados com mais do que 15 atributos.

Os

Classificadores

Naive

Bayes,

na

presena

de

variveis

altamente

correlacionadas (redundantes), podem ampliar desnecessariamente o peso da


evidncia destes atributos sobre a classe, o que pode prejudicar a assertividade das
23

classificaes. Com isso, Langley e Sage (1994) mostraram que a seleo de


variveis preditoras (atributos) atravs dos mtodos forward e backward melhorou a
acurcia do Classificador Naive Bayes em muitos casos.

Friedman, Geiger e Goldszmidt (1997), propuseram o Classificador Tree


Augmented Naive Bayes (TAN) como uma extenso ao Classificador Naive Bayes,
permitindo a anlise de interaes entre variveis preditoras desde que a estrutura
representada por estas variveis seja a estrutura de uma rvore. Portanto, o
Classificador TAN proposto encontra a relao entre atributos restrita ao espao de
estruturas do tipo rvores e esta busca pode ser feita em tempo polinomial (CHOW;
LIU, 1968).

Um problema que pode ocorrer nas aplicaes dos Classificadores bayesianos,


principalmente nos Classificadores BAN e GBN, o overfitting (superajuste)
(FRIEDMAN; GEIGER; GOLDSZMIDT, 1997) (CHENG; GREINER, 1999, 2001). Este
problema decorrente do grande nmero de parmetros que a rede bayesiana
construda pode apresentar e pode degradar o desempenho do Classificador. Para o
problema de overfitting.

Friedman et al (1997) propuseram o uso da medida MDL no aprendizado de


estrutura do Classificador Bayesiano GBN, pois a medida MDL capaz de regular a
complexidade da rede bayesiana pela penalizao daquelas que contenham muitos
parmetros, o que pode ajudar a evitar o problema de overfitting.

Para contornar o problema de overfitting, Cheng e Greiner (2001) propuseram


que no Classificador GBN fossem selecionadas as variveis preditoras do Markov
Blanket da varivel resposta (classe). A escolha do subconjunto de variveis do
Markov Blanket da varivel resposta, para compor o Classificador GBN, um
procedimento natural de seleo de atributos, pois as variveis do Markov Blanket da
classe protegem a varivel resposta da influncia de qualquer outra varivel de fora
do seu Markov Blanket.
A construo de Classificadores a partir de bases de dados de instncias
(observaes) pr-classificadas um problema muito estudado na rea Aprendizado

24

de Mquina (Machine Learning) (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997), que


a rea que combina Estatstica com Inteligncia Artificial (WITTEN; FRANK, 2005).

RB tm apresentado inmeras aplicaes acadmicas e na indstria. Na rea


financeira, Poku (2005) e Guidici (2004) constroem modelos causais utilizando RB
para a mensurao e gesto de Riscos Operacionais Financeiros. Poku (2005)
construiu modelos de RB combinando o conhecimento de especialistas com as
informaes de sries histricas de perdas operacionais. Para aes de Marketing,
Baesens et al. (2004) utilizaram RB para classificar clientes quanto ao seu potencial
de gasto e oferece a eles novos produtos ou vantagens. Especificamente neste
estudo, foram utilizados Classificadores bayesianos, RB aplicadas em problemas de
classificao, para prever o aumento ou diminuio do gasto futuro de um cliente
baseado nas em suas informaes iniciais de compras. As aplicaes de RB na
anlise de Risco de Crdito so descritas na Seo 2.3, a seguir.

2.3 Redes Bayesianas aplicadas anlise do Risco de Crdito

Sero descritos, a seguir, dois estudos de aplicaes dos Classificadores


bayesianos em modelos de Credit Scoring, o de Baesens et al. (2002) e o de Chang
et al. (2000). Algumas das metodologias de construo dos Classificadores
bayesianos empregadas neste trabalho se basearam nas metodologias empregadas
nestes dois artigos. As metodologias comuns e as contribuies do presente estudo,
em relao aos artigos de Baesens

et al. (2002) e Chang et al. (2000), sero

descritas a seguir, aps uma breve introduo a estes artigos.

O artigo de Baesens et al. (2002) descreveu a aplicao dos Classificadores


bayesianos Naive Bayes, TAN e GBN em modelos de Credit Scoring. O aprendizado
de estrutura empregado na construo dos Classificadores GBN utilizou a simulao
Markov Chain Monte Carlo (MCMC) e a seleo de variveis destes Classificadores
foi feita utilizando o Markov Blanket da varivel resposta (Cliente bom ou mau). As
principais concluses do estudo foram que os Classificadores GBN apresentaram um

25

bom desempenho em Credit Scoring e que a seleo de variveis pelo Markov


Blanket da varivel resposta resultou em modelos mais parcimoniosos e poderosos.

Chang et.al. (2000) descreveram a teoria de construo de escores a partir de


Classificadores Bayesianos. No artigo, foi construda uma RB aplicando aprendizado
de estrutura com busca da estrutura pela adio e remoo de arestas at que no
haja melhoria na razo de verossimilhanas (log-likelihood ratio). As variveis
preditoras originais (todas categricas) foram convertidas em variveis dummy
(variveis binrias) e foram selecionadas pelo Markov Blanket da varivel resposta.
Alm disso, foram obtidos os cliques da varivel resposta, que so subconjuntos de
variveis condicionalmente independentes, dada a observao da varivel resposta
dentro do seu Markov Blanket e, que formaram subconjuntos de variveis
interpretveis para o processo de concesso de crdito. Alm disso, as RB aplicadas
tambm foram comparadas ao modelo de Regresso Logstica Mltipla com seleo
de variveis por Forward Stepwise.

As metodologias em comum entre este trabalho e os trabalhos de Baesens et al.


(2002) e Chang et al. (2000) so: construo das amostras de desenvolvimento e de
validao por Cross-Validation com 10 parties (10-fold), seleo de variveis nos
Classificadores GBN pelo Markov Blanket da varivel resposta, converso das
variveis categricas originais em dummies (variveis binrias) e comparao do
desempenho dos Classificadores Bayesianos com o da Regresso Logstica.

A contribuio deste estudo est na aplicao mais abrangente dos


Classificadores Bayesianos, incluindo a aplicao de aprendizados de estrutura com
diferentes medidas de avaliao da estrutura, tais como: AIC, MDL, Bayes, Bdeu e
Entropia. Alm disso, tambm sero avaliados procedimentos de seleo de
variveis baseados na filtragem pelo ganho de informao e pelo mtodo Wrapper.
Adicionalmente, tambm ser abordada a categorizao de variveis contnuas e
agrupamento de nveis das variveis categricas com muitos nveis, baseada na
anlise bivariada do risco relativo e da medida WOE (Weights of Evidence).

26

3. FUNDAMENTAO TERICA

Neste captulo so descritos os principais conceitos da teoria de Redes


Bayesianas (RB) e uma introduo Inferncia e ao Aprendizado em RB. O
conhecimento do ferramental terico de RB importante para o entendimento dos
Classificadores Bayesianos, que na mais so do que RB aplicadas em problemas de
classificao de dados. Os Classificadores Bayesianos empregados sero: Naive
Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN),
descritos na Seo 3.2. Na Seo 3.3 ser apresentada parte da teoria de
Regresso Logstica Mltipla, que a tcnica comparada aos Classificadores
Bayesianos nas aplicaes em Credit Scoring. Por fim, na Seo 3.4, sero
apresentadas as medidas utilizadas para avaliar e comparar os modelos de
classificao, que so: as taxas de acerto obtidas da Matriz de Confuso, estatstica
Kolmogorov-Smirnov (KS) e coeficiente Gini.

3.1 Redes Bayesianas

Por definio, uma Rede Bayesiana (RB) composta dos seguintes elementos
(JENSEN, 2001):

i.

Um conjunto de variveis e um conjunto de arestas direcionadas entre as


variveis.

ii.

Cada varivel tem estados finitos e mutuamente exclusivos.

iii.

As variveis e as arestas direcionadas representam um grafo acclico


direcionado.

iv.

Cada varivel A, com pais B1 , B2 ,..., Bn , possui uma tabela de probabilidades


condicionais, P( A B1 , B2 ,..., B) , associada.

Em outras palavras, RB so grafos acclicos e direcionados que permitem a


representao da distribuio conjunta de probabilidades de um conjunto de
27

variveis aleatrias. Cada vrtice do grafo representa uma varivel aleatria e as


arestas representam dependncias entre variveis. Em uma RB, se h uma aresta
direcionada entre os ns A e B, ento dizemos que A pai de B e B filho de A.
Neste trabalho sero tratadas somente as RB com variveis discretas, mas a teoria a
respeito do tratamento de variveis contnuas em RB pode ser encontrada em
Neapolitan (2004).

RB com variveis discretas satisfazem a condio de Markov (NEAPOLITAN,


2004), que dada por: cada varivel da RB condicionalmente independente do
conjunto de todos os seus no-descendentes dado o conjunto de todos os seus pais.
Em uma RB, a distribuio conjunta de probabilidades de um conjunto de variveis
discretas {X 1 , X 2 ,..., X n } dada pela Regra da Cadeia,

P( X 1 , X 2 ,..., X n ) = P( X i Pai )
n

(1)

i =1

Os parmetros de uma RB so definidos como,

i = P ( X i Pa i )

i = 1,..., n

(2)

em que, i uma tabela de probabilidades condicionais de X i dado seus pais Pai.


Com isso, o conjunto de parmetros de uma RB dado por s = {1 , 2 ,..., n } e
so todas as tabelas de probabilidades condicionais da RB com variveis discretas

{X 1 , X 2 ,..., X n } .
Um importante aspecto de uma RB a sua estrutura (topologia do grafo), que
permite a representao de complexas relaes entre variveis de forma grfica e
intuitiva. A estrutura grfica de uma RB facilita o entendimento das relaes entre
variveis do seu domnio, alm de permitir o uso combinado de informaes obtidas
do conhecimento de especialistas com dados histricos para obter a distribuio
conjunta de probabilidades da rede.

A estrutura de uma RB pode ser determinada manualmente, com apoio de


especialistas, ou pode ser aprendida a partir de bases de dados utilizando algoritmos
28

de aprendizado de estrutura. Os parmetros de uma RB podem ser obtidos atravs


da elucidao2 de probabilidades por especialistas, atravs do aprendizado a partir
de bases de dados ou atravs da combinao de ambas as abordagens.

Na Figura 1 h um exemplo de RB, que utiliza variveis discretas, aplicada no


diagnstico de doenas. As variveis desta RB so {Idade (I), Profisso (P), Clima
(C), Doena (D), Sintomas (S)}.

Figura 1 - Exemplo de Rede Bayesiana aplicada em diagnstico mdico.

Na RB da Figura 1, o n Sintomas tem o n Doena como pai e trs ancestrais


Idade, Profisso e Clima. Atravs das premissas de independncia condicional,
podemos dizer que Sintomas dependente de Idade, Profisso e Clima
indiretamente atravs de sua influncia sobre Doena. Tomando o n Clima, que
no possui pai, ento podemos dizer que Clima independente de Profisso e
Idade. Aplicando a Regra da Cadeia, equao (1), a distribuio conjunta de
probabilidades desta RB dada por,

P(Idade, Profisso, Clima, Doena, Sintomas) = P(Idade).P(Profisso).P(Clima).


P(Doena | Idade, Profisso, Clima).P(Sintomas | Doena)

(3)

Utilizando somente as letras iniciais de cada varivel a equao (3) pode ser
reescrita como,
P(I,P,C,D,S) = P(I) . P(P) . P(C) . P(D |I,P,C) . P(S |D)

(4)

Pela Regra da Cadeia, as tabelas de probabilidades condicionais de cada varivel


da RB precisam ser especificadas para que se obtenha a distribuio de

Elucidao o procedimento de obteno de distribuies a partir do conhecimento de


especialistas.
29

probabilidades conjunta da RB. Com isso, na RB da Figura 1, necessrio


especificar

as

tabelas

P(Idade),

P(Profisso),

P(Clima),

P(Doena|Idade,Profisso,Clima) e P(Sintomas|Doena) para determinarmos a


distribuio conjunta de probabilidade P(Idade, Profisso, Clima, Doena, Sintomas).

Na Tabela 1, temos as tabelas P(Idade) e P(Sintomas|Doena). As probabilidades


apresentadas nestas tabelas tambm podem ser chamadas de parmetros, como
definimos previamente em (1). Note que a varivel Idade, que uma varivel
contnua, foi discretizada (ou categorizada) para criar uma varivel discreta binria.

Tabela 1 - Probabilidades Condicionais de "Doena" dado "Sintomas" e distribuio de "Idade".


Idade < 45
Idade 45
Sintomas
Dor de Estmago
Dor no Peito
Nenhuma

0.46
0.54

Doena
lcera no Estmago
Infarto
0.8
0.05
0.15
0.90
0.05
0.05

Nenhuma
0.05
0.10
0.85

Se no exemplo da Tabela 1, se no fossem utilizadas as suposies de RB e a


Regra da Cadeia, ao invs de 5 tabelas seria necessrio definir uma grande tabela
de probabilidades para obtermos a distribuio conjunta das 5 variveis. Com isso, a
RB fornece uma maneira de simplificar a representao de uma distribuio conjunta
de probabilidades.

RB tambm podem ser utilizadas para calcular novas probabilidades (a posteriori)


a partir de informaes (evidncias) sobre uma ou mais variveis da rede. Em uma
RB, um subconjunto de variveis E com valores conhecidos, E=e, em uma dada
situao, conhecido como conjunto de evidncia, ou simplesmente evidncia, por
exemplo, E={X2=x2,X6=x6}. Tambm podemos dizer que uma varivel est
instanciada (evidncia forte) se conhecemos o estado desta varivel.

Um conceito importante em RB o de d-separao. Segundo Jensen (2001),


dizemos que dois vrtices distintos X e Y esto d-separados em uma RB se, para

30

todos os caminhos entre X e Y existe um vrtice intermedirio V (distinto de X e Y) tal


que a conexo entre X e Y atravs de V:

serial ou divergente e V recebeu uma evidncia ou;


convergente e nem V nem algum de seus descendentes receberam
uma evidncia.

Figura 2 - Conexo Serial: X e Y esto d-separados se V recebeu uma evidncia.

Figura 3 - Conexo Divergente: X e Y esto d-separados se V recebeu uma evidncia.

Figura 4 - Conexo Convergente: X e Y esto d-separados se nem V nem seus descendentes


recebeu uma evidncia.

Em RB se dois vrtices quaisquer esto d-separados ento eles so


condicionalmente independentes. Atravs do conceito de d-separao possvel
identificar a condio de independncia condicional entre variveis em uma RB.

Outro conceito importante em RB o de Markov Blanket. O Markov Blanket de


uma varivel X o conjunto das variveis que so pais de X, filhos de X e as
variveis que compartilham um filho com X (JENSEN, 2002). Com isso, se todas as
variveis do Markov Blanket de X possuem evidncias, ento X est d-separado de
todas as outras variveis da RB e, conseqentemente, X condicionalmente
independente de todas as outras variveis da rede, dado seu Markov Blanket. No
exemplo da Figura 5, o Markov Blanket de I {C, E, K, L, H}.

31

Em uma RB, qualquer varivel influenciada diretamente somente pelas


variveis que compe o seu Markov Blanket. Com isso, o conceito de Markov Blanket
pode ser utilizado para seleo de variveis em RB, como descreveremos na Seo
3.2.4.

Figura 5 - Outro exemplo de Rede Bayesiana

3.1.1 Inferncia em Redes Bayesianas


A Inferncia em RB o processo de atualizao das probabilidades a posteriori
de variveis dado uma evidncia fornecida. Em RB, a evidncia pode ser definida
para qualquer subconjunto de ns e a probabilidade a posteriori pode ser calculada
para qualquer outro subconjunto de ns.

Como uma RB contm a distribuio de probabilidade conjunta de todas as


variveis do seu domnio, ento possvel obter a distribuio de probabilidades de
qualquer varivel do seu domnio a partir da Regra da Probabilidade Total (Apndice
A). No exemplo de RB da Figura 1, a distribuio da varivel Doena (D), pela
Regra da Probabilidade Total, dada (inferida) por,

P( D = d ) = P( I = i, P = p, C = c, D = d , S = s)
i

d (5)

32

Pela Regra da Cadeia, a equao (5) pode ser escrita como,


P ( D = d ) = P ( I = i).P ( P = p ) P (C = c ).P ( D = d I = i, P = p, C = c ) P ( S = s D = d ) d (6)
i

em que, i, p, c, d e s representam, respectivamente, cada estado das variveis


Idade, Profisso, Clima, Doena, Sintoma.

Segundo Zhang e Poole (1996), Inferncia em uma RB se refere ao processo de


clculo da probabilidade a posteriori P( X Y = Yo ) de um conjunto de variveis X
depois de obter algumas observaes (evidncia) Y=Y0. Aqui Y uma lista de
variveis observadas e Y0 a lista de valores observados. Pelo Teorema de Bayes,

P( X Y = Yo ) dada por,

P ( X Y = Yo ) =

P ( X , Y = Yo )
P (Y = Yo )

(7)

Com isso, P( X Y = Yo ) obtida a partir da distribuio marginal P ( X , Y ) , que por


sua vez calculada a partir da distribuio conjunta P( X 1 , X 2 ,..., X n ) pela soma de
probabilidades de todas as variveis fora do domnio de X Y uma por uma. No
entanto, isso no vivel, pois esta soma fora do domnio de X Y requer um
nmero exponencial de adies (ZHANG; POOLE, 1996).

Para exemplificar o procedimento de Inferncia utilizaremos o exemplo de RB da


Figura 1. Dada uma evidncia E=e={Idade=<45; Sintoma=Dor de estmago},
queremos obter distribuio a posteriori da varivel Doena (D) que ,
P ( D = d ' E = e) =

P ( D = d ' , E = e) P ( D = d ' , I =' < 45' , S =' Dor de estmago' )


=
P ( E = e)
P ( I =' < 45' , S =' Dor de estmago' )

d ' (8)

que igual a,

P( I =' < 45' , P = p, C = c, D = d ' , S =' Dor de estmago' )


P ( D = d ' E = e) =

P( I =' < 45' , P = p, C = c, D = d , S =' Dor de estmago' )


p

d ' (9)

Aplicando a Regra da Cadeia o numerador da equao (9) pode ser escrito


como,

P( I =' < 45' ).P( P = p) P(C = c).P( D = d ' I =' < 45' , P = p, C = c) P(S =' Dor de estmago' D = d ' )
p

(10)

33

O denominador da equao (9) pode ser escrito como,

P( I =' < 45' ).P ( P = p) P(C = c).P ( D = d I =' < 45' , P = p, C = c) P( S =' Dor de estmago' D = d ) (11)

em que p, c, d representam, respectivamente, cada estado das variveis Idade,


Profisso, Clima e Doena.

Para diminuir o tempo necessrio para o clculo das probabilidades a posteriori,


diversos algoritmos de Inferncia tm sido propostos. Existem dois tipos de
algoritmos de Inferncia em RB: os exatos e aproximados. Entre os algoritmos
exatos destaca-se o algoritmo Junction Tree proposto por Jensen (1991), que
baseado em Teoria dos Grafos. Os algoritmos de Inferncia exatos podem no ser
eficientes em redes com um grande nmero de ns e arestas, pois o problema de
Inferncia NP-hard (ZHANG; POOLE, 1996). Para estes casos, podem ser
utilizados algoritmos aproximados, baseados em simulao estocstica, tais como:
Forward Sampling, Likelihood Weighting, Gibbs Sampling, Metropolis-Hasting
(NEAPOLITAN, 2004).

Apesar da complexidade inerente do procedimento de Inferncia, sistemas que


possuem RB como base de conhecimento tm se mostrado muito eficientes e tm
sido muito difundidos ganhando importncia inclusive em reas comerciais. Os
sistemas Hugin, Netica e JavaBayes so exemplos destes sistemas.

3.1.2 Aprendizado em Redes Bayesianas


A estrutura e os parmetros de uma RB podem ser obtidos de duas maneiras: a
partir de informaes de especialistas ou aprendizado a partir de uma base de
dados. Tambm possvel a combinao das duas alternativas para o aprendizado
de parmetros. A utilizao de informaes de especialistas pode ser muito
trabalhosa, principalmente para determinar os parmetros, pois necessrio obter
um grande nmero de probabilidades. O aprendizado a partir de uma base de dados
requer, alm da base de dados em si, um algoritmo de aprendizado de parmetros e
de estrutura.

34

Dado uma base de dados de treinamento D com observaes independentes de


um conjunto de variveis discretas X e alguma informao a priori (obtida a partir de
informaes de especialistas), o problema de aprendizado em RB consiste em
encontrar a estrutura Sh e parmetros S que melhor expliquem os dados contidos
em D.

Existe uma variedade de ferramentas de aprendizado em RB, para estruturas


conhecidas e desconhecidas, para bases de dados completas e incompletas. O caso
em que a estrutura da RB conhecida o mais simples, pois necessrio aprender
somente as tabelas de probabilidade condicionais (parmetros) da RB. O caso em
que a estrutura da RB desconhecida mais complexo, pois necessrio aprender
a estrutura e posteriormente as tabelas de probabilidade condicionais da RB.
Conhecida a estrutura Sh de uma RB com parmetros independentes
s = {1 , 2 ,...., n } , em que i so as tabelas de probabilidades P ( X i Pa i , i , S h ) e,
dado uma base de dados completa D de exemplos independentes de um conjunto de
variveis discretas {X 1 , X 2 ,..., X n } , o problema de aprendizado de parmetros se
resume a calcular a distribuio a posteriori P( S D, S h ) que dada por,
n

P ( S D, S ) = P ( i D, S h )
h

(12)

i =1

A obteno dos parmetros a partir de bases de dados pode ser feita atravs da
simples contagem de freqncias (NEAPOLITAN, 2004) ou a partir da abordagem
combinada de dados observados em D com alguma informao a priori de
especialistas. Esta abordagem combinada baseada em distribuies de Dirichlet
(NEAPOLITAN, 2004). Alm disso, se os dados observados em D estiverem
incompletos,

so

utilizados

algoritmos

EM

(Expectation

Maximization)

(HECKERMAN, 1995).

Para o problema de aprendizado de estrutura, consideraremos um conjunto finito


S de possveis estruturas de uma RB. Cada estrutura S h S pode representar a
distribuio conjunta de probabilidades do conjunto de variveis discretas
X = {X 1 , X 2 ,..., X n } . Dada uma base de dados completa D, a tarefa do aprendizado
35

de estrutura est em obter a distribuio a posteriori P( S h D) , que pelo teorema de


Bayes dada por,

P ( S D) =
h

P( S h ) P( D S h )
P( D)

(13)

A distribuio P( S h ) chamada a priori de cada possvel estrutura S h , P ( D S h )


chamada verossimilhana marginal e P ( D) uma constante de normalizao.

Para o aprendizado de estrutura em RB sero apresentadas duas abordagens. A


primeira abordagem prope algoritmos de aprendizado de estrutura chamados CIbased (Conditional Independence-based) e se baseia na anlise de dependncia
entre os ns. Nestes algoritmos as relaes de dependncia entre variveis so
avaliadas atravs de testes de independncia condicional, como qui-quadrado ou
informao mtua, e so criadas arestas para as dependncias mais relevantes
indicadas por estes testes. Estes algoritmos utilizam o conceito de d-separao, ou
seja, no conceito de que a estrutura de uma RB armazena todas as relaes de
independncia condicional entre ns (CHENG; GREINER, 1999, 2001).

Os testes realizados nos algoritmos CI-based consistem em avaliar quais dois ns


xi e xj so condicionalmente independentes, dado um conjunto de ns c. Isso feito,
por exemplo, avaliando se a informao mtua condicional dos ns menor do que
um valor e. A informao mtua condicional calculada por (MADDEN, 2003),

I ( xi , x j c) =

P( X i , X j C )

P
(
X
,
X
,
C
)
ln

i
j

P
(
X
C
)
P
(
X
C
)
X i , X j ,C
i
j

(14)

A segunda abordagem prope algoritmos de aprendizado de estrutura, chamados


Score-based, que consistem em introduzir uma medida (score), para avaliar o quanto
cada possvel estrutura Sh explica dos dados D, e um mtodo de busca de uma
estrutura, entre as possveis Sh, com o mais alto valor para esta medida
(HECKERMAN, 1995).

36

As medidas utilizadas para avaliar o quanto cada possvel estrutura Sh explica


dos dados de D descritas pela literatura so: Entropia, AIC, MDL (FRIEDMAN;
GEIGER; GOLDSZMIDT, 1997), Bayes e BDeu (HECKERMAN, 1995).
Seja Sh uma possvel estrutura de uma Rede Bayesiana. Dada uma base de
dados de treinamento D, definiremos Nijk como o nmero de observaes em D tal
que Xi=k e Pai =j com i=1,..., n; j=1,...,qi e k=1,..., ri, e N o nmero total de
observaes. O valor qi definido como o nmero de pais de Xi e ri definido como o
nmero de estados da varivel Xi. As medidas utilizadas nos algoritmos Score-based,
que chamaremos de Score(Sh,D), so definidas como,

Entropia:
ScoreEntropia (S ,D) =
h

qi

ri

N
i =1 j =1 k =1

ijk

N ijk
. ln
N
ij

(15)

Akaikes Information Criterion (AIC):


n qi ri
N ijk
h

S
N

ln
ScoreAIC (S ,D) =

ijk

N
i =1 j =1 k =1
ij

h
h
ScoreAIC (Sh,D) = S + ScoreEntropia S , D

(16)

Minimal Description Length (MDL):


ri
n qi
N ijk
1 h

ScoreMDL(S ,D)= S ln N N ijk ln

2
i =1 j =1 k =1
N ij

ScoreMDL(Sh,D)=

1 h
S ln N + ScoreEntropia S h , D
2

(17)

em que, S h o nmero de parmetros da estrutura Sh.

Bayesian Dirichlet, que ser chamado Bayes:

ScoreBayes (Sh,D) = P S , D
h

)
37

Pelo Teorema de Bayes,


ScoreBayes (Sh,D) = P ( S ) P ( D S , )
h

Heckerman (1995) calcula P ( D S h , ) utilizando distribuies de Dirichlet e obtm


o seguinte resultado,
ScoreBayes (S ,D) = P ( S )
h

qi

i =1

j =1

(N 'ij )

(N '

ij

+ N ij

ri

)
k =1

(N 'ijk + N ijk )
(N 'ijk )

(18)

em que, (.) a funo gamma e N ' ijk so parmetros da distribuio Dirichlet


ri

que satisfazem N 'ij = N 'ijk .


k =1

Os valores de N ' ijk so obtidos a partir dos parmetros da RB determinados com


auxlio de especialistas. O valor N ' ijk = 1 indica que no h informao de
especialistas (no informativo). P( S h ) a distribuio a priori dada a estrutura Sh e
tambm obtida com apoio de especialistas ou pode ter distribuio uniforme caso
no haja informaes de especialistas.

Bayesian Dirichlet Equivalent, que ser chamado BDeu:


descreve a medida

Heckerman (1995)

ScoreBDeu(Sh,D) como a aplicao de N 'i jk = 1 /(ri .qi ) em

ScoreBayes(Sh,D), dado pela equao (18). Sendo que, a expresso N 'i jk = 1 /(ri .qi )
resulta em N 'i j = 1 / qi .

O problema de otimizao para busca de uma estrutura Sh que produza um alto


valor para uma medida NP-hard (CHICKERING; GEIGER; HECKERMAN, 1994) e
o nmero de possveis estruturas de uma RB cresce exponencialmente com o
nmero de variveis.

Ambas as abordagens de aprendizado de estrutura tm suas vantagens e


desvantagens, geralmente os algoritmos de busca apresentam resultados mais
rpidos, mas o mtodo de busca pode no encontrar a melhor soluo.

38

3.2 Classificao Bayesiana

Redes Bayesianas (RB) podem ser utilizadas em problemas de classificao de


uma maneira clara e direta e as RB utilizadas em problemas de classificao de
dados

so

chamadas

de

Classificadores

Bayesianos.

Nos

Classificadores

bayesianos com variveis discretas { A1, A2 ,..., An , C} , uma delas, C, a varivel


classe (varivel resposta) e as demais, { A1, A2 ,..., An } , so os atributos (variveis
preditoras). Neste trabalho sero descritos os seguintes Classificadores bayesianos:
Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network
(GBN).

3.2.1 Classificador Naive Bayes


Os Classificadores bayesianos mais simples conhecidos so os chamados Naive
Bayes. Os Classificadores Naive Bayes partem da hiptese que todos os atributos
so independentes, dado a varivel classe, e sua representao grfica dada na
Figura 6.

Figura 6 - Estrutura do Classificador Naive Bayes com 5 atributos e uma classe

Sob a hiptese de independncia condicional entre atributos dada a classe,


aplicando a Regra da Cadeia obtida a distribuio conjunta de probabilidades do
Classificador Naive Bayes dada por,
n

P ( A1 ,...., An , C ) = P (C ). P ( Ai C )

(19)

i =1

39

Em um Classificador bayesiano, com atributos discretos e classe C, assumindo


valores {0,1}, a probabilidade de classificarmos um novo caso, { A1 = a1 ,..., An = a n } ,
em C=1 ,

P (C = 1 | A1 = a1 ,..., An = an ) =

P (C = 1).P( A1 = a1 ,..., An = an | C = 1)
P( A1 = a1 ,..., An = an )

(20)

E a probabilidade de classificarmos um novo caso em C=0 ,

P (C = 0 | A1 = a1 ,..., An = an ) =

P (C = 0).P( A1 = a1 ,..., An = an | C = 0)
P( A1 = a1 ,..., An = an )

(21)

Com isso, uma nova observao (caso), { A1 = a1 ,... An = an } , classificada na


classe C=1 segundo o seguinte critrio:

P (C = 1 | A1 = a1 ,..., An = an )
1
P (C = 0 | A1 = a1 ,..., An = an )

(22)

O critrio descrito em (22) que pode ser escrito como,

P (C = 1) P ( A1 = a1 ,..., An = an | C = 1)
.
1
P (C = 0) P ( A1 = a1 ,..., An = an | C = 0)
No

caso

do

Classificador

bayesiano

Naive

Bayes,

(23)

um

novo

caso

{ A1 = a1 ,... An = an } classificado em C=1 segundo o seguinte critrio:

P (C = 1) n P ( Ai = ai | C = 1)
.
1
P (C = 0) i =1 P ( Ai = ai | C = 0)

(24)

O Classificador Naive Bayes conhecido por sua simplicidade e eficincia, pois


apresentam estrutura fixa e parmetros ajustveis. Embora sua suposio de
independncia seja problemtica, pois esta hiptese raramente se verifica no mundo
real, os Classificadores Naive Bayes tm apresentado um bom desempenho em um
grande nmero de aplicaes, especialmente naquelas em que as variveis
preditoras no so fortemente correlacionadas (CHENG; GREINER, 2001).

40

3.2.2 Classificador Tree Augmented Naive Bayes (TAN)


O Classificador bayesiano TAN uma extenso do Naive Bayes, pois permite o
relaxamento da hiptese de independncia condicional entre atributos dado a classe.

O Classificador TAN foi proposto por Friedman e Goldszmidt (1997) e possibilita


representar dependncias entre pares de atributos. No Classificador TAN a
dependncia entre atributos deve ser representada pela estrutura de uma rvore, ou
seja, cada atributo deve ter no mximo um pai, fora a classe. Como pode ser
observado na Figura 7.

Figura 7 - Estrutura de um Classificador TAN com seis atributos e uma classe

O Classificador TAN utiliza a propriedade de que a busca da melhor estrutura,


restrita ao espao de estruturas do tipo rvore, feita em tempo polinomial (CHOW.
LIU, 1968). Nesta busca uma vez que cada atributo pode ter no mximo um "pai",
necessrio encontrar atributo com maior dependncia condicional dado classe.

Como muitas relaes de dependncia entre as variveis no podem ser


representadas nem mesmo por estruturas tipo TAN, necessria a construo de
modelos mais complexos que permitam que cada n da rede (exceto a classe) tenha
um nmero arbitrrio de pais.

41

3.2.3 Classificador General Bayesian Network (GBN)


Um Classificador bayesiano GBN uma RB Irrestrita utilizada em problemas de
classificao. diferente dos Classificadores bayesianos Naive Bayes, TAN e BAN,
que tratam a varivel classe como um n especial pai de todos os atributos, o
Classificador GBN trata o n classe como um n que no necessariamente pai de
todos os atributos. A Figura 8 mostra um exemplo de Classificador GBN.

Figura 8 - Estrutura de um Classificador GBN com quatro atributos e uma classe

A construo dos os Classificadores GBN pode ser feita utilizando o aprendizado


de estrutura descritos na Seo 3.1.2.

Um problema que pode ocorrer em aplicaes dos Classificadores GBN o


overfitting (superajuste). Overfitting um fenmeno que ocorre quando um modelo se
ajusta demais aos dados de treinamento e no pode ser generalizado para a
populao inteira. Normalmente, um modelo com problema de overfitting no
apresenta um bom desempenho fora dos dados de treinamento.

O estudo de Cheng e Greiner (2001) indica que o problema de overfitting no


Classificador GBN decorrente do grande nmero de parmetros que a RB
construda pode apresentar e pode degradar o desempenho do Classificador. Para
contornar esse problema, o estudo sugere a seleo das variveis do Markov Blanket
da classe para compor o Classificador GBN.

Em uma RB, qualquer varivel influenciada somente pelas variveis que


compe o seu Markov Blanket. Com isso, nos Classificadores GBN, o subconjunto de
atributos contidos no Markov Blanket da varivel classe um procedimento natural
de seleo de variveis.
42

Os estudos de Baesens et al. (2002) (2004) concluem, atravs de aplicaes


prticas, que o uso do conceito de Markov Blanket para seleo de variveis no
Classificador GBN resulta em modelos parcimoniosos e poderosos.

Para o problema de overfitting, Friedman, Geiger e Goldszmidt (1997) propem o


uso da medida MDL no aprendizado de estrutura do Classificador GBN, pois a
medida MDL capaz de regular a complexidade da RB pela penalizao daquelas
que contenham muitos parmetros, o que ajuda a evitar o problema de overfitting.

3.3 Regresso Logstica

A anlise de Regresso Logstica Mltipla (HOSMER; LEMESHOW, 1989) para


uma resposta binria a tcnica mais utilizada no desenvolvimento de modelos de
Credit Scoring (ROSA, 2000).

A Regresso Logstica mltipla pode ser escrita como um caso particular dos
Modelos Lineares Generalizados (MCCULLAGH; NELDER, 1989) (PAULA, 2004),
com funo de ligao logito e varivel resposta Yi com distribuio Bernoulli com
probabilidade de sucesso (mdia) i .
Seja Yi {0,1} a varivel resposta para o cliente i (0 = o i-simo cliente mau
pagador, 1= o i-simo cliente bom pagador), o modelo de Regresso Logstica
pode ser escrito como,


ln i
1 i

exp(xiT )
= o + 1 xi1 + .... + p xip = xiT ou i =
1 + exp(xiT )

(25)

em que, i a probabilidade do cliente i ser bom pagador, xi = (1, xi1 ,..., xip ) T o
vetor de variveis preditoras do cliente i e = ( 0 , 1 ,..., p ) T o vetor dos parmetros
(coeficientes) do modelo.

43

Como a varivel resposta Yi tem distribuio Bernoulli com probabilidade de


sucesso i , ento:

E (Yi = 1 | x1 ,...., x p ) = P (Yi = 1 | x1 ,...., x p ) = i , que a probabilidade de


que o cliente seja bom pagador dado as variveis preditoras.

E (Yi = 0 | x1 ,...., x p ) = P (Yi = 0 | x1 ,...., x p ) = 1 i , que a probabilidade de que


o cliente seja mau pagador dado as variveis preditoras.

A distribuio varivel resposta Yi para cada observao da amostra de clientes


dada por,

P (Yi = y i ) = i

yi

(1 i )1 y

para i=1,...,n

(26)

O mtodo da Mxima Verossimilhana ser utilizado para estimar os parmetros

0 , 1 ,..., p do modelo de Regresso Logstica mltipla. Para isso, inicialmente


escreveremos a funo de Verossimilhana (BOLFARINE; SANDOVAL, 2001) da
varivel resposta Yi em todas as observaes da amostra y=(y1,y2,...,yn) sob o
modelo de Regresso Logstica como,
n

i =1

i =1

L( y1 , y 2 ,..., y n , ) = P (Yi = y i ) = i i (1 i )
y

1 yi

(27)

Por convenincia de clculos, trabalharemos com a log-verossimilhana que


dada por,


n
n
ln (L( y1 , y 2 ,..., y n , ) ) = ln P (Yi = y i ) = y i . ln i
i =1
i =1
1 i

n
+ ln (1 i ) (28)
i =1

Da expresso do modelo de Regresso Logstica dada pela equao (25), temos

que 1 i = 1 + exp(xiT )

e ln( i /(1 i )) = xiT . Ento, a log-verossimilhana pode

ser reescrita como,


n

ln (L ( y1 , y 2 ,..., y n , ) ) = y i x ln 1 + exp xiT


i =1

T
i

i =1

))

(29)

44

As estimativas de Mxima Verossimilhana, , so os valores de

que

maximizam a log-verossimilhana, dada pela equao (29), e so obtidos atravs de


mtodos numricos. O mtodo numrico mais utilizado o de Mnimos Quadrados
Reponderados (PAULA, 2004).
Seja a estimativa dos parmetros do modelo de Regresso Logstica mltipla,
obtida utilizando mtodos numricos. Se suposies do modelo so corretas, ento
podemos mostrar que assintoticamente,

()

E =

() (

Var = X T V 1 X

(30)

em que, V = diag{ 1 (1 1 ), 2 (1 2 ),...., n (1 n )} 3 e X = ( x1 , x2 ,...., xn )T .

Os testes de significncia para cada parmetro do modelo sero feitos e suas


hipteses so:
H0: j = 0
H1: j 0

j=1,2,...,p

O teste de Wald (MONTGOMERY; PECK; VINING, 2001) pode ser utilizado para
avaliar a significncia de cada parmetro e sua estatstica dada por,

Zo =

j
se( j )

(31)

em que, se( j ) o erro padro de j , dado por se( j ) = Var ( j ) / n .

Sob a hiptese nula, H0, a estatstica do teste de Wald, Z0, tem distribuio
Normal com = 0 e = 1 (normal padro).

O uso de Regresso Logstica tem se consagrado em modelos de Credit Scoring


devido a algumas vantagens oferecidas pela tcnica (ROSA, 2000):

a mais utilizada entre os profissionais da rea (culturalmente difundida);

diag{a,b,c} uma matriz diagonal com elementos a, b e c.


45

No apresenta problemas srios de suposies, como, por exemplo, a


Anlise Discriminante Linear, na qual se pressupe uma distribuio
Normal Multivariada para as variveis preditoras;

Facilidade computacional, uma vez que os pacotes estatsticos mais


utilizados pelas instituies permitem o seu uso;

uma ferramenta poderosa para discriminao e aplicvel aos dados de


risco de crdito.

Vasconcellos (2002) tambm aponta que a Regresso Logstica uma tcnica


vantajosa devido velocidade no processo de classificao (quanto tempo o cliente
que pede um emprstimo precisa esperar para ter uma resposta afirmativa ou
negativa sobre a concesso) e devido facilidade de revisar o modelo
periodicamente.

3.4 Medidas de Avaliao dos Modelos de Classificao

Os modelos de Credit Scoring tm como principal objetivo discriminar os clientes


que se tornaro inadimplentes com o tempo dos que se mantero bons pagadores.
Existem diversas medidas utilizadas para mensurar e comparar os desempenhos de
modelos de classificao na realizao deste propsito. Na Seo 3.4 sero
apresentadas duas medidas de avaliao do poder discriminante dos modelos: a
estatstica Kolmogorov-Smirnov e o coeficiente Gini (ANDERSON, 2007). Alm disso,
tambm sero apresentadas outras trs taxas de acerto, baseadas da Matriz de
Confuso, utilizadas para avaliar a acurcia das previses dos modelos de
classificao: taxas de acerto totais (TAT), taxas de acerto nas previses dos clientes
bons (TAB) e dos clientes maus (TAM) pagadores (ROSA, 2000). Os melhores
modelos de classificao sero os com maior poder discriminante e com maiores
taxas de acerto nas previses dos clientes bons e, principalmente, dos clientes
maus pagadores.

46

3.4.1 Matriz de Confuso

A Matriz de Confuso de um modelo de Credit Scoring uma maneira fcil de


observar se o modelo est prevendo adequadamente os bons e maus clientes.
Para a sua construo deve-se atribuir a cada indivduo i da amostra e validao um
score si . A varivel score a probabilidade prevista do cliente se no se tornar
inadimplente, dada a observao das variveis preditoras do modelo, e assume
valores entre 0 e 100. Se si > Pc , ento o cliente classificado como bom pagador
e, caso contrrio, o cliente classificado como mau pagador. O ponto de corte
utilizado, Pc , foi de 50. A matriz de confuso (Tabela 2), apresenta as freqncias do
cruzamento entre classificaes observadas e previstas por um modelo, dado um
determinado ponto de corte (ANDERSON, 2007).
Tabela 2 Matriz de confuso de um modelo de Credit Scoring.
Observado

Previsto
Mau
Bom

Total

Mau

n00

n01

n0.

Bom
Total

n10
n.0

n11
n.1

n1.
n..

em que,
noo: Nmero de clientes maus corretamente classificados como maus;
no1: Nmero de clientes maus incorretamente classificados como bons;
n1o: Nmero de clientes bons corretamente classificados como maus;
n11: Nmero de clientes bons incorretamente classificados como bons;
e, n.0 = n00+n10 ; n.1 = n01+n11 ; n0. = n00+n01 ; n1. = n10+n11 ; n..=n00+n01+n10+n11
Com isso, os modelos de classificao sero avaliados e comparados a partir das
trs taxas de acerto definidas por,

Taxa de acerto total: TAT = (n00 + n11) / n..

(32)

Taxa de acerto dos maus: TAM = (n00) / n0.

(33)

Taxa de acerto dos bons: TAB = (n11) / n1.

(34)

47

A taxa de acerto dos bons (TAB) tambm pode ser chamada de sensibilidade
ou true positive rate, e a taxa de acerto dos maus (TAB) tambm pode ser chamada
de especificidade ou false positive rate. Outras medidas de avaliao de modelos de
classificao binria so os erros tipo I e do tipo II, definidos como (ANDERSON,
2007)
Erro tipo I = (n10) / n1.

(35)

Erro tipo II = (n01) / n0.

(36)

Uma desvantagem do uso das taxas de acerto obtidas da matriz de confuso


para avaliar a assertividade das previses dos modelos que estas medidas
dependem do ponto de corte escolhido.

3.4.2 Coeficiente Gini


Coeficiente Gini duas vezes a rea entre a curva ROC (Receiver Operating
Characteristic) e a diagonal da curva (ANDERSON, 2007). O coeficiente Gini
utilizado para avaliar se o score previsto discrimina bem os clientes bons e maus
pagadores.

A curva ROC obtida do grfico da sensibilidade versus a especificidade das


previses de um modelo de classificao binria (com varivel resposta com 2
nveis), com o ponto de corte Pc variando. Quanto maior a sensibilidade e a
especificidade melhor o modelo. No entanto, ambas as medidas dependem de Pc , e
quanto Pc cresce, a sensibilidade diminui e a especificidade aumenta. Com isso,
para a construo da curva ROC, obtm-se as matrizes de confuso para diferentes
pontos de corte ( Pc ) e delas calcula-se a sensibilidade e especificidade. A Figura 9
mostra um exemplo de construo da curva ROC.

O coeficiente Gini calculado utilizando a seguinte expresso:


n

Coeficiente Gini = 1 ( FM ( si ) FM ( si 1 ) ) ( FB ( si ) FB ( si 1 ) )

(37)

i =1

48

em que, FB ( si ) a distribuio acumulada dos clientes bons na faixa de score i,

FM (s ) a distribuio acumulada do scores dos clientes maus na faixa de escore i


e n o nmero de faixas de score (ser aplicado n=1000).

Figura 9 - Exemplo de curva ROC (Receiver Operating Characteristic).

O valor do coeficiente Gini representa o poder de discriminao dos clientes


bons e maus por um modelo de classificao binria em todos os intervalos de
valores do escore.

3.4.3 Estatstica Kolmogorov-Smirnov


A estatstica de Kolmogorov-Smirnov (KS) descrita pela teoria estatstica noparamtrica e utilizada para testar se as distribuies de dois grupos so iguais
(CONOVER, 1999).

Em modelos de Credit Scoring, a estatstica KS mede a capacidade da varivel


escore de distinguir bons e maus clientes, lembrando que a varivel escore o
valor da probabilidade prevista do cliente se tornar inadimplente, dada a observao
das variveis preditoras, e assume valores entre 0 e 100.

Para a avaliao da performance de modelos de Credit Scoring, a estatstica KS


definida como a mxima diferena entre as distribuies acumuladas dos escores
dos bons e maus pagadores (ANDERSON, 2007) e definida como,

49

KS = max FM ( s ) FB ( s )
s

(38)

em que, FB (s ) a distribuio acumulada do escores entre os clientes bons e

FM (s ) a distribuio acumulada do escores entre os clientes maus.

A hiptese da estatstica KS supe que um modelo de classificao com bom


desempenho atribui aos clientes bons pagadores escores altos e a clientes maus
pagadores escores baixos. Logo, a distribuio dos escores dos clientes bons
apresenta maior concentrao em valores altos e a distribuio de escores dos
clientes maus possui maior concentrao em valores mais baixos. Alm disso, a
distribuio acumulada do escore dos maus pagadores superior distribuio
acumulada dos escores dos bons pagadores e portanto, o melhor modelo dever
prover a maior separao entre clientes adimplentes e inadimplentes ao longo dos
valores de escore.

Na Figura 10, apresentado um exemplo de clculo da estatstica KS. A maior


separao entre as distribuies acumuladas de bons e maus 30% e portanto, o
valor da estatstica KS 30%.

Figura 10 - Exemplo de clculo da estatstica Kolmogorov-Smirnov.

Lecumberri e Duarte (2003) descrevem uma regra prtica para a verificao da


qualidade de modelos de Credit Scoring utilizando estatstica KS (Tabela 3). Esta
regra visa auxiliar na interpretao da estatstica KS. Por exemplo, no caso de um
modelo de Credit Scoring cuja distncia est abaixo de 20%, h forte indcio de um

50

baixo nvel de discriminao no modelo, o que sugere a necessidade de alterao do


mesmo.
Tabela 3 - Valores crticos da estatstica Kolmogorov-Smirnov aplicada em modelos de Credit
Scoring.
Estatstica KS

Discrimanao
Credit Scoring

<15%
15 a 25%
25 a 35%
35 a 45%
45 a 55%
55 a 65%
65 a 75%
>75%

Discriminao Muito Baixa


Discriminao Baixa
Discriminao Aceitvel
Discriminao Boa
Discriminao Excelente
Discriminao Excelente
Discriminao Excelente
Discriminao Excelente

51

4. METODOLOGIA

No Captulo de Metodologia ser descrita a base de dados aplicada, a German


Credit, e todos os procedimentos adotados para a construo dos modelos de
classificao. Na Seo 4.2, ser descrita a categorizao das variveis preditoras
da base de dados German Credit, adotada previamente a aplicao dos modelos. Na
Seo 4.3, sero apresentadas as selees de variveis que sero empregadas nos
Classificadores Bayesianos e da Regresso Logstica. Na Seo 4.3, ser mostrada
a metodologia de construo das amostras de desenvolvimento e de validao
obtidas por Cross-Validation com 10 parties (10-fold). Na Seo 4.5, finalmente
sero mencionados os softwares empregados na estimao dos modelos de
classificao. A Figura 11 apresenta um breve esquema destas metodologias
empregadas.

Base de dados
German Credit
Amostragem
Retrospectiva

Amostra
Balanceada
Cross-Validation
com 10 parties
(10-fold)

Amostras de
desenvolvimento
e de validao
Desenvolvimento dos
modelos de classificao

Regresso
Logstica

Redes
Bayesianas

Seleo de
variveis

Seleo por
Forward Stepwise

Classificador
Naive Bayes

Classificador
TAN

Os trs classificadores passaram por


filtragem pelo ganho de informao

Seleo por Filtragem pelo


Ganho de Informao
Seleo de variveis empregadas nos
classificadores Naive Bayes e TAN

Classificador
GBN
Aprendizado de estrutura
utilizando as medidas
MDL, AIC, Bayes, Bdeu,
Entropia

Seleo do
Markov Blanket
da varivel resposta

Seleo pelo
mtodo Wrapper

Figura 11 Esquema das metodologias aplicadas neste trabalho.

52

4.1 Base de Dados

A base de dados de emprstimos concedidos utilizada ser a German Credit,


disponvel no Repositrio UCI Machine Learning (Blake e Merz, 1998). Nesta base de
dados, h informaes pessoais e financeiras de clientes proponentes a um
emprstimo e a classificao destes clientes de acordo com sua inadimplncia ou
adimplncia (Cliente bom ou mau pagador) no pagamento do emprstimo.

A classificao dos clientes de acordo com seu risco de inadimplncia ser a


varivel resposta, chamada de Cliente, assumindo valor 1, se o cliente foi
previamente classificado como um bom pagador (adimplente), e valor 0, se o cliente
foi classificado como um mau pagador (inadimplente).

A base de dados contm 1000 clientes, dos quais 700 foram previamente
classificados como bons pagadores e 300 como maus pagadores. Alm de, 20
variveis preditoras categricas ou contnuas (Tabela 4), representando as
informaes pessoais e financeiras dos clientes.

A amostra aplicada nos modelos de classificao apresenta mesmo nmero de


clientes bons e maus pagadores, ou seja, amostra balanceada, e foi obtida por
Amostragem Retrospectiva (PAULA, 2004). Este esquema de amostragem consistiu
em manter a amostra de clientes maus, com 300 clientes, e selecionar
aleatoriamente uma amostra de mesmo tamanho (300) de clientes bons.

A Amostragem Retrospectiva foi adotada a fim de que a diferena entre os


tamanhos das amostras de clientes bons e maus no criasse nenhum vis nos
modelos de classificao e, com isso, evitar que os modelos sejam adequados para
discriminar os clientes bons, porm ineficientes para discriminar os clientes maus
(ROSA, 2000).

53

Tabela 4 - Variveis da base de dados German Credit.


Varivel

Tipo de
Varivel

Nm. de
Categorias

Categorias

Salrio

categrica
ordinal

X < $0, 0 <= X < 200 , X >=200, Sem remunerao

Durao
do Emprstimo

Contnua

Histrico
de Crdito

categrica
ordinal

Finalidade

categrica
nominal

11

Sem emprstimos tomados, Todos os emprstimos


pagos pontualmente, Existem emprstimos pagos
pontualmente , Histrico de atraso no pagamento,
Atraso no pagamento ou com emprstimos
tomados em outras Instituies
Compra de carro novo, Compra de carro usado,
Mveis, Rdio e TV, Utenslios domsticos,
Reforma, Educao, Cursos, Negcios, Outros

Nome original
(em ingls)
Status of existing
checking account
Duration
in months

Credit history

Purpose

Valor do
Emprstimo
Poupana
do Cliente

Contnua

Credit amount

categrica
ordinal

< $100, $100<= X < $500, $500<= X < $1000, >=


$1000, No possui ou no conhecida

Tempo
de Trabalho

categrica
ordinal

Desempregado, X < 1 ano, 1 <= X < 4 anos,


4 <= X < 7 anos, X >= 7 anos

Taxa de juros em %
do valor do
emprstimo

Contnua

Savings
account/bonds
Present
employment
since
Installment rate
in % of disposable
income

Estado Civil
e Sexo

Categrica
nominal

Masculino divorciado ou separado, Feminimo


divorciada, separada ou casada, Masculino
solteiro, Masculino casado ou vivo

Outras dvidas
ou garantias
Tempo
de Residncia

categrica
nominal

Nenhuma, Co-aplicante, Fiador

Contnua

Bens
Idade
Outros
Emprstimos
Moradia
Nmero de crditos
Concedidos em seu
banco

Emprego

Nmero
de dependentes
Telefone Prprio
Estrangeiro
Cliente

categrica
nominal
Contnua
categrica
nominal
categrica
nominal
Contnua

categrica
ordinal

Contnua
categrica
binria
categrica
binria
categrica
binria

Personal status
and sex
Other debtors/
Guarantors
Present residence
since

Imvel, Seguro de Vida, Carro ou outros, No possui


bens
-

Bancos, Lojas, Nenhum

Alugada, Prpria, Moradia gratuita

Housing

Number of existing
credits at this bank

Desempregado ou empregado com baixa qualificao


ou sem trabalho formal, Empregado com baixa
qualificao e com trabalho formal, Empregado
qualificado ou funcionrio pblico, Executivo,
profissional liberal, empregado altamente
qualificado ou oficial

Job title

Number of people
being liable to
provide
maintenance for

Sim, No

Telephone

Sim, No

Foreign worker

Bom ou Mau

Good or bad
credit rating

Property
Age in years
Other
installment plans

54

A amostra balanceada ser utilizada na estimao dos modelos de classificao,


mas, para a aplicao dos modelos populao original, necessrio que alguns de
seus parmetros sejam re-calculados.

No modelo de Regresso Logstica necessrio que o intercepto seja recalculado (PAULA, 2004) por:


o = 0* ln 1
2

(39)

em que, 0* o intercepto do modelo logstico ajustado e 1 = P(Z = 1 Cliente = 1) e

2 = P(Z = 1 Cliente = 0) , sendo Z uma varivel indicadora da seleo amostral em


relao amostra toda.

Nas RB necessrio que a distribuio da varivel resposta (e de seus pais, se


houverem) seja substituda pela distribuio desta varivel na amostra original.

4.2 Categorizao das Variveis

Os modelos de RB avaliados possuem premissa de que todas as suas variveis


sejam discretas (ou categricas). Como a base de dados German Credit apresenta
variveis contnuas (ou numricas), ento ser adotado o procedimento de
categorizao destas variveis.

Rosa (2000) explica que, se as variveis do modelo puderem ser mostradas em


categorias, tornam-se mais simples a implementao dos modelos e a interpretao
dos pesos relativos s categorias das variveis. Outro inconveniente de se trabalhar
com variveis contnuas a apario de valores discrepantes (outliers), cuja
presena costuma afetar consideravelmente os resultados dos modelos.

A categorizao de cada varivel contnua consiste na criao de nveis


(categorias) de uma varivel discreta que correspondam a intervalos de valores da
55

varivel contnua original. Ao final do procedimento, a varivel discreta resultante


usada no lugar da varivel contnua. As variveis originalmente categricas com
muitos nveis tambm tiveram alguns de seus nveis reagrupados para evitar a
existncia de categorias com nmero muito pequeno de observaes (ou pouco
significativo), o que pode prejudicar a estimao dos parmetros dos modelos.

A categorizao de variveis contnuas adotada consistiu na construo dos


nveis das variveis de acordo com a relao da varivel preditora com a varivel
resposta (Cliente bom ou mau) (HAND; HENLEY, 1997). Esta anlise bivariada da
relao da varivel preditora com a varivel resposta foi feita atravs do clculo do
Risco Relativo e do WOE de cada nvel das variveis preditoras.

Para as variveis contnuas, o procedimento consistiu em inicialmente criar uma


categorizao inicial da varivel, a partir dos percentis da distribuio de cada
varivel contnua. Assim, foram criados 10 nveis com cada faixa de valores
correspondendo aos decis (percentil de ordem 10%) da varivel contnua original, ou
seja, criadas faixas de valores da varivel ordenada a cada 10%. A partir desta
categorizao inicial, foi verificada a freqncia de clientes bons e maus em cada
categoria criada (faixa de valores), a fim de identificar categorias semelhantes com
relao a bons e maus clientes (Tabela 5). Para isso, sero calculadas as
seguintes medidas:

Risco Relativo (AGRESTI, 1999): proporo de bons na categoria sobre a


proporo de maus na categoria;

Weights of Evidence (WOE) (HAND; HENLEY, 1997) que o logaritmo


natural do Risco Relativo (Razo de bons e maus);
Tabela 5 - Exemplo de categorizao de uma varivel preditora.
Categoria
Categoria 1
Categoria 2
Categoria 3
Categoria 4
Categoria 5
Total

Nmero Nmero
%bons %maus Risco Relativo
WOE
de "bons" de "maus"
b1
m1
b1/b. m1/m. (b1/b.)/(m1/m.) ln[(b1/b.)/(m1/m.)]
b2
m2
b2/b. m2/m. (b2/b.)/(m2/m.) ln[(b2/b.)/(m2/m.)]
b3
m3
b3/b. m3/m. (b3/b.)/(m3/m.) ln[(b3/b.)/(m3/m.)]
b4
m4
b4/b. m4/m. (b4/b.)/(m4/m.) ln[(b4/b.)/(m4/m.)]
b5
m5
b5/b. m5/m. (b5/b.)/(m5/m.) ln[(b5/b.)/(m5/m.)]
b.
m.
1
1
1
0
56

O Risco Relativo e o WOE so medidas descritivas que auxiliam na identificao


de categorias das variveis com alto ou baixo poder de discriminao dos clientes
bons e maus pagadores, e tambm auxiliam a identificar as categorias que
discriminam melhor os clientes bons e as que discriminam melhor os clientes
maus. Estas medidas podem ser analisadas da seguinte maneira:
WOE = 0 (Risco Relativo = 1): indica que a razo entre bons e maus 1
e, portanto, se a varivel assumir o valor correspondente a esta categoria no
h nenhum indcio do cliente apresentar maior ou menor risco de inadimplncia,
se comparado anlise desconsiderando esta varivel;
WOE > 0 (Risco Relativo>1): positivo e quanto mais distante de zero,
maiores so as chances de o cliente apresentar menor risco de crdito,
indicando que a categoria apresenta algum poder para discriminar clientes
bons;
WOE < 0 (Risco Relativo<1): negativo e quanto mais distante de zero,
maiores so as chances de o cliente apresentar maior risco de crdito,
indicando que a categoria apresenta algum poder para discriminar clientes
maus;

O Risco Relativo e o WOE tambm podem ser utilizados para agrupar categorias
com valores prximos, ou seja, categorias com risco de inadimplncia prximas. No
entanto, este agrupamento s pode ser feito se houver interpretao lgica.

A Tabela 6 mostra o resultado da categorizao das variveis contnuas da base


de dados German Credit. Analisando esta tabela observa-se que as categorias que
contriburam para maiores riscos de inadimplncia, sem considerar o efeito das
demais, foram: clientes com emprstimos de mais de 3 anos (36 meses), com valor
acima de $7500 ou com idade inferior a 25 anos. Por outro lado, as caractersticas
dos clientes ou do emprstimo que individualmente apresentaram maiores riscos
relativos e, portanto, apresentam menores riscos de inadimplncia, foram:
emprstimos com durao menor que 12 meses, e com valor entre $1000 e $4000,
taxas menores que 4% do valor do emprstimo, pessoas entre 30 e 31 anos, entre
35 e 50 anos ou com mais de dois crditos concedidos em seu banco.
57

As variveis originalmente categricas, e que tiveram algumas de suas categorias


agrupadas, foram: Histrico de Crdito,
Emprstimos, Tempo de

Bens, Poupana do Cliente, Outros

Trabalho, Moradia, Estado Civil e Sexo, Emprego. A

categorizao original destas variveis mostrada nas A.2 a A.9, do Apndice.

A Tabela 7 mostra os valores do risco relativo e do Weights of Evidence (WOE)


das variveis categricas da base de dados, que sofreram ou no agrupamento de
seus nveis. No houve agrupamento de nveis da varivel Finalidade, pois no faz
sentido para o processo de concesso de crdito agrupar caractersticas muito
distintas de finalidade do emprstimo. Uma peculiaridade observada na base de
dados German Credit a ausncia de clientes do sexo feminino e com estado civil
solteira.
Tabela 6 - Categorizao das variveis originalmente contnuas da base de dados German Credit e
clculo do Risco Relativo e Weights of Evidence (WOE) de cada categoria.
Varivel Preditora

Nvel

<12
12<= X<16
Durao do emprstimo
16<= X<36
>=36
<1000
1000<= X<4000
Valor do Emprstimo
4000<= X<7500
>=7500
<4
Taxa de juros em % do
valor do emprstimo
>=4
<3
Tempo de Residncia
3<= X<4
>=4
<25
25<= X<30
30<= X<32
Idade
32<= X<35
35<= X<51
>=51
<2
Nmero de Dependentes
>=2
<2
Nmero de crditos
concedidos em seu banco
>=2
Total

Nmero
Nmero
%bons
de "bons" de "maus"
69
82
110
39
25
216
42
17
170
130
150
44
106
32
63
30
28
115
32
248
52
177
123
300

27
62
129
82
37
158
61
44
141
159
133
43
124
61
76
22
33
77
31
254
46
200
100
300

23.00%
27.33%
36.67%
13.00%
8.33%
72.00%
14.00%
5.67%
56.67%
43.33%
50.00%
14.67%
35.33%
10.67%
21.00%
10.00%
9.33%
38.33%
10.67%
82.67%
17.33%
59.00%
41.00%
100.00%

%maus
9.00%
20.67%
43.00%
27.33%
12.33%
52.67%
20.33%
14.67%
47.00%
53.00%
44.33%
14.33%
41.33%
20.33%
25.33%
7.33%
11.00%
25.67%
10.33%
84.67%
15.33%
66.67%
33.33%
100.00%

Risco
WOE
Relativo
2.556
1.323
0.853
0.476
0.676
1.367
0.689
0.386
1.206
0.818
1.128
1.023
0.855
0.525
0.829
1.364
0.848
1.494
1.032
0.976
1.130
0.885
1.230
1.000

0.938
0.280
-0.159
-0.743
-0.392
0.313
-0.373
-0.951
0.187
-0.201
0.120
0.023
-0.157
-0.645
-0.188
0.310
-0.164
0.401
0.032
-0.024
0.123
-0.122
0.207
0.000

58

Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente categricas da
base de dados German Credit, aps o agrupamento de alguns de seus nveis.
Varivel

Categoria

Imvel
Seguro de Vida, Carro e outros
No possui bens
X < $0
0 <= X < 200
Salrio
X >=200
Sem remunerao
< $500
Poupana
>= $500
do Cliente
No possui ou no conhecida
Nenhum
Outros
Emprstimos
Bancos e Lojas
Nenhuma
Outras dvidas
Co-aplicante
Ou garantias
Fiador
Compra de carro novo
Compra de carro usado
Mveis
Rdio e TV
Utenslios domsticos
Finalidade
Reforma
Educao
Cursos
Negcios
Outros
Sem emprstimos tomados
ou todos os emprstimos
pagos pontualmente
Existem emprstimos
Histrico
pagos pontualmente
de Crdito
Histrico de atraso
no pagamento
Atraso no pagamento
ou com emprstimos tomados
em outras Instituies
Desempregado
ou menos de 1 ano
Tempo
1 <= X < 4 anos
de Trabalho
X >= 4anos
Divorciado(a) ou separado(a)
ou mulher casada
Estado Civil
Masculino solteiro
e Sexo
Masculino casado ou vivo.
Prpria
Moradia
Alugada ou Moradia gratuita
Desempregado ou empregado
com baixa qualificao
Empregado qualificado
Emprego
ou funcionrio pblico
Executivo, profissional liberal,
empregado altamente
qualificado ou oficial

Bens

101
161
38
51
76
21
152
189
35
76
259
41
271
11
18
57
36
52
96
2
9
9
5
29
5

60
173
67
135
105
14
46
251
17
32
224
76
272
18
10
89
17
58
62
4
8
22
1
34
5

33.67%
53.67%
12.67%
17.00%
25.33%
7.00%
50.67%
63.00%
11.67%
25.33%
86.33%
13.67%
90.33%
3.67%
6.00%
19.00%
12.00%
17.33%
32.00%
0.67%
3.00%
3.00%
1.67%
9.67%
1.67%

20.00%
57.67%
22.33%
45.00%
35.00%
4.67%
15.33%
83.67%
5.67%
10.67%
74.67%
25.33%
90.67%
6.00%
3.33%
29.67%
5.67%
19.33%
20.67%
1.33%
2.67%
7.33%
0.33%
11.33%
1.67%

Risco
Relativo
1.683
0.931
0.567
0.378
0.724
1.500
3.304
0.753
2.059
2.375
1.156
0.539
0.996
0.611
1.800
0.640
2.118
0.897
1.548
0.500
1.125
0.409
5.000
0.853
1.000

12

53

4.00%

17.67%

0.226

-1.485

154

169

51.33%

56.33%

0.911

-0.093

28

28

9.33%

9.33%

1.000

0.000

106

50

35.33%

16.67%

2.120

0.751

67

93

22.33%

31.00%

0.720

-0.328

105
128

104
103

35.00%
42.67%

34.67%
34.33%

1.010
1.243

0.010
0.217

94

129

31.33%

43.00%

0.729

-0.317

179
27
233
67

146
25
186
114

59.67%
9.00%
77.67%
22.33%

48.67%
8.33%
62.00%
38.00%

1.226
1.080
1.253
0.588

0.204
0.077
0.225
-0.532

81

63

27.00%

21.00%

1.286

0.251

176

186

58.67%

62.00%

0.946

-0.055

43

51

14.33%

17.00%

0.843

-0.171

Nmero Nmero
de "bons" de "maus"

%bons

%maus

WOE
0.521
-0.072
-0.567
-0.973
-0.323
0.405
1.195
-0.284
0.722
0.865
0.145
-0.617
-0.004
-0.492
0.588
-0.446
0.750
-0.109
0.437
-0.693
0.118
-0.894
1.609
-0.159
0.000

(continua na prxima pgina)


59

Continuao da Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente
categricas da base de dados German Credit aps o agrupamento de alguns de seus nveis.
Risco
Nmero Nmero
Varivel
Categoria
%bons %maus
WOE
de "bons" de "maus"
Relativo
Sim
Telefone
116
113
38.67% 37.67% 1.027 0.026
Prprio
No
184
187
61.33% 62.33% 0.984 -0.016
Sim
20
4
6.67%
1.33%
5.000 1.609
Estrangeiro
No
280
296
93.33% 98.67% 0.946 -0.056
300
300
100.00% 100.00% 1.000 0.000
Total

Aps o tratamento de categorizao e de agrupamento de nveis das variveis


preditoras da base de dados German Credit, estas variveis finais (todas
categricas) foram transformadas em variveis dummy (ou indicadoras). As dummies
so variveis binrias e assumem valores 1 ou 0. O nmero de dummies igual ao
nmero de nveis (categorias) da varivel preditora (n) menos um, ou seja, n-1. Cada
dummy est associada a uma categoria da varivel preditora e uma categoria da
varivel preditora original corresponde casela de referncia. As dummies assumem
valor 1, se o cliente possui a caracterstica representada por ela, e valor 0, se o
cliente no possui tal caracterstica. A casela de referncia (categoria de referncia)
representar a categoria da varivel preditora associada a todos os valores zero das
dummies (e por isso so criadas n-1 dummies). Por exemplo, a varivel Durao do
Emprstimo com 4 categorias, "X<12", "12<=X<16", "16<=X<36" e "X>=36", sero
criadas 3 dummies dadas por,
1, se o emprstimo teve durao menor do que 12 meses
Durao do Emprstimo ("X<12") =
0, demais clientes
1, se o emprstimo teve durao entre 12 e 15 meses
Durao do Emprstimo ("12<= X<16") =
0, demais clientes
1, se o emprstimo teve durao entre 16 e 35 meses
Durao do Emprstimo ("16<= X<36") =
0, demais clientes

(40)

A casela de referncia ser da varivel Durao do Emprstimo a dos clientes


com emprstimos com durao superior a 36 meses.

Na construo dos modelos de classificao, as dummies sero utilizadas no


lugar das variveis preditoras originais e cada dummy corresponder a uma
60

categoria das variveis preditoras originas. O uso de dummies foi adotado para que
nas selees de variveis preditoras, descritas na Seo 4.3 a seguir, fossem
selecionadas somente as caractersticas dos clientes que mais contribussem para a
discriminao entre os bons e maus pagadores, dado um modelo de classificao.
Alm disso, tambm se observou que no desenvolvimento dos Classificadores
bayesianos o uso dummies contribuiu para uma melhora na assertividade das
previses dos clientes bons e maus dos modelos de classificao.

4.3 Seleo das Variveis

Uma vez definido o conjunto de preditoras a ser utilizado no modelo de


classificao, resta saber qual a melhor maneira de encontrar um modelo
parcimonioso que inclua apenas as variveis preditoras mais importantes para
explicar a probabilidade do cliente ser um bom pagador em determinado perodo. A
seleo de variveis ainda pode melhorar o desempenho dos modelos ajustados,
facilitar a visualizao e entendimento dos parmetros estimados, alm de prevenir
contra problemas de overfitting dos modelos estimados (GUYON; ELISEEFF, 2003).

A seleo de variveis adotada no modelo de Regresso Logstica ser a


Forward Stepwise (HOSMER, LEMESHOW, 1989), utilizando como critrio a medida
AIC (Akaike information criterion). O Forward Stepwise consiste em um algoritmo de
excluso e incluso de variveis preditoras, segundo sua importncia de acordo com
o critrio de Akaike (AIC). A medida AIC leva em considerao tanto a logverossimilhana (log-likelihood) dos dados, quanto o nmero de parmetros do
modelo ajustado, sendo que um modelo melhor do que outro se apresentar menor
valor da medida AIC.

Resumidamente, a seleo por Forward Stepwise inicia-se pela estimao de um


modelo logstico com apenas o intercepto, seguida da estimao dos modelos
logsticos com uma varivel preditora. A varivel includa a aquela cujo modelo
apresentou menor valor do AIC, em relao ao modelo com somente o intercepto.
Partindo do modelo com uma varivel includa, as demais variveis so introduzidas
61

individualmente. A prxima varivel includa ser aquela cujo modelo ajustado


apresentar menor AIC, em relao ao modelo sem incluso da varivel. Enquanto
isso, as variveis que entram no modelo podem ser removidas, se a sua excluso
individual contribuir para uma reduo do AIC do modelo com todas as variveis
includas. Na seleo Forward Stepwise, as variveis includas podem ser removidas,
pois na presena de outras variveis estas podem no ter mais importncia para o
modelo. A incluso e remoo de variveis so repetidas at que nenhuma varivel
possa mais ser includa ou excluda do modelo.

A seleo de variveis dos Classificadores bayesianos ser feita em duas etapas.


Na primeira, h a ordenao e filtragem de variveis preditoras pelo seu ganho de
informao, em relao varivel reposta. Na segunda etapa, h a seleo de
variveis aplicando o mtodo Wrapper, que um algoritmo de caixa-preta que utiliza
o prprio modelo de classificao para selecionar variveis.

Na primeira etapa, as variveis preditoras (dummies) so ordenadas em funo


do seu ganho de informao (Information Gain), em relao varivel resposta
(Cliente bom ou mau) (Witten e Frank, 2005). Aps esta ordenao, as variveis
sero retiradas pelo mtodo Backward, ou seja, partindo do modelo saturado (com
todas as variveis) cada varivel, que individualmente menos contribui para o ganho
de informao da varivel resposta, ser retirada, sem que isso prejudique a
assertividade das previses dos Classificadores Bayesianos. Os resultados deste
procedimento para os Classificadores Naive Bayes, TAN e GBN so apresentados
na Seo 5.3. Esta seleo descrita tem como finalidade a busca do subconjunto de
variveis que isoladamente mais contribuem para a discriminao entre clientes
bons e maus, sem considerar o efeito das demais.

A literatura cientfica a seleo pelo ganho de informao como um mtodo de


filtragem de variveis, pois o critrio de seleo se baseia no ganho de informao
das variveis preditoras, em relao resposta, e no no modelo de classificao em
si. Com isso, esta seleo pode ser encarada como um pr-processamento de dados
(GUYON; ELISSEEFF, 2003). No entanto, nesse trabalho, o modelo de classificao
foi utilizado como um critrio de parada para a retirada de variveis, para que fossem

62

removidas somente as variveis redundantes e nenhuma varivel importante, que


pudesse prejudicar na acurcia dos modelos, fosse retirada.

O ganho de informao (InfoGain) de uma varivel discreta em relao varivel


resposta (Classe), tambm discreta, dado pela diferena,

InfoGain(Classe, X ) = H (Class) H ( Class X )

(41)

em que, H (Class ) a Entropia da varivel resposta e H ( Class X ) a Entropia


condicional da varivel resposta dado a varivel X.

Seja X uma varivel aleatria discreta com distribuio de probabilidades P(X) e


com n observaes dadas por x1,x2, .....,xn. A Entropia marginal da varivel X dada
por,
n

H ( X ) = P ( xi ) ln ( P ( xi ) )

(42)

i =1

E, a Entropia Condicional de X dado Y dada por,


n

H ( X Y ) = P ( xi , yi ) ln ( P( xi yi ) )

(43)

i =1 j =1

sendo Y discreta com observaes dadas por y1,y2, .....,ym.


Aps a filtragem, a seleo de variveis dos Classificadores Naive Bayes e TAN
realizada aplicando o mtodo Wrapper (Witten e Frank, 2005) e nos Classificadores
GBN sero selecionadas as variveis do Markov Blanket da varivel resposta.

O mtodo Wrapper aplica o prprio modelo de classificao para avaliar o


conjunto de variveis preditoras e utiliza o esquema de Cross-validation para estimar
a acurcia de cada conjunto avaliado. O mtodo leva em considerao as premissas
de cada Classificador bayesiano para obter o subconjunto de variveis preditoras
mais importantes para o modelo. Guyon e Elisseeeff (2003), descrevem que o
mtodo Wrapper freqentemente criticado por parecer um mtodo de fora bruta,
exigindo um grande esforo computacional para ser realizado. Mas isso pode no
ocorrer

necessariamente,

pois

estratgias

eficientes

de

busca

tm

sido
63

desenvolvidas visando obteno de mtodos de busca mais eficientes e que no


prejudiquem o desempenho das previses do modelo avaliado. Mtodos de busca
gulosa (Greedy search) possuem vantagens computacionais e so robustos contra
problemas de overfitting dos dados. As metodologias de busca gulosa existentes so
a forward selection e backward elimination, sendo que na forward selection as
variveis so progressivamente incorporadas nos subconjuntos de variveis
enquanto a backward elimination inicia com um conjunto com todas as variveis que
so eliminadas sem que isso comprometa o desempenho do modelo.

J nos Classificadores GBN, a seleo do subconjunto de variveis preditoras do


Markov Blanket da varivel resposta um procedimento natural de seleo, pois
estas variveis protegem a varivel resposta da influncia de qualquer outra
varivel de fora do seu Markov Blanket. Alguns estudos, mencionados no Captulo 2,
demonstraram que os Classificadores GBN com somente as variveis do Markov
Blanket da varivel resposta resultam em modelos parcimoniosos e poderosos em
diversas aplicaes, alm de ser uma maneira de contornar o problema de overfitting
(CHENG; GREINER, 2001).

4.4 Amostra de Desenvolvimento e Validao

Como a base de dados German Credit

apresentam um nmero grande de

clientes (observaes), ser utilizado o conceito de Cross-Validation (WITTEN;


FRANK, 2005) para obteno das amostras de desenvolvimento e de validao. O
procedimento de Cross-Validation aplicado consiste em dividir aleatoriamente todos
os clientes da base de dados em 10 parties amostrais de tamanhos iguais. Destas
parties, sero construdos 10 conjuntos, cada um com 9 parties para
desenvolvimento do modelo e 1 para validao do modelo. Com isso, sero
aplicadas as tcnicas em cada um dos 10 grupos de desenvolvimento do modelo e
os resultados sero avaliados em cada um dos respectivos grupos de validao.

As 9 parties de desenvolvimento, ou seja, 90% das observaes da base de


dados, so utilizadas para estimar os parmetros dos modelos. As amostras de
64

validao so utilizadas para avaliar a capacidade de generalizao do modelo, ou


seja, se o modelo estimado mantiver seu poder de discriminao em amostras
provindas da mesma populao da amostra de desenvolvimento, ento ele estvel.
Mas, se seu poder de discriminao variar muito de uma amostra para outra, ento
ele pode estar com problema de overfitting.

Em bases de dados com um nmero reduzido de observaes e muitas variveis


preditoras, como o caso da German Credit, o procedimento de Cross-Validation
vantajoso, pois todos os clientes bons e maus so utilizados tanto para o
desenvolvimento dos modelos quanto para a validao dos modelos. Alm dos
modelos serem desenvolvidos com uma alta proporo de observaes da base de
dados.

4.5 Softwares Utilizados

O modelo de Regresso Logstica com seleo de variveis por Forward


Stepwise ser estimado utilizando o software estatstico R, que um software livre
com as principais ferramentas de estatstica desenvolvido por pesquisadores da rea
de Estatstica do mundo todo.

Os Classificadores bayesianos Naive Bayes, TAN e GBN sero aplicados


utilizando o software Weka (Waikato Environment for Knowledge Analysis), verso
3.5.8. O software Weka foi utilizado em todas as etapas de construo dos
Classificadores bayesianos, como: a seleo de variveis pelo mtodo Wrapper,
filtragem pelo Ganho de Informao em relao varivel resposta, aprendizados de
estrutura utilizando as medidas Bayes, MDL, AIC, Bdeu e Entropia e tambm
inferncias para a interpretao e predio dos Classificadores.

O software WEKA foi desenvolvido na Universidade de Waikato na Nova Zelndia


para tarefas de Data Mining e possui uma coleo de algoritmos de Aprendizado de
Mquina, rea que combina Estatstica com Inteligncia Artificial.

65

5. RESULTADOS

No captulo de Resultados, sero apresentadas as aplicaes da Regresso


Logstica e dos Classificadores Bayesianos em modelos de Credit Scoring, utilizando
a base de dados German Credit. Nas Sees 5.1 e 5.2, sero avaliados e
interpretados os modelos de Regresso Logstica e os Classificadores Bayesianos
Naive Bayes, TAN e GBN. Na Seo 5.4, os resultados dos modelos ajustados sero
comparados.

Os modelos de classificao foram estimados a partir da amostra balanceada,


com 300 clientes bons pagadores e 300 clientes maus pagadores, obtida por
Amostragem Retrospectiva, como foi descrito na Seo 4.1. A amostra balanceada
contm 47 variveis dummy, equivalentes s variveis originais, como tambm foi
apresentado na Seo 4.2. A varivel resposta Cliente binria (dummy),
assumindo valor 0 se o cliente for um mau pagador (casela de referncia) e valor 1
se o cliente for um bom pagador.

Para interpretar os modelos de classificao, deve-se considerar que cada


dummy (ou varivel binria) corresponder a um nvel de uma varivel preditora
(categrica) e o ltimo nvel da varivel preditora ser a casela de referncia. As
dummies assumem valor 1, se o cliente possui a caracterstica correspondente a esta
varivel, e 0, caso contrrio. A casela de referncia corresponde ao nvel da varivel
preditora original associado a todos os valores zero das dummies.

As amostras de desenvolvimento e de validao foram obtidas por CrossValidation com 10 parties. O desempenho dos modelos de classificao sero
avaliados e comparados em relao estatstica Kolmogorov-Smirnov, coeficiente
Gini e as taxas de acerto obtidas da Matriz de Confuso, descritas na Seo 3.4. O
ponto de corte adotado para classificar os clientes da amostra de validao foi de 50.
Logo, na amostra de validao, se o modelo ajustado previu score acima de 50,
ento o cliente foi classificado como um bom pagador, e caso contrrio, o cliente foi
classificado como mau pagador.

66

5.1 Regresso Logstica

Neste trabalho, a anlise de Regresso Logstica foi realizada utilizando o


software estatstico R. Inicialmente, foi estimado o modelo saturado (com todas as
variveis) e subseqentemente foi estimado o modelo com variveis selecionadas
por Forward Stepwise. As medidas de desempenho destes modelos, obtidas das
amostras de validao construdas por Cross-Validation com 10 parties (10-fold),
so mostradas na Tabela 8.

As medidas de desempenho dos modelos logsticos ajustados indicam que a


seleo de variveis foi eficiente, pois tornou o modelo mais parcimonioso (com um
nmero menor de variveis) e as taxas de acerto, a estatstica KS e o coeficiente Gini
apresentaram maiores valores, aps a seleo por Forward Stepwise. A seleo de
variveis por Forward Stepwise possibilita a reduo do problema de dependncia
entre variveis preditoras (multicolinearidade) pois, durante a seleo, so retiradas
as variveis que apresentem alta associao com outras.
Tabela 8 - Estatstica KS, coeficiente Gini, taxas de acerto total (TAT), dos clientes bons (TAB), dos
clientes maus (TAM) e nmero de variveis dos modelos de Regresso Logstica ajustados.
Modelo

TAT

TAB

TAM

KS

Gini

Regresso Logstica
72.7% 70.7% 74.7% 45.33% 55.94%
(Modelo Saturado)
Regresso Logstica com Seleo
74.83% 74.00% 75.67% 50.33% 61.46%
por Forward Stepwise

N de
Variveis
48
28

A amostra utilizada na estimao dos modelos logsticos foi a balanceada, obtida


por Amostragem Retrospectiva na base de dados German Credit. Com isso, para a
aplicao do modelo na populao original necessrio que o intercepto do modelo
logstico seja re-calculado, pela expresso 39 da Seo 4.1, que resulta em,

300 / 700
2.451
1

o = 1.6039 ln
com, 1 = 300 / 700 ,

(44)

2 = 1 e 0* = 1.6039 (intercepto do modelo logstico ajustado).


67

O intercepto do modelo logstico utilizado para o clculo da probabilidade do


cliente ser um bom pagador, quando todas as variveis dummy do modelo
assumem valor zero. Dado o modelo logstico ajustado, esta probabilidade dada
por,
P (Cliente = 1) =

exp(2.451)
= 0.9206
1 + exp(2.451)

(45)

As estimativas dos demais coeficientes do modelo com seleo de variveis por


Forward Stepwise (modelo logstico final), juntamente com algumas medidas
descritivas de cada varivel, com seus respectivos nveis (dummies), so
apresentadas na Tabela 9. Estas medidas descritivas auxiliam na interpretao dos
coeficientes.

As caselas de referncia so os nveis associados aos valores zero das dummies


e esto representadas na Tabela 9 por um trao (-). A varivel resposta Cliente
assume valor 0 se o cliente for um mau pagador e assume valor 1 se o cliente for
um bom pagador.

Os coeficientes de um modelo de Regresso Logstica mltipla podem ser


interpretados como o aumento (ou reduo) na probabilidade do cliente no se tornar
inadimplente, em determinado perodo, dado o acrscimo de uma unidade na
varivel preditora (dummy), sem considerar a alterao das demais variveis do
modelo (MONTGOMERY et al., 2001).

Assim, coeficientes negativos indicam que a observao da caracterstica do


cliente (dummy de uma varivel preditora) contribui para uma reduo na
probabilidade do cliente no se tornar inadimplente, em determinado perodo
(aumento no risco de inadimplncia), em relao aos demais clientes; e coeficientes
positivos evidenciam que a observao da dummy produz um aumento na
probabilidade do cliente no se tornar inadimplente, em determinado perodo
(reduo no risco de inadimplncia), em relao aos demais clientes.

68

Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica Final, juntamente
as medidas descritivas: Risco Relativo, Nmero de Clientes bons (#Bons) e maus (#Maus), Total
de clientes (Total) por categoria, Percentual de clientes da categoria em relao ao total de clientes
(%Total) e Percentual de Maus por categoria (dummy) (Bad Rate).
Varivel Preditora

Nveis (Varivel Dummy)


Intercepto

Bens

Salrio

Poupana do Cliente
Outros Emprstimos
Outras dvidas
ou garantias

Finalidade

Histrico de Crdito

Tempo de Trabalho

Estado Civil e Sexo

Imvel
Seguro de Vida, Carro e outros
No possui bens
X < $0
0 <= X < 200
X >=200
Sem remunerao
< $500
>= $500
No possui ou no conhecida
Nenhum
Bancos e Lojas
Nenhuma
Co-aplicante
Fiador
Compra de carro novo
Compra de carro usado
Mveis
Rdio e TV
Utenslios domsticos
Reforma
Educao
Cursos
Negcios
Outros
Sem emprstimos tomados ou
todos os emprstimos
pagos pontualmente
Existem emprstimos pagos
pontualmente
Histrico de atraso no
pagamento
Atraso no pagamento ou com
emprstimos tomados em
outras Instituies
Desempregado ou menos de 1
ano
1 <= X < 4 anos
X >= 4anos
Divorciado(a) ou separado(a)
ou mulher casada
Masculino solteiro
Masculino casado ou vivo.

Coef.
2.451
-1.988
-1.262
-0.943
-0.871
0.886
-1.073
-1.470
-2.033
-1.387
-1.279
-1.685
-1.610
-2.345
-1.488
-

Risco
Bad
#Bons #Maus Total %Total
Relativo
Rate
1.683
101
60
161 26.8% 37.3%
0.931
161
173 334 55.7% 51.8%
0.567
38
67
105 17.5% 63.8%
0.378
51
135 186 31.0% 72.6%
0.724
76
105 181 30.2% 58.0%
1.500
21
14
35 5.8% 40.0%
3.304
152
46
198 33.0% 23.2%
0.753
189
251 440 73.3% 57.0%
2.059
35
17
52 8.7% 32.7%
2.375
76
32
108 18.0% 29.6%
1.156
259
224 483 80.5% 46.4%
0.539
41
76
117 19.5% 65.0%
0.996
271
272 543 90.5% 50.1%
0.611
11
18
29 4.8% 62.1%
1.800
18
10
28 4.7% 35.7%
0.640
57
89
146 24.3% 61.0%
2.118
36
17
53 8.8% 32.1%
0.897
52
58
110 18.3% 52.7%
1.548
96
62
158 26.3% 39.2%
0.500
2
4
6
1.0% 66.7%
1.125
9
8
17 2.8% 47.1%
0.409
9
22
31 5.2% 71.0%
5.000
5
1
6
1.0% 16.7%
0.853
29
34
63 10.5% 54.0%
1.000
5
5
10 1.7% 50.0%

-1.278

0.226

12

53

65

10.8% 81.5%

-0.487

0.911

154

169

323 53.8% 52.3%

1.000

28

28

56

2.120

106

50

156 26.0% 32.1%

0.720

67

93

160 26.7% 58.1%

1.010
1.243

105
128

104
103

209 34.8% 49.8%


231 38.5% 44.6%

0.729

94

129

223 37.2% 57.8%

0.448
-

1.226
1.080

179
27

146
25

325 54.2% 44.9%


52 8.7% 48.1%

9.3% 50.0%

(continua na prxima pgina)

69

Continuao da Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica Final,
juntamente as medidas descritivas: Risco Relativo, Nmero de Clientes bons (#Bons) e maus
(#Maus) , Total de clientes (Total) por categoria e Percentual de clientes da categoria em relao ao
total de clientes (%Total) e Percentual de Maus por categoria (dummy) (Bad Rate).
Varivel Preditora

Nveis (Varivel Dummy)

Prpria
Alugada ou Moradia gratuita
Desempregado ou empregado
com baixa qualificao
Empregado qualificado ou
Emprego
funcionrio pblico
Executivo, profissional liberal,
empregado altamente
qualificado ou oficial
Sim
Telefone Prprio
No
Sim
Estrangeiro
No
<12
12<= X<16
Durao do
emprstimo
16<= X<36
>=36
<1000
1000<= X<4000
Valor do Emprstimo
4000<= X<7500
>=7500
Taxa de juros
>=4
em % do valor do
<4
emprstimo
<3
Tempo de
3<= X<4
Residncia
>=4
<25
25<= X<30
30<= X<32
Idade
32<= X<35
35<= X<51
>=51
>=2
Nmero de
Dependentes
<2
Nmero de crditos
>=2
concedidos em seu
<2
banco
Moradia

Risco
Bad
#Bons #Maus Total %Total
Relativo
Rate
0.489
1.253
233
186 419 69.8% 44.4%
0.588
67
114 181 30.2% 63.0%
Coef.

1.286

81

63

144 24.0% 43.8%

0.946

176

186

362 60.3% 51.4%

0.843

43

51

94

15.7% 54.3%

1.858
0.960
0.678
1.003
1.686
0.926
-0.465

1.027
0.984
0.946
5.000
2.556
1.323
0.853
0.476
0.676
1.367
0.689
0.386
0.818

116
184
280
20
69
82
110
39
25
216
42
17
130

113
187
296
4
27
62
129
82
37
158
61
44
159

229
371
576
24
96
144
239
121
62
374
103
61
289

38.2%
61.8%
96.0%
4.0%
16.0%
24.0%
39.8%
20.2%
10.3%
62.3%
17.2%
10.2%
48.2%

49.3%
50.4%
51.4%
16.7%
28.1%
43.1%
54.0%
67.8%
59.7%
42.2%
59.2%
72.1%
55.0%

0.630
0.556
-

1.206
1.128
1.023
0.855
0.525
0.829
1.364
0.848
1.494
1.032
1.130
0.976
1.230

170
150
44
106
32
63
30
28
115
32
52
248
123

141
133
43
124
61
76
22
33
77
31
46
254
100

311
283
87
230
93
139
52
61
192
63
98
502
223

51.8%
47.2%
14.5%
38.3%
15.5%
23.2%
8.7%
10.2%
32.0%
10.5%
16.3%
83.7%
37.2%

45.3%
47.0%
49.4%
53.9%
65.6%
54.7%
42.3%
54.1%
40.1%
49.2%
46.9%
50.6%
44.8%

0.885

177

200

377 62.8% 53.1%

A anlise dos coeficientes do modelo logstico final mostra que as caractersticas


dos clientes (dummies), que individualmente contribuem para reduo no risco de
inadimplncia, em relao aos demais clientes, foram: Outros Emprstimos
(Nenhum), Salrio (Sem Remunerao), Outras dvidas ou garantias (Fiador),
Estado Civil e Sexo (Masculino solteiro), Moradia (Prpria), Estrangeiro (Sim),

70

Durao do emprstimo (<=16 meses), Valor do Emprstimo (<=$7500) Idade


(30<= X<32 e 35<= X<51).

Por outro lado, as caractersticas que individualmente apresentam maiores riscos


de inadimplncia, em relao aos demais clientes, so: Histrico de Crdito (sem
emprstimos tomados ou com todos os emprstimos pagos pontualmente ou com
emprstimos pagos pontualmente), Valor do Emprstimo (>=7500), Outros
Emprstimos (bancos e lojas), Durao do Emprstimo (>=16 meses) e taxa de
juros de mais de 4% do valor do emprstimo.

Algumas dummies com riscos relativos prximos a 1, consideradas com risco de


inadimplncia neutro, foram retiradas do modelo durante a seleo de variveis.
Estas dummies so: Histrico de Crdito (Histrico de atraso no pagamento),
Tempo de

Trabalho (1<=X<4 anos), Emprego (Empregado qualificado ou

funcionrio pblico), Telefone Prprio (Sim), Tempo de Residncia (3<= X<4) e


Nmero de Dependentes (<2).

5.2 Classificadores Bayesianos

Nesta Seo so descritos os resultados das aplicaes dos Classificadores


Bayesianos Naive Bayes, TAN e GBN em modelos de Credit Scoring, utilizando a
base de dados German Credit e Cross-Validation com 10 parties para a obteno
das amostras de desenvolvimento e de validao.

A seleo de variveis nos Classificadores Naive Bayes e TAN, descrita na Seo


4.3, passou por duas etapas: uma de filtragem pelo ganho de informao e outra de
seleo pelo mtodo Wrapper. As selees de variveis, inferncias, os
aprendizados de parmetros e de estrutura foram feitas utilizando o software WEKA.

As dummies da base de dados German Credit ordenadas por sua contribuio


para o ganho de informao da varivel resposta so mostradas na Tabela 10; e
desta tabela pode-se observar que a dummy Histrico de Crdito (Histrico de
71

atraso no pagamento) a que menos contribui para a previso dos clientes bons e
maus pagadores, seguida das dummies Tempo de

Trabalho (1<=X<4 anos) e

Outras dvidas ou garantias (Nenhuma), e assim por diante.

Da base de dados, foram retiradas 18 dummies, desde a varivel Histrico de


Crdito (Histrico de atraso no pagamento) at a varivel Outras dvidas ou
garantias (Co-aplicante). Os resultados dos Classificadores Bayesianos estimados
aps esta filtragem pelo ganho de informao. Aps a filtragem, os Classificadores
Naive Bayes e TAN passaram por uma seleo de variveis pelo mtodo Wrapper.
J os Classificadores GBN tiveram suas variveis selecionadas pelo Markov Blanket
da varivel resposta. Os resultados destes modelos sero apresentados nas Sees
5.3.1 a 5.3.4.
Tabela 10 - Variveis preditoras ordenadas pela sua contribuio individual para o ganho de
informao em relao varivel resposta (Cliente bom ou mau pagador).
Ganho de
Informao

VarivelPreditora (Nvel)

Ganho de
Informao

Salrio (X < $0)

0.067934

Poupana do Cliente (< $500)


Histrico de Crdito (Sem emprstimos tomados
ou todos os emprstimos pagos
pontualmente)
Valor do Emprstimo (1000<= X<4000)
Durao do emprstimo (<12)
Moradia (Prpria)
Bens (Imvel)

0.040192

Emprego (Desempregado ou empregado com


baixa qualificao)
Finalidade (Cursos)

0.037357

Valor do Emprstimo (<1000)

0.003132

0.028955
0.027069
0.021194
0.017302

0.003021
0.002325
0.002155
0.001905

Outros Emprstimos (Nenhum)

0.015834

Estrangeiro (Sim)
Idade (35<= X<51)
Idade (<25)

0.014534
0.013363
0.013051

Finalidade (Rdio e TV)

0.012013

Finalidade (Compra de carro novo)


Estado Civil e Sexo (Divorciado(a) ou separado(a)
ou mulher casada)
Finalidade (Compra de carro usado)
Estado Civil e Sexo (Masculino solteiro)
Poupana do Cliente (>= $500)
Salrio (0 <= X < 200 )
Finalidade (Educao)
Tempo de Trabalho (Desempregado ou menos
de 1 ano)
Taxa de juros em % do valor do emprstimo (<4)
Valor do Emprstimo (4000<= X<7500)
Nmero de crditos concedidos em seu banco
(>=2)
Durao do emprstimo (12<= X<16)

0.011215

Durao do emprstimo (16<= X<36)


Tempo de Residncia (<3)
Outras dvidas ou garantias (Co-aplicante)
Idade (25<= X<30)
Histrico de Crdito (Existem emprstimos
pagos pontualmente )
Salrio (X >=200)
Idade (30<= X<32)
Bens (Seguro de Vida, Carro e outros)
Emprego (Empregado qualificado ou
funcionrio pblico)
Finalidade (Utenslios domsticos)

0.010544

Idade (32<= X<35)

0.000549

0.009168
0.008808
0.008359
0.008025
0.007118

Finalidade (Negcios)
Nmero de Dependentes (>=2)
Finalidade (Mveis)
Telefone Prprio (Sim)
Finalidade (Reforma)

0.000534
0.000528
0.000482
0.000076
0.000073

0.006950

Outras dvidas ou garantias (Nenhuma)

0.000023

0.006760
0.005111

Tempo de Residncia (3<= X<4)


Tempo de Trabalho (1 <= X < 4 anos)
Histrico de Crdito (Histrico de atraso no
pagamento)
-

0.000016
0.000009

0.004545
0.004405

VarivelPreditora (Nvel)

0.003567
0.003532

0.001815
0.001799
0.001626
0.001170
0.000837
0.000825

0.000000
-

72

5.2.1 Classificador Naive Bayes


O desempenho dos Classificadores Naive Bayes em todas as etapas de seleo
de variveis, com relao s taxas de acerto da matriz de confuso, a estatstica
Kolmogorov-Smirnov e ao coeficiente Gini mostrado na Tabela 11.

Nos Classificadores Naive Bayes, a filtragem de variveis pelo ganho de


informao foi eficiente, pois a retirada das 18 variveis contribuiu para um modelo
mais parcimonioso (com menor nmero de variveis) e mais poderoso. A retirada das
variveis, que individualmente menos contribuam para o ganho de informao da
varivel resposta, auxiliou no aumento das taxas de acerto nas previses dos
clientes maus pagadores e no aumento das medidas de discriminao entre
clientes bons e maus pagadores (KS e Gini).
Tabela 11 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB) e dos clientes maus (TAM) e nmero de variveis dos Classificadores Naive Bayes
ajustados utilizando Cross-Validation.
Modelo

TAT

TAB

TAM

KS

Gini

N de
Variveis

Modelo Saturado
Filtragem pelo Ganho de Informao
Seleo Wrapper Forward
Seleo Wrapper Backward

72.00%
72.50%
74.00%
74.50%

68.30%
68.70%
73.00%
72.30%

75.70%
76.30%
75.00%
76.70%

44.33%
46.67%
48.33%
49.33%

56.83%
59.39%
54.28%
57.47%

48
31
12
28

Aps a filtragem, foi realizada a seleo de variveis pelo mtodo Wrapper e


utilizando a busca Forward Selection e Backward Elimination, para efeito de
comparao. Da Tabela 11, pode-se observar que as selees pelo mtodo Wrapper
apresentaram melhores desempenhos, do que os modelos saturado e com filtragem
de variveis, em relao assertividade das previses dos clientes bons e a
estatstica KS.

Apesar do modelo Naive Bayes com busca por Forward Selection ser o mais
parcimonioso, ser escolhido o Classificador Naive Bayes com seleo pelo mtodo
Wrapper com busca por Backward Elimination como o melhor modelo (Classificador
Naive Bayes final); e est indicado em negrito na Tabela 11. Pois, este o modelo
73

que discrimina um pouco melhor os clientes bons e maus pagadores, analisando a


estatstica KS e o coeficiente Gini, e tambm apresentou maior assertividade nas
previses dos clientes maus pagadores.

Para a aplicao do Classificador Naive Bayes final na populao original, foi


necessria a substituio da distribuio da varivel resposta Cliente pela sua
distribuio na amostra original, que P (Cliente = 1) = 0.7 e P (Cliente = 0) = 0.3 . Esta
substituio foi feita, pois a estimao do modelo foi feita a partir da amostra
balanceada, obtida por amostragem retrospectiva.

Apenas para ilustrar, apresentada na Figura 12 a estrutura da RB do


Classificador Naive Bayes final.

Figura 12 - Estrutura da Rede Bayesiana do Classificador Naive Bayes com seleo de variveis pelo
mtodo Wrapper com busca Backward Elimination.

A Tabela 12 contm as probabilidades condicionais de um cliente pretendente ao


crdito no se tornar inadimplente, em determinado perodo, dada observao de
uma varivel preditora (dummy), sem que haja alterao nos valores das demais
variveis. As probabilidades condicionais desta tabela informam o aumento na
probabilidade do cliente ser bom pagador, dada a observao de uma caracterstica
do cliente, sem que outras variveis do modelo recebam evidncias; e foram obtidas
por Inferncias utilizando o algoritmo Junction Tree.

74

Tabela 12 - Probabilidades dos clientes se tornarem bons e maus pagadores, dado a observao
dos nveis das variveis preditoras, sem que haja alterao nas categorias das demais variveis, do
Classificador Naive Bayes final.
VarivelPreditora

Nvel(varivel dummy)

Bens

Imvel
X < $0
0 <= X < 200
< $500
>= $500
Nenhum

Salrio
Poupana do Cliente
Outros Emprstimos
Outras dvidas
ou garantias

Co-aplicante

Compra de carro novo


Rdio e TV
Finalidade
Educao
Cursos
Sem emprstimos tomados
ou todos os
Histrico de Crdito
emprstimos pagos
pontualmente
Desempregado ou menos de
Tempo de Trabalho
1 ano
Divorciado(a) ou
separado(a) ou mulher
Estado Civil e Sexo
casada
Masculino solteiro
Moradia
Prpria
Desempregado ou
Emprego
empregado com baixa
qualificao
Estrangeiro
No
<12
Durao do
12<= X<16
emprstimo
16<= X<36
Valor do Emprstimo
<1000
Taxa de juros em % do
valor do
>=4
emprstimo
Tempo de Residncia
<3
<25
Idade
35<= X<51
Nmero de crditos
concedidos em seu
>=2
banco

P(Cliente=1| P(Cliente=0| P(Cliente=1| P(Cliente=0|


Categoria=1) Categoria=1) Categoria=0) Categoria=0)
0.796
0.204
0.659
0.341
0.472
0.528
0.778
0.222
0.629
0.371
0.728
0.272
0.638
0.362
0.839
0.161
0.824
0.176
0.686
0.314
0.729
0.271
0.560
0.440
0.596

0.404

0.705

0.295

0.601
0.782
0.504
0.875

0.399
0.218
0.496
0.125

0.729
0.667
0.709
0.697

0.271
0.333
0.291
0.303

0.360

0.640

0.731

0.269

0.628

0.372

0.724

0.276

0.630

0.370

0.737

0.263

0.741
0.745

0.259
0.255

0.647
0.580

0.353
0.420

0.749

0.251

0.683

0.317

0.907
0.854
0.755
0.666
0.615

0.093
0.146
0.245
0.334
0.385

0.688
0.664
0.681
0.722
0.709

0.312
0.336
0.319
0.278
0.291

0.656

0.344

0.738

0.262

0.724
0.554
0.776

0.276
0.446
0.224

0.677
0.723
0.660

0.323
0.277
0.340

0.741

0.259

0.674

0.326

Analisando Tabela 12 verifica-se que as dummies que contribuem para o


aumento no risco de inadimplncia, quando analisadas isoladamente em relao aos
demais clientes, so: Salrio (X < $0 ou 0 <= X < 200), Poupana do Cliente
(<$500), Outros Emprstimos (Bancos e Lojas), Outras dvidas ou garantias (Coaplicante), Finalidade (Compra de Carro Novo ou Educao), Histrico de Crdito
75

(Sem emprstimos tomados ou todos os emprstimos pagos pontualmente), Tempo


de Trabalho (Desempregado ou menos de 1 ano), Estado Civil e Sexo
(Divorciado(a) ou separado(a) ou mulher casada), Durao do Emprstimo (16<=
X<36), Moradia (Alugada ou Moradia gratuita), Valor do Emprstimo (<1000),
Taxa de juros em % do valor do emprstimo (>=4), Idade (<25) e Nmero de
crditos concedidos em seu banco(<2).

5.2.2 Classificador TAN

Os Classificadores bayesianos Tree Augmented Naive Bayes (TAN) foram


construdos aplicando a filtragem pelo ganho de informao, seguida da seleo pelo
mtodo Wrapper com busca por Backward Elimination. A Tabela 13 apresenta as
medidas do desempenho do Classificador TAN nas etapas de seleo de variveis.

Os aprendizados de estrutura realizados empregaram as cinco medidas, descritas


na Seo 3.1.2: MDL, Bayes, AIC, Bdeu e Entropia. No Classificador TAN, busca da
melhor estrutura restrita ao espao de estruturas do tipo rvore. Com isso, cada
varivel preditora (dummy) deve ter no mximo um pai, alm da varivel resposta
Cliente, ou seja, o pai de uma varivel ser outra dummy com maior dependncia
condicional, dada a varivel resposta.

O software Weka foi utilizado nas selees de variveis, aprendizados e


inferncias. A busca por Backward Elimination foi adotada no mtodo Wrapper, pois
era a nica disponvel no software Weka.

A anlise da Tabela 13 indica que a filtragem de variveis pelo ganho de


informao melhorou o desempenho dos Classificadores TAN, em relao a todas as
taxas de acerto e em relao s estatsticas KS e coeficiente Gini. No entanto, a
seleo de variveis pelo mtodo Wrapper piorou o desempenho dos Classificadores
TAN com aprendizado de estrutura utilizando as medidas MDL e AIC, em relao s
taxas de acerto dos clientes bons pagadores.

76

O Classificador TAN com aprendizado de estrutura utilizando a medida Bayes foi


selecionado como melhor Classificador (Classificador TAN final), pois foi o modelo
que apresentou maiores taxas de acerto nas previses dos maus e altos valores da
estatstica KS e do coeficiente Gini. O Classificador TAN final est indicado em
negrito na Tabela 13.
Tabela 13 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB) e dos clientes maus (TAM) e nmero de variveis dos Classificadores TAN com
aprendizado de estrutura utilizando diferentes medidas.

Medida

Modelo

Modelo Saturado
Filtragem
pelo Ganho
MDL
de Informao
Seleo Wrapper
Modelo Saturado
Filtragem pelo Ganho
Bayes
de Informao
Seleo Wrapper
Modelo Saturado
Filtragem
pelo Ganho
AIC
de Informao
Seleo Wrapper
Modelo Saturado
Filtragem
pelo Ganho
Bdeu
de Informao
Seleo Wrapper
Modelo Saturado
Entropia Filtragem pelo Ganho
de Informao
Seleo Wrapper

N de
Variveis
72.83% 70.00% 75.70% 47.00% 58.74%
48
TAT

TAB

TAM

KS

Gini

74.67% 71.30% 78.00% 50.67% 62.05%

31

73.17% 68.70% 77.70% 50.67% 61.61%


73.67% 71.70% 75.70% 47.67% 58.66%

27
48

75.17% 72.30% 78.00% 50.67% 61.29%

31

75.33% 71.00% 79.70% 51.33% 60.81%


72.83% 70.00% 75.70% 47.00% 58.73%

27
48

74.67% 71.30% 78.00% 50.67% 62.05%

31

73.17% 68.70% 77.70% 50.67% 61.59%


73.17% 72.00% 74.30% 46.67% 58.17%

27
48

74.50% 72.00% 77.00% 50.00% 60.85%

31

74.00% 72.30% 75.70% 50.00% 61.77%


72.83% 70.00% 75.70% 47.00% 58.73%

26
48

74.67% 71.30% 78.00% 50.67% 62.05%

31

73.17% 69.70% 77.70% 50.67% 61.59%

27

A estrutura da RB do Classificador TAN final (Figura 13) mostra claramente a


premissa do Classificador de que cada varivel preditora pode ter no mximo um pai
na RB, ou seja, a estrutura de um grafo de rvore. As variveis (dummies) do
Classificador TAN final, e seus respectivos pais, so apresentadas na Tabela 14.

77

Figura 13 - Estrutura da RB do Classificador TAN com aprendizado de estrutura utilizando a medida


Bayes e seleo de variveis pelo mtodo Wrapper com busca por Backward Elimination.
Tabela 14 - Variveis preditoras e respectivos pais do Classificador TAN final.
Varivel Preditora (Nvel)
Bens (Imvel)
Salrio (X < $0)

Pais (Nvel)
Durao do emprstimo
(X <12), Cliente
Tempo de Residncia (X <3),
Cliente

Label da Varivel
Preditora

Label de seus Pais

property_magnitude_1

duration_1, class

checking_status_1

Salrio (0 <= X < 200 )

Salrio (X < $0) , Cliente

checking_status_2

Poupana do Cliente
(X < $500)

Salrio (X < $0) , Cliente

savings_status_1

Histrico de Crdito (Sem


emprstimos tomados ou
todos os emprstimos
pagos pontualmente) ,
Cliente
Nmero de crditos concedidos
Outras dvidas ou garantias (Coem seu banco (X >=2) ,
aplicante)
Cliente
Finalidade
Finalidade (Rdio e TV) , Cliente
(Compra de carro novo)
Finalidade
Valor do Emprstimo (1000<=
(Compra de carro usado)
X <4000) , Cliente
Finalidade
Finalidade (Rdio e TV)
(Compra de carro usado) ,
Cliente
Outros Emprstimos
(Nenhum)

residence_since_1,
class
checking_status_1,
class
checking_status_1,
class

other_payment_plans

credit_history_1, class

other_parties_2

existing_credits, class

purpose_1

purpose_4, class

purpose_2

credit_amount_2, class

purpose_4

purpose_2, class

(continua na prxima pgina)

78

Continuao da Tabela 14 - Variveis preditoras e respectivos pais do Classificador TAN final.


Varivel Preditora (Nvel)

Pais (Nvel)

Label da Varivel
Preditora

Label de seus Pais

Finalidade (Educao)

Finalidade
(Compra de carro novo) ,
Cliente

purpose_7

purpose_1, class

Histrico de Crdito (Sem


emprstimos tomados ou
Salrio (0 <= X < 200 ) , Cliente
credit_history_1
todos os emprstimos pagos
pontualmente)
Tempo de Trabalho
Estado Civil e Sexo (Masculino
employment_1
(Desempregado ou
solteiro) , Cliente
menos de 1 ano)
Estado Civil e Sexo
Estado Civil e Sexo (Masculino
personal_status_1
(Divorciado(a) ou separado(a) ou
solteiro) , Cliente
mulher casada)
Estado Civil e Sexo (Masculino
Clientepersonal_status_2
solteiro)
Finalidade (Compra de carro
Moradia (Prpria)
housing
usado) , Cliente
Emprego (Desempregado ou
empregado com baixa
Bens (Imvel) , Cliente
job_1
qualificao)
Durao do emprstimo
Estrangeiro (No)
foreign_worker
(X <12) , Cliente
Durao do emprstimo
Durao do emprstimo (12<=
duration_1
(X <12)
X <16) , Cliente
Durao do emprstimo
Valor do Emprstimo
duration_2
(12<= X <16)
(X <1000) , Cliente
Valor do Emprstimo
Valor do Emprstimo (1000<=
credit_amount_1
(X <1000)
X <4000) , Cliente
Valor do Emprstimo
Valor do Emprstimo (4000<=
credit_amount_2
(1000<= X <4000)
X <7500) , Cliente
Valor do Emprstimo
Estado Civil e Sexo (Masculino
credit_amount_3
(4000<= X <7500)
solteiro) , Cliente
Taxa de juros em % do valor do
Valor do Emprstimo
installment_commitment
emprstimo (X <4)
(X <1000) , Cliente
Tempo de Residncia (X <3)
Moradia (Prpria) , Cliente
residence_since_1
Estado Civil e Sexo (Masculino
Idade (X <25)
age_1
solteiro) , Cliente
Nmero de crditos concedidos
Idade (X <25) , Cliente
existing_credits
em seu banco (X >=2)

checking_status_2,
class
personal_status_2,
class
personal_status_2,
class
Class
purpose_2, class
property_magnitude_1,
class
duration_1, class
duration_2, class
credit_amount_1, class
credit_amount_2, class
credit_amount_3, class
personal_status_2,
class
credit_amount_1, class
housing, class
personal_status_2,
class
age_1, class

As dependncias entre variveis preditoras obtidas do aprendizado de estrutura


sero analisadas a partir do clculo das probabilidades dos clientes se tornarem
bons (ou maus) pagadores, em determinado perodo, dada a observao das
variveis (filhos) e de seus pais, sem que as demais variveis recebam evidncias na
RB. Estas probabilidades so mostradas na Tabela 17.

Para efeito de comparao, tambm foram calculadas as probabilidades dos


clientes se tornarem inadimplentes (ou no), em determinado perodo, dada a

79

observao das variveis preditoras isoladamente, sem considerar o efeito das


demais, mostradas na Tabela 15.
Tabela 15 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de
cada varivel preditora isoladamente, no Classificador TAN com aprendizado utilizando a medida
Bayes e com seleo com o mtodo Wrapper com busca por Backward Elimination.
Varivel (Nvel)
Bens (Imvel)
Salrio (X < $0)
Salrio (0 <= X < 200 )
Poupana do Cliente (X < $500)
Outros Emprstimos (Nenhum)
Outras dvidas ou garantias (Co-aplicante)
Finalidade (Compra de carro novo)
Finalidade (Compra de carro usado)
Finalidade (Rdio e TV)
Finalidade (Educao)
Histrico de Crdito (Sem emprstimos tomados
ou todos os emprstimos pagos pontualmente)
Tempo de Trabalho
(Desempregado ou menos de 1 ano)
Estado Civil e Sexo (Divorciado(a) ou
separado(a) ou mulher casada)
Estado Civil e Sexo (Masculino solteiro)
Moradia (Prpria)
Emprego (Desempregado ou empregado com
baixa qualificao)
Estrangeiro (No)
Durao do emprstimo (X <12)
Durao do emprstimo (12<= X <16)
Valor do Emprstimo (X <1000)
Valor do Emprstimo (1000<= X <4000)
Valor do Emprstimo (4000<= X <7500)
Taxa de juros em % do valor do emprstimo
(X >=4)
Tempo de Residncia (X <3)
Idade (X <25)
Nmero de crditos concedidos em seu banco
(X >=2)

P(Cliente=1| P(Cliente=0| P(Cliente=1| P(Cliente=0|


Categoria=1) Categoria=1) Categoria=0) Categoria=0)
0.639
0.548
0.023
0.736
0.639
0.745
0.050
0.123
0.209
0.136

0.361
0.452
0.977
0.264
0.361
0.255
0.950
0.877
0.791
0.864

0.713
0.763
0.820
0.546
0.814
0.697
0.781
0.735
0.750
0.717

0.287
0.237
0.180
0.454
0.186
0.303
0.219
0.265
0.250
0.283

0.833

0.167

0.673

0.327

0.524

0.476

0.754

0.246

0.009

0.991

0.923

0.077

0.741
0.407

0.259
0.593

0.647
0.851

0.353
0.149

0.831

0.169

0.640

0.360

0.890
0.094
0.895
0.025
0.029
0.811

0.110
0.906
0.105
0.975
0.971
0.189

0.691
0.732
0.502
0.766
0.879
0.675

0.309
0.268
0.498
0.234
0.121
0.325

0.805

0.195

0.431

0.569

0.833
0.463

0.167
0.537

0.577
0.735

0.423
0.265

0.566

0.434

0.748

0.252

80

Tabela 16 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de
cada varivel preditora isoladamente, no Classificador TAN Classificador TAN com aprendizado
utilizando a medida Bayes e com seleo com o mtodo Wrapper com busca por Backward
Elimination.
Filhos (Nvel)

Pais (Nvel)

Durao do emprstimo
(X <12)
Tempo de Residncia
Salrio (X < $0)
(X <3)
Histrico de Crdito (Sem
Outros Emprstimos
emprstimos tomados ou
(Nenhum)
todos os emprstimos
pagos pontualmente)
Outras dvidas ou
Nmero de crditos
garantias
concedidos em seu banco
(Co-aplicante)
(X >=2)
Finalidade
Valor do Emprstimo
(Compra de carro usado)
(1000<= X <4000)
Histrico de Crdito (Sem
emprstimos tomados ou
Salrio (0 <= X < 200 )
todos os emprstimos
pagos pontualmente)
Tempo de Trabalho
Estado Civil e Sexo
(Desempregado ou
(Masculino solteiro)
menos de 1 ano)
Finalidade (Compra de
Moradia (Prpria)
carro usado)
Emprego (Desempregado
Bens (Imvel)
ou empregado com baixa
qualificao)
Durao do emprstimo
Estrangeiro (No)
(X <12)
Durao do emprstimo
Valor do Emprstimo
(12<= X <16)
(X <1000)
Valor do Emprstimo
Estado Civil e Sexo
(4000<= X <7500)
(Masculino solteiro)
Taxa de juros em % do
Valor do Emprstimo
valor do emprstimo
(X <1000)
(X >=4)
Tempo de Residncia
Moradia (Prpria)
(X <3)
Estado Civil e Sexo
Idade (X <25)
(Masculino solteiro)
Nmero de crditos
concedidos em seu banco
Idade (X <25)
(X >=2)
Bens (Imvel)

P(Cliente=1| P(Cliente=0| P(Cliente=1| P(Cliente=0|


Filho=1,Pai=1) Filho=1,Pai=1) Filho=1,Pai=0) Filho=1,Pai=0)

0.180

0.820

0.680

0.320

0.764

0.236

0.479

0.521

0.768

0.232

0.614

0.386

0.211

0.789

0.578

0.422

0.015

0.985

0.372

0.628

0.117

0.883

0.848

0.152

0.583

0.417

0.469

0.531

0.088

0.912

0.455

0.545

0.827

0.173

0.833

0.167

0.382

0.618

0.920

0.080

0.050

0.950

0.935

0.065

0.916

0.084

0.708

0.292

0.030

0.970

0.848

0.152

0.574

0.426

0.935

0.065

0.509

0.491

0.432

0.568

0.246

0.754

0.624

0.376

Analisando as estimativas das probabilidades condicionais das Tabela 15 e


Tabela 17, nota-se que a observao da varivel Histrico de Crdito (Sem
emprstimos tomados ou com todos os emprstimos pagos pontualmente)
isoladamente contribuiu para uma reduo no risco de inadimplncia, se comparada
aos demais clientes. No entanto, quando analisado o efeito de interao entre esta
varivel com seu pai na RB, Salrio (0<=X<200), observa-se outra interpretao. A
81

interao mostra que, entre os clientes sem emprstimos tomados ou com todos os
emprstimos pagos pontualmente (em dia), aqueles com salrio inferior a $200
possuem alto risco de inadimplncia, se comparados demais clientes com outras
faixas salariais e com mesmo histrico de crdito. Estes clientes com outras faixas
salariais e com mesmo histrico de crdito, por sua vez, possuem baixo risco de
inadimplncia, em determinado perodo. Com isso, fica clara a importncia de se
avaliar o efeito combinado entre variveis e de seus pais na RB.

As dependncias entre variveis indicadas no aprendizado de estrutura se


confirmam na amostra, pois seus riscos relativos (Tabela A. 10 do Apndice)
apresentaram valores superiores a 1, indicando alta associao entre as dummies
preditoras e seus pais.

A anlise das interaes entre variveis na RB permite a avaliao dos efeitos


da combinao de cada dummy preditora com seu pai na RB. Esta anlise
importante, pois pode levar a informaes a respeito do perfil de risco de
inadimplncia

que

no

podem

ser

observadas

analisando

as

variveis

individualmente, como pode ser observado anteriormente.

Analisando a Tabela 17, observa-se que as seguintes interaes contribuem para


maiores riscos de inadimplncia, enquanto individualmente a observao da dummy
preditora contribui para menores riscos de inadimplncia, em relao aos outros
clientes: varivel "Outras dvidas ou garantias(Co-aplicante) com pai "Nmero de
crditos concedidos em seu banco(X>=2), varivel "Histrico de Crdito(Sem
emprstimos tomados ou todos os emprstimos pagos pontualmente) com pai
Salrio(0<=X<200),

varivel

"Estrangeiro(Sim)

com

pai

"Durao

do

emprstimo(X<12), varivel "Durao do emprstimo(12<=X<16) com pai "Valor do


Emprstimo(X<1000), varivel "Taxa de juros em % do valor do emprstimo(X>=4)
com pai "Valor do Emprstimo(X<1000), varivel "Tempo de Residncia(X<3) com
pai "Moradia(Prpria).

82

5.2.3 Classificador GBN


No aprendizado aplicado para a obteno da estrutura do Classificador GBN a
partir da amostra balanceada da base de dados German Credit, foi empregado o
algoritmo Hill Climbing para a busca da estrutura que melhor descreva a base de
dados. As medidas utilizadas para avaliar as possveis estruturas durante sua busca
foram: MDL, Bayes, AIC, Bdeu e Entropia

O algoritmo Hill Climbing busca a melhor estrutura da RB, adicionando e


removendo arestas, alm de ajustar arestas reversas (verifica o sentido das arestas).
A melhor estrutura aquela que maximiza (ou minimiza) as medidas acima. A busca
no restrita a ordem das variveis, como ocorre no algoritmo K2.

Os Classificadores GBN, assim os Naive Bayes e TAN, tambm tiveram suas


variveis filtradas pelo seu ganho de informao varivel resposta Cliente. No
entanto, a Tabela A. 1 mostra que esta filtragem prejudicou o desempenho dos
aprendizados de estrutura com as medidas: AIC, Bdeu e Entropia. Por isso, os
Classificadores GBN tiveram suas variveis selecionadas somente pelo Markov da
varivel resposta, sem passarem pela etapa de filtragem.

O fraco desempenho da filtragem pelo ganho de informao evidencia que, as


variveis removidas individualmente podem contribuir menos para o ganho de
informao da varivel resposta, mas combinadas com outras variveis, elas podem
ser importantes para a classificao dos clientes bons e maus pagadores.

Analisando a Tabela 17, nota-se que a seleo de variveis pelo Markov Blanket
da varivel resposta melhorou o desempenho dos Classificadores GBN nos
aprendizados de estrutura empregando as medidas MDL, Bayes e Bdeu em relao
estatstica KS, coeficiente Gini e taxas de acerto.

Comparando os resultados destas trs medidas observam-se resultados distintos


entre elas, sendo que a medida Bdeu apresentou maiores valores para as taxas de
acerto (TAT, TAB e TAM), estatstica KS, coeficiente Gini e tambm apresentou
Classificador GBN mais parcimonioso (com 15 variveis).
83

Tabela 17 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB), dos clientes maus (TAM) e nmero de variveis dos Classificadores GBN com
aprendizado de estrutura utilizando diferentes medidas.
Medida
MDL
Bayes
AIC
Bdeu
Entropia

Modelo

TAT

TAB

TAM

KS

Gini

N de
Variveis

Modelo Saturado
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket
Seleo Markov Blanket

70.67%
73.00%
68.50%
71.67%
72.50%
70.33%
71.50%
74.67%
65.83%

69.30%
72.70%
65.30%
67.70%
70.30%
68.70%
71.30%
76.30%
67.70%

72.00%
73.30%
71.70%
75.70%
74.70%
72.00%
71.70%
76.30%
64.00%

42.00%
46.00%
40.00%
43.67%
45.33%
43.00%
44.67%
49.67%
33.00%

53.69%
59.40%
51.47%
57.03%
55.70%
54.54%
55.84%
58.84%
43.23%

48
16
48
30
48
37
48
15
48

O Classificador GBN com seleo de variveis pelo Markov Blanket e


aprendizado de estrutura utilizando a medida Bdeu ser chamado de Classificador
GBN final (em negrito na Tabela 17). Sua estrutura apresentada na Figura 14 e a
Tabela 18 mostra suas variveis e respectivos pais na RB. Observando a estrutura
do Classificador GBN, nota-se claramente a premissa do Classificador GBN de que a
varivel resposta no necessariamente pai de todas as variveis preditoras.

O desempenho dos Classificadores GBN com selees de variveis e


aprendizados de estrutura com as medidas AIC e Entropia apresentaram piores
resultados, em relao a todas as medidas de desempenho dos modelos.

Esta baixa performance verificada nos aprendizados de estrutura com as medidas


Entropia e AIC indicam que a escolha do Markov Blanket da varivel resposta no foi
adequada. Pois, a retirada das variveis de fora do Markov Blanket da varivel
resposta prejudicou o desempenho dos modelos, indicando que a resposta no
depende somente das variveis do seu Markov Blanket.

Este fraco desempenho ocorre devido ao nmero de variveis do modelo e ao


nmero de observaes da base de dados German Credit. Resultado semelhante a
estes tambm foi obtido por Friedman e Goldszmidt (1996), que observaram um
fraco desempenho nos Classificadores GBN em bases de dados com mais de 15
atributos. Os autores concluram que esta baixa assertividade e baixo poder
84

discriminante observados em alguns aprendizados dos Classificadores GBN podem


ocorrer devido ao grande nmero de dependncias avaliadas em conjuntos de dados
com mais do que 15 atributos.

Figura 14 - Estrutura da RB do Classificador GBN com aprendizado de estrutura utilizando a medida


BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta.

A interpretao do Classificador GBN final ser feita a partir da anlise das


probabilidades condicionais dos clientes se tornarem inadimplentes (ou no), em
determinado perodo, dada a observao de cada dummy preditora individualmente,
mostradas na Tabela 19.

A anlise das dependncias entre variveis preditoras ser realizada pela anlise
dos efeitos de interao entre dummies. Para isso, foram calculadas as
probabilidades dos clientes se tornarem bons (ou maus) pagadores, dada as
observaes das dummies preditoras e dada a observao (ou no) de seus pais na
RB, nas Tabela 20 e Tabela 21.

85

Tabela 18 - Variveis preditoras (dummies) e respectivos pais do Classificador GBN com aprendizado
de estrutura utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel
resposta.
Filho (Nvel)

Pais (Nvel)

Label Filhos

Cliente,
checking_status_1
Salrio (0 <= X < 200 )
Histrico de Crdito
Salrio (0 <= X < 200 )
(Sem emprstimos tomados ou todos os checking_status_2
emprstimos pagos pontualmente)
Poupana do Cliente (< $500)
Cliente
savings_status_1
Outros Emprstimos (Nenhum)
Cliente
other_payment_plans
Finalidade (Compra de carro
Valor do Emprstimo
purpose_2
usado)
(1000<= X<4000)
Finalidade (Educao)
Cliente
purpose_7
Cliente, Emprego (Empregado
Finalidade (Cursos)
purpose_8
qualificado ou funcionrio pblico)
Histrico de Crdito (Sem
emprstimos tomados ou
Cliente
credit_history_1
todos os emprstimos pagos
pontualmente)
Histrico de Crdito
Histrico de Crdito
(Sem emprstimos tomados ou todos os
credit_history_3
emprstimos pagos pontualmente),
(Histrico de atraso no
pagamento)
Valor do Emprstimo(4000<= X<7500),
Cliente
Cliente, Finalidade (Compra de carro
Moradia (Prpria)
housing
usado)
Emprego (Empregado
Salrio (0 <= X < 200 )
job_2
qualificado ou funcionrio
pblico)
Cliente,
Durao do emprstimo (<12)
duration_1
Valor do Emprstimo (4000<= X<7500)
Valor do Emprstimo
Valor do Emprstimo (4000<= X<7500)
credit_amount_2
(1000<= X<4000)
Valor do Emprstimo
credit_amount_3
(4000<= X<7500)
Valor do Emprstimo (1000<= X<4000),
Cliente
class
Finalidade (Compra de carro usado)
Salrio (X < $0)

Label Pais
class,
checking_status_2
credit_history_1
class
class
credit_amount_2
class
class, job_2

class

credit_history_1,
credit_amount_3,
class
class, purpose_2
checking_status_2
class,
credit_amount_3
credit_amount_3
credit_amount_2,
purpose_2

86

Tabela 19 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de
cada varivel preditora isoladamente, do Classificador GBN com aprendizado de estrutura utilizando a
medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta.
Varivel Preditora (Nvel)

P(Cliente=1| P(Cliente=0| P(Cliente=1| P(Cliente=0|


Categoria=1) Categoria=1) Categoria=0) Categoria=0)

Salrio (X < $0)


Salrio (0 <= X < 200 )
Poupana do Cliente (< $500)

0.4459
0.6845
0.6375

0.5541
0.3155
0.3625

0.7884
0.7067
0.8402

0.2116
0.2933
0.1598

Outros Emprstimos (Nenhum)

0.7296

0.2704

0.5588

0.4412

Finalidade (Compra de carro usado)


Finalidade (Educao)
Finalidade (Cursos)

0.1649
0.4964
0.8719

0.8351
0.5036
0.1281

0.6846
0.7096
0.6974

0.3154
0.2904
0.3026

Histrico de Crdito (Sem emprstimos


tomados ou todos os emprstimos
pagos pontualmente)

0.3529

0.6471

0.7313

0.2687

Histrico de Crdito (Histrico de atraso


no pagamento)

0.6964

0.3036

0.7005

0.2995

Moradia (Prpria)

0.7446

0.2554

0.5808

0.4192

Emprego (Empregado qualificado ou


funcionrio pblico)

0.7012

0.2988

0.6984

0.3016

Durao do emprstimo (<12)

0.8546

0.1454

0.6637

0.3363

Valor do Emprstimo (1000<= X<4000)

0.7524

0.2476

0.6078

0.3922

Valor do Emprstimo (4000<= X<7500)

0.6078

0.3922

0.7177

0.2823

Tabela 20 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de
cada varivel preditora isoladamente e dada a observao (ou no) de seus pais, do Classificador GBN
com aprendizado de estrutura utilizando a medida Bdeu e com seleo de variveis pelo Markov
Blanket da varivel resposta.
Varivel Preditora
(Nvel)

Pai (Nvel)

Histrico de Crdito
(Sem emprstimos tomados
Salrio (0 <= X < 200 )
ou todos os emprstimos
pagos pontualmente)
Finalidade (Compra de
Valor do Emprstimo
carro usado)
(1000<= X<4000)
Emprego
Finalidade (Cursos) (Empregado qualificado ou
funcionrio pblico)
Finalidade
Moradia (Prpria)
(Compra de carro usado)
Emprego (Empregado
Salrio (0 <= X < 200 )
qualificado ou
funcionrio pblico)
Durao do
Valor do Emprstimo
emprstimo (<12)
(4000<= X<7500)

P(Cliente=1|
P(Cliente=0|
P(Cliente=1|
P(Cliente=0|
Filho=1,Pai=1) Filho=1,Pai=1) Filho=1,Pai=0) Filho=1,Pai=0)

0.3529

0.6471

0.7313

0.2687

0.0232

0.9768

0.2666

0.7334

0.4525

0.5475

0.9591

0.0409

0.0648

0.9352

0.7302

0.2698

0.6845

0.3155

0.7067

0.2933

0.3089

0.6911

0.8653

0.1347

87

Tabela 21 - Probabilidades dos clientes proprietrios de imveis se tornarem inadimplentes (ou no),
dada observao (ou no) e seus pais, do Classificador GBN com aprendizado de estrutura
utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta.
Filho (Nvel)
Pai 1 (Nvel)
Pai 2 (Nvel)
P(Cliente=1|
P(Cliente=0|
Histrico de Crdito
Histrico de Crdito (Sem
Valor do
Filho,Pai1,Pai2) Filho,Pai1,Pai2)
(Histrico de atraso emprstimos tomados ou todos os
Emprstimo
no pagamento) emprstimos pagos pontualmente) (4000<= X<7500)
1
0
1
0.7276
0.2724
1
0
0
0.6741
0.3259
0
1
1
0.1575
0.8425
0
1
0
0.6335
0.3665
0
0
1
0.6176
0.3824
0
0
0
0.754
0.246

A anlise das Tabelas 19 a 21 indica que a varivel Moradia (Prpria) contribui


isoladamente para a reduo do risco de inadimplncia, em relao aos demais
estados de Moradia (Alugada) ou com Moradia (Gratuita). No entanto, a
interpretao da interao desta dummy combinada ao seu pai Finalidade(Compra
de carro usado), indica que, entre os clientes que possuem casa prpria, aqueles
que adquirem o emprstimo para a compra de carro usado apresentam maior risco
de inadimplncia, em relao aos demais clientes com moradia prpria.

Ser analisada a interao entre a dummy Histrico de Crdito (Histrico de


atraso no pagamento) e de seus pais na RB, as dummies: Histrico de Crdito
(Sem emprstimos tomados ou todos os emprstimos pagos pontualmente) e Valor
do Emprstimo(1000<= X<4000). Desta anlise, pode-se observar que, entre os
clientes com atraso no pagamento, aqueles que tambm possuem emprstimos
entre $4000 e $7500 apresentam menores riscos de inadimplncia, do que outros
clientes com outros valores de emprstimos e com mesmo histrico de crdito.

Alm disso, entre os clientes sem emprstimos tomados ou todos os emprstimos


pagos pontualmente, aqueles que tambm possuem emprstimos entre $4000 e
$7500 possuem um maior risco de inadimplncia, em relao aos clientes com
mesmo histrico de crdito e que contratam outros valores de emprstimo.

88

5.3 Comparao dos Modelos de Classificao

Nesta Seo, ser descrito o estudo comparativo das aplicaes dos


Classificadores Bayesianos e da Regresso Logstica em modelos de Credit Scoring.

Para a comparao dos modelos, foi construda a Tabela 22, com as medidas de
avaliao dos Classificadores Naive Bayes, TAN e GBN finais e da Regresso
Logstica com seleo de variveis por Forward Stepwise, calculadas a partir das
amostras de validao obtidas por Cross-Validation com 10 parties.
Tabela 22 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB), dos clientes maus (TAM) e nmero de variveis dos modelos de classificao finais.
Modelos de
Medida
Classificao
Regresso
Logstica
Naive Bayes

TAN

Bayes

GBN

Bdeu

Modelo

TAT

TAB

TAM

KS

Gini

Seleo por Forward


74.83% 74.00% 75.67% 50.33% 61.46%
Stepwise
Seleo Wrapper
74.50% 72.30% 76.70% 49.33% 57.47%
Backward
Seleo Wrapper e com
filtragem pelo Ganho 75.33% 71.00% 79.70% 51.33% 60.81%
de Informao
Seleo Markov Blanket 74.67% 76.30% 76.30% 49.67% 58.84%

N de
Variveis
28
28
27
15

A Tabela 22 mostra que as taxas de acerto total (TAT) dos modelos finais
apresentaram valores prximos. Mas, analisando a taxa de acerto dos maus, o
Classificador TAN final apresentou melhor desempenho, pois sua assertividade nas
previses dos clientes maus pagadores foi mais de 3% superior s taxas observdas
nos modelos de classificao.

Comparando as medidas Bayes, AIC, MDL, Bdeu e Entropia de avaliao da


estrutura durante seu aprendizado observa-se que, nos Classificadores TAN, a
medida Bayes apresentou resultados pouco melhores e os aprendizados com as
demais medidas no apresentaram diferenas significativas. Nos Classificadores
GBN tambm foi observado o mesmo resultado, exceto no aprendizado de estrutura

89

com a medida Entropia, que apresentou pior desempenho, em relao a todas as


taxas de acerto das previses, a estatstica KS e ao coeficiente Gini.

A filtragem de variveis pelo ganho de informao contribuiu um aumento nas


taxas de acerto das previses e no poder discriminante dos Classificadores Naive
Bayes e TAN. No entanto, esse resultado no foi observado nos Classificadores
GBN, pois algumas variveis podem no contribuir individualmente para o ganho de
informao da varivel reposta, mas combinadas com outras variveis, elas se
tornam importantes para a classificao dos clientes bons e maus pagadores.

Os Classificadores TAN e GBN permitem analisar as dependncias que possam


existir entre variveis preditoras, o que no pode ser feito no Classificador Naive
Bayes e na Regresso Logstica. As anlises dos efeitos de interao entre dummies
preditoras e seus pais na RB indicaram a presena de combinaes de variveis que
contribuem para aumentos nos riscos de inadimplncia dos clientes, enquanto a
observao individual da dummy contribui para uma reduo nos riscos de
inadimplncia. Com isso, a anlise dos efeitos de interao auxilia na identificao de
perfis de risco dos clientes.

90

6. CONCLUSES E TRABALHOS FUTUROS


Neste trabalho foram analisadas comparativamente aplicaes de Redes
Bayesianas (RB) e Regresso Logstica em modelos de Credit Scoring. Foram
avaliadas as RB conhecidas como Classificadores Bayesianos, com estruturas do
tipo: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network
(GBN).

Nos resultados observou-se que os Classificadores Naive Bayes, TAN e GBN


finais apresentaram desempenho similar ao da Regresso Logstica, em relao s
taxas de acerto totais, estatstica Kolmogorov-Smirnov e ao coeficiente Gini.

Alm disso, o Classificador TAN com aprendizado de estrutura empregando a


medida Bayes apresentou a maior taxa de acerto das previses dos clientes maus,
sendo esta 4% superior s observadas na Regresso Logstica. Portanto, o uso
deste modelo auxilia Instituies Credoras a reduzir erros em concesses incorretas
a clientes que possam se tornar inadimplentes, em determinado perodo.

Por isso, o Classificador TAN foi escolhido como o melhor modelo, pois
apresentou o melhor desempenho nas previses dos clientes maus pagadores e
permitiu uma anlise dos efeitos de interao entre variveis.

O uso das taxas de acerto obtidas da matriz de confuso auxiliou na identificao


das categorias de varivel resposta (cliente bom ou mau pagador) cujo modelo
mais

assertivo.

Podendo

ser

utilizadas

como

medidas

de

desempenho

complementares estatstica Kolmogorov-Smirnov e ao coeficiente Gini.

Uma contribuio deste trabalho est na anlise comparativa do uso das


medidas Bayes, AIC, MDL, Bdeu e Entropia no aprendizado de estrutura em RB. Nos
Classificadores TAN, o aprendizado de estrutura com a medida Bayes apresentou
resultados pouco melhores e os aprendizados com as demais medidas no
apresentaram diferenas significativas. Nos Classificadores GBN tambm foi
observado o mesmo resultado, exceto no aprendizado de estrutura com a medida
91

Entropia, que apresentou pior desempenho, em relao a todas as taxas de acerto


das previses, a estatstica KS e ao coeficiente Gini.

Outra contribuio deste estudo est em avaliar diferentes metodologias de


seleo de variveis nos Classificadores Bayesianos. Com isso, observou-se que a
filtragem de variveis pelo seu ganho de informao para a varivel resposta
contribuiu para uma melhora no desempenho dos Classificadores Naive Bayes e
TAN, pois auxiliou no aumento das taxas de acerto das previses e no poder
discriminante destes modelos. No entanto, este resultado no foi observado nos
Classificadores GBN. Portanto, nos Classificadores GBN no adequada a retirada
individual das variveis que menos contribuam para o ganho de informao da
varivel reposta, pois estas variveis na presena de outras podem tornar-se
importantes para o modelo de classificao.

A seleo de variveis pelo mtodo Wrapper com busca por Backward


Elimination, empregada nos Classificadores Naive Bayes e TAN, e a seleo das
variveis do Markov Blanket da varivel resposta Cliente, empregada nos
Classificadores GBN, auxiliaram no aumento da assertividade das previses e no
poder discriminante dos Classificadores, em relao ao modelo saturado (com todas
as variveis).

Apesar disso, os Classificadores GBN com selees de variveis pelo Markov


Blanket da varivel resposta e com aprendizados de estrutura utilizando as medidas
AIC e Entropia apresentam fracos desempenhos em todas as medidas de avaliao.
Este fato est associado ao grande nmero de dependncias avaliadas durante o
seu aprendizado de estrutura, que se agrava quando a base de dados possui um
grande nmero de variveis e um nmero restrito de observaes.

Este problema no observado nos aprendizados realizados no Classificador


TAN, pois a busca da sua melhor estrutura restrita ao espao de estruturas do tipo
rvore, na qual so avaliadas dependncias entre pares de variveis preditoras.
Portanto, no aprendizado dos Classificadores TAN avaliado um nmero menor de
dependncias, sendo mais adequado na presena de uma base de dados reduzida.

92

Os Classificadores TAN e GBN permitem a anlise de dependncias entre


variveis preditoras, assumindo premissas diferentes a respeito de sua estrutura.
Neste trabalho, esta anlise se resumiu anlise dos efeitos de interao entre
variveis dummy.

A anlise dos efeitos de interao indicou que algumas combinaes de dummies


(variveis preditoras) contriburam para aumentos nos riscos de inadimplncia,
enquanto a anlise individual das dummies indicou que sua observao reduz os
riscos de inadimplncia. O contrrio tambm foi observado, ou seja, algumas
combinaes dummies apresentaram altas probabilidades dos clientes se tornarem
bons pagadores, enquanto a observao individual da dummy contribuiu para o
aumento no risco de inadimplncia.

Portanto, a anlise dos efeitos de interao entre variveis na RB permitem


comparar combinaes de dummies com seu respectivo pai na RB e levou a
informaes a respeito do perfil de risco de inadimplncia, que no puderam ser
observadas na anlise individual das variveis (dummies).

Uma limitao observada neste trabalho est na presena de poucas


observaes na base de dados German Credit. Em Instituies Financeiras so
encontradas comumente bases de dados com grande nmero de observaes, com
isso proposta a aplicao dos Classificadores Bayesianos neste tipo de base.

Em trabalhos futuros tambm sugerida uma anlise mais detalhada da


variabilidade das parties da amostra de validao obtidas por Cross-Validation com
10-fold, a fim de se ter uma anlise da estabilidade dos Classificadores Bayesianos.

Para uma anlise mais detalhada das dependncias obtidas nos aprendizados de
estrutura, sugerida a aplicao de aprendizados a partir de uma estrutura
conhecida. A base de dados utilizada pode ser gerada a partir da distribuio
conjunta desta RB, podendo ser geradas amostras com diferentes nmeros de
observaes e com diferentes nmeros de variveis preditoras. Este estudo permitir
uma anlise da estabilidade dos Classificadores Bayesianos com alteraes em
parmetros amostrais.
93

Outra proposta de aplicao dos Classificadores Bayesianos a obteno de um


modelo hbrido a partir dos Classificadores e da Regresso Logstica, como tambm
foi feito no artigo de Arminger, Enache e Bonne (1997). O trabalho de Arminger,
Enache e Bonne (1997) avaliou um procedimento combinado de trs modelos
utilizando seus valores previstos e observados; e os modelos aplicados foram:
Regresso Logstica, rvore de Classificao e um tipo de Rede Neural chamada
Feedforward Network.

94

REFERNCIAS
AGRESTI, W.J. Practical nonparametric statistics. 3a ed. New York: John Wiley and
Sons, 1999. 584p.
ANDERSON, R. The Credit Scoring Toolkit: Theory and Practice for Retail Credit
Risk Management and Decision Automation. 1a ed. New York: Oxford University
Press, 2007. 731p.
ARMINGER, G.; ENACHE, D.; BONNE, T. Analyzing Credit Risk Data: A
Comparison of Logistic Discrimination, Classification Tree Analysis, and Feedforward
Networks. Computational Statistics, v.12, n.2, p.293-310, 1997.
BAESENS, B. et al. Learning bayesian network Classifiers for Credit Scoring Using
Markov Chain Monte Carlo Search. In: Proceedings of the 16th International
Conference on Pattern Recognition (ICPR'02), v.3, p.49-52, 2002.
BAESENS, B. et al. Bayesian network classifiers for identifying the slope of the
customer lifecycle of long-life customers. European Journal of Operational Research,
v. 127, n.2, p. 508-523, 2004.
BANCO CENTRAL DO BRASIL. Relatrio de Inflao. v.9, n.3. Braslia: 2007.
Disponvel
em:
<http://www.bcb.gov.br/htms/relinf/port/2007/09/ri200709P.pdf>
Acesso em: 02/12/2007.
BANCO CENTRAL DO BRASIL. Relatrio de Inflao. v.9, n.1. Braslia: 2007.
Disponvel
em:
<http://www.bcb.gov.br/htms/relinf/port/2007/03/ri200703P.pdf>
Acesso em: 02/12/2007.
BANCO CENTRAL DO BRASIL. Resoluo 2682. Braslia: Banco Central do Brasil,1999.

BLAKE, C.; MERZ, C. UCI repository of machine learning databases. 1998.


Disponvel em: <http://www.ics.uci.edu/~mlearn/MLRepository.html>. Acesso em: 01
dez. 2007
BOLFARINE, H ; SANDOVAL, M. C. Introduo Inferncia Estatstica. Rio de
janeiro: Sociedade Brasileira de Matemtica, 2001. 125 p.
BUNTINE, W. A Guide to the Literature on Learning Probabilistic Networks from
Data. IEEE Transactions on Knowledge Data Engineering. v.8, n.2, p.195-210, 1996.
CHANG, K.C. et al. Bayesian Networks applied to Credit Scoring. IMA Journal of
Mathematics Applied in Business an Industry, v.11, n.1., p.1-18, 2000.
CHENG,J.;GREINER,R. Comparing bayesian network classifiers. In: Proceedings of
the 15th Conference on Uncertainty in Artificial Intelligence (UAI'99). Morgan
Kaufmann, p.101-107, 1999.

95

CHENG,J.;GREINER,R. Learning Bayesian Belief Network Classifiers: Algorithms


and System. In: Proceedings of 14th Biennial Conference of the Canadian Society for
Computational Studies of Intelligence, v.2056, p.141-151, 2001.
CHICKERING, D.M.; GEIGER, D.; HECKERMAN, D.E. Learning Bayesian Networks
is NP-Hard. Microsoft Research Technical Report, MSR-TR-94-17, 1994.
CHOW, C.K.; LIU, C.N. Approximating discrete probability distributions with
dependence trees. IEEE Transactions on Information Theory, v.14, n.3, p. 462-467,
1968.
CONOVER, W.J. Practical nonparametric statistics. 3a ed. New York: John Wiley and
Sons, 1999. 584p.
EISENBEIS, R.A. Problems in Applying Discriminant Analysis in Credit Scoring
Models. Journal of Banking and Finance, v.2, p.205-219, 1978.
FOLHA ON LINE. Entenda a crise com o mercado imobilirio nos EUA. Folha de So
Paulo, 16/08/2007. Disponvel em:
<http://www1.folha.uol.com.br/folha/dinheiro/ult91u320606.shtml> Acesso em:
02/12/2007.
FOLHA ON LINE. Entenda a crise financeira que atinge a economia dos EUA. Folha
de So Paulo, 15/09/2008. Disponvel em:
<http://www1.folha.uol.com.br/folha/dinheiro/ult91u320606.shtml> Acesso em:
16/11/2008.
FRIEDMAN,N.;GEIGER,D.;GOLDSZMIDT,M. Bayesian Network Classifiers. Machine
Learning, v.29, p131-163, 1997.
FRIEDMAN,N.; GOLDSZMIDT,M. Building Classifiers Using Bayesian Networks. In:
Proceedings of Thirteenth National Conference on Artificial Intelligence (AAAI96),
v.2, p.1277-1284, 1996.
GIUDICI, P. Integration of Qualitative and Quantitative Operational Risk Data: A
Bayesian Approach. Operational Risk Modelling and Analysis: Theory and Practice,
p.131-138, 2004.
GOUVA, M.A.; GONALVES, E.B. Anlise de Risco de Crdito com o uso de
Modelos de Redes Neurais e Algoritmos Genticos. In: IX SEMEAD Seminrios em
Administrao, 2006.
GUYON, I.; ELISSEEFF, A. An Introduction to variable and feature selection. Journal
of Machine Learning Research, v.3, p.1157-1182, 2003.
HAND, D. J.; HENLEY; W. E. Statistical classification methods in consumer Credit
Scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in
Society), v.160, n.3, p.523-541, 1997.

96

HAND, D. J. Modelling Consumer Credit Risk. IMA Journal of Management


Mathematics, v.12, n.2, p.139-155, 2001.
HECKERMAN, D.; GEIGER, D.;CHICKERING, D. Learning Bayesian networks: The
combination of knowledge and statistical data. Machine Learning, v.20, n.3, p.197243, 1995.
HECKERMAN, D. Bayesian Networks for Data Mining. Data Mining and Knowledge
Discovery, v.1, p.79-119, 1997.
HECKERMAN, D. A tutorial on learning with bayesian networks. Data Mining and
Knowledge Discovery, v.1, p.79-119, 1997.
HOSMER, D.W.; LEMESHOW, S. Applied Logistic Regression. 1 ed. New York:
John Wiley, 1989. 392p.
JENSEN, F.V. Bayesian Networks and Decision Graphs. New York: Springer, 2001.
268p.
LANGLEY, P.; SAGE, S. Induction of Selective Bayesian Classifiers. In: Proceedings
of the 10th Annual Conference on Uncertainty in Artificial Intelligence (UAI-94). San
Francisco: Morgan Kaufmann, 1994. p. 399-406.
LECUMBERRI, L.F.L; DUARTE, A.M. Uma metodologia para o gerenciamento de
modelos de escoragem em operaes de crdito de varejo no Brasil. Revista de
Economia Aplicada, v.7,n.4, p. 795-818, 2003.
LOURENO, F. C. Vantagens do uso de mtodos quantitativos no ciclo do crdito.
Revista
Business
da
Equifax,
n.251,
2005.
Disponvel
em:
<http://www.equifax.com.br/rev_bus/05_abr/pag_pvi.asp>. Acesso em: 01dez.2007.
MADDEN, M. G. The performance of Bayesian network classifiers constructed using
different techniques. In: Proceedings of the 14th European Conference on Machine
Learning, Workshop on Probabilistic Graphical Models for Classification. p. 5970,
2003.
MARCHESINI, A Em 2008, volume de crdito deve somar 38% do PIB; juros cairo.
Infomoney, 23/11/2007. Disponvel em:
<http://web.infomoney.com.br/templates/news/view.asp?codigo=864761&path=/suasf
inancas/> Acesso em: 02/12/2007.
MATSUURA, J.P. Discretizao para Aprendizagem Bayesiana: Aplicao no Auxlio
Validao de Dados em Proteo ao Vo. 2003. 81p. Dissertao (Mestrado) Instituto Tecnolgico de Aeronutica, So Jos dos Campos, 2003.
MCCULLAGH, P; NELDER, J. A. Generalized Linear Models. 2 ed. London:
Chapman and Hall, 1989. 511p.
MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to Linear
Regression Analysis. 3 ed. New York: John Wiley, 2001. 672p.

97

NEAPOLITAN, R.E. Learning Bayesian Networks. New Jersey: Prentice Hall, 2004.
674 p.
PAIVA, P. Operaes de emprstimos j substituram aplicaes no mercado como
maior fonte de ganho das instituies. Estados de Minas, 19/11/2007. Disponvel
em:
<http://www.uasf.sebrae.com.br/uasfgestao/uasfnoticias/nov%202007/not3332/view >
Acesso em: 02/12/2007.
PAULA, G.A. (2004). Modelos de Regresso com Apoio Computacional. So Paulo:
Instituto de Matemtica e Estatstica Universidade So Paulo. 2004. 245p.
Disponvel em: <http://www.ime.usp.br/~giapaula/livro.pdf>. Acesso em: 01dez.2007.
PEREIRA, G. H. A. Modelos de Risco de Crdito de Clientes: Uma Aplicao a
Dados Reais. 2004. 96p. Dissertao (Mestrado) Instituto de Matemtica e
Estatstica, Universidade So Paulo, So Paulo, 2004.
POKU, K.A. Operational Risk management - Implementing a Bayesian Network for
Foreign Exchange and Money Market Settlement. 2005. 134p. Ph.D. Thesis - Faculty
of Economics and Business Administration, University of Gttingen, Alemanha, 2005.
ROSA, P. T. M. Modelos de Credit Scoring: Regresso Logstica, CHAID e REAL.
2000. 68p. Dissertao (Mestrado) Instituto de Matemtica e Estatstica,
Universidade So Paulo, So Paulo, 2000.
SAHEKI, A. H. Construo de uma Rede Bayesiana aplicada ao diagnstico de
doenas cardacas. 2005. 70p. Dissertao (Mestrado) Escola Politcnica,
Universidade So Paulo, So Paulo, 2005.
SECURATO, J. R. Crdito: Anlise e Avaliao do Risco Pessoas Fsicas e
Jurdicas. 1 ed. So Paulo: Saint Paul, 2002. 354 p.
SIQUEIRA, J. Expanso do crdito em 2007 supera estimativas do Ita. Reuters,
06/11/2007. Disponvel em:
<http://oglobo.globo.com/economia/mat/2007/11/06/327051496.asp> Acesso em:
02/12/2007.
VASCONCELLOS, M. S. Proposta de Mtodo para anlise de concesses de Crdito
a Pessoas Fsicas. 2002. 119p. Dissertao (Mestrado) - Faculdade de Economia,
Administrao e Contabilidade, Universidade de So Paulo, So Paulo, 2002.
ZHANG, N.; POOLE, D. Exploiting Causal Independence in Bayesian Network
Inference. Journal of Artificial Intelligence Research, v. 5, p. 301-328, 1996.
WEST, D. Neural Network Credit Scoring Models. Computers and Operations
Research, v. 27, n.11, pp. 1131-1152, 2000.
WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and
Techniques. 2 ed. San Francisco: Morgan Kaufmann, 2005. 525p.

98

APNDICE DE TABELAS
Tabela A. 1 - Nomes das variveis da base de dados German Credit.
Varivel

Nome original (em ingls)

Status of existing checking account


Salrio
Duration in months
Durao do Emprstimo
Credit history
Histrico de Crdito
Purpose
Finalidade
Credit amount
Valor do Emprstimo
Savings account/bonds
Poupana do Cliente
Present employment since
Tempo de Trabalho
Installment rate in
Taxa de juros
percentage of disposable income
em % do valor do emprstimo
Personal status and sex
Estado Civil e Sexo
Other debtors/guarantors
Outras dvidas ou garantias
Present residence since
Tempo de Residncia
Property
Bens
Age in years
Idade
Other installment plans
Outros Emprstimos
Housing
Moradia
Nmero de crditos concedidos em seu banco Number of existing credits at this bank
Job title
Emprego
Number of people being liable
Nmero de Dependentes
to provide maintenance for
Telephone
Telefone Prprio
Foreign worker
Estrangeiro
Classificao do cliente
Good or bad credit rating
como "bom" ou "mau" pagador

Tabela A. 2 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Histrico de Crdito, antes do agrupamento de algumas de suas categorias.
Nmero
de "bons"

Nmero
de "maus"

Sem emprstimos tomados


Todos os emprstimos pagos pontualmente
Existem emprstimos pagos pontualmente
Histrico de atraso no pagamento
Atraso no pagamento ou com emprstimos
tomados em outras Instituies

5
7
154
28

Total

Categoria

%maus

Risco
WOE
Relativo

25
28
169
28

1.67% 8.33%
2.33% 9.33%
51.33% 56.33%
9.33% 9.33%

0.200 -1.609
0.250 -1.386
0.911 -0.093
1.000 0.000

106

50

35.33% 16.67%

2.120

0.751

300

300

100.00% 100.00%

1.000

0.000

%bons

99

Tabela A. 3 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Bens, antes do agrupamento de algumas de suas categorias.
Nmero
Nmero
de "bons" de "maus"

Categoria

%bons

%maus

Risco
WOE
Relativo

20.00%
23.67%
34.00%
22.33%

1.683 0.521
0.930 -0.073
0.931 -0.071
0.567 -0.567

Imvel
Seguro de Vida
Carro ou outros
No possui bens

101
66
95
38

60
71
102
67

33.67%
22.00%
31.67%
12.67%

Total

300

300

100.00% 100.00%

1.000

0.000

Tabela A. 4 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Poupana do Cliente, antes do agrupamento de algumas de suas categorias.
Nmero
Nmero
de "bons" de "maus"

Categoria

%bons

%maus

Risco
Relativo

WOE

< $100
$100<= X < $500
$500<= X < $1000
>= $1000
No possui ou no conhecida

163
26
19
16
76

217
34
11
6
32

54.33%
8.67%
6.33%
5.33%
25.33%

72.33%
11.33%
3.67%
2.00%
10.67%

0.751
0.765
1.727
2.667
2.375

-0.286
-0.268
0.547
0.981
0.865

Total

300

300

100.00% 100.00%

1.000

0.000

Tabela A. 5 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Outros Emprstimos, antes do agrupamento de algumas de suas categorias.
Categoria

Nmero
de "bons"

Nmero
de "maus"

%bons

%maus

Risco
Relativo

WOE

Bancos
Lojas
Nenhum

32
9
259

57
19
224

10.67%
3.00%
86.33%

19.00%
6.33%
74.67%

0.561
0.474
1.156

-0.577
-0.747
0.145

Total

300

300

100.00%

100.00%

1.000

0.000

Tabela A. 6 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Tempo de Trabalho, antes do agrupamento de algumas de suas categorias.
Categoria

Nmero
Nmero
de "bons" de "maus"

%bons

%maus

Risco
Relativo

WOE

Desempregado
X < 1 ano
1 <= X < 4 anos
4 <= X < 7 anos
X >= 7 anos

19
48
105
46
82

23
70
104
39
64

6.33%
16.00%
35.00%
15.33%
27.33%

7.67%
23.33%
34.67%
13.00%
21.33%

0.826
0.686
1.010
1.179
1.281

-0.191
-0.377
0.010
0.165
0.248

Total

300

300

100.00%

100.00%

1.000

0.000

100

Tabela A. 7 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Moradia, antes do agrupamento de algumas de suas categorias.
Categoria

Nmero
de "bons"

Nmero
de "maus"

%bons

%maus

Risco
Relativo

WOE

Alugada
Prpria
Moradia gratuita

41
233
26

70
186
44

13.67%
77.67%
8.67%

23.33%
62.00%
14.67%

0.586
1.253
0.591

-0.535
0.225
-0.526

Total

300

300

100.00% 100.00%

1.000

0.000

Tabela A. 8 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Estado Civil e Sexo, antes do agrupamento de algumas de suas categorias.
Categoria

Risco
WOE
Relativo

Nmero
de "bons"

Nmero
de "maus"

%bons

%maus

15

20

5.00%

6.67%

0.750

-0.288

Masculino divorciado ou separado


Feminino divorciada,
separada ou casada
Masculino solteiro
Masculino casado ou vivo

79

109

26.33%

36.33%

0.725

-0.322

179
27

146
25

59.67%
9.00%

48.67%
8.33%

1.226
1.080

0.204
0.077

Total

300

300

100.00% 100.00%

1.000

0.000

Tabela A. 9 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Emprego, antes do agrupamento de algumas de suas categorias.

Categoria
Desempregado ou empregado com baixa
qualificao ou sem trabalho formal
Empregado com baixa qualificao e com
trabalho formal

Nmero Nmero
%bons
de "bons" de "maus"

%maus

Risco
WOE
Relativo

2.67%

2.33%

1.143

0.134

73

56

24.33% 18.67%

1.304

0.265

Empregado qualificado ou funcionrio pblico

176

186

58.67% 62.00%

0.946

Executivo, profissional liberal, empregado


altamente qualificado ou oficial

43

51

14.33% 17.00%

0.843

Total

300

300

100.00% 100.00%

1.000

0.055
0.171
0.000

101

Tabela A. 10 - Risco Relativo das variveis preditoras (dummies) e de seus pais no Classificador TAN
com aprendizado de estrutura utilizando a medida Bayes e com seleo com o mtodo Wrapper com
busca por Backward Elimination.

Varivel Preditora (Nvel)

Pais (Nvel)

Risco Relativo

Bens (Imvel)

Durao do emprstimo (X <12)

Salrio (X < $0)

Tempo de Residncia (X <3)

Poupana do Cliente (X < $500)

Salrio (X < $0)


Histrico de Crdito (Sem emprstimos
tomados ou todos os emprstimos pagos
pontualmente)
Nmero de crditos concedidos em seu
banco (X >=2)
Valor do Emprstimo
(1000<= X <4000)

2.654
0.516
2.641

Outros Emprstimos (Nenhum)


Outras dvidas ou garantias
(Co-aplicante)
Finalidade (Compra de carro usado)

Histrico de Crdito (Sem emprstimos


tomados ou todos os emprstimos pagos
Salrio (0 <= X < 200 )
pontualmente)
Tempo de Trabalho
Estado Civil e Sexo
(Desempregado ou menos de 1 ano)
(Masculino solteiro)
Estado Civil e Sexo (Masculino solteiro)
Finalidade
Moradia (Prpria)
(Compra de carro usado)
Emprego (Desempregado ou empregado
Bens (Imvel)
com baixa qualificao)
Estrangeiro (No)
Durao do emprstimo (X <12)
Durao do emprstimo (12<= X <16)
Valor do Emprstimo
(4000<= X <7500)
Taxa de juros em % do valor do
emprstimo (X <4)
Tempo de Residncia (X <3)
Idade (X <25)
Nmero de crditos concedidos em seu
banco (X >=2)

Valor do Emprstimo (X <1000)


Estado Civil e Sexo
(Masculino solteiro)

0.307
0.751
0.361
2.030
0.355
1.560
0.292
3.492
8.434
5.961
2.013

Valor do Emprstimo (X <1000)

2.923

Moradia (Prpria)
Estado Civil e Sexo
(Masculino solteiro)

3.974

Idade (X <25)

0.354

0.305

102

Tabela A. 11 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxa de acerto total (TAT), taxa de
acerto dos clientes bons (TAB), taxa de acerto dos clientes maus (TAM) e nmero de variveis dos
Classificadores GBN com aprendizado de estrutura utilizando diferentes medidas.

Medida

Modelo

Modelo Saturado
Seleo
Markov
Blanket com Filtragem
MDL
pelo Ganho de Informao
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket com Filtragem
Bayes
pelo Ganho de Informao
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket com Filtragem
AIC
pelo Ganho de Informao
Seleo Markov Blanket
Modelo Saturado
Seleo Markov Blanket com Filtragem
Bdeu
pelo Ganho de Informao
Seleo Markov Blanket
Seleo Markov Blanket
Entropia Seleo Markov Blanket com Filtragem
pelo Ganho de Informao

TAT

TAB

TAM

KS

Gini

N de
Variveis

70.67% 69.30% 72.00% 42.00% 53.69%

48

73.17% 71.30% 75.00% 47.00% 59.00%

13

73.00% 72.70% 73.30% 46.00% 59.40%


68.50% 65.30% 71.70% 40.00% 51.47%

16
48

70.83% 69.70% 72.00% 42.33% 51.79%

21

71.67% 67.70% 75.70% 43.67% 57.03%


72.50% 70.30% 74.70% 45.33% 55.70%

30
48

69.50% 69.00% 70.00% 39.67% 51.27%

30

70.33% 68.70% 72.00% 43.00% 54.54%


71.50% 71.30% 71.70% 44.67% 55.84%

37
48

60.17% 59.00% 61.30% 24.67% 27.26%

17

74.67% 76.30% 76.30% 49.67% 58.84%


65.83% 67.70% 64.00% 33.00% 43.23%

15
48

62.00% 65.00% 59.00% 29.33% 38.07%

31

103

You might also like