Dissertacao Cristiane Karcher Revisada PDF

CRISTIANE KARCHER
REDES BAYESIANAS APLICADAS ANLISE DO RISCO DE

CRDITO
So Paulo
2009
CRISTIANE KARCHER
REDES BAYESIANAS APLICADAS ANLISE DO RISCO DE

CRDITO
Dissertao apresentada Escola

Politcnica da Universidade de So
Paulo para obteno do ttulo de
Mestre em Engenharia
rea de Concentrao:
Engenharia Eltrica - Sistemas
Eletrnicos
Orientador: Prof. Livre-Docente

Flavio Almeida de Magalhes
Cipparrone
So Paulo
2009
Este exemplar foi revisado e alterado em relao verso original, sob

responsabilidade nica do autor e com a anuncia de seu orientador.
So Paulo, 28 de maro de 2009.
Assinatura do autor ___________________________
Assinatura do orientador _______________________
FICHA CATALOGRFICA
Karcher, Cristiane
Redes bayesianas aplicadas anlise do risco de crdito /
C. Karcher. -- ed.rev. --So Paulo, 2009.
103 p.
Dissertao (Mestrado) - Escola Politcnica da Universidade
de So Paulo. Departamento de Engenharia de Sistemas Eletrnicos.
1. Crdito 2. Estatstica para inteligncia artificial 3. Modelos
lineares generalizados 4. Inferncia estatstica I. Universidade de
So Paulo. Escola Politcnica. Departamento de Engenharia de
Sistemas Eletrnicos II. t.
DEDICATRIA
Dedico esse trabalho ao

Daniel pelo amor, compreenso e
incentivo ao longo de anos.
AGRADECIMENTOS
Ao professor Dr. Flvio Almeida de Magalhes s Cipparrone, pela orientao e
oportunidade de crescimento acadmico.
Ao professor Dr. Afonso de Campos Pinto pela orientao, apoio e incentivo

durante a preparao deste trabalho.
minha querida irm Viviane Karcher e aos amigos Paulo do Canto Hubert Jr,
Cludio de Nardi Queiroz e Pedro Savadovsky pelas contribuies a este trabalho.
empresa MAPS Solues & Servios pelo conhecimento, incentivo e

compreenso durante a preparao desse trabalho.
meus pais e minha av Esther pelo incentivo e pelas lies de vida.
EPGRAFE
Se quisermos progredir, no
devemos repetir a histria, mas
fazer uma histria nova.
(Mahatma Ghandi)
RESUMO
Modelos de Credit Scoring so utilizados para estimar a probabilidade de um

cliente proponente ao crdito se tornar inadimplente, em determinado perodo,
baseadas em suas informaes pessoais e financeiras. Neste trabalho, a tcnica
proposta em Credit Scoring Redes Bayesianas (RB) e seus resultados foram
comparados aos da Regresso Logstica. As RB avaliadas foram as Bayesian
Network Classifiers, conhecidas como Classificadores Bayesianos, com seguintes
tipos de estrutura: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General
Bayesian Network (GBN). As estruturas das RB foram obtidas por Aprendizado de
Estrutura a partir de uma base de dados real. Os desempenhos dos modelos foram
avaliados e comparados atravs das
taxas de acerto obtidas da Matriz de
Confuso, da estatstica Kolmogorov-Smirnov e coeficiente Gini. As amostras de

desenvolvimento e de validao foram obtidas por Cross-Validation com 10
parties. A anlise dos modelos ajustados mostrou que as RB e a Regresso
Logstica apresentaram desempenho similar, em relao a estatstica KolmogorovSmirnov e ao coeficiente Gini. O Classificador TAN foi escolhido como o melhor
modelo, pois apresentou o melhor desempenho nas previses dos clientes maus
pagadores e permitiu uma anlise dos efeitos de interao entre variveis.
Palavras-chave: Redes Bayesianas, Risco de Crdito, Regresso Logstica.
ABSTRACT
Credit Scoring Models are used to estimate the insolvency probability of a customer,
in a period, based on their personal and financial information. In this text, the
proposed model for Credit Scoring is Bayesian Networks (BN) and its results were
compared to Logistic Regression. The BN evaluated were the Bayesian Networks
Classifiers, with structures of type: Naive Bayes, Tree Augmented Naive Bayes (TAN)
and General Bayesian Network (GBN). The RB structures were developed using a
Structure Learning technique from a real database. The models performance were
evaluated and compared through the hit rates observed in Confusion Matrix,
Kolmogorov-Smirnov statistic and Gini coefficient. The development and validation
samples were obtained using a Cross-Validation criteria with 10-fold. The analysis
showed that the fitted BN models have the same performance as the Logistic
Regression Models, evaluating the Kolmogorov-Smirnov statistic and Gini coefficient.
The TAN Classifier was selected as the best BN model, because it performed better
in prediction of bad customers and allowed an interaction effects analysis between
variables.
Keywords: Bayesian Networks, Credit Risk, Logistic Regression.
LISTA DE ILUSTRACES
Figura 1 - Exemplo de Rede Bayesiana aplicada em diagnstico mdico. _______29
Figura 2 - Conexo Serial: X e Y esto d-separados se V recebeu uma evidncia. 31
Figura 3 - Conexo Divergente: X e Y esto d-separados se V recebeu uma
evidncia. ______________________________________________________31
Figura 4 - Conexo Convergente: X e Y esto d-separados se nem V nem seus
descendentes recebeu uma evidncia. _______________________________31
Figura 5 - Outro exemplo de Rede Bayesiana _____________________________32
Figura 6 - Estrutura do Classificador Naive Bayes com 5 atributos e uma classe __39
Figura 7 - Estrutura de um Classificador TAN com seis atributos e uma classe ___41
Figura 8 - Estrutura de um Classificador GBN com quatro atributos e uma classe _42
Figura 9 - Exemplo de curva ROC (Receiver Operating Characteristic). _________49
Figura 10 - Exemplo de clculo da estatstica Kolmogorov-Smirnov.____________50
Figura 11 Esquema das metodologias aplicadas neste trabalho. _____________52
Figura 12 - Estrutura da Rede Bayesiana do Classificador Naive Bayes com seleo
de variveis pelo mtodo Wrapper com busca Backward Elimination. _______74
Figura 13 - Estrutura da RB do Classificador TAN com aprendizado de estrutura
utilizando a medida Bayes e seleo de variveis pelo mtodo Wrapper com
busca por Backward Elimination. ____________________________________78
Figura 14 - Estrutura da RB do Classificador GBN com aprendizado de estrutura
utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da
varivel resposta. ________________________________________________85
LISTA DE TABELAS
Tabela 1 - Probabilidades Condicionais de "Doena" dado "Sintomas" e distribuio
de "Idade". _____________________________________________________30
Tabela 2 Matriz de confuso de um modelo de Credit Scoring. ______________47
Tabela 3 - Valores crticos da estatstica Kolmogorov-Smirnov aplicada em modelos
de Credit Scoring.________________________________________________51
Tabela 4 - Variveis da base de dados German Credit.______________________54
Tabela 5 - Exemplo de categorizao de uma varivel preditora. ______________56
Tabela 6 - Categorizao das variveis originalmente contnuas da base de dados
German Credit e clculo do Risco Relativo e Weights of Evidence (WOE) de
cada categoria.__________________________________________________58
Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente
categricas da base de dados German Credit, aps o agrupamento de alguns de
seus nveis. ____________________________________________________59
Tabela 8 - Estatstica KS, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB), dos clientes maus (TAM) e nmero de variveis dos modelos de
Regresso Logstica ajustados. _____________________________________67
Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica
Final, juntamente as medidas descritivas: Risco Relativo, Nmero de Clientes
bons (#Bons) e maus (#Maus), Total de clientes (Total) por categoria,
Percentual de clientes da categoria em relao ao total de clientes (%Total) e
Percentual de Maus por categoria (dummy) (Bad Rate). __________________69
Tabela 10 - Variveis preditoras ordenadas pela sua contribuio individual para o
ganho de informao em relao varivel resposta (Cliente bom ou mau
pagador). ______________________________________________________72
Tabela 11 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total
(TAT), dos clientes bons (TAB) e dos clientes maus (TAM) e nmero de
variveis dos Classificadores Naive Bayes ajustados utilizando Cross-Validation.
______________________________________________________________73
Tabela 12 - Probabilidades dos clientes se tornarem bons e maus pagadores,
dado a observao dos nveis das variveis preditoras, sem que haja alterao
nas categorias das demais variveis, do Classificador Naive Bayes final._____75
(TAT), dos clientes bons (TAB) e dos clientes maus (TAM) e nmero de
variveis dos Classificadores TAN com aprendizado de estrutura utilizando
diferentes medidas. ______________________________________________77
Tabela 14 - Variveis preditoras e respectivos pais do Classificador TAN final. ___78
Tabela 15 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a
observao de cada varivel preditora isoladamente, no Classificador TAN com
aprendizado utilizando a medida Bayes e com seleo com o mtodo Wrapper
com busca por Backward Elimination. ________________________________80

observao de cada varivel preditora isoladamente, no Classificador TAN
Classificador TAN com aprendizado utilizando a medida Bayes e com seleo
com o mtodo Wrapper com busca por Backward Elimination. _____________81
(TAT), dos clientes bons (TAB), dos clientes maus (TAM) e nmero de
variveis dos Classificadores GBN com aprendizado de estrutura utilizando
diferentes medidas. ______________________________________________84
Tabela 18 - Variveis preditoras (dummies) e respectivos pais do Classificador GBN
com aprendizado de estrutura utilizando a medida BDeu e com seleo de
variveis pelo Markov Blanket da varivel resposta. _____________________86
observao de cada varivel preditora isoladamente, do Classificador GBN com
aprendizado de estrutura utilizando a medida BDeu e com seleo de variveis
pelo Markov Blanket da varivel resposta. _____________________________87
observao de cada varivel preditora isoladamente e dada a observao (ou
no) de seus pais, do Classificador GBN com aprendizado de estrutura utilizando
a medida Bdeu e com seleo de variveis pelo Markov Blanket da varivel
resposta._______________________________________________________87
Tabela 21 - Probabilidades dos clientes proprietrios de imveis se tornarem
inadimplentes (ou no), dada observao (ou no) e seus pais, do
Classificador GBN com aprendizado de estrutura utilizando a medida BDeu e
com seleo de variveis pelo Markov Blanket da varivel resposta. ________88
(TAT), dos clientes bons (TAB), dos clientes maus (TAM) e nmero de
variveis dos modelos de classificao finais. __________________________89
LISTA DE ABREVIATURAS E SIGLAS

AIC
BAYES
GBN
KS
MDL
RB
Medida Akaikes Information Criterion

Medida Bayesian Dirichlet
Classificador Bayesiano General Bayesian Network
Estatstica Kolmogorov-Smirnov
Medida Minimal Description Length
Rede(s) Bayesiana(s)
ROC
Receiver Operating Characteristic
TAN
Classificador Bayesiano Tree Augmented Naive Bayes
12
SUMRIO
1. INTRODUO ___________________________________________________ 14
2. REVISO BIBLIOGRFICA_________________________________________ 19
2.1 Modelos de Credit Scoring_______________________________________ 19
2.2 Redes Bayesianas e Classificadores Bayesianos _____________________ 22
2.3 Redes Bayesianas aplicadas anlise do Risco de Crdito _____________ 25
3. FUNDAMENTAO TERICA ______________________________________ 27
3.1 Redes Bayesianas_____________________________________________
3.1.1 Inferncia em Redes Bayesianas _______________________________
3.1.2 Aprendizado em Redes Bayesianas _____________________________
3.2 Classificao Bayesiana ________________________________________
3.2.1 Classificador Naive Bayes _____________________________________
3.2.2 Classificador Tree Augmented Naive Bayes (TAN)__________________
3.2.3 Classificador General Bayesian Network (GBN) ____________________
3.3 Regresso Logstica ___________________________________________
3.4 Medidas de Avaliao dos Modelos de Classificao __________________
3.4.1 Matriz de Confuso __________________________________________
3.4.2 Coeficiente Gini _____________________________________________
3.4.3 Estatstica Kolmogorov-Smirnov ________________________________
27
32
34
39
39
41
42
43
46
47
48
49
4. METODOLOGIA _________________________________________________ 52
4.1
4.2
4.3
4.4
4.5
Base de Dados _______________________________________________

Categorizao das Variveis _____________________________________
Seleo das Variveis __________________________________________
Amostra de Desenvolvimento e Validao __________________________
Softwares Utilizados ___________________________________________
53
55
61
64
65
5. RESULTADOS___________________________________________________ 66
5.1 Regresso Logstica ___________________________________________
5.2 Classificadores Bayesianos ______________________________________
5.2.1 Classificador Naive Bayes _____________________________________
5.2.2 Classificador TAN ___________________________________________
5.2.3 Classificador GBN ___________________________________________
5.3 Comparao dos Modelos de Classificao _________________________
67
71
73
76
83
89
6. CONCLUSES E TRABALHOS FUTUROS ____________________________ 91

REFERNCIAS ____________________________________________________ 95
APNDICE DE TABELAS ____________________________________________ 99
13
1. INTRODUO
Neste trabalho proposta a aplicao de Redes Bayesianas (RB) na construo

de modelos de Credit Scoring e suas aplicaes sero comparadas com a
Regresso Logstica, que a tcnica mais aplicada atualmente em Credit Scoring
(ROSA, 2000). As RB avaliadas sero as Bayesian Network Classifiers (FRIEDMAN
et al., 1997), chamadas de Classificadores Bayesianos, que so RB aplicadas em
problemas de classificao de dados.
Os modelos de Credit Scoring so utilizados para estimar a probabilidade de um

cliente proponente ao crdito se tornar inadimplente, em determinado perodo, dadas
suas informaes pessoais e financeiras que possam influenciar na capacidade do
cliente em pagar a dvida. Esta probabilidade estimada, chamada de score com
valores entre 0 e 100, uma estimativa do risco de inadimplncia de um cliente em
determinado perodo.
No processo de concesso de crdito, quando um novo cliente solicita um crdito,

o mesmo fornece suas informaes cadastrais e financeiras que, juntamente s
variveis da operao, so utilizadas para lhe gerar um score de 0 a 100 pontos.
Este score poder, ento, ser utilizado na deciso de conceder ou no o crdito ao
cliente, a partir de um ponto de corte, acima do qual o pedido do cliente ser aceito.
O ponto de corte definido a partir da anlise dos erros de rejeitar um cliente bom
pagador e de aceitar um cliente mau pagador, em determinado perodo (erros do
tipo I e II, respectivamente), e tambm a partir da anlise da rentabilidade esperada
do cliente. Atualmente so utilizadas entre trs e cinco faixas de score para a
classificao dos clientes (entre trs e cinco), principalmente em funo do requerimento
imposto pela Resoluo 2682 (BANCO CENTRAL, 1999), exigindo que os clientes
tenham uma classificao de crdito com diferentes nveis de proviso.
Os modelos de Credit Scoring so utilizados no incio do relacionamento com o

cliente, perodo em que a Instituio mensura previamente o risco do proponente e
atribui a ele ou no linhas diferenciadas em funo do seu perfil. Os modelos de
Credit Scoring comearam a ser utilizados principalmente no segmento varejista do
14
crdito ao consumidor, que tem como caractersticas o grande volume de transaes,

o baixo valor unitrio por transao, spread de taxa de juros elevado e a necessidade
de velocidade na deciso (LOURENO, 2005).
Atualmente os Credit Scoring so considerados ferramentas importantes para

pr-qualificar os tomadores de crdito e auxiliar os gestores a tomar decises de
risco mais adequadas ao negcio. O uso destes modelos permite que a deciso
sobre a concesso ou no do crdito seja tomada de forma objetiva, padronizada e
imparcial, o que no garantido na anlise julgamental. Isto possibilita que o cliente
seja tratado de forma personalizada, independente do canal de atendimento.
Existem dois tipos de modelos de mensurao utilizados para estimar a

probabilidade de um cliente se tornar inadimplente, so eles (SECURATO, 2002):
Credit Scoring obtido a partir das informaes cadastrais fornecidas pelos

clientes tais como: tipo de residncia, nvel de renda, idade, ocupao, grau de
instruo, relacionamento com instituies financeiras, consultas aos bureaus1 de
crdito.
Behavioural Scoring um sistema de pontuao com base em anlise
comportamental e utiliza as informaes que a empresa j possui sobre o cliente na
renovao, manuteno ou concesso de uma nova linha de crdito. Pode incluir
informaes relacionadas aos hbitos de consumo, de pagamento, comprometimento
de renda etc.
Neste trabalho sero empregados somente os modelos de Credit Scoring
mencionados anteriormente. Nos modelos de Credit Scoring as variveis preditoras
so as informaes pessoais e financeiras fornecidas pelos clientes na proposta de
crdito e a varivel resposta a classificao do cliente de acordo com seu risco de
inadimplncia (cliente bom pagador ou mau pagador). No decorrer do texto, a
varivel resposta tambm pode ser chamada de classe e as variveis preditoras ou
explicativas tambm podem ser chamadas de atributos.
15
Na Estatstica e a Inteligncia Artificial existem diversas tcnicas utilizadas em

Credit Scoring tais como: rvores de Classificao, Redes Neurais, Anlise do
Discriminante Linear, Regresso Logstica. No entanto, o uso das Redes Neurais
ainda restrito, apesar de ser uma ferramenta poderosa de reconhecimento de
padres, devido a sua natureza de caixa preta, pois no se conhece as relaes de
dependncia entre as variveis do modelo e nem a contribuio de cada varivel.
RB so propostas para modelos de Credit Scoring, pois se tratam de modelos

probabilsticos nos quais so conhecidas as relaes entre as variveis do domnio,
ao contrrio de Redes Neurais. As RB utilizadas em problemas de classificao de
dados so chamadas de Classificadores Bayesianos e tm como objetivo prever a
classe de objetos que no foram classificados como, por exemplo, classificar um
novo cliente como bom ou mau pagador, de acordo com a observao de suas
variveis preditoras.
A implantao do Plano Real e o fim do perodo inflacionrio contriburam para o
reaquecimento da economia e o crescimento da demanda por crdito no Brasil. Nos
ltimos anos, as operaes de crdito do sistema financeiro apresentaram
crescimento expressivo observado pelo aumento da relao do volume total dos
emprstimos privados e o Produto Interno Bruto (PIB), que passou de 26,2% em
dezembro de 2003 para 33,7% em novembro de 2006 e para 34,6% em fevereiro de
2007 (BANCO CENTRAL, 2007). Para 2008, a Febraban (Federao Brasileira dos
Bancos) espera que a proporo chegue a 38% (MARCHESINI, 2007).
No Brasil, a concesso de crdito uma atividade financeira que vem crescendo

nos ltimos anos no Brasil. Os fatores favorveis para o aumento das concesses
so: condio de mercado, maior demanda, crescimento da economia, crescimento
de renda e nvel menor de inadimplncia (SIQUEIRA, 2007). Atualmente, o crdito j
corresponde metade do lucro dos bancos, sendo superiores aos ganhos com ttulos
do governo e tarifas (PAIVA, 2007).
A avaliao do risco de crdito tem sido bastante debatida em 2007 e 2008

devido crise financeira mundial, iniciada em maro de 2007 nos Estados Unidos
1
Bureaus de crdito so informaes de mercado a respeito do risco de crdito de um cliente.
16
com a crise no crdito imobilirio para o segmento de clientes subprime (de segunda
linha). O segmento de crdito subprime o dos clientes com renda muito baixa, por
vezes com histrico de inadimplncia e com dificuldade de comprovar renda. Como
os emprstimos a clientes subprime tm uma qualidade mais baixa, por terem maior
risco de no serem pagos, eles oferecem uma taxa de retorno mais alta, a fim de
compensar esse risco assumido pelos credores.
Em busca de rendimentos maiores, gestores de fundos e bancos compravam

esses ttulos subprime das instituies que fizeram o primeiro emprstimo, o que
permitia que uma nova quantia em dinheiro fosse emprestada, antes mesmo de o
primeiro emprstimo ser pago. Tambm interessado em lucrar, um segundo gestor
tambm poderia comprar o ttulo adquirido pelo primeiro, e assim por diante, gerando
uma cadeia de venda de ttulos. Porm, se a ponta (o tomador) no consegue pagar
sua dvida inicial, ele d incio a um ciclo de no-recebimento por parte dos
compradores dos ttulos. O resultado: todo o mercado passa a ter medo de
emprestar e comprar os subprime, o que termina por gerar uma crise de liquidez
(retrao de crdito). Nesta crise financeira mundial, o medo que com menos
crdito disponvel, caia o consumo e diminua o crescimento das economias (FOLHA
ON LINE, 2007).
Um dos primeiros reflexos da crise subprime foi, em setembro de 2007, quando

trs fundos do banco francs BNP Paribas tiveram suas negociaes suspensas por
no ser possvel avali-los com preciso, devido aos problemas no mercado
subprime americano. Depois desta medida, o mercado imobilirio passou a reagir em
pnico e algumas das principais empresas de financiamento imobilirio passaram a
sofrer os efeitos da retrao. A American Home Mortgage (AHM), uma das 10
maiores empresas do setor de crdito imobilirio e hipotecas dos EUA, pediu
concordata. Entre as vtimas mais recentes da crise, esto as duas maiores
empresas hipotecrias americanas, a Fannie Mae e a Freddie Mac, que possuem
quase a metade dos US$ 12 trilhes em emprstimos para a habitao nos EUA e,
em setembro de 2008, tiveram uma ajuda de at US$ 200 bilhes. Menos sorte teve
o banco Lehman Brothers, que no teve ajuda do governo dos EUA, como a que foi
destinada s duas hipotecrias, e pediu concordata. Como medida emergencial para
evitar uma desacelerao ainda maior da economia, j que 70% do PIB americano
17
movido pelo consumo, o presidente americano George W. Bush sancionou em

fevereiro de 2008 um pacote de estmulo que incluiu o envio de cheques de
restituio de impostos a milhes de norte-americanos. Em setembro de 2008, com o
agravamento o governo dos EUA lanou um pacote no valor de 600 bilhes de
dlares de estmulo economia e diversos pases da Europa adotaram medidas
similares para tentar salvar seus sistemas financeiros (FOLHA ON LINE, 2008).
Estes fatos observados na economia mundial alertam para a necessidade de uma

gesto eficiente e responsvel do risco de crdito pelas Instituies que concedem
crdito. Para isso, as Instituies adotam processos de concesso de crdito
baseados em modelos estatsticos para mensurao e gesto do risco de
inadimplncia de suas carteiras de crdito.
A deciso sobre a concesso ou no de um produto de crdito a um cliente

fundamental para o resultado financeiro da Instituio, j que o lucro dos credores
est diretamente associado proporo de clientes aprovados e ao percentual de
clientes que pagam as dvidas contradas. Atualmente, na crise financeira mundial,
podem-se observar os reflexos de uma gesto do risco de crdito com altos nveis de
inadimplncia assumidos por diversas Instituies Financeiras ao redor do mundo.
Este trabalho organizado em seis captulos: Introduo, Reviso Bibliogrfica,

Fundamentao Terica, Metodologia, Resultados e Concluso. No segundo captulo
h uma reviso bibliogrfica de modelos de Credit Scoring, RB e Classificadores
Bayesianos, alm de serem descritos artigos de aplicaes de RB aplicadas na
anlise do Risco de Crdito. No terceiro captulo ser apresentada a fundamentao
terica de RB, Classificadores Bayesianos, Regresso Logstica Mltipla e Medidas
de Avaliao dos Modelos de Classificao. A Metodologia empregada ser descrita
no quarto captulo e est divida em: amostra German Credit, categorizao das
variveis
preditoras,
seleo
de
variveis,
construo
das
amostras
de
desenvolvimento e de validao e softwares utilizados. No quinto captulo sero

apresentados e comparados os resultados das aplicaes dos Classificadores
Bayesianos e da Regresso Logstica em modelos de Credit Scoring. Finalmente, no
sexto captulo h a concluso deste estudo e sero propostos trabalhos futuros.
18
2. REVISO BIBLIOGRFICA
Neste captulo sero descritos alguns estudos sobre aplicaes de modelos de
Credit Scoring. Posteriormente, apresentaremos alguns estudos tericos e de
aplicaes de RB em problemas de classificao de dados, que a tcnica proposta
para modelos de Credit Scoring.
2.1 Modelos de Credit Scoring
Os modelos de Credit Scoring so utilizados para estimar a probabilidade de um

cliente proponente ao crdito se tornar inadimplente, em determinado perodo, dadas
suas informaes pessoais e financeiras que possam influenciar na capacidade do
cliente em pagar a dvida. Esta probabilidade atribuda a cada novo cliente
chamada de score, assumindo valores entre 0 e 100, e considerada uma estimativa
do risco de inadimplncia do cliente, em determinado perodo. Assim, o score do
cliente pode ser utilizado na deciso de conceder ou no o crdito, a partir de um
ponto de corte acima do qual o pedido do cliente ser aceito.
Com isso, do ponto de vista de modelagem estatstica, o problema de concesso

de crdito por uma Instituio a um cliente um problema prtico de classificao.
Inmeras tcnicas j foram aplicadas em Credit Scoring tais como: Regresso
Linear, Anlise Discriminante, Regresso Logstica, Redes Neurais, Algoritmos
Genticos, rvores de Deciso. Na literatura cientfica tambm existem diversos
estudos comparativos das aplicaes de diferentes tcnicas e alguns sero descritos
a seguir.
A Anlise Discriminante Linear foi um dos primeiros modelos de Credit Scoring.

Eisenbeis (1978) discute diversos problemas em aplicar Anlise Discriminante Linear
em Credit Scoring. Eisenbeis (1978) discutiu que um ponto desfavorvel ao uso
destes modelos est no fato das matrizes de varincias e covarincia das classes
bom e mau provavelmente no serem iguais. Alm isso, outro ponto desfavorvel
19
o fato das variveis explicativas no apresentarem normalidade multivariada, por

serem predominantemente categricas.
A Regresso Linear Mltipla outra tcnica utilizada na formulao de modelos

de Credit Scoring com resposta do tipo binria (bom ou mau). Hand (2001)
discutiu que em dados de Credit Scoring estes modelos apresentam problemas de
heterocedasticidade. Mas, a principal limitao apontada foi a de que os valores
estimados para a varivel de resposta no pertencem ao intervalo [0,1], podendo
assumir valores negativos e at mesmo maiores que um, o que no uma resposta
esperada.
Rosa (2000) apresentou a uma aplicao de Regresso Logstica no problema de

concesso de crdito em um produto de financiamento de veculos, comparada com
aplicaes de modelos baseados em rvores de deciso. Em seu trabalho, Rosa
(2000) concluiu que as ferramentas baseadas em rvore de deciso classificaram os
clientes de forma um pouco mais precisa, em relao s taxas de acerto nas
previses dos clientes bons e maus pagadores. No entanto, a Regresso
Logstica, que apresentou bons resultados tambm, possui a vantagem de ser um
modelo de fcil compreenso e interpretao dos parmetros. A Regresso Logstica
tambm tem a vantagem de produzir como resultado uma probabilidade, o que
permite a ordenao dos clientes quanto ao risco de inadimplncia.
Arminger, Enache e Bonne (1997) comparam aplicaes de Regresso Logstica,

rvore de Classificao e um tipo de Rede Neural chamada Feedforward Network.
Atravs da avaliao da proporo de classificaes corretas, o estudo concluiu que
o modelo de Regresso Logstica apresentou desempenho melhor do que os
modelos de rvore de Classificao e de Redes Neurais, sendo que os dois ltimos
modelos apresentaram resultados equivalentes. Os autores tambm propem um
procedimento combinado dos trs modelos utilizando seus valores previstos e
observados. Este procedimento apresentou resultados superiores aos obtidos nos
modelos de rvore de Classificao e de Redes Neurais, porm inferiores ao modelo
de Regresso Logstica.
20
West (2000) fez um estudo comparativo da aplicao em Credit Scoring de

diversos tipos de Redes Neurais e diversas tcnicas como: Regresso Logstica,
Anlise Discriminante Linear e rvores de Deciso. O estudo sugeriu que os modelos
de Redes Neurais apresentaram acurcia maior se comparados aos demais modelos
aplicados, mas necessitam de um conhecimento maior para a construo da
topologia e para realizar o treinamento da rede. O estudo tambm sugeriu que a
Regresso Logstica uma boa alternativa aos modelos de Redes Neurais. West
(2000) tambm mostra que os modelos de Regresso Logstica apresentaram
acurcia maior do que os modelos de Anlise Discriminante Linear nos dados
analisados e nesta base de dados os modelos de rvore de Deciso no apresentou
resultados satisfatrios.
Modelos de Credit Scoring, quando so aplicados em bases de dados diferentes,

podem apresentar resultados distintos devido s caractersticas da base de dados
empregada, tais como: a representatividade da amostra em relao populao
alvo, o nmero de observaes disponvel, alm de poderem apresentar
caractersticas particulares populao alvo. Por isso, recomendvel que os
modelos sejam comparados em uma mesma base de dados. No entanto, se os
modelos so aplicados em bases de dados diferentes possvel que alguns de seus
resultados sejam distintos, como observado nos modelos de rvores de Deciso e de
Redes Neurais em West (2000), Arminger, Enache e Bonne (1997) e Rosa (2000).
Hand e Henley (1997) elucidaram diversos cuidados para a aplicao de modelos

de Credit Scoring. Um problema de grande relevncia em Credit Scoring, apontado
no estudo, o do vis na amostra utilizada na construo dos modelos. Este
problema ocorre, pois somente as propostas de crdito que foram aceitas so
utilizadas nos modelos de Credit Scoring, o que torna a amostra de treinamento
viesada porque esta no contm toda a populao de clientes.
Os mtodos que procuram corrigir este vis amostral so conhecidos como

Inferncia dos Rejeitados e consistem em inferir qual seria o comportamento dos
indivduos rejeitados caso eles tivessem sido aprovados. Hand e Henley (1997)
tambm discutiram que a mudana na populao alvo dos modelos degrada o seu
21
desempenho e ocorre devido a presses econmicas e mudanas no ambiente

competitivo. Por isso, periodicamente novos modelos devem ser construdos.
Rosa (2000) e Hand e Henley (1997) tambm descreveram os cuidados na

definio da varivel resposta em modelos de Credit Scoring. A definio de um
cliente bom ou mau ou indeterminado depende da Instituio considerar este
cliente lucrativo ou no. Por exemplo, um cliente considerado bom se no
apresentou atraso em seus pagamentos e com isso ele pode trazer lucro ao credor.
Um cliente considerado mau se apresentou, por exemplo, atraso de mais do que
trs meses e com isso ele no lucrativo ao credor. Por fim, um cliente
indeterminado se puder ou no ser lucrativo ao credor. Apesar de um cliente poder
ser classificado em trs classes (bom, mau ou indeterminado), nos modelos de
Credit Scoring so utilizadas somente as classes bom e mau da varivel resposta,
ou seja, varivel resposta binria.
2.2 Redes Bayesianas e Classificadores Bayesianos
Redes Bayesianas (RB) so grafos acclicos e direcionados que permitem a

representao da distribuio de probabilidades conjunta de um conjunto de
variveis aleatrias. Cada vrtice do grafo representa uma varivel aleatria e as
arestas representam as dependncias diretas entre variveis. Uma RB possui a
seguinte premissa de independncia condicional: cada varivel independente das
variveis que no so suas descendentes no grafo, dada a observao de seus pais.
Em RB, estas premissas de independncia so exploradas para reduzir o nmero

de parmetros necessrios para caracterizar uma distribuio de probabilidades, e
para calcular de forma eficiente as probabilidades a posteriori dadas evidncias. Os
parmetros de uma RB so armazenados em tabelas de probabilidades condicionais
de cada varivel dado seus pais. A distribuio conjunta da RB determinada
unicamente pelas distribuies condicionais de cada varivel da RB dado seus pais,
pela Regra da Cadeia, que definida posteriormente na Seo 3.1.
22
A estrutura de uma RB, ou topologia do grafo, pode ser definida manualmente

com os relacionamentos entre variveis sendo definidos por especialistas ou pode
ser aprendida a partir de bases de dados utilizando algoritmos de aprendizado de
estrutura. Os parmetros de uma RB podem ser obtidos a partir do conhecimento de
probabilidades por especialistas, do aprendizado a partir de bases de dados ou pela
combinao de ambas as abordagens (NEAPOLITAN, 2004).
O aprendizado em RB tambm tem sido bastante estudado por diversos autores

como Neapolitan (2004), Buntine (1996) e Heckerman (1995).
RB aplicadas em problemas de classificao de dados so chamadas de

Classificadores Bayesianos. Estes modelos tm como objetivo descrever e distinguir
classes e tambm prever a classe de objetos que no foram classificados.
Neste trabalho sero descritos os seguintes Classificadores Bayesianos: Naive

Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN).
Os Classificadores Bayesianos mais simples so conhecidos como Naive Bayes

(FRIEDMAN; GEIGER; GOLDSZMIDT, 1997) e possuem a hiptese que todos os
atributos so independentes dado classe. Friedman e Goldszmidt (1996)
compararam a aplicao do Classificador Naive Bayes com o Classificador GBN (RB
Irrestritas), com aprendizado de estrutura utilizando a medida MDL, descrito Seo
3.1.2. O estudo concluiu que os Classificadores GBN apresentaram desempenho
significativamente superior ao Classificador Naive Bayes, mas apresentaram
desempenho pobre em bases de dados com mais de 15 atributos. Este fraco
desempenho observado nos Classificadores GBN com mais do que 15 atributos
deve-se ao grande nmero de parmetros destes Classificadores. Esta baixa
assertividade e baixo poder discriminante observados em alguns aprendizados dos
Classificadores GBN podem ocorrer devido ao grande nmero de dependncias
avaliadas em conjuntos de dados com mais do que 15 atributos.
Os
Classificadores
Naive
Bayes,
na
presena
de
variveis
altamente
correlacionadas (redundantes), podem ampliar desnecessariamente o peso da

evidncia destes atributos sobre a classe, o que pode prejudicar a assertividade das
23
classificaes. Com isso, Langley e Sage (1994) mostraram que a seleo de

variveis preditoras (atributos) atravs dos mtodos forward e backward melhorou a
acurcia do Classificador Naive Bayes em muitos casos.
Friedman, Geiger e Goldszmidt (1997), propuseram o Classificador Tree

Augmented Naive Bayes (TAN) como uma extenso ao Classificador Naive Bayes,
permitindo a anlise de interaes entre variveis preditoras desde que a estrutura
representada por estas variveis seja a estrutura de uma rvore. Portanto, o
Classificador TAN proposto encontra a relao entre atributos restrita ao espao de
estruturas do tipo rvores e esta busca pode ser feita em tempo polinomial (CHOW;
LIU, 1968).
Um problema que pode ocorrer nas aplicaes dos Classificadores bayesianos,

principalmente nos Classificadores BAN e GBN, o overfitting (superajuste)
(FRIEDMAN; GEIGER; GOLDSZMIDT, 1997) (CHENG; GREINER, 1999, 2001). Este
problema decorrente do grande nmero de parmetros que a rede bayesiana
construda pode apresentar e pode degradar o desempenho do Classificador. Para o
problema de overfitting.
Friedman et al (1997) propuseram o uso da medida MDL no aprendizado de

estrutura do Classificador Bayesiano GBN, pois a medida MDL capaz de regular a
complexidade da rede bayesiana pela penalizao daquelas que contenham muitos
parmetros, o que pode ajudar a evitar o problema de overfitting.
Para contornar o problema de overfitting, Cheng e Greiner (2001) propuseram

que no Classificador GBN fossem selecionadas as variveis preditoras do Markov
Blanket da varivel resposta (classe). A escolha do subconjunto de variveis do
Markov Blanket da varivel resposta, para compor o Classificador GBN, um
procedimento natural de seleo de atributos, pois as variveis do Markov Blanket da
classe protegem a varivel resposta da influncia de qualquer outra varivel de fora
do seu Markov Blanket.
A construo de Classificadores a partir de bases de dados de instncias
(observaes) pr-classificadas um problema muito estudado na rea Aprendizado
24
de Mquina (Machine Learning) (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997), que

a rea que combina Estatstica com Inteligncia Artificial (WITTEN; FRANK, 2005).
RB tm apresentado inmeras aplicaes acadmicas e na indstria. Na rea

financeira, Poku (2005) e Guidici (2004) constroem modelos causais utilizando RB
para a mensurao e gesto de Riscos Operacionais Financeiros. Poku (2005)
construiu modelos de RB combinando o conhecimento de especialistas com as
informaes de sries histricas de perdas operacionais. Para aes de Marketing,
Baesens et al. (2004) utilizaram RB para classificar clientes quanto ao seu potencial
de gasto e oferece a eles novos produtos ou vantagens. Especificamente neste
estudo, foram utilizados Classificadores bayesianos, RB aplicadas em problemas de
classificao, para prever o aumento ou diminuio do gasto futuro de um cliente
baseado nas em suas informaes iniciais de compras. As aplicaes de RB na
anlise de Risco de Crdito so descritas na Seo 2.3, a seguir.
2.3 Redes Bayesianas aplicadas anlise do Risco de Crdito
Sero descritos, a seguir, dois estudos de aplicaes dos Classificadores

bayesianos em modelos de Credit Scoring, o de Baesens et al. (2002) e o de Chang
et al. (2000). Algumas das metodologias de construo dos Classificadores
bayesianos empregadas neste trabalho se basearam nas metodologias empregadas
nestes dois artigos. As metodologias comuns e as contribuies do presente estudo,
em relao aos artigos de Baesens
et al. (2002) e Chang et al. (2000), sero
descritas a seguir, aps uma breve introduo a estes artigos.
O artigo de Baesens et al. (2002) descreveu a aplicao dos Classificadores

bayesianos Naive Bayes, TAN e GBN em modelos de Credit Scoring. O aprendizado
de estrutura empregado na construo dos Classificadores GBN utilizou a simulao
Markov Chain Monte Carlo (MCMC) e a seleo de variveis destes Classificadores
foi feita utilizando o Markov Blanket da varivel resposta (Cliente bom ou mau). As
principais concluses do estudo foram que os Classificadores GBN apresentaram um
25
bom desempenho em Credit Scoring e que a seleo de variveis pelo Markov

Blanket da varivel resposta resultou em modelos mais parcimoniosos e poderosos.
Chang et.al. (2000) descreveram a teoria de construo de escores a partir de

Classificadores Bayesianos. No artigo, foi construda uma RB aplicando aprendizado
de estrutura com busca da estrutura pela adio e remoo de arestas at que no
haja melhoria na razo de verossimilhanas (log-likelihood ratio). As variveis
preditoras originais (todas categricas) foram convertidas em variveis dummy
(variveis binrias) e foram selecionadas pelo Markov Blanket da varivel resposta.
Alm disso, foram obtidos os cliques da varivel resposta, que so subconjuntos de
variveis condicionalmente independentes, dada a observao da varivel resposta
dentro do seu Markov Blanket e, que formaram subconjuntos de variveis
interpretveis para o processo de concesso de crdito. Alm disso, as RB aplicadas
tambm foram comparadas ao modelo de Regresso Logstica Mltipla com seleo
de variveis por Forward Stepwise.
As metodologias em comum entre este trabalho e os trabalhos de Baesens et al.

(2002) e Chang et al. (2000) so: construo das amostras de desenvolvimento e de
validao por Cross-Validation com 10 parties (10-fold), seleo de variveis nos
Classificadores GBN pelo Markov Blanket da varivel resposta, converso das
variveis categricas originais em dummies (variveis binrias) e comparao do
desempenho dos Classificadores Bayesianos com o da Regresso Logstica.
A contribuio deste estudo est na aplicao mais abrangente dos

Classificadores Bayesianos, incluindo a aplicao de aprendizados de estrutura com
diferentes medidas de avaliao da estrutura, tais como: AIC, MDL, Bayes, Bdeu e
Entropia. Alm disso, tambm sero avaliados procedimentos de seleo de
variveis baseados na filtragem pelo ganho de informao e pelo mtodo Wrapper.
Adicionalmente, tambm ser abordada a categorizao de variveis contnuas e
agrupamento de nveis das variveis categricas com muitos nveis, baseada na
anlise bivariada do risco relativo e da medida WOE (Weights of Evidence).
26
3. FUNDAMENTAO TERICA
Neste captulo so descritos os principais conceitos da teoria de Redes

Bayesianas (RB) e uma introduo Inferncia e ao Aprendizado em RB. O
conhecimento do ferramental terico de RB importante para o entendimento dos
Classificadores Bayesianos, que na mais so do que RB aplicadas em problemas de
classificao de dados. Os Classificadores Bayesianos empregados sero: Naive
Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN),
descritos na Seo 3.2. Na Seo 3.3 ser apresentada parte da teoria de
Regresso Logstica Mltipla, que a tcnica comparada aos Classificadores
Bayesianos nas aplicaes em Credit Scoring. Por fim, na Seo 3.4, sero
apresentadas as medidas utilizadas para avaliar e comparar os modelos de
classificao, que so: as taxas de acerto obtidas da Matriz de Confuso, estatstica
Kolmogorov-Smirnov (KS) e coeficiente Gini.
3.1 Redes Bayesianas
Por definio, uma Rede Bayesiana (RB) composta dos seguintes elementos
(JENSEN, 2001):
i.
Um conjunto de variveis e um conjunto de arestas direcionadas entre as

variveis.
ii.
Cada varivel tem estados finitos e mutuamente exclusivos.
iii.
As variveis e as arestas direcionadas representam um grafo acclico

direcionado.
iv.
Cada varivel A, com pais B1 , B2 ,..., Bn , possui uma tabela de probabilidades

condicionais, P( A B1 , B2 ,..., B) , associada.
Em outras palavras, RB so grafos acclicos e direcionados que permitem a

representao da distribuio conjunta de probabilidades de um conjunto de
27
variveis aleatrias. Cada vrtice do grafo representa uma varivel aleatria e as

arestas representam dependncias entre variveis. Em uma RB, se h uma aresta
direcionada entre os ns A e B, ento dizemos que A pai de B e B filho de A.
Neste trabalho sero tratadas somente as RB com variveis discretas, mas a teoria a
respeito do tratamento de variveis contnuas em RB pode ser encontrada em
Neapolitan (2004).
RB com variveis discretas satisfazem a condio de Markov (NEAPOLITAN,

2004), que dada por: cada varivel da RB condicionalmente independente do
conjunto de todos os seus no-descendentes dado o conjunto de todos os seus pais.
Em uma RB, a distribuio conjunta de probabilidades de um conjunto de variveis
discretas {X 1 , X 2 ,..., X n } dada pela Regra da Cadeia,
P( X 1 , X 2 ,..., X n ) = P( X i Pai )
n
(1)
i =1
Os parmetros de uma RB so definidos como,
i = P ( X i Pa i )
i = 1,..., n
(2)
em que, i uma tabela de probabilidades condicionais de X i dado seus pais Pai.

Com isso, o conjunto de parmetros de uma RB dado por s = {1 , 2 ,..., n } e
so todas as tabelas de probabilidades condicionais da RB com variveis discretas
{X 1 , X 2 ,..., X n } .
Um importante aspecto de uma RB a sua estrutura (topologia do grafo), que
permite a representao de complexas relaes entre variveis de forma grfica e
intuitiva. A estrutura grfica de uma RB facilita o entendimento das relaes entre
variveis do seu domnio, alm de permitir o uso combinado de informaes obtidas
do conhecimento de especialistas com dados histricos para obter a distribuio
conjunta de probabilidades da rede.
A estrutura de uma RB pode ser determinada manualmente, com apoio de

especialistas, ou pode ser aprendida a partir de bases de dados utilizando algoritmos
28
de aprendizado de estrutura. Os parmetros de uma RB podem ser obtidos atravs

da elucidao2 de probabilidades por especialistas, atravs do aprendizado a partir
de bases de dados ou atravs da combinao de ambas as abordagens.
Na Figura 1 h um exemplo de RB, que utiliza variveis discretas, aplicada no

diagnstico de doenas. As variveis desta RB so {Idade (I), Profisso (P), Clima
(C), Doena (D), Sintomas (S)}.
Figura 1 - Exemplo de Rede Bayesiana aplicada em diagnstico mdico.
Na RB da Figura 1, o n Sintomas tem o n Doena como pai e trs ancestrais

Idade, Profisso e Clima. Atravs das premissas de independncia condicional,
podemos dizer que Sintomas dependente de Idade, Profisso e Clima
indiretamente atravs de sua influncia sobre Doena. Tomando o n Clima, que
no possui pai, ento podemos dizer que Clima independente de Profisso e
Idade. Aplicando a Regra da Cadeia, equao (1), a distribuio conjunta de
probabilidades desta RB dada por,
P(Idade, Profisso, Clima, Doena, Sintomas) = P(Idade).P(Profisso).P(Clima).

P(Doena | Idade, Profisso, Clima).P(Sintomas | Doena)
(3)
Utilizando somente as letras iniciais de cada varivel a equao (3) pode ser
reescrita como,
P(I,P,C,D,S) = P(I) . P(P) . P(C) . P(D |I,P,C) . P(S |D)
(4)
Pela Regra da Cadeia, as tabelas de probabilidades condicionais de cada varivel

da RB precisam ser especificadas para que se obtenha a distribuio de
Elucidao o procedimento de obteno de distribuies a partir do conhecimento de

especialistas.
29
probabilidades conjunta da RB. Com isso, na RB da Figura 1, necessrio

especificar
as
tabelas
P(Idade),
P(Profisso),
P(Clima),
P(Doena|Idade,Profisso,Clima) e P(Sintomas|Doena) para determinarmos a

distribuio conjunta de probabilidade P(Idade, Profisso, Clima, Doena, Sintomas).
Na Tabela 1, temos as tabelas P(Idade) e P(Sintomas|Doena). As probabilidades

apresentadas nestas tabelas tambm podem ser chamadas de parmetros, como
definimos previamente em (1). Note que a varivel Idade, que uma varivel
contnua, foi discretizada (ou categorizada) para criar uma varivel discreta binria.
Tabela 1 - Probabilidades Condicionais de "Doena" dado "Sintomas" e distribuio de "Idade".

Idade < 45
Idade 45
Sintomas
Dor de Estmago
Dor no Peito
Nenhuma
0.46
0.54
Doena
lcera no Estmago
Infarto
0.8
0.05
0.15
0.90
0.05
0.05
Nenhuma
0.05
0.10
0.85
Se no exemplo da Tabela 1, se no fossem utilizadas as suposies de RB e a

Regra da Cadeia, ao invs de 5 tabelas seria necessrio definir uma grande tabela
de probabilidades para obtermos a distribuio conjunta das 5 variveis. Com isso, a
RB fornece uma maneira de simplificar a representao de uma distribuio conjunta
de probabilidades.
RB tambm podem ser utilizadas para calcular novas probabilidades (a posteriori)

a partir de informaes (evidncias) sobre uma ou mais variveis da rede. Em uma
RB, um subconjunto de variveis E com valores conhecidos, E=e, em uma dada
situao, conhecido como conjunto de evidncia, ou simplesmente evidncia, por
exemplo, E={X2=x2,X6=x6}. Tambm podemos dizer que uma varivel est
instanciada (evidncia forte) se conhecemos o estado desta varivel.
Um conceito importante em RB o de d-separao. Segundo Jensen (2001),

dizemos que dois vrtices distintos X e Y esto d-separados em uma RB se, para
30
todos os caminhos entre X e Y existe um vrtice intermedirio V (distinto de X e Y) tal

que a conexo entre X e Y atravs de V:
serial ou divergente e V recebeu uma evidncia ou;

convergente e nem V nem algum de seus descendentes receberam
uma evidncia.
Figura 2 - Conexo Serial: X e Y esto d-separados se V recebeu uma evidncia.
Figura 3 - Conexo Divergente: X e Y esto d-separados se V recebeu uma evidncia.
Figura 4 - Conexo Convergente: X e Y esto d-separados se nem V nem seus descendentes

recebeu uma evidncia.
Em RB se dois vrtices quaisquer esto d-separados ento eles so

condicionalmente independentes. Atravs do conceito de d-separao possvel
identificar a condio de independncia condicional entre variveis em uma RB.
Outro conceito importante em RB o de Markov Blanket. O Markov Blanket de

uma varivel X o conjunto das variveis que so pais de X, filhos de X e as
variveis que compartilham um filho com X (JENSEN, 2002). Com isso, se todas as
variveis do Markov Blanket de X possuem evidncias, ento X est d-separado de
todas as outras variveis da RB e, conseqentemente, X condicionalmente
independente de todas as outras variveis da rede, dado seu Markov Blanket. No
exemplo da Figura 5, o Markov Blanket de I {C, E, K, L, H}.
31
Em uma RB, qualquer varivel influenciada diretamente somente pelas

variveis que compe o seu Markov Blanket. Com isso, o conceito de Markov Blanket
pode ser utilizado para seleo de variveis em RB, como descreveremos na Seo
3.2.4.
Figura 5 - Outro exemplo de Rede Bayesiana
3.1.1 Inferncia em Redes Bayesianas

A Inferncia em RB o processo de atualizao das probabilidades a posteriori
de variveis dado uma evidncia fornecida. Em RB, a evidncia pode ser definida
para qualquer subconjunto de ns e a probabilidade a posteriori pode ser calculada
para qualquer outro subconjunto de ns.
Como uma RB contm a distribuio de probabilidade conjunta de todas as

variveis do seu domnio, ento possvel obter a distribuio de probabilidades de
qualquer varivel do seu domnio a partir da Regra da Probabilidade Total (Apndice
A). No exemplo de RB da Figura 1, a distribuio da varivel Doena (D), pela
Regra da Probabilidade Total, dada (inferida) por,
P( D = d ) = P( I = i, P = p, C = c, D = d , S = s)
i
d (5)
32
Pela Regra da Cadeia, a equao (5) pode ser escrita como,

P ( D = d ) = P ( I = i).P ( P = p ) P (C = c ).P ( D = d I = i, P = p, C = c ) P ( S = s D = d ) d (6)
i
em que, i, p, c, d e s representam, respectivamente, cada estado das variveis

Idade, Profisso, Clima, Doena, Sintoma.
Segundo Zhang e Poole (1996), Inferncia em uma RB se refere ao processo de

clculo da probabilidade a posteriori P( X Y = Yo ) de um conjunto de variveis X
depois de obter algumas observaes (evidncia) Y=Y0. Aqui Y uma lista de
variveis observadas e Y0 a lista de valores observados. Pelo Teorema de Bayes,
P( X Y = Yo ) dada por,
P ( X Y = Yo ) =
P ( X , Y = Yo )
P (Y = Yo )
(7)
Com isso, P( X Y = Yo ) obtida a partir da distribuio marginal P ( X , Y ) , que por

sua vez calculada a partir da distribuio conjunta P( X 1 , X 2 ,..., X n ) pela soma de
probabilidades de todas as variveis fora do domnio de X Y uma por uma. No
entanto, isso no vivel, pois esta soma fora do domnio de X Y requer um
nmero exponencial de adies (ZHANG; POOLE, 1996).
Para exemplificar o procedimento de Inferncia utilizaremos o exemplo de RB da

Figura 1. Dada uma evidncia E=e={Idade=<45; Sintoma=Dor de estmago},
queremos obter distribuio a posteriori da varivel Doena (D) que ,
P ( D = d ' E = e) =
P ( D = d ' , E = e) P ( D = d ' , I =' < 45' , S =' Dor de estmago' )

=
P ( E = e)
P ( I =' < 45' , S =' Dor de estmago' )
d ' (8)
que igual a,
P( I =' < 45' , P = p, C = c, D = d ' , S =' Dor de estmago' )

P ( D = d ' E = e) =
P( I =' < 45' , P = p, C = c, D = d , S =' Dor de estmago' )

p
d ' (9)
Aplicando a Regra da Cadeia o numerador da equao (9) pode ser escrito

como,
P( I =' < 45' ).P( P = p) P(C = c).P( D = d ' I =' < 45' , P = p, C = c) P(S =' Dor de estmago' D = d ' )
p
(10)
33
O denominador da equao (9) pode ser escrito como,
P( I =' < 45' ).P ( P = p) P(C = c).P ( D = d I =' < 45' , P = p, C = c) P( S =' Dor de estmago' D = d ) (11)
em que p, c, d representam, respectivamente, cada estado das variveis Idade,

Profisso, Clima e Doena.
Para diminuir o tempo necessrio para o clculo das probabilidades a posteriori,

diversos algoritmos de Inferncia tm sido propostos. Existem dois tipos de
algoritmos de Inferncia em RB: os exatos e aproximados. Entre os algoritmos
exatos destaca-se o algoritmo Junction Tree proposto por Jensen (1991), que
baseado em Teoria dos Grafos. Os algoritmos de Inferncia exatos podem no ser
eficientes em redes com um grande nmero de ns e arestas, pois o problema de
Inferncia NP-hard (ZHANG; POOLE, 1996). Para estes casos, podem ser
utilizados algoritmos aproximados, baseados em simulao estocstica, tais como:
Forward Sampling, Likelihood Weighting, Gibbs Sampling, Metropolis-Hasting
(NEAPOLITAN, 2004).
Apesar da complexidade inerente do procedimento de Inferncia, sistemas que

possuem RB como base de conhecimento tm se mostrado muito eficientes e tm
sido muito difundidos ganhando importncia inclusive em reas comerciais. Os
sistemas Hugin, Netica e JavaBayes so exemplos destes sistemas.
3.1.2 Aprendizado em Redes Bayesianas

A estrutura e os parmetros de uma RB podem ser obtidos de duas maneiras: a
partir de informaes de especialistas ou aprendizado a partir de uma base de
dados. Tambm possvel a combinao das duas alternativas para o aprendizado
de parmetros. A utilizao de informaes de especialistas pode ser muito
trabalhosa, principalmente para determinar os parmetros, pois necessrio obter
um grande nmero de probabilidades. O aprendizado a partir de uma base de dados
requer, alm da base de dados em si, um algoritmo de aprendizado de parmetros e
de estrutura.
34
Dado uma base de dados de treinamento D com observaes independentes de

um conjunto de variveis discretas X e alguma informao a priori (obtida a partir de
informaes de especialistas), o problema de aprendizado em RB consiste em
encontrar a estrutura Sh e parmetros S que melhor expliquem os dados contidos
em D.
Existe uma variedade de ferramentas de aprendizado em RB, para estruturas

conhecidas e desconhecidas, para bases de dados completas e incompletas. O caso
em que a estrutura da RB conhecida o mais simples, pois necessrio aprender
somente as tabelas de probabilidade condicionais (parmetros) da RB. O caso em
que a estrutura da RB desconhecida mais complexo, pois necessrio aprender
a estrutura e posteriormente as tabelas de probabilidade condicionais da RB.
Conhecida a estrutura Sh de uma RB com parmetros independentes
s = {1 , 2 ,...., n } , em que i so as tabelas de probabilidades P ( X i Pa i , i , S h ) e,
dado uma base de dados completa D de exemplos independentes de um conjunto de
variveis discretas {X 1 , X 2 ,..., X n } , o problema de aprendizado de parmetros se
resume a calcular a distribuio a posteriori P( S D, S h ) que dada por,
n
P ( S D, S ) = P ( i D, S h )
h
(12)
i =1
A obteno dos parmetros a partir de bases de dados pode ser feita atravs da
simples contagem de freqncias (NEAPOLITAN, 2004) ou a partir da abordagem
combinada de dados observados em D com alguma informao a priori de
especialistas. Esta abordagem combinada baseada em distribuies de Dirichlet
(NEAPOLITAN, 2004). Alm disso, se os dados observados em D estiverem
incompletos,
so
utilizados
algoritmos
EM
(Expectation
Maximization)
(HECKERMAN, 1995).
Para o problema de aprendizado de estrutura, consideraremos um conjunto finito

S de possveis estruturas de uma RB. Cada estrutura S h S pode representar a
distribuio conjunta de probabilidades do conjunto de variveis discretas
X = {X 1 , X 2 ,..., X n } . Dada uma base de dados completa D, a tarefa do aprendizado
35
de estrutura est em obter a distribuio a posteriori P( S h D) , que pelo teorema de

Bayes dada por,
P ( S D) =
h
P( S h ) P( D S h )
P( D)
(13)
A distribuio P( S h ) chamada a priori de cada possvel estrutura S h , P ( D S h )

chamada verossimilhana marginal e P ( D) uma constante de normalizao.
Para o aprendizado de estrutura em RB sero apresentadas duas abordagens. A

primeira abordagem prope algoritmos de aprendizado de estrutura chamados CIbased (Conditional Independence-based) e se baseia na anlise de dependncia
entre os ns. Nestes algoritmos as relaes de dependncia entre variveis so
avaliadas atravs de testes de independncia condicional, como qui-quadrado ou
informao mtua, e so criadas arestas para as dependncias mais relevantes
indicadas por estes testes. Estes algoritmos utilizam o conceito de d-separao, ou
seja, no conceito de que a estrutura de uma RB armazena todas as relaes de
independncia condicional entre ns (CHENG; GREINER, 1999, 2001).
Os testes realizados nos algoritmos CI-based consistem em avaliar quais dois ns

xi e xj so condicionalmente independentes, dado um conjunto de ns c. Isso feito,
por exemplo, avaliando se a informao mtua condicional dos ns menor do que
um valor e. A informao mtua condicional calculada por (MADDEN, 2003),
I ( xi , x j c) =
P( X i , X j C )
P
(
X
,
X
,
C
)
ln
i
j
P
(
X
C
)
P
(
X
C
)
X i , X j ,C
i
j
(14)
A segunda abordagem prope algoritmos de aprendizado de estrutura, chamados

Score-based, que consistem em introduzir uma medida (score), para avaliar o quanto
cada possvel estrutura Sh explica dos dados D, e um mtodo de busca de uma
estrutura, entre as possveis Sh, com o mais alto valor para esta medida
(HECKERMAN, 1995).
36
As medidas utilizadas para avaliar o quanto cada possvel estrutura Sh explica

dos dados de D descritas pela literatura so: Entropia, AIC, MDL (FRIEDMAN;
GEIGER; GOLDSZMIDT, 1997), Bayes e BDeu (HECKERMAN, 1995).
Seja Sh uma possvel estrutura de uma Rede Bayesiana. Dada uma base de
dados de treinamento D, definiremos Nijk como o nmero de observaes em D tal
que Xi=k e Pai =j com i=1,..., n; j=1,...,qi e k=1,..., ri, e N o nmero total de
observaes. O valor qi definido como o nmero de pais de Xi e ri definido como o
nmero de estados da varivel Xi. As medidas utilizadas nos algoritmos Score-based,
que chamaremos de Score(Sh,D), so definidas como,
Entropia:
ScoreEntropia (S ,D) =
h
qi
ri
N
i =1 j =1 k =1
ijk
N ijk
. ln
N
ij
(15)
Akaikes Information Criterion (AIC):

n qi ri
N ijk
h
S
N
ln
ScoreAIC (S ,D) =
ijk
N
i =1 j =1 k =1
ij
h
h
ScoreAIC (Sh,D) = S + ScoreEntropia S , D
(16)
Minimal Description Length (MDL):

ri
n qi
N ijk
1 h
ScoreMDL(S ,D)= S ln N N ijk ln
2
i =1 j =1 k =1
N ij
ScoreMDL(Sh,D)=
1 h
S ln N + ScoreEntropia S h , D
2
(17)
em que, S h o nmero de parmetros da estrutura Sh.
Bayesian Dirichlet, que ser chamado Bayes:
ScoreBayes (Sh,D) = P S , D
h
)
37
Pelo Teorema de Bayes,

ScoreBayes (Sh,D) = P ( S ) P ( D S , )
h
Heckerman (1995) calcula P ( D S h , ) utilizando distribuies de Dirichlet e obtm

o seguinte resultado,
ScoreBayes (S ,D) = P ( S )
h
qi
i =1
j =1
(N 'ij )
(N '
ij
+ N ij
ri
)
k =1
(N 'ijk + N ijk )
(N 'ijk )
(18)
em que, (.) a funo gamma e N ' ijk so parmetros da distribuio Dirichlet

ri
que satisfazem N 'ij = N 'ijk .

k =1
Os valores de N ' ijk so obtidos a partir dos parmetros da RB determinados com

auxlio de especialistas. O valor N ' ijk = 1 indica que no h informao de
especialistas (no informativo). P( S h ) a distribuio a priori dada a estrutura Sh e
tambm obtida com apoio de especialistas ou pode ter distribuio uniforme caso
no haja informaes de especialistas.
Bayesian Dirichlet Equivalent, que ser chamado BDeu:

descreve a medida
Heckerman (1995)
ScoreBDeu(Sh,D) como a aplicao de N 'i jk = 1 /(ri .qi ) em
ScoreBayes(Sh,D), dado pela equao (18). Sendo que, a expresso N 'i jk = 1 /(ri .qi )
resulta em N 'i j = 1 / qi .
O problema de otimizao para busca de uma estrutura Sh que produza um alto

valor para uma medida NP-hard (CHICKERING; GEIGER; HECKERMAN, 1994) e
o nmero de possveis estruturas de uma RB cresce exponencialmente com o
nmero de variveis.
Ambas as abordagens de aprendizado de estrutura tm suas vantagens e

desvantagens, geralmente os algoritmos de busca apresentam resultados mais
rpidos, mas o mtodo de busca pode no encontrar a melhor soluo.
38
3.2 Classificao Bayesiana
Redes Bayesianas (RB) podem ser utilizadas em problemas de classificao de

uma maneira clara e direta e as RB utilizadas em problemas de classificao de
dados
so
chamadas
de
Classificadores
Bayesianos.
Nos
Classificadores
bayesianos com variveis discretas { A1, A2 ,..., An , C} , uma delas, C, a varivel

classe (varivel resposta) e as demais, { A1, A2 ,..., An } , so os atributos (variveis
preditoras). Neste trabalho sero descritos os seguintes Classificadores bayesianos:
Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network
(GBN).
3.2.1 Classificador Naive Bayes

Os Classificadores bayesianos mais simples conhecidos so os chamados Naive
Bayes. Os Classificadores Naive Bayes partem da hiptese que todos os atributos
so independentes, dado a varivel classe, e sua representao grfica dada na
Figura 6.
Figura 6 - Estrutura do Classificador Naive Bayes com 5 atributos e uma classe
Sob a hiptese de independncia condicional entre atributos dada a classe,

aplicando a Regra da Cadeia obtida a distribuio conjunta de probabilidades do
Classificador Naive Bayes dada por,
n
P ( A1 ,...., An , C ) = P (C ). P ( Ai C )
(19)
i =1
39
Em um Classificador bayesiano, com atributos discretos e classe C, assumindo

valores {0,1}, a probabilidade de classificarmos um novo caso, { A1 = a1 ,..., An = a n } ,
em C=1 ,
P (C = 1 | A1 = a1 ,..., An = an ) =
P (C = 1).P( A1 = a1 ,..., An = an | C = 1)
P( A1 = a1 ,..., An = an )
(20)
E a probabilidade de classificarmos um novo caso em C=0 ,
P (C = 0 | A1 = a1 ,..., An = an ) =
P (C = 0).P( A1 = a1 ,..., An = an | C = 0)
P( A1 = a1 ,..., An = an )
(21)
Com isso, uma nova observao (caso), { A1 = a1 ,... An = an } , classificada na

classe C=1 segundo o seguinte critrio:
P (C = 1 | A1 = a1 ,..., An = an )
1
P (C = 0 | A1 = a1 ,..., An = an )
(22)
O critrio descrito em (22) que pode ser escrito como,
P (C = 1) P ( A1 = a1 ,..., An = an | C = 1)
.
1
P (C = 0) P ( A1 = a1 ,..., An = an | C = 0)
No
caso
do
Classificador
bayesiano
Naive
Bayes,
(23)
um
novo
caso
{ A1 = a1 ,... An = an } classificado em C=1 segundo o seguinte critrio:
P (C = 1) n P ( Ai = ai | C = 1)
.
1
P (C = 0) i =1 P ( Ai = ai | C = 0)
(24)
O Classificador Naive Bayes conhecido por sua simplicidade e eficincia, pois

apresentam estrutura fixa e parmetros ajustveis. Embora sua suposio de
independncia seja problemtica, pois esta hiptese raramente se verifica no mundo
real, os Classificadores Naive Bayes tm apresentado um bom desempenho em um
grande nmero de aplicaes, especialmente naquelas em que as variveis
preditoras no so fortemente correlacionadas (CHENG; GREINER, 2001).
40
3.2.2 Classificador Tree Augmented Naive Bayes (TAN)

O Classificador bayesiano TAN uma extenso do Naive Bayes, pois permite o
relaxamento da hiptese de independncia condicional entre atributos dado a classe.
O Classificador TAN foi proposto por Friedman e Goldszmidt (1997) e possibilita

representar dependncias entre pares de atributos. No Classificador TAN a
dependncia entre atributos deve ser representada pela estrutura de uma rvore, ou
seja, cada atributo deve ter no mximo um pai, fora a classe. Como pode ser
observado na Figura 7.
Figura 7 - Estrutura de um Classificador TAN com seis atributos e uma classe
O Classificador TAN utiliza a propriedade de que a busca da melhor estrutura,

restrita ao espao de estruturas do tipo rvore, feita em tempo polinomial (CHOW.
LIU, 1968). Nesta busca uma vez que cada atributo pode ter no mximo um "pai",
necessrio encontrar atributo com maior dependncia condicional dado classe.
Como muitas relaes de dependncia entre as variveis no podem ser

representadas nem mesmo por estruturas tipo TAN, necessria a construo de
modelos mais complexos que permitam que cada n da rede (exceto a classe) tenha
um nmero arbitrrio de pais.
41
3.2.3 Classificador General Bayesian Network (GBN)

Um Classificador bayesiano GBN uma RB Irrestrita utilizada em problemas de
classificao. diferente dos Classificadores bayesianos Naive Bayes, TAN e BAN,
que tratam a varivel classe como um n especial pai de todos os atributos, o
Classificador GBN trata o n classe como um n que no necessariamente pai de
todos os atributos. A Figura 8 mostra um exemplo de Classificador GBN.
Figura 8 - Estrutura de um Classificador GBN com quatro atributos e uma classe
A construo dos os Classificadores GBN pode ser feita utilizando o aprendizado

de estrutura descritos na Seo 3.1.2.
Um problema que pode ocorrer em aplicaes dos Classificadores GBN o

overfitting (superajuste). Overfitting um fenmeno que ocorre quando um modelo se
ajusta demais aos dados de treinamento e no pode ser generalizado para a
populao inteira. Normalmente, um modelo com problema de overfitting no
apresenta um bom desempenho fora dos dados de treinamento.
O estudo de Cheng e Greiner (2001) indica que o problema de overfitting no

Classificador GBN decorrente do grande nmero de parmetros que a RB
construda pode apresentar e pode degradar o desempenho do Classificador. Para
contornar esse problema, o estudo sugere a seleo das variveis do Markov Blanket
da classe para compor o Classificador GBN.
Em uma RB, qualquer varivel influenciada somente pelas variveis que

compe o seu Markov Blanket. Com isso, nos Classificadores GBN, o subconjunto de
atributos contidos no Markov Blanket da varivel classe um procedimento natural
de seleo de variveis.
42
Os estudos de Baesens et al. (2002) (2004) concluem, atravs de aplicaes

prticas, que o uso do conceito de Markov Blanket para seleo de variveis no
Classificador GBN resulta em modelos parcimoniosos e poderosos.
Para o problema de overfitting, Friedman, Geiger e Goldszmidt (1997) propem o

uso da medida MDL no aprendizado de estrutura do Classificador GBN, pois a
medida MDL capaz de regular a complexidade da RB pela penalizao daquelas
que contenham muitos parmetros, o que ajuda a evitar o problema de overfitting.
3.3 Regresso Logstica
A anlise de Regresso Logstica Mltipla (HOSMER; LEMESHOW, 1989) para

uma resposta binria a tcnica mais utilizada no desenvolvimento de modelos de
Credit Scoring (ROSA, 2000).
A Regresso Logstica mltipla pode ser escrita como um caso particular dos
Modelos Lineares Generalizados (MCCULLAGH; NELDER, 1989) (PAULA, 2004),
com funo de ligao logito e varivel resposta Yi com distribuio Bernoulli com
probabilidade de sucesso (mdia) i .
Seja Yi {0,1} a varivel resposta para o cliente i (0 = o i-simo cliente mau
pagador, 1= o i-simo cliente bom pagador), o modelo de Regresso Logstica
pode ser escrito como,

ln i
1 i
exp(xiT )
= o + 1 xi1 + .... + p xip = xiT ou i =
1 + exp(xiT )
(25)
em que, i a probabilidade do cliente i ser bom pagador, xi = (1, xi1 ,..., xip ) T o
vetor de variveis preditoras do cliente i e = ( 0 , 1 ,..., p ) T o vetor dos parmetros
(coeficientes) do modelo.
43
Como a varivel resposta Yi tem distribuio Bernoulli com probabilidade de

sucesso i , ento:
E (Yi = 1 | x1 ,...., x p ) = P (Yi = 1 | x1 ,...., x p ) = i , que a probabilidade de

que o cliente seja bom pagador dado as variveis preditoras.
E (Yi = 0 | x1 ,...., x p ) = P (Yi = 0 | x1 ,...., x p ) = 1 i , que a probabilidade de que

o cliente seja mau pagador dado as variveis preditoras.
A distribuio varivel resposta Yi para cada observao da amostra de clientes

dada por,
P (Yi = y i ) = i
yi
(1 i )1 y
para i=1,...,n
(26)
O mtodo da Mxima Verossimilhana ser utilizado para estimar os parmetros
0 , 1 ,..., p do modelo de Regresso Logstica mltipla. Para isso, inicialmente

escreveremos a funo de Verossimilhana (BOLFARINE; SANDOVAL, 2001) da
varivel resposta Yi em todas as observaes da amostra y=(y1,y2,...,yn) sob o
modelo de Regresso Logstica como,
n
i =1
i =1
L( y1 , y 2 ,..., y n , ) = P (Yi = y i ) = i i (1 i )
y
1 yi
(27)
Por convenincia de clculos, trabalharemos com a log-verossimilhana que

dada por,

n
n
ln (L( y1 , y 2 ,..., y n , ) ) = ln P (Yi = y i ) = y i . ln i
i =1
i =1
1 i
n
+ ln (1 i ) (28)
i =1
Da expresso do modelo de Regresso Logstica dada pela equao (25), temos
que 1 i = 1 + exp(xiT )
e ln( i /(1 i )) = xiT . Ento, a log-verossimilhana pode
ser reescrita como,

n
ln (L ( y1 , y 2 ,..., y n , ) ) = y i x ln 1 + exp xiT

i =1
T
i
i =1
))
(29)
44
As estimativas de Mxima Verossimilhana, , so os valores de
que
maximizam a log-verossimilhana, dada pela equao (29), e so obtidos atravs de

mtodos numricos. O mtodo numrico mais utilizado o de Mnimos Quadrados
Reponderados (PAULA, 2004).
Seja a estimativa dos parmetros do modelo de Regresso Logstica mltipla,
obtida utilizando mtodos numricos. Se suposies do modelo so corretas, ento
podemos mostrar que assintoticamente,
()
E =
() (
Var = X T V 1 X
(30)
em que, V = diag{ 1 (1 1 ), 2 (1 2 ),...., n (1 n )} 3 e X = ( x1 , x2 ,...., xn )T .
Os testes de significncia para cada parmetro do modelo sero feitos e suas

hipteses so:
H0: j = 0
H1: j 0
j=1,2,...,p
O teste de Wald (MONTGOMERY; PECK; VINING, 2001) pode ser utilizado para
avaliar a significncia de cada parmetro e sua estatstica dada por,
Zo =
j
se( j )
(31)
em que, se( j ) o erro padro de j , dado por se( j ) = Var ( j ) / n .
Sob a hiptese nula, H0, a estatstica do teste de Wald, Z0, tem distribuio
Normal com = 0 e = 1 (normal padro).
O uso de Regresso Logstica tem se consagrado em modelos de Credit Scoring

devido a algumas vantagens oferecidas pela tcnica (ROSA, 2000):
a mais utilizada entre os profissionais da rea (culturalmente difundida);
diag{a,b,c} uma matriz diagonal com elementos a, b e c.

45
No apresenta problemas srios de suposies, como, por exemplo, a

Anlise Discriminante Linear, na qual se pressupe uma distribuio
Normal Multivariada para as variveis preditoras;
Facilidade computacional, uma vez que os pacotes estatsticos mais

utilizados pelas instituies permitem o seu uso;
uma ferramenta poderosa para discriminao e aplicvel aos dados de

risco de crdito.
Vasconcellos (2002) tambm aponta que a Regresso Logstica uma tcnica

vantajosa devido velocidade no processo de classificao (quanto tempo o cliente
que pede um emprstimo precisa esperar para ter uma resposta afirmativa ou
negativa sobre a concesso) e devido facilidade de revisar o modelo
periodicamente.
3.4 Medidas de Avaliao dos Modelos de Classificao
Os modelos de Credit Scoring tm como principal objetivo discriminar os clientes

que se tornaro inadimplentes com o tempo dos que se mantero bons pagadores.
Existem diversas medidas utilizadas para mensurar e comparar os desempenhos de
modelos de classificao na realizao deste propsito. Na Seo 3.4 sero
apresentadas duas medidas de avaliao do poder discriminante dos modelos: a
estatstica Kolmogorov-Smirnov e o coeficiente Gini (ANDERSON, 2007). Alm disso,
tambm sero apresentadas outras trs taxas de acerto, baseadas da Matriz de
Confuso, utilizadas para avaliar a acurcia das previses dos modelos de
classificao: taxas de acerto totais (TAT), taxas de acerto nas previses dos clientes
bons (TAB) e dos clientes maus (TAM) pagadores (ROSA, 2000). Os melhores
modelos de classificao sero os com maior poder discriminante e com maiores
taxas de acerto nas previses dos clientes bons e, principalmente, dos clientes
maus pagadores.
46
3.4.1 Matriz de Confuso
A Matriz de Confuso de um modelo de Credit Scoring uma maneira fcil de

observar se o modelo est prevendo adequadamente os bons e maus clientes.
Para a sua construo deve-se atribuir a cada indivduo i da amostra e validao um
score si . A varivel score a probabilidade prevista do cliente se no se tornar
inadimplente, dada a observao das variveis preditoras do modelo, e assume
valores entre 0 e 100. Se si > Pc , ento o cliente classificado como bom pagador
e, caso contrrio, o cliente classificado como mau pagador. O ponto de corte
utilizado, Pc , foi de 50. A matriz de confuso (Tabela 2), apresenta as freqncias do
cruzamento entre classificaes observadas e previstas por um modelo, dado um
determinado ponto de corte (ANDERSON, 2007).
Tabela 2 Matriz de confuso de um modelo de Credit Scoring.
Observado
Previsto
Mau
Bom
Total
Mau
n00
n01
n0.
Bom
Total
n10
n.0
n11
n.1
n1.
n..
em que,
noo: Nmero de clientes maus corretamente classificados como maus;
no1: Nmero de clientes maus incorretamente classificados como bons;
n1o: Nmero de clientes bons corretamente classificados como maus;
n11: Nmero de clientes bons incorretamente classificados como bons;
e, n.0 = n00+n10 ; n.1 = n01+n11 ; n0. = n00+n01 ; n1. = n10+n11 ; n..=n00+n01+n10+n11
Com isso, os modelos de classificao sero avaliados e comparados a partir das
trs taxas de acerto definidas por,
Taxa de acerto total: TAT = (n00 + n11) / n..
(32)
Taxa de acerto dos maus: TAM = (n00) / n0.
(33)
Taxa de acerto dos bons: TAB = (n11) / n1.
(34)
47
A taxa de acerto dos bons (TAB) tambm pode ser chamada de sensibilidade
ou true positive rate, e a taxa de acerto dos maus (TAB) tambm pode ser chamada
de especificidade ou false positive rate. Outras medidas de avaliao de modelos de
classificao binria so os erros tipo I e do tipo II, definidos como (ANDERSON,
2007)
Erro tipo I = (n10) / n1.
(35)
Erro tipo II = (n01) / n0.
(36)
Uma desvantagem do uso das taxas de acerto obtidas da matriz de confuso

para avaliar a assertividade das previses dos modelos que estas medidas
dependem do ponto de corte escolhido.
3.4.2 Coeficiente Gini

Coeficiente Gini duas vezes a rea entre a curva ROC (Receiver Operating
Characteristic) e a diagonal da curva (ANDERSON, 2007). O coeficiente Gini
utilizado para avaliar se o score previsto discrimina bem os clientes bons e maus
pagadores.
A curva ROC obtida do grfico da sensibilidade versus a especificidade das

previses de um modelo de classificao binria (com varivel resposta com 2
nveis), com o ponto de corte Pc variando. Quanto maior a sensibilidade e a
especificidade melhor o modelo. No entanto, ambas as medidas dependem de Pc , e
quanto Pc cresce, a sensibilidade diminui e a especificidade aumenta. Com isso,
para a construo da curva ROC, obtm-se as matrizes de confuso para diferentes
pontos de corte ( Pc ) e delas calcula-se a sensibilidade e especificidade. A Figura 9
mostra um exemplo de construo da curva ROC.
O coeficiente Gini calculado utilizando a seguinte expresso:

n
Coeficiente Gini = 1 ( FM ( si ) FM ( si 1 ) ) ( FB ( si ) FB ( si 1 ) )
(37)
i =1
48
em que, FB ( si ) a distribuio acumulada dos clientes bons na faixa de score i,
FM (s ) a distribuio acumulada do scores dos clientes maus na faixa de escore i

e n o nmero de faixas de score (ser aplicado n=1000).
Figura 9 - Exemplo de curva ROC (Receiver Operating Characteristic).
O valor do coeficiente Gini representa o poder de discriminao dos clientes

bons e maus por um modelo de classificao binria em todos os intervalos de
valores do escore.
3.4.3 Estatstica Kolmogorov-Smirnov

A estatstica de Kolmogorov-Smirnov (KS) descrita pela teoria estatstica noparamtrica e utilizada para testar se as distribuies de dois grupos so iguais
(CONOVER, 1999).
Em modelos de Credit Scoring, a estatstica KS mede a capacidade da varivel

escore de distinguir bons e maus clientes, lembrando que a varivel escore o
valor da probabilidade prevista do cliente se tornar inadimplente, dada a observao
das variveis preditoras, e assume valores entre 0 e 100.
Para a avaliao da performance de modelos de Credit Scoring, a estatstica KS

definida como a mxima diferena entre as distribuies acumuladas dos escores
dos bons e maus pagadores (ANDERSON, 2007) e definida como,
49
KS = max FM ( s ) FB ( s )
s
(38)
em que, FB (s ) a distribuio acumulada do escores entre os clientes bons e
FM (s ) a distribuio acumulada do escores entre os clientes maus.
A hiptese da estatstica KS supe que um modelo de classificao com bom

desempenho atribui aos clientes bons pagadores escores altos e a clientes maus
pagadores escores baixos. Logo, a distribuio dos escores dos clientes bons
apresenta maior concentrao em valores altos e a distribuio de escores dos
clientes maus possui maior concentrao em valores mais baixos. Alm disso, a
distribuio acumulada do escore dos maus pagadores superior distribuio
acumulada dos escores dos bons pagadores e portanto, o melhor modelo dever
prover a maior separao entre clientes adimplentes e inadimplentes ao longo dos
valores de escore.
Na Figura 10, apresentado um exemplo de clculo da estatstica KS. A maior

separao entre as distribuies acumuladas de bons e maus 30% e portanto, o
valor da estatstica KS 30%.
Figura 10 - Exemplo de clculo da estatstica Kolmogorov-Smirnov.
Lecumberri e Duarte (2003) descrevem uma regra prtica para a verificao da

qualidade de modelos de Credit Scoring utilizando estatstica KS (Tabela 3). Esta
regra visa auxiliar na interpretao da estatstica KS. Por exemplo, no caso de um
modelo de Credit Scoring cuja distncia est abaixo de 20%, h forte indcio de um
50
baixo nvel de discriminao no modelo, o que sugere a necessidade de alterao do

mesmo.
Tabela 3 - Valores crticos da estatstica Kolmogorov-Smirnov aplicada em modelos de Credit
Scoring.
Estatstica KS
Discrimanao
Credit Scoring
<15%
15 a 25%
25 a 35%
35 a 45%
45 a 55%
55 a 65%
65 a 75%
>75%
Discriminao Muito Baixa

Discriminao Baixa
Discriminao Aceitvel
Discriminao Boa
Discriminao Excelente
51
4. METODOLOGIA
No Captulo de Metodologia ser descrita a base de dados aplicada, a German

Credit, e todos os procedimentos adotados para a construo dos modelos de
classificao. Na Seo 4.2, ser descrita a categorizao das variveis preditoras
da base de dados German Credit, adotada previamente a aplicao dos modelos. Na
Seo 4.3, sero apresentadas as selees de variveis que sero empregadas nos
Classificadores Bayesianos e da Regresso Logstica. Na Seo 4.3, ser mostrada
a metodologia de construo das amostras de desenvolvimento e de validao
obtidas por Cross-Validation com 10 parties (10-fold). Na Seo 4.5, finalmente
sero mencionados os softwares empregados na estimao dos modelos de
classificao. A Figura 11 apresenta um breve esquema destas metodologias
empregadas.
Base de dados
German Credit
Amostragem
Retrospectiva
Amostra
Balanceada
Cross-Validation
com 10 parties
(10-fold)
Amostras de
desenvolvimento
e de validao
Desenvolvimento dos
modelos de classificao
Regresso
Logstica
Redes
Bayesianas
Seleo de
variveis
Seleo por
Forward Stepwise
Classificador
Naive Bayes
Classificador
TAN
Os trs classificadores passaram por

filtragem pelo ganho de informao
Seleo por Filtragem pelo

Ganho de Informao
Seleo de variveis empregadas nos
classificadores Naive Bayes e TAN
Classificador
GBN
Aprendizado de estrutura
utilizando as medidas
MDL, AIC, Bayes, Bdeu,
Entropia
Seleo do
Markov Blanket
da varivel resposta
Seleo pelo
mtodo Wrapper
Figura 11 Esquema das metodologias aplicadas neste trabalho.
52
4.1 Base de Dados
A base de dados de emprstimos concedidos utilizada ser a German Credit,

disponvel no Repositrio UCI Machine Learning (Blake e Merz, 1998). Nesta base de
dados, h informaes pessoais e financeiras de clientes proponentes a um
emprstimo e a classificao destes clientes de acordo com sua inadimplncia ou
adimplncia (Cliente bom ou mau pagador) no pagamento do emprstimo.
A classificao dos clientes de acordo com seu risco de inadimplncia ser a

varivel resposta, chamada de Cliente, assumindo valor 1, se o cliente foi
previamente classificado como um bom pagador (adimplente), e valor 0, se o cliente
foi classificado como um mau pagador (inadimplente).
A base de dados contm 1000 clientes, dos quais 700 foram previamente
classificados como bons pagadores e 300 como maus pagadores. Alm de, 20
variveis preditoras categricas ou contnuas (Tabela 4), representando as
informaes pessoais e financeiras dos clientes.
A amostra aplicada nos modelos de classificao apresenta mesmo nmero de

clientes bons e maus pagadores, ou seja, amostra balanceada, e foi obtida por
Amostragem Retrospectiva (PAULA, 2004). Este esquema de amostragem consistiu
em manter a amostra de clientes maus, com 300 clientes, e selecionar
aleatoriamente uma amostra de mesmo tamanho (300) de clientes bons.
A Amostragem Retrospectiva foi adotada a fim de que a diferena entre os

tamanhos das amostras de clientes bons e maus no criasse nenhum vis nos
modelos de classificao e, com isso, evitar que os modelos sejam adequados para
discriminar os clientes bons, porm ineficientes para discriminar os clientes maus
(ROSA, 2000).
53
Tabela 4 - Variveis da base de dados German Credit.

Varivel
Tipo de
Varivel
Nm. de
Categorias
Categorias
Salrio
categrica
ordinal
X < $0, 0 <= X < 200 , X >=200, Sem remunerao
Durao
do Emprstimo
Contnua
Histrico
de Crdito
categrica
ordinal
Finalidade
categrica
nominal
11
Sem emprstimos tomados, Todos os emprstimos

pagos pontualmente, Existem emprstimos pagos
pontualmente , Histrico de atraso no pagamento,
Atraso no pagamento ou com emprstimos
tomados em outras Instituies
Compra de carro novo, Compra de carro usado,
Mveis, Rdio e TV, Utenslios domsticos,
Reforma, Educao, Cursos, Negcios, Outros
Nome original
(em ingls)
Status of existing
checking account
Duration
in months
Credit history
Purpose
Valor do
Emprstimo
Poupana
do Cliente
Contnua
Credit amount
categrica
ordinal
< $100, $100<= X < $500, $500<= X < $1000, >=

$1000, No possui ou no conhecida
Tempo
de Trabalho
categrica
ordinal
Desempregado, X < 1 ano, 1 <= X < 4 anos,

4 <= X < 7 anos, X >= 7 anos
Taxa de juros em %
do valor do
emprstimo
Contnua
Savings
account/bonds
Present
employment
since
Installment rate
in % of disposable
income
Estado Civil
e Sexo
Categrica
nominal
Masculino divorciado ou separado, Feminimo

divorciada, separada ou casada, Masculino
solteiro, Masculino casado ou vivo
Outras dvidas
ou garantias
Tempo
de Residncia
categrica
nominal
Nenhuma, Co-aplicante, Fiador
Contnua
Bens
Idade
Outros
Emprstimos
Moradia
Nmero de crditos
Concedidos em seu
banco
Emprego
Nmero
de dependentes
Telefone Prprio
Estrangeiro
Cliente
categrica
nominal
Contnua
categrica
nominal
categrica
nominal
Contnua
categrica
ordinal
Contnua
categrica
binria
categrica
binria
categrica
binria
Personal status
and sex
Other debtors/
Guarantors
Present residence
since
Imvel, Seguro de Vida, Carro ou outros, No possui

bens
-
Bancos, Lojas, Nenhum
Alugada, Prpria, Moradia gratuita
Housing
Number of existing
credits at this bank
Desempregado ou empregado com baixa qualificao

ou sem trabalho formal, Empregado com baixa
qualificao e com trabalho formal, Empregado
qualificado ou funcionrio pblico, Executivo,
profissional liberal, empregado altamente
qualificado ou oficial
Job title
Number of people
being liable to
provide
maintenance for
Sim, No
Telephone
Sim, No
Foreign worker
Bom ou Mau
Good or bad
credit rating
Property
Age in years
Other
installment plans
54
A amostra balanceada ser utilizada na estimao dos modelos de classificao,

mas, para a aplicao dos modelos populao original, necessrio que alguns de
seus parmetros sejam re-calculados.
No modelo de Regresso Logstica necessrio que o intercepto seja recalculado (PAULA, 2004) por:

o = 0* ln 1
2
(39)
em que, 0* o intercepto do modelo logstico ajustado e 1 = P(Z = 1 Cliente = 1) e
2 = P(Z = 1 Cliente = 0) , sendo Z uma varivel indicadora da seleo amostral em

relao amostra toda.
Nas RB necessrio que a distribuio da varivel resposta (e de seus pais, se

houverem) seja substituda pela distribuio desta varivel na amostra original.
4.2 Categorizao das Variveis
Os modelos de RB avaliados possuem premissa de que todas as suas variveis

sejam discretas (ou categricas). Como a base de dados German Credit apresenta
variveis contnuas (ou numricas), ento ser adotado o procedimento de
categorizao destas variveis.
Rosa (2000) explica que, se as variveis do modelo puderem ser mostradas em

categorias, tornam-se mais simples a implementao dos modelos e a interpretao
dos pesos relativos s categorias das variveis. Outro inconveniente de se trabalhar
com variveis contnuas a apario de valores discrepantes (outliers), cuja
presena costuma afetar consideravelmente os resultados dos modelos.
A categorizao de cada varivel contnua consiste na criao de nveis

(categorias) de uma varivel discreta que correspondam a intervalos de valores da
55
varivel contnua original. Ao final do procedimento, a varivel discreta resultante

usada no lugar da varivel contnua. As variveis originalmente categricas com
muitos nveis tambm tiveram alguns de seus nveis reagrupados para evitar a
existncia de categorias com nmero muito pequeno de observaes (ou pouco
significativo), o que pode prejudicar a estimao dos parmetros dos modelos.
A categorizao de variveis contnuas adotada consistiu na construo dos

nveis das variveis de acordo com a relao da varivel preditora com a varivel
resposta (Cliente bom ou mau) (HAND; HENLEY, 1997). Esta anlise bivariada da
relao da varivel preditora com a varivel resposta foi feita atravs do clculo do
Risco Relativo e do WOE de cada nvel das variveis preditoras.
Para as variveis contnuas, o procedimento consistiu em inicialmente criar uma

categorizao inicial da varivel, a partir dos percentis da distribuio de cada
varivel contnua. Assim, foram criados 10 nveis com cada faixa de valores
correspondendo aos decis (percentil de ordem 10%) da varivel contnua original, ou
seja, criadas faixas de valores da varivel ordenada a cada 10%. A partir desta
categorizao inicial, foi verificada a freqncia de clientes bons e maus em cada
categoria criada (faixa de valores), a fim de identificar categorias semelhantes com
relao a bons e maus clientes (Tabela 5). Para isso, sero calculadas as
seguintes medidas:
Risco Relativo (AGRESTI, 1999): proporo de bons na categoria sobre a

proporo de maus na categoria;
Weights of Evidence (WOE) (HAND; HENLEY, 1997) que o logaritmo

natural do Risco Relativo (Razo de bons e maus);
Tabela 5 - Exemplo de categorizao de uma varivel preditora.
Categoria
Categoria 1
Categoria 2
Categoria 3
Categoria 4
Categoria 5
Total
Nmero Nmero
%bons %maus Risco Relativo
WOE
de "bons" de "maus"
b1
m1
b1/b. m1/m. (b1/b.)/(m1/m.) ln[(b1/b.)/(m1/m.)]
b2
m2
b2/b. m2/m. (b2/b.)/(m2/m.) ln[(b2/b.)/(m2/m.)]
b3
m3
b3/b. m3/m. (b3/b.)/(m3/m.) ln[(b3/b.)/(m3/m.)]
b4
m4
b4/b. m4/m. (b4/b.)/(m4/m.) ln[(b4/b.)/(m4/m.)]
b5
m5
b5/b. m5/m. (b5/b.)/(m5/m.) ln[(b5/b.)/(m5/m.)]
b.
m.
1
1
1
0
56
O Risco Relativo e o WOE so medidas descritivas que auxiliam na identificao

de categorias das variveis com alto ou baixo poder de discriminao dos clientes
bons e maus pagadores, e tambm auxiliam a identificar as categorias que
discriminam melhor os clientes bons e as que discriminam melhor os clientes
maus. Estas medidas podem ser analisadas da seguinte maneira:
WOE = 0 (Risco Relativo = 1): indica que a razo entre bons e maus 1
e, portanto, se a varivel assumir o valor correspondente a esta categoria no
h nenhum indcio do cliente apresentar maior ou menor risco de inadimplncia,
se comparado anlise desconsiderando esta varivel;
WOE > 0 (Risco Relativo>1): positivo e quanto mais distante de zero,
maiores so as chances de o cliente apresentar menor risco de crdito,
indicando que a categoria apresenta algum poder para discriminar clientes
bons;
WOE < 0 (Risco Relativo<1): negativo e quanto mais distante de zero,
maiores so as chances de o cliente apresentar maior risco de crdito,
indicando que a categoria apresenta algum poder para discriminar clientes
maus;
O Risco Relativo e o WOE tambm podem ser utilizados para agrupar categorias
com valores prximos, ou seja, categorias com risco de inadimplncia prximas. No
entanto, este agrupamento s pode ser feito se houver interpretao lgica.
A Tabela 6 mostra o resultado da categorizao das variveis contnuas da base

de dados German Credit. Analisando esta tabela observa-se que as categorias que
contriburam para maiores riscos de inadimplncia, sem considerar o efeito das
demais, foram: clientes com emprstimos de mais de 3 anos (36 meses), com valor
acima de $7500 ou com idade inferior a 25 anos. Por outro lado, as caractersticas
dos clientes ou do emprstimo que individualmente apresentaram maiores riscos
relativos e, portanto, apresentam menores riscos de inadimplncia, foram:
emprstimos com durao menor que 12 meses, e com valor entre $1000 e $4000,
taxas menores que 4% do valor do emprstimo, pessoas entre 30 e 31 anos, entre
35 e 50 anos ou com mais de dois crditos concedidos em seu banco.
57
As variveis originalmente categricas, e que tiveram algumas de suas categorias

agrupadas, foram: Histrico de Crdito,
Emprstimos, Tempo de
Bens, Poupana do Cliente, Outros
Trabalho, Moradia, Estado Civil e Sexo, Emprego. A
categorizao original destas variveis mostrada nas A.2 a A.9, do Apndice.
A Tabela 7 mostra os valores do risco relativo e do Weights of Evidence (WOE)

das variveis categricas da base de dados, que sofreram ou no agrupamento de
seus nveis. No houve agrupamento de nveis da varivel Finalidade, pois no faz
sentido para o processo de concesso de crdito agrupar caractersticas muito
distintas de finalidade do emprstimo. Uma peculiaridade observada na base de
dados German Credit a ausncia de clientes do sexo feminino e com estado civil
solteira.
Tabela 6 - Categorizao das variveis originalmente contnuas da base de dados German Credit e
clculo do Risco Relativo e Weights of Evidence (WOE) de cada categoria.
Varivel Preditora
Nvel
<12
12<= X<16
Durao do emprstimo
16<= X<36
>=36
<1000
1000<= X<4000
Valor do Emprstimo
4000<= X<7500
>=7500
<4
Taxa de juros em % do
valor do emprstimo
>=4
<3
Tempo de Residncia
3<= X<4
>=4
<25
25<= X<30
30<= X<32
Idade
32<= X<35
35<= X<51
>=51
<2
Nmero de Dependentes
>=2
<2
Nmero de crditos
concedidos em seu banco
>=2
Total
Nmero
Nmero
%bons
de "bons" de "maus"
69
82
110
39
25
216
42
17
170
130
150
44
106
32
63
30
28
115
32
248
52
177
123
300
27
62
129
82
37
158
61
44
141
159
133
43
124
61
76
22
33
77
31
254
46
200
100
300
23.00%
27.33%
36.67%
13.00%
8.33%
72.00%
14.00%
5.67%
56.67%
43.33%
50.00%
14.67%
35.33%
10.67%
21.00%
10.00%
9.33%
38.33%
10.67%
82.67%
17.33%
59.00%
41.00%
100.00%
%maus
9.00%
20.67%
43.00%
27.33%
12.33%
52.67%
20.33%
14.67%
47.00%
53.00%
44.33%
14.33%
41.33%
20.33%
25.33%
7.33%
11.00%
25.67%
10.33%
84.67%
15.33%
66.67%
33.33%
100.00%
Risco
WOE
Relativo
2.556
1.323
0.853
0.476
0.676
1.367
0.689
0.386
1.206
0.818
1.128
1.023
0.855
0.525
0.829
1.364
0.848
1.494
1.032
0.976
1.130
0.885
1.230
1.000
0.938
0.280
-0.159
-0.743
-0.392
0.313
-0.373
-0.951
0.187
-0.201
0.120
0.023
-0.157
-0.645
-0.188
0.310
-0.164
0.401
0.032
-0.024
0.123
-0.122
0.207
0.000
58
Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente categricas da
base de dados German Credit, aps o agrupamento de alguns de seus nveis.
Varivel
Categoria
Imvel
Seguro de Vida, Carro e outros
No possui bens
X < $0
0 <= X < 200
Salrio
X >=200
Sem remunerao
< $500
Poupana
>= $500
do Cliente
No possui ou no conhecida
Nenhum
Outros
Emprstimos
Bancos e Lojas
Nenhuma
Outras dvidas
Co-aplicante
Ou garantias
Fiador
Compra de carro novo
Compra de carro usado
Mveis
Rdio e TV
Utenslios domsticos
Finalidade
Reforma
Educao
Cursos
Negcios
Outros
Sem emprstimos tomados
ou todos os emprstimos
pagos pontualmente
Existem emprstimos
Histrico
pagos pontualmente
de Crdito
Histrico de atraso
no pagamento
Atraso no pagamento
ou com emprstimos tomados
em outras Instituies
Desempregado
ou menos de 1 ano
Tempo
1 <= X < 4 anos
de Trabalho
X >= 4anos
Divorciado(a) ou separado(a)
ou mulher casada
Estado Civil
Masculino solteiro
e Sexo
Masculino casado ou vivo.
Prpria
Moradia
Alugada ou Moradia gratuita
Desempregado ou empregado
com baixa qualificao
Empregado qualificado
Emprego
ou funcionrio pblico
Executivo, profissional liberal,
empregado altamente
Bens
101
161
38
51
76
21
152
189
35
76
259
41
271
11
18
57
36
52
96
2
9
9
5
29
5
60
173
67
135
105
14
46
251
17
32
224
76
272
18
10
89
17
58
62
4
8
22
1
34
5
33.67%
53.67%
12.67%
17.00%
25.33%
7.00%
50.67%
63.00%
11.67%
25.33%
86.33%
13.67%
90.33%
3.67%
6.00%
19.00%
12.00%
17.33%
32.00%
0.67%
3.00%
3.00%
1.67%
9.67%
1.67%
20.00%
57.67%
22.33%
45.00%
35.00%
4.67%
15.33%
83.67%
5.67%
10.67%
74.67%
25.33%
90.67%
6.00%
3.33%
29.67%
5.67%
19.33%
20.67%
1.33%
2.67%
7.33%
0.33%
11.33%
1.67%
Risco
Relativo
1.683
0.931
0.567
0.378
0.724
1.500
3.304
0.753
2.059
2.375
1.156
0.539
0.996
0.611
1.800
0.640
2.118
0.897
1.548
0.500
1.125
0.409
5.000
0.853
1.000
12
53
4.00%
17.67%
0.226
-1.485
154
169
51.33%
56.33%
0.911
-0.093
28
28
9.33%
9.33%
1.000
0.000
106
50
35.33%
16.67%
2.120
0.751
67
93
22.33%
31.00%
0.720
-0.328
105
128
104
103
35.00%
42.67%
34.67%
34.33%
1.010
1.243
0.010
0.217
94
129
31.33%
43.00%
0.729
-0.317
179
27
233
67
146
25
186
114
59.67%
9.00%
77.67%
22.33%
48.67%
8.33%
62.00%
38.00%
1.226
1.080
1.253
0.588
0.204
0.077
0.225
-0.532
81
63
27.00%
21.00%
1.286
0.251
176
186
58.67%
62.00%
0.946
-0.055
43
51
14.33%
17.00%
0.843
-0.171
Nmero Nmero
de "bons" de "maus"
%bons
%maus
WOE
0.521
-0.072
-0.567
-0.973
-0.323
0.405
1.195
-0.284
0.722
0.865
0.145
-0.617
-0.004
-0.492
0.588
-0.446
0.750
-0.109
0.437
-0.693
0.118
-0.894
1.609
-0.159
0.000
(continua na prxima pgina)

59
Continuao da Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente
categricas da base de dados German Credit aps o agrupamento de alguns de seus nveis.
Risco
Nmero Nmero
Varivel
Categoria
%bons %maus
WOE
de "bons" de "maus"
Relativo
Sim
Telefone
116
113
38.67% 37.67% 1.027 0.026
Prprio
No
184
187
61.33% 62.33% 0.984 -0.016
Sim
20
4
6.67%
1.33%
5.000 1.609
Estrangeiro
No
280
296
93.33% 98.67% 0.946 -0.056
300
300
100.00% 100.00% 1.000 0.000
Total
Aps o tratamento de categorizao e de agrupamento de nveis das variveis

preditoras da base de dados German Credit, estas variveis finais (todas
categricas) foram transformadas em variveis dummy (ou indicadoras). As dummies
so variveis binrias e assumem valores 1 ou 0. O nmero de dummies igual ao
nmero de nveis (categorias) da varivel preditora (n) menos um, ou seja, n-1. Cada
dummy est associada a uma categoria da varivel preditora e uma categoria da
varivel preditora original corresponde casela de referncia. As dummies assumem
valor 1, se o cliente possui a caracterstica representada por ela, e valor 0, se o
cliente no possui tal caracterstica. A casela de referncia (categoria de referncia)
representar a categoria da varivel preditora associada a todos os valores zero das
dummies (e por isso so criadas n-1 dummies). Por exemplo, a varivel Durao do
Emprstimo com 4 categorias, "X<12", "12<=X<16", "16<=X<36" e "X>=36", sero
criadas 3 dummies dadas por,
1, se o emprstimo teve durao menor do que 12 meses
Durao do Emprstimo ("X<12") =
0, demais clientes
1, se o emprstimo teve durao entre 12 e 15 meses
Durao do Emprstimo ("12<= X<16") =
0, demais clientes
1, se o emprstimo teve durao entre 16 e 35 meses
Durao do Emprstimo ("16<= X<36") =
0, demais clientes
(40)
A casela de referncia ser da varivel Durao do Emprstimo a dos clientes

com emprstimos com durao superior a 36 meses.
Na construo dos modelos de classificao, as dummies sero utilizadas no

lugar das variveis preditoras originais e cada dummy corresponder a uma
60
categoria das variveis preditoras originas. O uso de dummies foi adotado para que
nas selees de variveis preditoras, descritas na Seo 4.3 a seguir, fossem
selecionadas somente as caractersticas dos clientes que mais contribussem para a
discriminao entre os bons e maus pagadores, dado um modelo de classificao.
Alm disso, tambm se observou que no desenvolvimento dos Classificadores
bayesianos o uso dummies contribuiu para uma melhora na assertividade das
previses dos clientes bons e maus dos modelos de classificao.
4.3 Seleo das Variveis
Uma vez definido o conjunto de preditoras a ser utilizado no modelo de

classificao, resta saber qual a melhor maneira de encontrar um modelo
parcimonioso que inclua apenas as variveis preditoras mais importantes para
explicar a probabilidade do cliente ser um bom pagador em determinado perodo. A
seleo de variveis ainda pode melhorar o desempenho dos modelos ajustados,
facilitar a visualizao e entendimento dos parmetros estimados, alm de prevenir
contra problemas de overfitting dos modelos estimados (GUYON; ELISEEFF, 2003).
A seleo de variveis adotada no modelo de Regresso Logstica ser a

Forward Stepwise (HOSMER, LEMESHOW, 1989), utilizando como critrio a medida
AIC (Akaike information criterion). O Forward Stepwise consiste em um algoritmo de
excluso e incluso de variveis preditoras, segundo sua importncia de acordo com
o critrio de Akaike (AIC). A medida AIC leva em considerao tanto a logverossimilhana (log-likelihood) dos dados, quanto o nmero de parmetros do
modelo ajustado, sendo que um modelo melhor do que outro se apresentar menor
valor da medida AIC.
Resumidamente, a seleo por Forward Stepwise inicia-se pela estimao de um

modelo logstico com apenas o intercepto, seguida da estimao dos modelos
logsticos com uma varivel preditora. A varivel includa a aquela cujo modelo
apresentou menor valor do AIC, em relao ao modelo com somente o intercepto.
Partindo do modelo com uma varivel includa, as demais variveis so introduzidas
61
individualmente. A prxima varivel includa ser aquela cujo modelo ajustado

apresentar menor AIC, em relao ao modelo sem incluso da varivel. Enquanto
isso, as variveis que entram no modelo podem ser removidas, se a sua excluso
individual contribuir para uma reduo do AIC do modelo com todas as variveis
includas. Na seleo Forward Stepwise, as variveis includas podem ser removidas,
pois na presena de outras variveis estas podem no ter mais importncia para o
modelo. A incluso e remoo de variveis so repetidas at que nenhuma varivel
possa mais ser includa ou excluda do modelo.
A seleo de variveis dos Classificadores bayesianos ser feita em duas etapas.

Na primeira, h a ordenao e filtragem de variveis preditoras pelo seu ganho de
informao, em relao varivel reposta. Na segunda etapa, h a seleo de
variveis aplicando o mtodo Wrapper, que um algoritmo de caixa-preta que utiliza
o prprio modelo de classificao para selecionar variveis.
Na primeira etapa, as variveis preditoras (dummies) so ordenadas em funo

do seu ganho de informao (Information Gain), em relao varivel resposta
(Cliente bom ou mau) (Witten e Frank, 2005). Aps esta ordenao, as variveis
sero retiradas pelo mtodo Backward, ou seja, partindo do modelo saturado (com
todas as variveis) cada varivel, que individualmente menos contribui para o ganho
de informao da varivel resposta, ser retirada, sem que isso prejudique a
assertividade das previses dos Classificadores Bayesianos. Os resultados deste
procedimento para os Classificadores Naive Bayes, TAN e GBN so apresentados
na Seo 5.3. Esta seleo descrita tem como finalidade a busca do subconjunto de
variveis que isoladamente mais contribuem para a discriminao entre clientes
bons e maus, sem considerar o efeito das demais.
A literatura cientfica a seleo pelo ganho de informao como um mtodo de

filtragem de variveis, pois o critrio de seleo se baseia no ganho de informao
das variveis preditoras, em relao resposta, e no no modelo de classificao em
si. Com isso, esta seleo pode ser encarada como um pr-processamento de dados
(GUYON; ELISSEEFF, 2003). No entanto, nesse trabalho, o modelo de classificao
foi utilizado como um critrio de parada para a retirada de variveis, para que fossem
62
removidas somente as variveis redundantes e nenhuma varivel importante, que

pudesse prejudicar na acurcia dos modelos, fosse retirada.
O ganho de informao (InfoGain) de uma varivel discreta em relao varivel

resposta (Classe), tambm discreta, dado pela diferena,
InfoGain(Classe, X ) = H (Class) H ( Class X )
(41)
em que, H (Class ) a Entropia da varivel resposta e H ( Class X ) a Entropia

condicional da varivel resposta dado a varivel X.
Seja X uma varivel aleatria discreta com distribuio de probabilidades P(X) e

com n observaes dadas por x1,x2, .....,xn. A Entropia marginal da varivel X dada
por,
n
H ( X ) = P ( xi ) ln ( P ( xi ) )
(42)
i =1
E, a Entropia Condicional de X dado Y dada por,

n
H ( X Y ) = P ( xi , yi ) ln ( P( xi yi ) )
(43)
i =1 j =1
sendo Y discreta com observaes dadas por y1,y2, .....,ym.

Aps a filtragem, a seleo de variveis dos Classificadores Naive Bayes e TAN
realizada aplicando o mtodo Wrapper (Witten e Frank, 2005) e nos Classificadores
GBN sero selecionadas as variveis do Markov Blanket da varivel resposta.
O mtodo Wrapper aplica o prprio modelo de classificao para avaliar o

conjunto de variveis preditoras e utiliza o esquema de Cross-validation para estimar
a acurcia de cada conjunto avaliado. O mtodo leva em considerao as premissas
de cada Classificador bayesiano para obter o subconjunto de variveis preditoras
mais importantes para o modelo. Guyon e Elisseeeff (2003), descrevem que o
mtodo Wrapper freqentemente criticado por parecer um mtodo de fora bruta,
exigindo um grande esforo computacional para ser realizado. Mas isso pode no
ocorrer
necessariamente,
pois
estratgias
eficientes
de
busca
tm
sido
63
desenvolvidas visando obteno de mtodos de busca mais eficientes e que no

prejudiquem o desempenho das previses do modelo avaliado. Mtodos de busca
gulosa (Greedy search) possuem vantagens computacionais e so robustos contra
problemas de overfitting dos dados. As metodologias de busca gulosa existentes so
a forward selection e backward elimination, sendo que na forward selection as
variveis so progressivamente incorporadas nos subconjuntos de variveis
enquanto a backward elimination inicia com um conjunto com todas as variveis que
so eliminadas sem que isso comprometa o desempenho do modelo.
J nos Classificadores GBN, a seleo do subconjunto de variveis preditoras do

Markov Blanket da varivel resposta um procedimento natural de seleo, pois
estas variveis protegem a varivel resposta da influncia de qualquer outra
varivel de fora do seu Markov Blanket. Alguns estudos, mencionados no Captulo 2,
demonstraram que os Classificadores GBN com somente as variveis do Markov
Blanket da varivel resposta resultam em modelos parcimoniosos e poderosos em
diversas aplicaes, alm de ser uma maneira de contornar o problema de overfitting
(CHENG; GREINER, 2001).
4.4 Amostra de Desenvolvimento e Validao
Como a base de dados German Credit
apresentam um nmero grande de
clientes (observaes), ser utilizado o conceito de Cross-Validation (WITTEN;

FRANK, 2005) para obteno das amostras de desenvolvimento e de validao. O
procedimento de Cross-Validation aplicado consiste em dividir aleatoriamente todos
os clientes da base de dados em 10 parties amostrais de tamanhos iguais. Destas
parties, sero construdos 10 conjuntos, cada um com 9 parties para
desenvolvimento do modelo e 1 para validao do modelo. Com isso, sero
aplicadas as tcnicas em cada um dos 10 grupos de desenvolvimento do modelo e
os resultados sero avaliados em cada um dos respectivos grupos de validao.
As 9 parties de desenvolvimento, ou seja, 90% das observaes da base de

dados, so utilizadas para estimar os parmetros dos modelos. As amostras de
64
validao so utilizadas para avaliar a capacidade de generalizao do modelo, ou

seja, se o modelo estimado mantiver seu poder de discriminao em amostras
provindas da mesma populao da amostra de desenvolvimento, ento ele estvel.
Mas, se seu poder de discriminao variar muito de uma amostra para outra, ento
ele pode estar com problema de overfitting.
Em bases de dados com um nmero reduzido de observaes e muitas variveis

preditoras, como o caso da German Credit, o procedimento de Cross-Validation
vantajoso, pois todos os clientes bons e maus so utilizados tanto para o
desenvolvimento dos modelos quanto para a validao dos modelos. Alm dos
modelos serem desenvolvidos com uma alta proporo de observaes da base de
dados.
4.5 Softwares Utilizados
O modelo de Regresso Logstica com seleo de variveis por Forward

Stepwise ser estimado utilizando o software estatstico R, que um software livre
com as principais ferramentas de estatstica desenvolvido por pesquisadores da rea
de Estatstica do mundo todo.
Os Classificadores bayesianos Naive Bayes, TAN e GBN sero aplicados

utilizando o software Weka (Waikato Environment for Knowledge Analysis), verso
3.5.8. O software Weka foi utilizado em todas as etapas de construo dos
Classificadores bayesianos, como: a seleo de variveis pelo mtodo Wrapper,
filtragem pelo Ganho de Informao em relao varivel resposta, aprendizados de
estrutura utilizando as medidas Bayes, MDL, AIC, Bdeu e Entropia e tambm
inferncias para a interpretao e predio dos Classificadores.
O software WEKA foi desenvolvido na Universidade de Waikato na Nova Zelndia

para tarefas de Data Mining e possui uma coleo de algoritmos de Aprendizado de
Mquina, rea que combina Estatstica com Inteligncia Artificial.
65
5. RESULTADOS
No captulo de Resultados, sero apresentadas as aplicaes da Regresso

Logstica e dos Classificadores Bayesianos em modelos de Credit Scoring, utilizando
a base de dados German Credit. Nas Sees 5.1 e 5.2, sero avaliados e
interpretados os modelos de Regresso Logstica e os Classificadores Bayesianos
Naive Bayes, TAN e GBN. Na Seo 5.4, os resultados dos modelos ajustados sero
comparados.
Os modelos de classificao foram estimados a partir da amostra balanceada,

com 300 clientes bons pagadores e 300 clientes maus pagadores, obtida por
Amostragem Retrospectiva, como foi descrito na Seo 4.1. A amostra balanceada
contm 47 variveis dummy, equivalentes s variveis originais, como tambm foi
apresentado na Seo 4.2. A varivel resposta Cliente binria (dummy),
assumindo valor 0 se o cliente for um mau pagador (casela de referncia) e valor 1
se o cliente for um bom pagador.
Para interpretar os modelos de classificao, deve-se considerar que cada

dummy (ou varivel binria) corresponder a um nvel de uma varivel preditora
(categrica) e o ltimo nvel da varivel preditora ser a casela de referncia. As
dummies assumem valor 1, se o cliente possui a caracterstica correspondente a esta
varivel, e 0, caso contrrio. A casela de referncia corresponde ao nvel da varivel
preditora original associado a todos os valores zero das dummies.
As amostras de desenvolvimento e de validao foram obtidas por CrossValidation com 10 parties. O desempenho dos modelos de classificao sero
avaliados e comparados em relao estatstica Kolmogorov-Smirnov, coeficiente
Gini e as taxas de acerto obtidas da Matriz de Confuso, descritas na Seo 3.4. O
ponto de corte adotado para classificar os clientes da amostra de validao foi de 50.
Logo, na amostra de validao, se o modelo ajustado previu score acima de 50,
ento o cliente foi classificado como um bom pagador, e caso contrrio, o cliente foi
classificado como mau pagador.
66
5.1 Regresso Logstica
Neste trabalho, a anlise de Regresso Logstica foi realizada utilizando o

software estatstico R. Inicialmente, foi estimado o modelo saturado (com todas as
variveis) e subseqentemente foi estimado o modelo com variveis selecionadas
por Forward Stepwise. As medidas de desempenho destes modelos, obtidas das
amostras de validao construdas por Cross-Validation com 10 parties (10-fold),
so mostradas na Tabela 8.
As medidas de desempenho dos modelos logsticos ajustados indicam que a

seleo de variveis foi eficiente, pois tornou o modelo mais parcimonioso (com um
nmero menor de variveis) e as taxas de acerto, a estatstica KS e o coeficiente Gini
apresentaram maiores valores, aps a seleo por Forward Stepwise. A seleo de
variveis por Forward Stepwise possibilita a reduo do problema de dependncia
entre variveis preditoras (multicolinearidade) pois, durante a seleo, so retiradas
as variveis que apresentem alta associao com outras.
Tabela 8 - Estatstica KS, coeficiente Gini, taxas de acerto total (TAT), dos clientes bons (TAB), dos
clientes maus (TAM) e nmero de variveis dos modelos de Regresso Logstica ajustados.
Modelo
TAT
TAB
TAM
KS
Gini
Regresso Logstica
72.7% 70.7% 74.7% 45.33% 55.94%
(Modelo Saturado)
Regresso Logstica com Seleo
74.83% 74.00% 75.67% 50.33% 61.46%
por Forward Stepwise
N de
Variveis
48
28
A amostra utilizada na estimao dos modelos logsticos foi a balanceada, obtida

por Amostragem Retrospectiva na base de dados German Credit. Com isso, para a
aplicao do modelo na populao original necessrio que o intercepto do modelo
logstico seja re-calculado, pela expresso 39 da Seo 4.1, que resulta em,
300 / 700
2.451
1
o = 1.6039 ln
com, 1 = 300 / 700 ,
(44)
2 = 1 e 0* = 1.6039 (intercepto do modelo logstico ajustado).

67
O intercepto do modelo logstico utilizado para o clculo da probabilidade do

cliente ser um bom pagador, quando todas as variveis dummy do modelo
assumem valor zero. Dado o modelo logstico ajustado, esta probabilidade dada
por,
P (Cliente = 1) =
exp(2.451)
= 0.9206
1 + exp(2.451)
(45)
As estimativas dos demais coeficientes do modelo com seleo de variveis por

Forward Stepwise (modelo logstico final), juntamente com algumas medidas
descritivas de cada varivel, com seus respectivos nveis (dummies), so
apresentadas na Tabela 9. Estas medidas descritivas auxiliam na interpretao dos
coeficientes.
As caselas de referncia so os nveis associados aos valores zero das dummies

e esto representadas na Tabela 9 por um trao (-). A varivel resposta Cliente
assume valor 0 se o cliente for um mau pagador e assume valor 1 se o cliente for
um bom pagador.
Os coeficientes de um modelo de Regresso Logstica mltipla podem ser

interpretados como o aumento (ou reduo) na probabilidade do cliente no se tornar
inadimplente, em determinado perodo, dado o acrscimo de uma unidade na
varivel preditora (dummy), sem considerar a alterao das demais variveis do
modelo (MONTGOMERY et al., 2001).
Assim, coeficientes negativos indicam que a observao da caracterstica do

cliente (dummy de uma varivel preditora) contribui para uma reduo na
probabilidade do cliente no se tornar inadimplente, em determinado perodo
(aumento no risco de inadimplncia), em relao aos demais clientes; e coeficientes
positivos evidenciam que a observao da dummy produz um aumento na
probabilidade do cliente no se tornar inadimplente, em determinado perodo
(reduo no risco de inadimplncia), em relao aos demais clientes.
68
Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica Final, juntamente
as medidas descritivas: Risco Relativo, Nmero de Clientes bons (#Bons) e maus (#Maus), Total
de clientes (Total) por categoria, Percentual de clientes da categoria em relao ao total de clientes
(%Total) e Percentual de Maus por categoria (dummy) (Bad Rate).
Varivel Preditora
Nveis (Varivel Dummy)

Intercepto
Bens
Salrio
Poupana do Cliente
Outros Emprstimos
Outras dvidas
ou garantias
Finalidade
Histrico de Crdito
Tempo de Trabalho
Estado Civil e Sexo
Imvel
Seguro de Vida, Carro e outros
No possui bens
X < $0
0 <= X < 200
X >=200
Sem remunerao
< $500
>= $500
Nenhum
Bancos e Lojas
Nenhuma
Co-aplicante
Fiador
Compra de carro usado
Mveis
Rdio e TV
Utenslios domsticos
Reforma
Educao
Cursos
Negcios
Outros
Sem emprstimos tomados ou
todos os emprstimos
pagos pontualmente
Existem emprstimos pagos
pontualmente
Histrico de atraso no
pagamento
Atraso no pagamento ou com
emprstimos tomados em
outras Instituies
Desempregado ou menos de 1
ano
1 <= X < 4 anos
X >= 4anos
Divorciado(a) ou separado(a)
ou mulher casada
Masculino solteiro
Masculino casado ou vivo.
Coef.
2.451
-1.988
-1.262
-0.943
-0.871
0.886
-1.073
-1.470
-2.033
-1.387
-1.279
-1.685
-1.610
-2.345
-1.488
-
Risco
Bad
#Bons #Maus Total %Total
Relativo
Rate
1.683
101
60
161 26.8% 37.3%
0.931
161
173 334 55.7% 51.8%
0.567
38
67
105 17.5% 63.8%
0.378
51
135 186 31.0% 72.6%
0.724
76
105 181 30.2% 58.0%
1.500
21
14
35 5.8% 40.0%
3.304
152
46
198 33.0% 23.2%
0.753
189
251 440 73.3% 57.0%
2.059
35
17
52 8.7% 32.7%
2.375
76
32
108 18.0% 29.6%
1.156
259
224 483 80.5% 46.4%
0.539
41
76
117 19.5% 65.0%
0.996
271
272 543 90.5% 50.1%
0.611
11
18
29 4.8% 62.1%
1.800
18
10
28 4.7% 35.7%
0.640
57
89
146 24.3% 61.0%
2.118
36
17
53 8.8% 32.1%
0.897
52
58
110 18.3% 52.7%
1.548
96
62
158 26.3% 39.2%
0.500
2
4
6
1.0% 66.7%
1.125
9
8
17 2.8% 47.1%
0.409
9
22
31 5.2% 71.0%
5.000
5
1
6
1.0% 16.7%
0.853
29
34
63 10.5% 54.0%
1.000
5
5
10 1.7% 50.0%
-1.278
0.226
12
53
65
10.8% 81.5%
-0.487
0.911
154
169
323 53.8% 52.3%
1.000
28
28
56
2.120
106
50
156 26.0% 32.1%
0.720
67
93
160 26.7% 58.1%
1.010
1.243
105
128
104
103
209 34.8% 49.8%

231 38.5% 44.6%
0.729
94
129
223 37.2% 57.8%
0.448
-
1.226
1.080
179
27
146
25
325 54.2% 44.9%

52 8.7% 48.1%
9.3% 50.0%
69
Continuao da Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica Final,
juntamente as medidas descritivas: Risco Relativo, Nmero de Clientes bons (#Bons) e maus
(#Maus) , Total de clientes (Total) por categoria e Percentual de clientes da categoria em relao ao
total de clientes (%Total) e Percentual de Maus por categoria (dummy) (Bad Rate).
Varivel Preditora
Nveis (Varivel Dummy)
Prpria
Alugada ou Moradia gratuita
Desempregado ou empregado
com baixa qualificao
Empregado qualificado ou
Emprego
funcionrio pblico
Executivo, profissional liberal,
empregado altamente
Sim
Telefone Prprio
No
Sim
Estrangeiro
No
<12
12<= X<16
Durao do
emprstimo
16<= X<36
>=36
<1000
1000<= X<4000
Valor do Emprstimo
4000<= X<7500
>=7500
Taxa de juros
>=4
em % do valor do
<4
emprstimo
<3
Tempo de
3<= X<4
Residncia
>=4
<25
25<= X<30
30<= X<32
Idade
32<= X<35
35<= X<51
>=51
>=2
Nmero de
Dependentes
<2
Nmero de crditos
>=2
concedidos em seu
<2
banco
Moradia
Risco
Bad
#Bons #Maus Total %Total
Relativo
Rate
0.489
1.253
233
186 419 69.8% 44.4%
0.588
67
114 181 30.2% 63.0%
Coef.
1.286
81
63
144 24.0% 43.8%
0.946
176
186
362 60.3% 51.4%
0.843
43
51
94
15.7% 54.3%
1.858
0.960
0.678
1.003
1.686
0.926
-0.465
1.027
0.984
0.946
5.000
2.556
1.323
0.853
0.476
0.676
1.367
0.689
0.386
0.818
116
184
280
20
69
82
110
39
25
216
42
17
130
113
187
296
4
27
62
129
82
37
158
61
44
159
229
371
576
24
96
144
239
121
62
374
103
61
289
38.2%
61.8%
96.0%
4.0%
16.0%
24.0%
39.8%
20.2%
10.3%
62.3%
17.2%
10.2%
48.2%
49.3%
50.4%
51.4%
16.7%
28.1%
43.1%
54.0%
67.8%
59.7%
42.2%
59.2%
72.1%
55.0%
0.630
0.556
-
1.206
1.128
1.023
0.855
0.525
0.829
1.364
0.848
1.494
1.032
1.130
0.976
1.230
170
150
44
106
32
63
30
28
115
32
52
248
123
141
133
43
124
61
76
22
33
77
31
46
254
100
311
283
87
230
93
139
52
61
192
63
98
502
223
51.8%
47.2%
14.5%
38.3%
15.5%
23.2%
8.7%
10.2%
32.0%
10.5%
16.3%
83.7%
37.2%
45.3%
47.0%
49.4%
53.9%
65.6%
54.7%
42.3%
54.1%
40.1%
49.2%
46.9%
50.6%
44.8%
0.885
177
200
377 62.8% 53.1%
A anlise dos coeficientes do modelo logstico final mostra que as caractersticas

dos clientes (dummies), que individualmente contribuem para reduo no risco de
inadimplncia, em relao aos demais clientes, foram: Outros Emprstimos
(Nenhum), Salrio (Sem Remunerao), Outras dvidas ou garantias (Fiador),
Estado Civil e Sexo (Masculino solteiro), Moradia (Prpria), Estrangeiro (Sim),
70
Durao do emprstimo (<=16 meses), Valor do Emprstimo (<=$7500) Idade

(30<= X<32 e 35<= X<51).
Por outro lado, as caractersticas que individualmente apresentam maiores riscos

de inadimplncia, em relao aos demais clientes, so: Histrico de Crdito (sem
emprstimos tomados ou com todos os emprstimos pagos pontualmente ou com
emprstimos pagos pontualmente), Valor do Emprstimo (>=7500), Outros
Emprstimos (bancos e lojas), Durao do Emprstimo (>=16 meses) e taxa de
juros de mais de 4% do valor do emprstimo.
Algumas dummies com riscos relativos prximos a 1, consideradas com risco de

inadimplncia neutro, foram retiradas do modelo durante a seleo de variveis.
Estas dummies so: Histrico de Crdito (Histrico de atraso no pagamento),
Tempo de
Trabalho (1<=X<4 anos), Emprego (Empregado qualificado ou
funcionrio pblico), Telefone Prprio (Sim), Tempo de Residncia (3<= X<4) e

Nmero de Dependentes (<2).
5.2 Classificadores Bayesianos
Nesta Seo so descritos os resultados das aplicaes dos Classificadores

Bayesianos Naive Bayes, TAN e GBN em modelos de Credit Scoring, utilizando a
base de dados German Credit e Cross-Validation com 10 parties para a obteno
das amostras de desenvolvimento e de validao.
A seleo de variveis nos Classificadores Naive Bayes e TAN, descrita na Seo

4.3, passou por duas etapas: uma de filtragem pelo ganho de informao e outra de
seleo pelo mtodo Wrapper. As selees de variveis, inferncias, os
aprendizados de parmetros e de estrutura foram feitas utilizando o software WEKA.
As dummies da base de dados German Credit ordenadas por sua contribuio

para o ganho de informao da varivel resposta so mostradas na Tabela 10; e
desta tabela pode-se observar que a dummy Histrico de Crdito (Histrico de
71
atraso no pagamento) a que menos contribui para a previso dos clientes bons e
maus pagadores, seguida das dummies Tempo de
Trabalho (1<=X<4 anos) e
Outras dvidas ou garantias (Nenhuma), e assim por diante.
Da base de dados, foram retiradas 18 dummies, desde a varivel Histrico de

Crdito (Histrico de atraso no pagamento) at a varivel Outras dvidas ou
garantias (Co-aplicante). Os resultados dos Classificadores Bayesianos estimados
aps esta filtragem pelo ganho de informao. Aps a filtragem, os Classificadores
Naive Bayes e TAN passaram por uma seleo de variveis pelo mtodo Wrapper.
J os Classificadores GBN tiveram suas variveis selecionadas pelo Markov Blanket
da varivel resposta. Os resultados destes modelos sero apresentados nas Sees
5.3.1 a 5.3.4.
Tabela 10 - Variveis preditoras ordenadas pela sua contribuio individual para o ganho de
informao em relao varivel resposta (Cliente bom ou mau pagador).
Ganho de
Informao
VarivelPreditora (Nvel)
Ganho de
Informao
Salrio (X < $0)
0.067934
Poupana do Cliente (< $500)

Histrico de Crdito (Sem emprstimos tomados
ou todos os emprstimos pagos
pontualmente)
Valor do Emprstimo (1000<= X<4000)
Durao do emprstimo (<12)
Moradia (Prpria)
Bens (Imvel)
0.040192
Emprego (Desempregado ou empregado com

baixa qualificao)
Finalidade (Cursos)
0.037357
Valor do Emprstimo (<1000)
0.003132
0.028955
0.027069
0.021194
0.017302
0.003021
0.002325
0.002155
0.001905
Outros Emprstimos (Nenhum)
0.015834
Estrangeiro (Sim)
Idade (35<= X<51)
Idade (<25)
0.014534
0.013363
0.013051
Finalidade (Rdio e TV)
0.012013
Finalidade (Compra de carro novo)

Estado Civil e Sexo (Divorciado(a) ou separado(a)
ou mulher casada)
Finalidade (Compra de carro usado)
Estado Civil e Sexo (Masculino solteiro)
Poupana do Cliente (>= $500)
Salrio (0 <= X < 200 )
Finalidade (Educao)
Tempo de Trabalho (Desempregado ou menos
de 1 ano)
Taxa de juros em % do valor do emprstimo (<4)
Nmero de crditos concedidos em seu banco
(>=2)
Durao do emprstimo (12<= X<16)
0.011215
Durao do emprstimo (16<= X<36)

Tempo de Residncia (<3)
Outras dvidas ou garantias (Co-aplicante)
Idade (25<= X<30)
Histrico de Crdito (Existem emprstimos
pagos pontualmente )
Salrio (X >=200)
Idade (30<= X<32)
Bens (Seguro de Vida, Carro e outros)
Emprego (Empregado qualificado ou
funcionrio pblico)
Finalidade (Utenslios domsticos)
0.010544
Idade (32<= X<35)
0.000549
0.009168
0.008808
0.008359
0.008025
0.007118
Finalidade (Negcios)
Nmero de Dependentes (>=2)
Finalidade (Mveis)
Telefone Prprio (Sim)
Finalidade (Reforma)
0.000534
0.000528
0.000482
0.000076
0.000073
0.006950
Outras dvidas ou garantias (Nenhuma)
0.000023
0.006760
0.005111
Tempo de Residncia (3<= X<4)

Tempo de Trabalho (1 <= X < 4 anos)
Histrico de Crdito (Histrico de atraso no
pagamento)
-
0.000016
0.000009
0.004545
0.004405
VarivelPreditora (Nvel)
0.003567
0.003532
0.001815
0.001799
0.001626
0.001170
0.000837
0.000825
0.000000
-
72
5.2.1 Classificador Naive Bayes

O desempenho dos Classificadores Naive Bayes em todas as etapas de seleo
de variveis, com relao s taxas de acerto da matriz de confuso, a estatstica
Kolmogorov-Smirnov e ao coeficiente Gini mostrado na Tabela 11.
Nos Classificadores Naive Bayes, a filtragem de variveis pelo ganho de

informao foi eficiente, pois a retirada das 18 variveis contribuiu para um modelo
mais parcimonioso (com menor nmero de variveis) e mais poderoso. A retirada das
variveis, que individualmente menos contribuam para o ganho de informao da
varivel resposta, auxiliou no aumento das taxas de acerto nas previses dos
clientes maus pagadores e no aumento das medidas de discriminao entre
clientes bons e maus pagadores (KS e Gini).
Tabela 11 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes
bons (TAB) e dos clientes maus (TAM) e nmero de variveis dos Classificadores Naive Bayes
ajustados utilizando Cross-Validation.
Modelo
TAT
TAB
TAM
KS
Gini
N de
Variveis
Modelo Saturado
Filtragem pelo Ganho de Informao
Seleo Wrapper Forward
Seleo Wrapper Backward
72.00%
72.50%
74.00%
74.50%
68.30%
68.70%
73.00%
72.30%
75.70%
76.30%
75.00%
76.70%
44.33%
46.67%
48.33%
49.33%
56.83%
59.39%
54.28%
57.47%
48
31
12
28
Aps a filtragem, foi realizada a seleo de variveis pelo mtodo Wrapper e

utilizando a busca Forward Selection e Backward Elimination, para efeito de
comparao. Da Tabela 11, pode-se observar que as selees pelo mtodo Wrapper
apresentaram melhores desempenhos, do que os modelos saturado e com filtragem
de variveis, em relao assertividade das previses dos clientes bons e a
estatstica KS.
Apesar do modelo Naive Bayes com busca por Forward Selection ser o mais
parcimonioso, ser escolhido o Classificador Naive Bayes com seleo pelo mtodo
Wrapper com busca por Backward Elimination como o melhor modelo (Classificador
Naive Bayes final); e est indicado em negrito na Tabela 11. Pois, este o modelo
73
que discrimina um pouco melhor os clientes bons e maus pagadores, analisando a

estatstica KS e o coeficiente Gini, e tambm apresentou maior assertividade nas
previses dos clientes maus pagadores.
Para a aplicao do Classificador Naive Bayes final na populao original, foi

necessria a substituio da distribuio da varivel resposta Cliente pela sua
distribuio na amostra original, que P (Cliente = 1) = 0.7 e P (Cliente = 0) = 0.3 . Esta
substituio foi feita, pois a estimao do modelo foi feita a partir da amostra
balanceada, obtida por amostragem retrospectiva.
Apenas para ilustrar, apresentada na Figura 12 a estrutura da RB do

Classificador Naive Bayes final.
Figura 12 - Estrutura da Rede Bayesiana do Classificador Naive Bayes com seleo de variveis pelo
mtodo Wrapper com busca Backward Elimination.
A Tabela 12 contm as probabilidades condicionais de um cliente pretendente ao

crdito no se tornar inadimplente, em determinado perodo, dada observao de
uma varivel preditora (dummy), sem que haja alterao nos valores das demais
variveis. As probabilidades condicionais desta tabela informam o aumento na
probabilidade do cliente ser bom pagador, dada a observao de uma caracterstica
do cliente, sem que outras variveis do modelo recebam evidncias; e foram obtidas
por Inferncias utilizando o algoritmo Junction Tree.
74
Tabela 12 - Probabilidades dos clientes se tornarem bons e maus pagadores, dado a observao
dos nveis das variveis preditoras, sem que haja alterao nas categorias das demais variveis, do
Classificador Naive Bayes final.
VarivelPreditora
Nvel(varivel dummy)
Bens
Imvel
X < $0
0 <= X < 200
< $500
>= $500
Nenhum
Salrio
Poupana do Cliente
Outros Emprstimos
Outras dvidas
ou garantias
Co-aplicante

Rdio e TV
Finalidade
Educao
Cursos
ou todos os
Histrico de Crdito
emprstimos pagos
pontualmente
Desempregado ou menos de
Tempo de Trabalho
1 ano
Divorciado(a) ou
separado(a) ou mulher
Estado Civil e Sexo
casada
Masculino solteiro
Moradia
Prpria
Desempregado ou
Emprego
empregado com baixa
qualificao
Estrangeiro
No
<12
Durao do
12<= X<16
emprstimo
16<= X<36
Valor do Emprstimo
<1000
valor do
>=4
emprstimo
Tempo de Residncia
<3
<25
Idade
35<= X<51
Nmero de crditos
concedidos em seu
>=2
banco
P(Cliente=1| P(Cliente=0| P(Cliente=1| P(Cliente=0|

Categoria=1) Categoria=1) Categoria=0) Categoria=0)
0.796
0.204
0.659
0.341
0.472
0.528
0.778
0.222
0.629
0.371
0.728
0.272
0.638
0.362
0.839
0.161
0.824
0.176
0.686
0.314
0.729
0.271
0.560
0.440
0.596
0.404
0.705
0.295
0.601
0.782
0.504
0.875
0.399
0.218
0.496
0.125
0.729
0.667
0.709
0.697
0.271
0.333
0.291
0.303
0.360
0.640
0.731
0.269
0.628
0.372
0.724
0.276
0.630
0.370
0.737
0.263
0.741
0.745
0.259
0.255
0.647
0.580
0.353
0.420
0.749
0.251
0.683
0.317
0.907
0.854
0.755
0.666
0.615
0.093
0.146
0.245
0.334
0.385
0.688
0.664
0.681
0.722
0.709
0.312
0.336
0.319
0.278
0.291
0.656
0.344
0.738
0.262
0.724
0.554
0.776
0.276
0.446
0.224
0.677
0.723
0.660
0.323
0.277
0.340
0.741
0.259
0.674
0.326
Analisando Tabela 12 verifica-se que as dummies que contribuem para o

aumento no risco de inadimplncia, quando analisadas isoladamente em relao aos
demais clientes, so: Salrio (X < $0 ou 0 <= X < 200), Poupana do Cliente
(<$500), Outros Emprstimos (Bancos e Lojas), Outras dvidas ou garantias (Coaplicante), Finalidade (Compra de Carro Novo ou Educao), Histrico de Crdito
75
(Sem emprstimos tomados ou todos os emprstimos pagos pontualmente), Tempo

de Trabalho (Desempregado ou menos de 1 ano), Estado Civil e Sexo
(Divorciado(a) ou separado(a) ou mulher casada), Durao do Emprstimo (16<=
X<36), Moradia (Alugada ou Moradia gratuita), Valor do Emprstimo (<1000),
Taxa de juros em % do valor do emprstimo (>=4), Idade (<25) e Nmero de
crditos concedidos em seu banco(<2).
5.2.2 Classificador TAN
Os Classificadores bayesianos Tree Augmented Naive Bayes (TAN) foram

construdos aplicando a filtragem pelo ganho de informao, seguida da seleo pelo
mtodo Wrapper com busca por Backward Elimination. A Tabela 13 apresenta as
medidas do desempenho do Classificador TAN nas etapas de seleo de variveis.
Os aprendizados de estrutura realizados empregaram as cinco medidas, descritas

na Seo 3.1.2: MDL, Bayes, AIC, Bdeu e Entropia. No Classificador TAN, busca da
melhor estrutura restrita ao espao de estruturas do tipo rvore. Com isso, cada
varivel preditora (dummy) deve ter no mximo um pai, alm da varivel resposta
Cliente, ou seja, o pai de uma varivel ser outra dummy com maior dependncia
condicional, dada a varivel resposta.
O software Weka foi utilizado nas selees de variveis, aprendizados e

inferncias. A busca por Backward Elimination foi adotada no mtodo Wrapper, pois
era a nica disponvel no software Weka.
A anlise da Tabela 13 indica que a filtragem de variveis pelo ganho de

informao melhorou o desempenho dos Classificadores TAN, em relao a todas as
taxas de acerto e em relao s estatsticas KS e coeficiente Gini. No entanto, a
seleo de variveis pelo mtodo Wrapper piorou o desempenho dos Classificadores
TAN com aprendizado de estrutura utilizando as medidas MDL e AIC, em relao s
taxas de acerto dos clientes bons pagadores.
76
O Classificador TAN com aprendizado de estrutura utilizando a medida Bayes foi

selecionado como melhor Classificador (Classificador TAN final), pois foi o modelo
que apresentou maiores taxas de acerto nas previses dos maus e altos valores da
estatstica KS e do coeficiente Gini. O Classificador TAN final est indicado em
negrito na Tabela 13.
bons (TAB) e dos clientes maus (TAM) e nmero de variveis dos Classificadores TAN com
aprendizado de estrutura utilizando diferentes medidas.
Medida
Modelo
Modelo Saturado
Filtragem
pelo Ganho
MDL
de Informao
Seleo Wrapper
Modelo Saturado
Filtragem pelo Ganho
Bayes
de Informao
Seleo Wrapper
Modelo Saturado
Filtragem
pelo Ganho
AIC
de Informao
Seleo Wrapper
Modelo Saturado
Filtragem
pelo Ganho
Bdeu
de Informao
Seleo Wrapper
Modelo Saturado
Entropia Filtragem pelo Ganho
de Informao
Seleo Wrapper
N de
Variveis
72.83% 70.00% 75.70% 47.00% 58.74%
48
TAT
TAB
TAM
KS
Gini
74.67% 71.30% 78.00% 50.67% 62.05%
31
73.17% 68.70% 77.70% 50.67% 61.61%

73.67% 71.70% 75.70% 47.67% 58.66%
27
48
75.17% 72.30% 78.00% 50.67% 61.29%
31
75.33% 71.00% 79.70% 51.33% 60.81%

72.83% 70.00% 75.70% 47.00% 58.73%
27
48
74.67% 71.30% 78.00% 50.67% 62.05%
31
73.17% 68.70% 77.70% 50.67% 61.59%

73.17% 72.00% 74.30% 46.67% 58.17%
27
48
74.50% 72.00% 77.00% 50.00% 60.85%
31
74.00% 72.30% 75.70% 50.00% 61.77%

72.83% 70.00% 75.70% 47.00% 58.73%
26
48
74.67% 71.30% 78.00% 50.67% 62.05%
31
73.17% 69.70% 77.70% 50.67% 61.59%
27
A estrutura da RB do Classificador TAN final (Figura 13) mostra claramente a

premissa do Classificador de que cada varivel preditora pode ter no mximo um pai
na RB, ou seja, a estrutura de um grafo de rvore. As variveis (dummies) do
Classificador TAN final, e seus respectivos pais, so apresentadas na Tabela 14.
77
Figura 13 - Estrutura da RB do Classificador TAN com aprendizado de estrutura utilizando a medida

Bayes e seleo de variveis pelo mtodo Wrapper com busca por Backward Elimination.
Tabela 14 - Variveis preditoras e respectivos pais do Classificador TAN final.
Varivel Preditora (Nvel)
Bens (Imvel)
Salrio (X < $0)
Pais (Nvel)
Durao do emprstimo
(X <12), Cliente
Tempo de Residncia (X <3),
Cliente
Label da Varivel
Preditora
Label de seus Pais
property_magnitude_1
duration_1, class
checking_status_1
Salrio (0 <= X < 200 )
Salrio (X < $0) , Cliente
checking_status_2
Poupana do Cliente
(X < $500)
Salrio (X < $0) , Cliente
savings_status_1
Histrico de Crdito (Sem

emprstimos tomados ou
todos os emprstimos
pagos pontualmente) ,
Cliente
Nmero de crditos concedidos
Outras dvidas ou garantias (Coem seu banco (X >=2) ,
aplicante)
Cliente
Finalidade
Finalidade (Rdio e TV) , Cliente
(Compra de carro novo)
Finalidade
Valor do Emprstimo (1000<=
(Compra de carro usado)
X <4000) , Cliente
Finalidade
(Compra de carro usado) ,
Cliente
Outros Emprstimos
(Nenhum)
residence_since_1,
class
checking_status_1,
class
checking_status_1,
class
other_payment_plans
credit_history_1, class
other_parties_2
existing_credits, class
purpose_1
purpose_4, class
purpose_2
credit_amount_2, class
purpose_4
purpose_2, class
78
Continuao da Tabela 14 - Variveis preditoras e respectivos pais do Classificador TAN final.

Pais (Nvel)
Label da Varivel
Preditora
Label de seus Pais
Finalidade (Educao)
Finalidade
(Compra de carro novo) ,
Cliente
purpose_7
purpose_1, class

Salrio (0 <= X < 200 ) , Cliente
credit_history_1
todos os emprstimos pagos
pontualmente)
Tempo de Trabalho
Estado Civil e Sexo (Masculino
employment_1
(Desempregado ou
solteiro) , Cliente
menos de 1 ano)
Estado Civil e Sexo
personal_status_1
(Divorciado(a) ou separado(a) ou
solteiro) , Cliente
mulher casada)
Clientepersonal_status_2
solteiro)
Finalidade (Compra de carro
Moradia (Prpria)
housing
usado) , Cliente
Emprego (Desempregado ou
empregado com baixa
Bens (Imvel) , Cliente
job_1
qualificao)
Durao do emprstimo
Estrangeiro (No)
foreign_worker
(X <12) , Cliente
Durao do emprstimo
Durao do emprstimo (12<=
duration_1
(X <12)
X <16) , Cliente
Durao do emprstimo
Valor do Emprstimo
duration_2
(12<= X <16)
(X <1000) , Cliente
Valor do Emprstimo
credit_amount_1
(X <1000)
X <4000) , Cliente
Valor do Emprstimo
credit_amount_2
(1000<= X <4000)
X <7500) , Cliente
Valor do Emprstimo
credit_amount_3
(4000<= X <7500)
solteiro) , Cliente
Taxa de juros em % do valor do
Valor do Emprstimo
installment_commitment
emprstimo (X <4)
(X <1000) , Cliente
Tempo de Residncia (X <3)
Moradia (Prpria) , Cliente
residence_since_1
Idade (X <25)
age_1
solteiro) , Cliente
Nmero de crditos concedidos
Idade (X <25) , Cliente
existing_credits
em seu banco (X >=2)
checking_status_2,
class
personal_status_2,
class
personal_status_2,
class
Class
purpose_2, class
property_magnitude_1,
class
duration_1, class
duration_2, class
personal_status_2,
class
housing, class
personal_status_2,
class
age_1, class
As dependncias entre variveis preditoras obtidas do aprendizado de estrutura

sero analisadas a partir do clculo das probabilidades dos clientes se tornarem
bons (ou maus) pagadores, em determinado perodo, dada a observao das
variveis (filhos) e de seus pais, sem que as demais variveis recebam evidncias na
RB. Estas probabilidades so mostradas na Tabela 17.
Para efeito de comparao, tambm foram calculadas as probabilidades dos

clientes se tornarem inadimplentes (ou no), em determinado perodo, dada a
79
observao das variveis preditoras isoladamente, sem considerar o efeito das

demais, mostradas na Tabela 15.
Tabela 15 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de
cada varivel preditora isoladamente, no Classificador TAN com aprendizado utilizando a medida
Bayes e com seleo com o mtodo Wrapper com busca por Backward Elimination.
Varivel (Nvel)
Bens (Imvel)
Salrio (X < $0)
Salrio (0 <= X < 200 )
Poupana do Cliente (X < $500)
Outras dvidas ou garantias (Co-aplicante)
Finalidade (Compra de carro novo)
Finalidade (Educao)
Histrico de Crdito (Sem emprstimos tomados
ou todos os emprstimos pagos pontualmente)
Tempo de Trabalho
(Desempregado ou menos de 1 ano)
Estado Civil e Sexo (Divorciado(a) ou
separado(a) ou mulher casada)
Moradia (Prpria)
Emprego (Desempregado ou empregado com
baixa qualificao)
Estrangeiro (No)
Durao do emprstimo (X <12)
Durao do emprstimo (12<= X <16)
Valor do Emprstimo (X <1000)
Valor do Emprstimo (1000<= X <4000)
Valor do Emprstimo (4000<= X <7500)
Taxa de juros em % do valor do emprstimo
(X >=4)
Idade (X <25)
Nmero de crditos concedidos em seu banco
(X >=2)

0.639
0.548
0.023
0.736
0.639
0.745
0.050
0.123
0.209
0.136
0.361
0.452
0.977
0.264
0.361
0.255
0.950
0.877
0.791
0.864
0.713
0.763
0.820
0.546
0.814
0.697
0.781
0.735
0.750
0.717
0.287
0.237
0.180
0.454
0.186
0.303
0.219
0.265
0.250
0.283
0.833
0.167
0.673
0.327
0.524
0.476
0.754
0.246
0.009
0.991
0.923
0.077
0.741
0.407
0.259
0.593
0.647
0.851
0.353
0.149
0.831
0.169
0.640
0.360
0.890
0.094
0.895
0.025
0.029
0.811
0.110
0.906
0.105
0.975
0.971
0.189
0.691
0.732
0.502
0.766
0.879
0.675
0.309
0.268
0.498
0.234
0.121
0.325
0.805
0.195
0.431
0.569
0.833
0.463
0.167
0.537
0.577
0.735
0.423
0.265
0.566
0.434
0.748
0.252
80
cada varivel preditora isoladamente, no Classificador TAN Classificador TAN com aprendizado
utilizando a medida Bayes e com seleo com o mtodo Wrapper com busca por Backward
Elimination.
Filhos (Nvel)
Pais (Nvel)
Durao do emprstimo
(X <12)
Tempo de Residncia
Salrio (X < $0)
(X <3)
Outros Emprstimos
(Nenhum)
todos os emprstimos
pagos pontualmente)
Outras dvidas ou
Nmero de crditos
garantias
(Co-aplicante)
(X >=2)
Finalidade
Valor do Emprstimo
(1000<= X <4000)
Salrio (0 <= X < 200 )
todos os emprstimos
pagos pontualmente)
Tempo de Trabalho
Estado Civil e Sexo
(Desempregado ou
(Masculino solteiro)
menos de 1 ano)
Finalidade (Compra de
Moradia (Prpria)
carro usado)
Emprego (Desempregado
Bens (Imvel)
ou empregado com baixa
qualificao)
Durao do emprstimo
Estrangeiro (No)
(X <12)
Durao do emprstimo
Valor do Emprstimo
(12<= X <16)
(X <1000)
Valor do Emprstimo
Estado Civil e Sexo
(4000<= X <7500)
Valor do Emprstimo
valor do emprstimo
(X <1000)
(X >=4)
Tempo de Residncia
Moradia (Prpria)
(X <3)
Estado Civil e Sexo
Idade (X <25)
Nmero de crditos
Idade (X <25)
(X >=2)
Bens (Imvel)

Filho=1,Pai=1) Filho=1,Pai=1) Filho=1,Pai=0) Filho=1,Pai=0)
0.180
0.820
0.680
0.320
0.764
0.236
0.479
0.521
0.768
0.232
0.614
0.386
0.211
0.789
0.578
0.422
0.015
0.985
0.372
0.628
0.117
0.883
0.848
0.152
0.583
0.417
0.469
0.531
0.088
0.912
0.455
0.545
0.827
0.173
0.833
0.167
0.382
0.618
0.920
0.080
0.050
0.950
0.935
0.065
0.916
0.084
0.708
0.292
0.030
0.970
0.848
0.152
0.574
0.426
0.935
0.065
0.509
0.491
0.432
0.568
0.246
0.754
0.624
0.376
Analisando as estimativas das probabilidades condicionais das Tabela 15 e

Tabela 17, nota-se que a observao da varivel Histrico de Crdito (Sem
emprstimos tomados ou com todos os emprstimos pagos pontualmente)
isoladamente contribuiu para uma reduo no risco de inadimplncia, se comparada
aos demais clientes. No entanto, quando analisado o efeito de interao entre esta
varivel com seu pai na RB, Salrio (0<=X<200), observa-se outra interpretao. A
81
interao mostra que, entre os clientes sem emprstimos tomados ou com todos os
emprstimos pagos pontualmente (em dia), aqueles com salrio inferior a $200
possuem alto risco de inadimplncia, se comparados demais clientes com outras
faixas salariais e com mesmo histrico de crdito. Estes clientes com outras faixas
salariais e com mesmo histrico de crdito, por sua vez, possuem baixo risco de
inadimplncia, em determinado perodo. Com isso, fica clara a importncia de se
avaliar o efeito combinado entre variveis e de seus pais na RB.
As dependncias entre variveis indicadas no aprendizado de estrutura se

confirmam na amostra, pois seus riscos relativos (Tabela A. 10 do Apndice)
apresentaram valores superiores a 1, indicando alta associao entre as dummies
preditoras e seus pais.
A anlise das interaes entre variveis na RB permite a avaliao dos efeitos

da combinao de cada dummy preditora com seu pai na RB. Esta anlise
importante, pois pode levar a informaes a respeito do perfil de risco de
inadimplncia
que
no
podem
ser
observadas
analisando
as
variveis
individualmente, como pode ser observado anteriormente.
Analisando a Tabela 17, observa-se que as seguintes interaes contribuem para

maiores riscos de inadimplncia, enquanto individualmente a observao da dummy
preditora contribui para menores riscos de inadimplncia, em relao aos outros
clientes: varivel "Outras dvidas ou garantias(Co-aplicante) com pai "Nmero de
crditos concedidos em seu banco(X>=2), varivel "Histrico de Crdito(Sem
emprstimos tomados ou todos os emprstimos pagos pontualmente) com pai
Salrio(0<=X<200),
varivel
"Estrangeiro(Sim)
com
pai
"Durao
do
emprstimo(X<12), varivel "Durao do emprstimo(12<=X<16) com pai "Valor do

Emprstimo(X<1000), varivel "Taxa de juros em % do valor do emprstimo(X>=4)
com pai "Valor do Emprstimo(X<1000), varivel "Tempo de Residncia(X<3) com
pai "Moradia(Prpria).
82
5.2.3 Classificador GBN

No aprendizado aplicado para a obteno da estrutura do Classificador GBN a
partir da amostra balanceada da base de dados German Credit, foi empregado o
algoritmo Hill Climbing para a busca da estrutura que melhor descreva a base de
dados. As medidas utilizadas para avaliar as possveis estruturas durante sua busca
foram: MDL, Bayes, AIC, Bdeu e Entropia
O algoritmo Hill Climbing busca a melhor estrutura da RB, adicionando e

removendo arestas, alm de ajustar arestas reversas (verifica o sentido das arestas).
A melhor estrutura aquela que maximiza (ou minimiza) as medidas acima. A busca
no restrita a ordem das variveis, como ocorre no algoritmo K2.
Os Classificadores GBN, assim os Naive Bayes e TAN, tambm tiveram suas

variveis filtradas pelo seu ganho de informao varivel resposta Cliente. No
entanto, a Tabela A. 1 mostra que esta filtragem prejudicou o desempenho dos
aprendizados de estrutura com as medidas: AIC, Bdeu e Entropia. Por isso, os
Classificadores GBN tiveram suas variveis selecionadas somente pelo Markov da
varivel resposta, sem passarem pela etapa de filtragem.
O fraco desempenho da filtragem pelo ganho de informao evidencia que, as

variveis removidas individualmente podem contribuir menos para o ganho de
informao da varivel resposta, mas combinadas com outras variveis, elas podem
ser importantes para a classificao dos clientes bons e maus pagadores.
Analisando a Tabela 17, nota-se que a seleo de variveis pelo Markov Blanket
da varivel resposta melhorou o desempenho dos Classificadores GBN nos
aprendizados de estrutura empregando as medidas MDL, Bayes e Bdeu em relao
estatstica KS, coeficiente Gini e taxas de acerto.
Comparando os resultados destas trs medidas observam-se resultados distintos

entre elas, sendo que a medida Bdeu apresentou maiores valores para as taxas de
acerto (TAT, TAB e TAM), estatstica KS, coeficiente Gini e tambm apresentou
Classificador GBN mais parcimonioso (com 15 variveis).
83
bons (TAB), dos clientes maus (TAM) e nmero de variveis dos Classificadores GBN com
aprendizado de estrutura utilizando diferentes medidas.
Medida
MDL
Bayes
AIC
Bdeu
Entropia
Modelo
TAT
TAB
TAM
KS
Gini
N de
Variveis
Modelo Saturado
Seleo Markov Blanket
Modelo Saturado
Modelo Saturado
Modelo Saturado
70.67%
73.00%
68.50%
71.67%
72.50%
70.33%
71.50%
74.67%
65.83%
69.30%
72.70%
65.30%
67.70%
70.30%
68.70%
71.30%
76.30%
67.70%
72.00%
73.30%
71.70%
75.70%
74.70%
72.00%
71.70%
76.30%
64.00%
42.00%
46.00%
40.00%
43.67%
45.33%
43.00%
44.67%
49.67%
33.00%
53.69%
59.40%
51.47%
57.03%
55.70%
54.54%
55.84%
58.84%
43.23%
48
16
48
30
48
37
48
15
48
O Classificador GBN com seleo de variveis pelo Markov Blanket e

aprendizado de estrutura utilizando a medida Bdeu ser chamado de Classificador
GBN final (em negrito na Tabela 17). Sua estrutura apresentada na Figura 14 e a
Tabela 18 mostra suas variveis e respectivos pais na RB. Observando a estrutura
do Classificador GBN, nota-se claramente a premissa do Classificador GBN de que a
varivel resposta no necessariamente pai de todas as variveis preditoras.
O desempenho dos Classificadores GBN com selees de variveis e

aprendizados de estrutura com as medidas AIC e Entropia apresentaram piores
resultados, em relao a todas as medidas de desempenho dos modelos.
Esta baixa performance verificada nos aprendizados de estrutura com as medidas

Entropia e AIC indicam que a escolha do Markov Blanket da varivel resposta no foi
adequada. Pois, a retirada das variveis de fora do Markov Blanket da varivel
resposta prejudicou o desempenho dos modelos, indicando que a resposta no
depende somente das variveis do seu Markov Blanket.
Este fraco desempenho ocorre devido ao nmero de variveis do modelo e ao

nmero de observaes da base de dados German Credit. Resultado semelhante a
estes tambm foi obtido por Friedman e Goldszmidt (1996), que observaram um
fraco desempenho nos Classificadores GBN em bases de dados com mais de 15
atributos. Os autores concluram que esta baixa assertividade e baixo poder
84
discriminante observados em alguns aprendizados dos Classificadores GBN podem

ocorrer devido ao grande nmero de dependncias avaliadas em conjuntos de dados
com mais do que 15 atributos.
Figura 14 - Estrutura da RB do Classificador GBN com aprendizado de estrutura utilizando a medida

BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta.
A interpretao do Classificador GBN final ser feita a partir da anlise das

probabilidades condicionais dos clientes se tornarem inadimplentes (ou no), em
determinado perodo, dada a observao de cada dummy preditora individualmente,
mostradas na Tabela 19.
A anlise das dependncias entre variveis preditoras ser realizada pela anlise
dos efeitos de interao entre dummies. Para isso, foram calculadas as
probabilidades dos clientes se tornarem bons (ou maus) pagadores, dada as
observaes das dummies preditoras e dada a observao (ou no) de seus pais na
RB, nas Tabela 20 e Tabela 21.
85
Tabela 18 - Variveis preditoras (dummies) e respectivos pais do Classificador GBN com aprendizado
de estrutura utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel
resposta.
Filho (Nvel)
Pais (Nvel)
Label Filhos
Cliente,
checking_status_1
Salrio (0 <= X < 200 )
Histrico de Crdito
Salrio (0 <= X < 200 )
(Sem emprstimos tomados ou todos os checking_status_2
emprstimos pagos pontualmente)
Cliente
savings_status_1
Cliente
other_payment_plans
Finalidade (Compra de carro
Valor do Emprstimo
purpose_2
usado)
(1000<= X<4000)
Finalidade (Educao)
Cliente
purpose_7
Cliente, Emprego (Empregado
Finalidade (Cursos)
purpose_8
qualificado ou funcionrio pblico)
Cliente
credit_history_1
todos os emprstimos pagos
pontualmente)
Histrico de Crdito
Histrico de Crdito
(Sem emprstimos tomados ou todos os
credit_history_3
emprstimos pagos pontualmente),
(Histrico de atraso no
pagamento)
Valor do Emprstimo(4000<= X<7500),
Cliente
Cliente, Finalidade (Compra de carro
Moradia (Prpria)
housing
usado)
Emprego (Empregado
Salrio (0 <= X < 200 )
job_2
qualificado ou funcionrio
pblico)
Cliente,
duration_1
Valor do Emprstimo
credit_amount_2
(1000<= X<4000)
Valor do Emprstimo
credit_amount_3
(4000<= X<7500)
Valor do Emprstimo (1000<= X<4000),
Cliente
class
Salrio (X < $0)
Label Pais
class,
checking_status_2
credit_history_1
class
class
credit_amount_2
class
class, job_2
class
credit_history_1,
credit_amount_3,
class
class, purpose_2
checking_status_2
class,
credit_amount_3
credit_amount_3
credit_amount_2,
purpose_2
86
cada varivel preditora isoladamente, do Classificador GBN com aprendizado de estrutura utilizando a
medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta.

Salrio (X < $0)

Salrio (0 <= X < 200 )
0.4459
0.6845
0.6375
0.5541
0.3155
0.3625
0.7884
0.7067
0.8402
0.2116
0.2933
0.1598
0.7296
0.2704
0.5588
0.4412

Finalidade (Educao)
Finalidade (Cursos)
0.1649
0.4964
0.8719
0.8351
0.5036
0.1281
0.6846
0.7096
0.6974
0.3154
0.2904
0.3026
Histrico de Crdito (Sem emprstimos

tomados ou todos os emprstimos
pagos pontualmente)
0.3529
0.6471
0.7313
0.2687
Histrico de Crdito (Histrico de atraso

no pagamento)
0.6964
0.3036
0.7005
0.2995
Moradia (Prpria)
0.7446
0.2554
0.5808
0.4192
Emprego (Empregado qualificado ou

funcionrio pblico)
0.7012
0.2988
0.6984
0.3016
0.8546
0.1454
0.6637
0.3363
0.7524
0.2476
0.6078
0.3922
0.6078
0.3922
0.7177
0.2823
cada varivel preditora isoladamente e dada a observao (ou no) de seus pais, do Classificador GBN
com aprendizado de estrutura utilizando a medida Bdeu e com seleo de variveis pelo Markov
Blanket da varivel resposta.
Varivel Preditora
(Nvel)
Pai (Nvel)
Histrico de Crdito
(Sem emprstimos tomados
Salrio (0 <= X < 200 )
ou todos os emprstimos
pagos pontualmente)
Finalidade (Compra de
Valor do Emprstimo
carro usado)
(1000<= X<4000)
Emprego
Finalidade (Cursos) (Empregado qualificado ou
funcionrio pblico)
Finalidade
Moradia (Prpria)
Emprego (Empregado
Salrio (0 <= X < 200 )
qualificado ou
funcionrio pblico)
Durao do
Valor do Emprstimo
emprstimo (<12)
(4000<= X<7500)
P(Cliente=1|
P(Cliente=0|
P(Cliente=1|
P(Cliente=0|
Filho=1,Pai=1) Filho=1,Pai=1) Filho=1,Pai=0) Filho=1,Pai=0)
0.3529
0.6471
0.7313
0.2687
0.0232
0.9768
0.2666
0.7334
0.4525
0.5475
0.9591
0.0409
0.0648
0.9352
0.7302
0.2698
0.6845
0.3155
0.7067
0.2933
0.3089
0.6911
0.8653
0.1347
87
Tabela 21 - Probabilidades dos clientes proprietrios de imveis se tornarem inadimplentes (ou no),
dada observao (ou no) e seus pais, do Classificador GBN com aprendizado de estrutura
utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta.
Filho (Nvel)
Pai 1 (Nvel)
Pai 2 (Nvel)
P(Cliente=1|
P(Cliente=0|
Histrico de Crdito
Valor do
Filho,Pai1,Pai2) Filho,Pai1,Pai2)
(Histrico de atraso emprstimos tomados ou todos os
Emprstimo
no pagamento) emprstimos pagos pontualmente) (4000<= X<7500)
1
0
1
0.7276
0.2724
1
0
0
0.6741
0.3259
0
1
1
0.1575
0.8425
0
1
0
0.6335
0.3665
0
0
1
0.6176
0.3824
0
0
0
0.754
0.246
A anlise das Tabelas 19 a 21 indica que a varivel Moradia (Prpria) contribui

isoladamente para a reduo do risco de inadimplncia, em relao aos demais
estados de Moradia (Alugada) ou com Moradia (Gratuita). No entanto, a
interpretao da interao desta dummy combinada ao seu pai Finalidade(Compra
de carro usado), indica que, entre os clientes que possuem casa prpria, aqueles
que adquirem o emprstimo para a compra de carro usado apresentam maior risco
de inadimplncia, em relao aos demais clientes com moradia prpria.
Ser analisada a interao entre a dummy Histrico de Crdito (Histrico de

atraso no pagamento) e de seus pais na RB, as dummies: Histrico de Crdito
(Sem emprstimos tomados ou todos os emprstimos pagos pontualmente) e Valor
do Emprstimo(1000<= X<4000). Desta anlise, pode-se observar que, entre os
clientes com atraso no pagamento, aqueles que tambm possuem emprstimos
entre $4000 e $7500 apresentam menores riscos de inadimplncia, do que outros
clientes com outros valores de emprstimos e com mesmo histrico de crdito.
Alm disso, entre os clientes sem emprstimos tomados ou todos os emprstimos

pagos pontualmente, aqueles que tambm possuem emprstimos entre $4000 e
$7500 possuem um maior risco de inadimplncia, em relao aos clientes com
mesmo histrico de crdito e que contratam outros valores de emprstimo.
88
5.3 Comparao dos Modelos de Classificao
Nesta Seo, ser descrito o estudo comparativo das aplicaes dos

Classificadores Bayesianos e da Regresso Logstica em modelos de Credit Scoring.
Para a comparao dos modelos, foi construda a Tabela 22, com as medidas de
avaliao dos Classificadores Naive Bayes, TAN e GBN finais e da Regresso
Logstica com seleo de variveis por Forward Stepwise, calculadas a partir das
amostras de validao obtidas por Cross-Validation com 10 parties.
bons (TAB), dos clientes maus (TAM) e nmero de variveis dos modelos de classificao finais.
Modelos de
Medida
Classificao
Regresso
Logstica
Naive Bayes
TAN
Bayes
GBN
Bdeu
Modelo
TAT
TAB
TAM
KS
Gini
Seleo por Forward

74.83% 74.00% 75.67% 50.33% 61.46%
Stepwise
Seleo Wrapper
74.50% 72.30% 76.70% 49.33% 57.47%
Backward
Seleo Wrapper e com
filtragem pelo Ganho 75.33% 71.00% 79.70% 51.33% 60.81%
de Informao
Seleo Markov Blanket 74.67% 76.30% 76.30% 49.67% 58.84%
N de
Variveis
28
28
27
15
A Tabela 22 mostra que as taxas de acerto total (TAT) dos modelos finais
apresentaram valores prximos. Mas, analisando a taxa de acerto dos maus, o
Classificador TAN final apresentou melhor desempenho, pois sua assertividade nas
previses dos clientes maus pagadores foi mais de 3% superior s taxas observdas
nos modelos de classificao.
Comparando as medidas Bayes, AIC, MDL, Bdeu e Entropia de avaliao da

estrutura durante seu aprendizado observa-se que, nos Classificadores TAN, a
medida Bayes apresentou resultados pouco melhores e os aprendizados com as
demais medidas no apresentaram diferenas significativas. Nos Classificadores
GBN tambm foi observado o mesmo resultado, exceto no aprendizado de estrutura
89
com a medida Entropia, que apresentou pior desempenho, em relao a todas as

taxas de acerto das previses, a estatstica KS e ao coeficiente Gini.
A filtragem de variveis pelo ganho de informao contribuiu um aumento nas

taxas de acerto das previses e no poder discriminante dos Classificadores Naive
Bayes e TAN. No entanto, esse resultado no foi observado nos Classificadores
GBN, pois algumas variveis podem no contribuir individualmente para o ganho de
informao da varivel reposta, mas combinadas com outras variveis, elas se
tornam importantes para a classificao dos clientes bons e maus pagadores.
Os Classificadores TAN e GBN permitem analisar as dependncias que possam

existir entre variveis preditoras, o que no pode ser feito no Classificador Naive
Bayes e na Regresso Logstica. As anlises dos efeitos de interao entre dummies
preditoras e seus pais na RB indicaram a presena de combinaes de variveis que
contribuem para aumentos nos riscos de inadimplncia dos clientes, enquanto a
observao individual da dummy contribui para uma reduo nos riscos de
inadimplncia. Com isso, a anlise dos efeitos de interao auxilia na identificao de
perfis de risco dos clientes.
90
6. CONCLUSES E TRABALHOS FUTUROS

Neste trabalho foram analisadas comparativamente aplicaes de Redes
Bayesianas (RB) e Regresso Logstica em modelos de Credit Scoring. Foram
avaliadas as RB conhecidas como Classificadores Bayesianos, com estruturas do
tipo: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network
(GBN).
Nos resultados observou-se que os Classificadores Naive Bayes, TAN e GBN

finais apresentaram desempenho similar ao da Regresso Logstica, em relao s
taxas de acerto totais, estatstica Kolmogorov-Smirnov e ao coeficiente Gini.
Alm disso, o Classificador TAN com aprendizado de estrutura empregando a

medida Bayes apresentou a maior taxa de acerto das previses dos clientes maus,
sendo esta 4% superior s observadas na Regresso Logstica. Portanto, o uso
deste modelo auxilia Instituies Credoras a reduzir erros em concesses incorretas
a clientes que possam se tornar inadimplentes, em determinado perodo.
Por isso, o Classificador TAN foi escolhido como o melhor modelo, pois
apresentou o melhor desempenho nas previses dos clientes maus pagadores e
permitiu uma anlise dos efeitos de interao entre variveis.
O uso das taxas de acerto obtidas da matriz de confuso auxiliou na identificao

das categorias de varivel resposta (cliente bom ou mau pagador) cujo modelo
mais
assertivo.
Podendo
ser
utilizadas
como
medidas
de
desempenho
complementares estatstica Kolmogorov-Smirnov e ao coeficiente Gini.
Uma contribuio deste trabalho est na anlise comparativa do uso das

medidas Bayes, AIC, MDL, Bdeu e Entropia no aprendizado de estrutura em RB. Nos
Classificadores TAN, o aprendizado de estrutura com a medida Bayes apresentou
resultados pouco melhores e os aprendizados com as demais medidas no
apresentaram diferenas significativas. Nos Classificadores GBN tambm foi
observado o mesmo resultado, exceto no aprendizado de estrutura com a medida
91
Entropia, que apresentou pior desempenho, em relao a todas as taxas de acerto

das previses, a estatstica KS e ao coeficiente Gini.
Outra contribuio deste estudo est em avaliar diferentes metodologias de

seleo de variveis nos Classificadores Bayesianos. Com isso, observou-se que a
filtragem de variveis pelo seu ganho de informao para a varivel resposta
contribuiu para uma melhora no desempenho dos Classificadores Naive Bayes e
TAN, pois auxiliou no aumento das taxas de acerto das previses e no poder
discriminante destes modelos. No entanto, este resultado no foi observado nos
Classificadores GBN. Portanto, nos Classificadores GBN no adequada a retirada
individual das variveis que menos contribuam para o ganho de informao da
varivel reposta, pois estas variveis na presena de outras podem tornar-se
importantes para o modelo de classificao.
A seleo de variveis pelo mtodo Wrapper com busca por Backward

Elimination, empregada nos Classificadores Naive Bayes e TAN, e a seleo das
variveis do Markov Blanket da varivel resposta Cliente, empregada nos
Classificadores GBN, auxiliaram no aumento da assertividade das previses e no
poder discriminante dos Classificadores, em relao ao modelo saturado (com todas
as variveis).
Apesar disso, os Classificadores GBN com selees de variveis pelo Markov

Blanket da varivel resposta e com aprendizados de estrutura utilizando as medidas
AIC e Entropia apresentam fracos desempenhos em todas as medidas de avaliao.
Este fato est associado ao grande nmero de dependncias avaliadas durante o
seu aprendizado de estrutura, que se agrava quando a base de dados possui um
grande nmero de variveis e um nmero restrito de observaes.
Este problema no observado nos aprendizados realizados no Classificador

TAN, pois a busca da sua melhor estrutura restrita ao espao de estruturas do tipo
rvore, na qual so avaliadas dependncias entre pares de variveis preditoras.
Portanto, no aprendizado dos Classificadores TAN avaliado um nmero menor de
dependncias, sendo mais adequado na presena de uma base de dados reduzida.
92
Os Classificadores TAN e GBN permitem a anlise de dependncias entre

variveis preditoras, assumindo premissas diferentes a respeito de sua estrutura.
Neste trabalho, esta anlise se resumiu anlise dos efeitos de interao entre
variveis dummy.
A anlise dos efeitos de interao indicou que algumas combinaes de dummies

(variveis preditoras) contriburam para aumentos nos riscos de inadimplncia,
enquanto a anlise individual das dummies indicou que sua observao reduz os
riscos de inadimplncia. O contrrio tambm foi observado, ou seja, algumas
combinaes dummies apresentaram altas probabilidades dos clientes se tornarem
bons pagadores, enquanto a observao individual da dummy contribuiu para o
aumento no risco de inadimplncia.
Portanto, a anlise dos efeitos de interao entre variveis na RB permitem

comparar combinaes de dummies com seu respectivo pai na RB e levou a
informaes a respeito do perfil de risco de inadimplncia, que no puderam ser
observadas na anlise individual das variveis (dummies).
Uma limitao observada neste trabalho est na presena de poucas

observaes na base de dados German Credit. Em Instituies Financeiras so
encontradas comumente bases de dados com grande nmero de observaes, com
isso proposta a aplicao dos Classificadores Bayesianos neste tipo de base.
Em trabalhos futuros tambm sugerida uma anlise mais detalhada da

variabilidade das parties da amostra de validao obtidas por Cross-Validation com
10-fold, a fim de se ter uma anlise da estabilidade dos Classificadores Bayesianos.
Para uma anlise mais detalhada das dependncias obtidas nos aprendizados de
estrutura, sugerida a aplicao de aprendizados a partir de uma estrutura
conhecida. A base de dados utilizada pode ser gerada a partir da distribuio
conjunta desta RB, podendo ser geradas amostras com diferentes nmeros de
observaes e com diferentes nmeros de variveis preditoras. Este estudo permitir
uma anlise da estabilidade dos Classificadores Bayesianos com alteraes em
parmetros amostrais.
93
Outra proposta de aplicao dos Classificadores Bayesianos a obteno de um

modelo hbrido a partir dos Classificadores e da Regresso Logstica, como tambm
foi feito no artigo de Arminger, Enache e Bonne (1997). O trabalho de Arminger,
Enache e Bonne (1997) avaliou um procedimento combinado de trs modelos
utilizando seus valores previstos e observados; e os modelos aplicados foram:
Regresso Logstica, rvore de Classificao e um tipo de Rede Neural chamada
Feedforward Network.
94
REFERNCIAS
AGRESTI, W.J. Practical nonparametric statistics. 3a ed. New York: John Wiley and
Sons, 1999. 584p.
ANDERSON, R. The Credit Scoring Toolkit: Theory and Practice for Retail Credit
Risk Management and Decision Automation. 1a ed. New York: Oxford University
Press, 2007. 731p.
ARMINGER, G.; ENACHE, D.; BONNE, T. Analyzing Credit Risk Data: A
Comparison of Logistic Discrimination, Classification Tree Analysis, and Feedforward
Networks. Computational Statistics, v.12, n.2, p.293-310, 1997.
BAESENS, B. et al. Learning bayesian network Classifiers for Credit Scoring Using
Markov Chain Monte Carlo Search. In: Proceedings of the 16th International
Conference on Pattern Recognition (ICPR'02), v.3, p.49-52, 2002.
BAESENS, B. et al. Bayesian network classifiers for identifying the slope of the
customer lifecycle of long-life customers. European Journal of Operational Research,
v. 127, n.2, p. 508-523, 2004.
BANCO CENTRAL DO BRASIL. Relatrio de Inflao. v.9, n.3. Braslia: 2007.
Disponvel
em:
<http://www.bcb.gov.br/htms/relinf/port/2007/09/ri200709P.pdf>
Acesso em: 02/12/2007.
BANCO CENTRAL DO BRASIL. Relatrio de Inflao. v.9, n.1. Braslia: 2007.
Disponvel
em:
<http://www.bcb.gov.br/htms/relinf/port/2007/03/ri200703P.pdf>
Acesso em: 02/12/2007.
BANCO CENTRAL DO BRASIL. Resoluo 2682. Braslia: Banco Central do Brasil,1999.
BLAKE, C.; MERZ, C. UCI repository of machine learning databases. 1998.

Disponvel em: <http://www.ics.uci.edu/~mlearn/MLRepository.html>. Acesso em: 01
dez. 2007
BOLFARINE, H ; SANDOVAL, M. C. Introduo Inferncia Estatstica. Rio de
janeiro: Sociedade Brasileira de Matemtica, 2001. 125 p.
BUNTINE, W. A Guide to the Literature on Learning Probabilistic Networks from
Data. IEEE Transactions on Knowledge Data Engineering. v.8, n.2, p.195-210, 1996.
CHANG, K.C. et al. Bayesian Networks applied to Credit Scoring. IMA Journal of
Mathematics Applied in Business an Industry, v.11, n.1., p.1-18, 2000.
CHENG,J.;GREINER,R. Comparing bayesian network classifiers. In: Proceedings of
the 15th Conference on Uncertainty in Artificial Intelligence (UAI'99). Morgan
Kaufmann, p.101-107, 1999.
95
CHENG,J.;GREINER,R. Learning Bayesian Belief Network Classifiers: Algorithms

and System. In: Proceedings of 14th Biennial Conference of the Canadian Society for
Computational Studies of Intelligence, v.2056, p.141-151, 2001.
CHICKERING, D.M.; GEIGER, D.; HECKERMAN, D.E. Learning Bayesian Networks
is NP-Hard. Microsoft Research Technical Report, MSR-TR-94-17, 1994.
CHOW, C.K.; LIU, C.N. Approximating discrete probability distributions with
dependence trees. IEEE Transactions on Information Theory, v.14, n.3, p. 462-467,
1968.
CONOVER, W.J. Practical nonparametric statistics. 3a ed. New York: John Wiley and
Sons, 1999. 584p.
EISENBEIS, R.A. Problems in Applying Discriminant Analysis in Credit Scoring
Models. Journal of Banking and Finance, v.2, p.205-219, 1978.
FOLHA ON LINE. Entenda a crise com o mercado imobilirio nos EUA. Folha de So
Paulo, 16/08/2007. Disponvel em:
<http://www1.folha.uol.com.br/folha/dinheiro/ult91u320606.shtml> Acesso em:
02/12/2007.
FOLHA ON LINE. Entenda a crise financeira que atinge a economia dos EUA. Folha
de So Paulo, 15/09/2008. Disponvel em:
<http://www1.folha.uol.com.br/folha/dinheiro/ult91u320606.shtml> Acesso em:
16/11/2008.
FRIEDMAN,N.;GEIGER,D.;GOLDSZMIDT,M. Bayesian Network Classifiers. Machine
Learning, v.29, p131-163, 1997.
FRIEDMAN,N.; GOLDSZMIDT,M. Building Classifiers Using Bayesian Networks. In:
Proceedings of Thirteenth National Conference on Artificial Intelligence (AAAI96),
v.2, p.1277-1284, 1996.
GIUDICI, P. Integration of Qualitative and Quantitative Operational Risk Data: A
Bayesian Approach. Operational Risk Modelling and Analysis: Theory and Practice,
p.131-138, 2004.
GOUVA, M.A.; GONALVES, E.B. Anlise de Risco de Crdito com o uso de
Modelos de Redes Neurais e Algoritmos Genticos. In: IX SEMEAD Seminrios em
Administrao, 2006.
GUYON, I.; ELISSEEFF, A. An Introduction to variable and feature selection. Journal
of Machine Learning Research, v.3, p.1157-1182, 2003.
HAND, D. J.; HENLEY; W. E. Statistical classification methods in consumer Credit
Scoring: a review. Journal of the Royal Statistical Society: Series A (Statistics in
Society), v.160, n.3, p.523-541, 1997.
96
HAND, D. J. Modelling Consumer Credit Risk. IMA Journal of Management

Mathematics, v.12, n.2, p.139-155, 2001.
HECKERMAN, D.; GEIGER, D.;CHICKERING, D. Learning Bayesian networks: The
combination of knowledge and statistical data. Machine Learning, v.20, n.3, p.197243, 1995.
HECKERMAN, D. Bayesian Networks for Data Mining. Data Mining and Knowledge
Discovery, v.1, p.79-119, 1997.
HECKERMAN, D. A tutorial on learning with bayesian networks. Data Mining and
Knowledge Discovery, v.1, p.79-119, 1997.
HOSMER, D.W.; LEMESHOW, S. Applied Logistic Regression. 1 ed. New York:
John Wiley, 1989. 392p.
JENSEN, F.V. Bayesian Networks and Decision Graphs. New York: Springer, 2001.
268p.
LANGLEY, P.; SAGE, S. Induction of Selective Bayesian Classifiers. In: Proceedings
of the 10th Annual Conference on Uncertainty in Artificial Intelligence (UAI-94). San
Francisco: Morgan Kaufmann, 1994. p. 399-406.
LECUMBERRI, L.F.L; DUARTE, A.M. Uma metodologia para o gerenciamento de
modelos de escoragem em operaes de crdito de varejo no Brasil. Revista de
Economia Aplicada, v.7,n.4, p. 795-818, 2003.
LOURENO, F. C. Vantagens do uso de mtodos quantitativos no ciclo do crdito.
Revista
Business
da
Equifax,
n.251,
2005.
Disponvel
em:
<http://www.equifax.com.br/rev_bus/05_abr/pag_pvi.asp>. Acesso em: 01dez.2007.
MADDEN, M. G. The performance of Bayesian network classifiers constructed using
different techniques. In: Proceedings of the 14th European Conference on Machine
Learning, Workshop on Probabilistic Graphical Models for Classification. p. 5970,
2003.
MARCHESINI, A Em 2008, volume de crdito deve somar 38% do PIB; juros cairo.
Infomoney, 23/11/2007. Disponvel em:
<http://web.infomoney.com.br/templates/news/view.asp?codigo=864761&path=/suasf
inancas/> Acesso em: 02/12/2007.
MATSUURA, J.P. Discretizao para Aprendizagem Bayesiana: Aplicao no Auxlio
Validao de Dados em Proteo ao Vo. 2003. 81p. Dissertao (Mestrado) Instituto Tecnolgico de Aeronutica, So Jos dos Campos, 2003.
MCCULLAGH, P; NELDER, J. A. Generalized Linear Models. 2 ed. London:
Chapman and Hall, 1989. 511p.
MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to Linear
Regression Analysis. 3 ed. New York: John Wiley, 2001. 672p.
97
NEAPOLITAN, R.E. Learning Bayesian Networks. New Jersey: Prentice Hall, 2004.
674 p.
PAIVA, P. Operaes de emprstimos j substituram aplicaes no mercado como
maior fonte de ganho das instituies. Estados de Minas, 19/11/2007. Disponvel
em:
<http://www.uasf.sebrae.com.br/uasfgestao/uasfnoticias/nov%202007/not3332/view >
Acesso em: 02/12/2007.
PAULA, G.A. (2004). Modelos de Regresso com Apoio Computacional. So Paulo:
Instituto de Matemtica e Estatstica Universidade So Paulo. 2004. 245p.
Disponvel em: <http://www.ime.usp.br/~giapaula/livro.pdf>. Acesso em: 01dez.2007.
PEREIRA, G. H. A. Modelos de Risco de Crdito de Clientes: Uma Aplicao a
Dados Reais. 2004. 96p. Dissertao (Mestrado) Instituto de Matemtica e
Estatstica, Universidade So Paulo, So Paulo, 2004.
POKU, K.A. Operational Risk management - Implementing a Bayesian Network for
Foreign Exchange and Money Market Settlement. 2005. 134p. Ph.D. Thesis - Faculty
of Economics and Business Administration, University of Gttingen, Alemanha, 2005.
ROSA, P. T. M. Modelos de Credit Scoring: Regresso Logstica, CHAID e REAL.
2000. 68p. Dissertao (Mestrado) Instituto de Matemtica e Estatstica,
Universidade So Paulo, So Paulo, 2000.
SAHEKI, A. H. Construo de uma Rede Bayesiana aplicada ao diagnstico de
doenas cardacas. 2005. 70p. Dissertao (Mestrado) Escola Politcnica,
Universidade So Paulo, So Paulo, 2005.
SECURATO, J. R. Crdito: Anlise e Avaliao do Risco Pessoas Fsicas e
Jurdicas. 1 ed. So Paulo: Saint Paul, 2002. 354 p.
SIQUEIRA, J. Expanso do crdito em 2007 supera estimativas do Ita. Reuters,
06/11/2007. Disponvel em:
<http://oglobo.globo.com/economia/mat/2007/11/06/327051496.asp> Acesso em:
02/12/2007.
VASCONCELLOS, M. S. Proposta de Mtodo para anlise de concesses de Crdito
a Pessoas Fsicas. 2002. 119p. Dissertao (Mestrado) - Faculdade de Economia,
Administrao e Contabilidade, Universidade de So Paulo, So Paulo, 2002.
ZHANG, N.; POOLE, D. Exploiting Causal Independence in Bayesian Network
Inference. Journal of Artificial Intelligence Research, v. 5, p. 301-328, 1996.
WEST, D. Neural Network Credit Scoring Models. Computers and Operations
Research, v. 27, n.11, pp. 1131-1152, 2000.
WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and
Techniques. 2 ed. San Francisco: Morgan Kaufmann, 2005. 525p.
98
APNDICE DE TABELAS
Tabela A. 1 - Nomes das variveis da base de dados German Credit.
Varivel
Nome original (em ingls)
Status of existing checking account

Salrio
Duration in months
Durao do Emprstimo
Credit history
Histrico de Crdito
Purpose
Finalidade
Credit amount
Valor do Emprstimo
Savings account/bonds
Poupana do Cliente
Present employment since
Tempo de Trabalho
Installment rate in
Taxa de juros
percentage of disposable income
em % do valor do emprstimo
Personal status and sex
Estado Civil e Sexo
Other debtors/guarantors
Outras dvidas ou garantias
Present residence since
Tempo de Residncia
Property
Bens
Age in years
Idade
Other installment plans
Outros Emprstimos
Housing
Moradia
Nmero de crditos concedidos em seu banco Number of existing credits at this bank
Job title
Emprego
Number of people being liable
Nmero de Dependentes
to provide maintenance for
Telephone
Telefone Prprio
Foreign worker
Estrangeiro
Classificao do cliente
Good or bad credit rating
como "bom" ou "mau" pagador
Tabela A. 2 - Valores do Risco Relativo, Weights of Evidence (WOE) e outras medidas descritivas da
varivel Histrico de Crdito, antes do agrupamento de algumas de suas categorias.
Nmero
de "bons"
Nmero
de "maus"

Todos os emprstimos pagos pontualmente
Existem emprstimos pagos pontualmente
Histrico de atraso no pagamento
Atraso no pagamento ou com emprstimos
tomados em outras Instituies
5
7
154
28
Total
Categoria
%maus
Risco
WOE
Relativo
25
28
169
28
1.67% 8.33%
2.33% 9.33%
51.33% 56.33%
9.33% 9.33%
0.200 -1.609
0.250 -1.386
0.911 -0.093
1.000 0.000
106
50
35.33% 16.67%
2.120
0.751
300
300
100.00% 100.00%
1.000
0.000
%bons
99
varivel Bens, antes do agrupamento de algumas de suas categorias.
Nmero
Nmero
de "bons" de "maus"
Categoria
%bons
%maus
Risco
WOE
Relativo
20.00%
23.67%
34.00%
22.33%
1.683 0.521
0.930 -0.073
0.931 -0.071
0.567 -0.567
Imvel
Seguro de Vida
Carro ou outros
No possui bens
101
66
95
38
60
71
102
67
33.67%
22.00%
31.67%
12.67%
Total
300
300
100.00% 100.00%
1.000
0.000
varivel Poupana do Cliente, antes do agrupamento de algumas de suas categorias.
Nmero
Nmero
de "bons" de "maus"
Categoria
%bons
%maus
Risco
Relativo
WOE
< $100
$100<= X < $500
$500<= X < $1000
>= $1000
163
26
19
16
76
217
34
11
6
32
54.33%
8.67%
6.33%
5.33%
25.33%
72.33%
11.33%
3.67%
2.00%
10.67%
0.751
0.765
1.727
2.667
2.375
-0.286
-0.268
0.547
0.981
0.865
Total
300
300
100.00% 100.00%
1.000
0.000
varivel Outros Emprstimos, antes do agrupamento de algumas de suas categorias.
Categoria
Nmero
de "bons"
Nmero
de "maus"
%bons
%maus
Risco
Relativo
WOE
Bancos
Lojas
Nenhum
32
9
259
57
19
224
10.67%
3.00%
86.33%
19.00%
6.33%
74.67%
0.561
0.474
1.156
-0.577
-0.747
0.145
Total
300
300
100.00%
100.00%
1.000
0.000
varivel Tempo de Trabalho, antes do agrupamento de algumas de suas categorias.
Categoria
Nmero
Nmero
de "bons" de "maus"
%bons
%maus
Risco
Relativo
WOE
Desempregado
X < 1 ano
1 <= X < 4 anos
4 <= X < 7 anos
X >= 7 anos
19
48
105
46
82
23
70
104
39
64
6.33%
16.00%
35.00%
15.33%
27.33%
7.67%
23.33%
34.67%
13.00%
21.33%
0.826
0.686
1.010
1.179
1.281
-0.191
-0.377
0.010
0.165
0.248
Total
300
300
100.00%
100.00%
1.000
0.000
100
varivel Moradia, antes do agrupamento de algumas de suas categorias.
Categoria
Nmero
de "bons"
Nmero
de "maus"
%bons
%maus
Risco
Relativo
WOE
Alugada
Prpria
Moradia gratuita
41
233
26
70
186
44
13.67%
77.67%
8.67%
23.33%
62.00%
14.67%
0.586
1.253
0.591
-0.535
0.225
-0.526
Total
300
300
100.00% 100.00%
1.000
0.000
varivel Estado Civil e Sexo, antes do agrupamento de algumas de suas categorias.
Categoria
Risco
WOE
Relativo
Nmero
de "bons"
Nmero
de "maus"
%bons
%maus
15
20
5.00%
6.67%
0.750
-0.288
Masculino divorciado ou separado

Feminino divorciada,
separada ou casada
Masculino solteiro
Masculino casado ou vivo
79
109
26.33%
36.33%
0.725
-0.322
179
27
146
25
59.67%
9.00%
48.67%
8.33%
1.226
1.080
0.204
0.077
Total
300
300
100.00% 100.00%
1.000
0.000
varivel Emprego, antes do agrupamento de algumas de suas categorias.
Categoria
Desempregado ou empregado com baixa
qualificao ou sem trabalho formal
Empregado com baixa qualificao e com
trabalho formal
Nmero Nmero
%bons
de "bons" de "maus"
%maus
Risco
WOE
Relativo
2.67%
2.33%
1.143
0.134
73
56
24.33% 18.67%
1.304
0.265
Empregado qualificado ou funcionrio pblico
176
186
58.67% 62.00%
0.946
Executivo, profissional liberal, empregado

altamente qualificado ou oficial
43
51
14.33% 17.00%
0.843
Total
300
300
100.00% 100.00%
1.000
0.055
0.171
0.000
101
Tabela A. 10 - Risco Relativo das variveis preditoras (dummies) e de seus pais no Classificador TAN
com aprendizado de estrutura utilizando a medida Bayes e com seleo com o mtodo Wrapper com
busca por Backward Elimination.
Pais (Nvel)
Risco Relativo
Bens (Imvel)
Salrio (X < $0)
Poupana do Cliente (X < $500)
Salrio (X < $0)

tomados ou todos os emprstimos pagos
pontualmente)
Nmero de crditos concedidos em seu
banco (X >=2)
Valor do Emprstimo
(1000<= X <4000)
2.654
0.516
2.641

Outras dvidas ou garantias
(Co-aplicante)

tomados ou todos os emprstimos pagos
Salrio (0 <= X < 200 )
pontualmente)
Tempo de Trabalho
Estado Civil e Sexo
(Desempregado ou menos de 1 ano)
Finalidade
Moradia (Prpria)
Emprego (Desempregado ou empregado
Bens (Imvel)
com baixa qualificao)
Estrangeiro (No)
Durao do emprstimo (12<= X <16)
Valor do Emprstimo
(4000<= X <7500)
Taxa de juros em % do valor do
emprstimo (X <4)
Idade (X <25)
Nmero de crditos concedidos em seu
banco (X >=2)

Estado Civil e Sexo
0.307
0.751
0.361
2.030
0.355
1.560
0.292
3.492
8.434
5.961
2.013
2.923
Moradia (Prpria)
Estado Civil e Sexo
3.974
Idade (X <25)
0.354
0.305
102
Tabela A. 11 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxa de acerto total (TAT), taxa de
acerto dos clientes bons (TAB), taxa de acerto dos clientes maus (TAM) e nmero de variveis dos
Classificadores GBN com aprendizado de estrutura utilizando diferentes medidas.
Medida
Modelo
Modelo Saturado
Seleo
Markov
Blanket com Filtragem
MDL
pelo Ganho de Informao
Modelo Saturado
Seleo Markov Blanket com Filtragem
Bayes
Modelo Saturado
AIC
Modelo Saturado
Bdeu
Entropia Seleo Markov Blanket com Filtragem
TAT
TAB
TAM
KS
Gini
N de
Variveis
70.67% 69.30% 72.00% 42.00% 53.69%
48
73.17% 71.30% 75.00% 47.00% 59.00%
13
73.00% 72.70% 73.30% 46.00% 59.40%

68.50% 65.30% 71.70% 40.00% 51.47%
16
48
70.83% 69.70% 72.00% 42.33% 51.79%
21
71.67% 67.70% 75.70% 43.67% 57.03%

72.50% 70.30% 74.70% 45.33% 55.70%
30
48
69.50% 69.00% 70.00% 39.67% 51.27%
30
70.33% 68.70% 72.00% 43.00% 54.54%

71.50% 71.30% 71.70% 44.67% 55.84%
37
48
60.17% 59.00% 61.30% 24.67% 27.26%
17
74.67% 76.30% 76.30% 49.67% 58.84%

65.83% 67.70% 64.00% 33.00% 43.23%
15
48
62.00% 65.00% 59.00% 29.33% 38.07%
31
103

Dissertacao Cristiane Karcher Revisada PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Dissertacao Cristiane Karcher Revisada PDF

Uploaded by

Copyright:

Available Formats

CRISTIANE KARCHER

REDES BAYESIANAS APLICADAS ANLISE DO RISCO DE

REDES BAYESIANAS APLICADAS ANLISE DO RISCO DE

Dissertao apresentada Escola

Orientador: Prof. Livre-Docente

Este exemplar foi revisado e alterado em relao verso original, sob

Assinatura do autor ___________________________

Assinatura do orientador _______________________

Dedico esse trabalho ao

Ao professor Dr. Afonso de Campos Pinto pela orientao, apoio e incentivo

empresa MAPS Solues & Servios pelo conhecimento, incentivo e

meus pais e minha av Esther pelo incentivo e pelas lies de vida.

Modelos de Credit Scoring so utilizados para estimar a probabilidade de um

taxas de acerto obtidas da Matriz de

Confuso, da estatstica Kolmogorov-Smirnov e coeficiente Gini. As amostras de

Palavras-chave: Redes Bayesianas, Risco de Crdito, Regresso Logstica.

Keywords: Bayesian Networks, Credit Risk, Logistic Regression.

Tabela 16 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a

LISTA DE ABREVIATURAS E SIGLAS

Medida Akaikes Information Criterion

Receiver Operating Characteristic

Classificador Bayesiano Tree Augmented Naive Bayes

Base de Dados _______________________________________________

6. CONCLUSES E TRABALHOS FUTUROS ____________________________ 91

Neste trabalho proposta a aplicao de Redes Bayesianas (RB) na construo

Os modelos de Credit Scoring so utilizados para estimar a probabilidade de um

No processo de concesso de crdito, quando um novo cliente solicita um crdito,

Os modelos de Credit Scoring so utilizados no incio do relacionamento com o

crdito ao consumidor, que tem como caractersticas o grande volume de transaes,

Atualmente os Credit Scoring so considerados ferramentas importantes para

Existem dois tipos de modelos de mensurao utilizados para estimar a

Credit Scoring obtido a partir das informaes cadastrais fornecidas pelos

Na Estatstica e a Inteligncia Artificial existem diversas tcnicas utilizadas em

RB so propostas para modelos de Credit Scoring, pois se tratam de modelos

No Brasil, a concesso de crdito uma atividade financeira que vem crescendo

A avaliao do risco de crdito tem sido bastante debatida em 2007 e 2008

Bureaus de crdito so informaes de mercado a respeito do risco de crdito de um cliente.

Em busca de rendimentos maiores, gestores de fundos e bancos compravam

Um dos primeiros reflexos da crise subprime foi, em setembro de 2007, quando

movido pelo consumo, o presidente americano George W. Bush sancionou em

Estes fatos observados na economia mundial alertam para a necessidade de uma

A deciso sobre a concesso ou no de um produto de crdito a um cliente

Este trabalho organizado em seis captulos: Introduo, Reviso Bibliogrfica,

desenvolvimento e de validao e softwares utilizados. No quinto captulo sero

2.1 Modelos de Credit Scoring

Os modelos de Credit Scoring so utilizados para estimar a probabilidade de um

Com isso, do ponto de vista de modelagem estatstica, o problema de concesso

A Anlise Discriminante Linear foi um dos primeiros modelos de Credit Scoring.

o fato das variveis explicativas no apresentarem normalidade multivariada, por

A Regresso Linear Mltipla outra tcnica utilizada na formulao de modelos

Rosa (2000) apresentou a uma aplicao de Regresso Logstica no problema de

Arminger, Enache e Bonne (1997) comparam aplicaes de Regresso Logstica,

West (2000) fez um estudo comparativo da aplicao em Credit Scoring de

Modelos de Credit Scoring, quando so aplicados em bases de dados diferentes,

Hand e Henley (1997) elucidaram diversos cuidados para a aplicao de modelos

Os mtodos que procuram corrigir este vis amostral so conhecidos como

desempenho e ocorre devido a presses econmicas e mudanas no ambiente

Rosa (2000) e Hand e Henley (1997) tambm descreveram os cuidados na

2.2 Redes Bayesianas e Classificadores Bayesianos

Redes Bayesianas (RB) so grafos acclicos e direcionados que permitem a

Em RB, estas premissas de independncia so exploradas para reduzir o nmero

A estrutura de uma RB, ou topologia do grafo, pode ser definida manualmente

O aprendizado em RB tambm tem sido bastante estudado por diversos autores