Professional Documents
Culture Documents
=
K
Cot K
desempenho de Avaliao (2.4)
79
Figura 2.21 Avaliao de Desempenho nas Operaes de Manuteno.
Fonte: Adaptada de MEREDITH, (1992).
6- Estabelecer o Plano de Aes Prioritrias:
O plano de aes de gesto do valor nas operaes de manuteno decorre
naturalmente do resultado das etapas anteriores do presente modelo. Inicialmente so
dispostos todos os "atributos de valor" com os graus de prioridade estabelecidos pelos clientes.
Em seguida so relacionados os objetivos desdobrados para o servio de manuteno, de
acordo com o "atributo de valor" correspondente. Por sua vez, indicada a correlao entre o
"atributo de valor" e os processos crticos do servio de manuteno e em seguida, so
apresentados os indicadores associados aos "atributos de valor" e a cotao.
A partir da correlao dos "atributos de valor", dos objetivos desdobrados
relacionados, dos processos crticos e dos indicadores de desempenho com as respectivas
cotaes, no sentido vertical so estabelecidas as aes prioritrias, com os respectivos prazos
e responsveis.
Finalmente, para verificao da eficincia do plano estabelecido, faz-se uma avaliao
peridica de desempenho no sentido de se medir numericamente a evoluo do valor
percebido pelo cliente das operaes de manuteno de telecomunicaes.
80
7- Verificar os Resultados:
Estabelecido e executado o plano de aes prioritrias de operacionalizao do valor,
uma nova avaliao de desempenho necessria, no intuito da verificao da eficcia das
aes e do valor resultante alcanado.
O modelo de gesto do valor para as operaes de manuteno em telecomunicaes,
traz uma forma de identificar o que realmente o cliente valoriza nessas operaes. A
identificao dos fatores que influenciam a percepo do valor o ponto de partida para a
aplicao do modelo de gesto, permitindo o estabelecimento da equao do valor dessas
operaes. Entretanto, a definio de tais fatores somente pode ser realizada havendo um
profundo conhecimento das operaes em questo, fato que gerou a necessidade da
representao sistemtica desse servio.
Porm, somente a identificao dos "atributos de valor" no suficiente para a correta
gesto das expectativas do cliente. A partir disto, deve ser estabelecido um mtodo de
priorizao de tais fatores, que definir quais critrios so prioritrios na formao da
percepo do valor, estabelecendo-se assim a equao final priorizada do valor percebido do
servio de manuteno.
Essa equao tambm utilizada para a anlise dos possveis conflitos entre os
"atributos de valor" formadores dessa equao, a fim de se evitar uma proposio de aes
ineficazes quanto evoluo do valor percebido.
Para a elaborao do plano de aes prioritrias de gesto do valor, identificaram-se os
processos crticos do servio de manuteno, que em seguida foram correlacionados com os
fatores influenciadores da percepo do valor. Essa tomada de decises considera tambm
uma avaliao de desempenho instantnea das operaes, baseada nos "atributos de valor"
priorizados, bem como em uma cotao para os indicadores associados a esses fatores.
81
2.3. Descoberta de Conhecimento em Base de Dados
Introduo
Os constantes avanos na rea de tecnologia da informao tm viabilizado uma
elevada quantidade de armazenamento de dados nunca antes imaginado. Em termos histricos
divide a descoberta de conhecimento em base de dados em quatro geraes [GOLDSCHMIDT
et al., (2005)].
A primeira gerao apareceu em meados dos anos 80. Consistia em ferramentas de
anlise voltadas a uma nica tarefa, sem portar as demais etapas do processo [PIATETSKY-
SHAPIRO, (2000)]. Essas tarefas incluam em geral, a construo de classificadores usando
ferramentas de construo de regras (por exemplo, C4.5) ou de redes neurais
(backpropagation), a descoberta de grupos (clusters) nos dados (k-means) ou ainda a
visualizao dos dados.
O desenvolvimento de ferramentas chamadas de sutes foi o propulsor da segunda
gerao, essas ferramentas eram dirigidas ao fato que o processo de descoberta do
conhecimento requer mltiplos tipos de anlise de dados. So exemplos de sutes softwares
como o SPSS, Clementine, Inteligent Miner, e SAS Enterprise Miner. Essas ferramentas
permitem ao usurio realizar diversas tarefas suportando transformaes de dados.
A terceira gerao surgiu no final dos anos 90 essa gerao foi orientada para a
resoluo de um problema especifico diretamente por um usurio, no necessitando mais do
auxilio de especialistas em anlise de dados. Nessa gerao as interfaces so orientadas para
os usurios e procura-se esconder toda complexidade da minerao de dados. O software HNC
Falcon especializado em fraudes no carto de credito um exemplo dessa gerao.
A quarta gerao compreende o desenvolvimento e a aplicao de tcnicas e
ferramentas que auxiliam o homem na prpria conduo do complexo processo de descoberta
de conhecimento em base de dados [GOLDSCHMIDT et al., (2005)].
O conceito de descoberta de conhecimento em bases de dados pode ser resumido como
o processo no-trivial de identificar padres novos, vlidos, potencialmente teis e,
principalmente, compreensveis em meio s observaes presentes em uma base de dados.
Contudo o objetivo ltimo da descoberta do conhecimento em bases de dados no o de
82
simplesmente encontrar padres e relaes em meio imensa quantidade de informao
disponvel em bases de dados, e sim a extrao de conhecimento inteligvel e imediatamente
utilizvel para o apoio s decises [FAYYAD, (1996)].
As bases de dados podem ser tratadas seguindo um processo de descobertas do
conhecimento em etapas conforme ilustrao de [GOLDSCHMIDT et al., (2005)]. A Figura
2.22 ilustra o ciclo de descoberta do conhecimento em bases de dados e suas etapas.
Nesse caso a origem diversa dos dados que sero utilizados, coletados em diferentes
instantes de tempo em um mesmo lugar e sistema, cria um esforo inicial de consolidao e
agrupamento de toda a informao que ir servir de base para o processo. Sendo um ponto
critico a compreenso do negcio e do ambiente em que os dados esto inseridos para o
entendimento dos mesmos. Dada essa diversidade e heterogeneidade dos dados, esforos de
pr-processamento e limpeza dos mesmos so cruciais na gerao de dados que possam vir a
ser trabalhados em busca de conhecimento til.
essencial que seja realizada a investigao de inconsistncias e problemas devido a
diferenas de escalas, assim como o tratamento de valores fora da normalidade (outliers) e
observaes errneas [GOLDSCHMIDT et al., (2005)]. Realizadas essas tarefas iniciais, que
tornam os dados tratveis e homogneos, minerao dos dados pode ser iniciada, na busca por
padres e relaes que com sentido e sejam teis para o problema a ser resolvido ou objetivo a
ser alcanado.
Por ltimo, a interpretao, compreenso e aplicao dos resultados encontrados o
passo que torna o conhecimento adquirido por meio de bases de dados um real insumo para o
apoio s decises.
Na Figura 2.22 ilustra-se como o conhecimento inicialmente essa na forma de dados
sendo passada para uma segunda fase denominada de informaes e finalmente gera-se dos
dados o conhecimento. Todo esse processo de transformao do conhecimento til para a
pesquisa se for utilizado pelas cinco etapas que se encontram no pice da figura.
83
:
Figura 2.22 Hierarquia da descoberta e conhecimento de dados.
Fonte: Adaptado pelo autor de GOLDSCHMIDT, (2005).
2.3.1 Dados
Para que qualquer conhecimento seja gerado a partir de dados, o primeiro passo que
tais dados existam e estejam disponveis em algum lugar [BOZDOGAN, (2003)]. Empresas e
outras organizaes fazem uso de uma grande infra-estrutura de tecnologia da informao para
garantir a disponibilidade de dados, mas nem sempre a obteno coleta e armazenamento
desses dados so de forma simples, para se usar adequadamente as informaes desses dados
para apoio deciso como foi dito anteriormente, as etapas da figura 2.22 devem ser
cumpridas.
2.3.1.1 Data Warehouse
Uma das formas de organizao, consolidao e disponibilidade de dados so os
chamados armazns de dados (data warehouse) [BALLOU, (1999)]. Uma data warehouse
um grande repositrio de bases de dados alimentado por muitos sistemas operacionais. Data
warehouse nascem da necessidade de empresas e organizaes possurem uma viso de dados
e operaes centralizadas em um nico ponto, ao invs de ter seus dados espalhados por
diversos locais ou departamentos sem muita coeso e por vezes incomunicveis entre si. Um
dos objetivos primordiais de data warehouse garantir a integridade e consistncia de todos
os dados coletados dos sistemas operacionais de uma empresa, alm do acesso seguro e
Compreenso
do
Negocio
Entendimento
dos Dados
Preparao
dos
Dados
Modelagem
Avaliao
Conhecimento
Informaes
Dados
84
consistente de todas as partes da empresa a esses dados. Em geral, ao serem encaminhados
para um data warehouse, dados operacionais so limpos e transformados em uma primeira
instncia, principalmente para garantir que dados de diferentes fontes e formatos passem ento
a possuir as mesmas definies e obedeam s mesmas regras. Por vezes algumas das
transformaes padres realizadas nos dados para se encaixarem no data warehouse podem
danificar ou at mesmo destruir informao que poderia vir a ser valiosa no processo de
descoberta de conhecimento. Normalizao, agregao e sumarizao dos dados so algumas
dessas transformaes que podem vir a atrapalhar a anlise e minerao dos dados.
2.3.1.2 Anlise Mltipla de Dados
Segundo HAIR, (2005) no fcil definir anlise multivariada de dados. De um modo
geral, ela se refere aos mtodos estatsticos que simultaneamente analisam mltipla medidas
sobre cada medida ou objeto sob investigao. Qualquer anlise simultnea de mais de duas
variveis de certo modo pode ser considerada anlise multivariada. Os conceitos bsicos de
Anlise Multivariada so originrios dos estudos de estatstica univariada e bivariada, a
extenso para o domnio multivariado introduz conceitos adicionais e questes que tem
particular relevncia, os quais se citam abaixo:
1 - Variveis estatsticas uma combinao linear de variveis com os pesos
empiricamente determinados. As variveis estatsticas so especificadas, sendo os pesos
determinados pela tcnica multivariada para atingir um objetivo especifico. Uma varivel
estatstica de n variveis ponderadas (X1 at Xn) pode ser enumerada matematicamente como:
. X X X
n 2 2 1 1 n
W W W a Estatstic Varivel da Valor + + + =
(2.5)
Em que: Xn a varivel observada e Wn o peso determinado pela tcnica
multivariada utilizada.
O resultado como foi visto anteriormente um nico valor que representa uma
combinao do conjunto inteiro de variveis que melhor atinge o objetivo da anlise
multivariada especifica.
85
2 - Escalas de Medidas A anlise de dados envolve a participao, a identificao e a
medida de variao em um conjunto de variveis, seja entre elas ou entre uma varivel
dependente e uma ou mais variveis independentes. A mensurao importante para
representar com preciso o conceito de interesse e fundamental na seleo do mtodo de
anlise apropriado.
3 - Tipos bsicos de dados - No-mtricos (qualitativos) e mtricos (quantitativos).
Dados no-mtricos so atributos, caractersticas ou propriedades categricas que identificam
ou descrevem um objeto. Descrevem diferenas em tipos ou espcies, indicando a presena ou
ausncia de uma determinada caracterstica. J as medidas de dados mtricos so feitas de
modo que os indivduos podem ser identificados como diferenciados em quantia ou grau.
Variveis metricamente medidas refletem quantidade relativa ou grau. Medidas mtricas so
apropriadas para os exemplos que envolvem quantia ou magnitude, como nvel de satisfao
ou indicadores de qualidade.
4 - Erro de medida - o erro em que os valores observados no so representativos dos
valores verdadeiros. O impacto do erro de medida o acrscimo de rudo as variveis
observadas ou medidas. O objetivo de reduzir o erro de medida pode seguir diversos
caminhos. Ao avaliar o grau de erro presente em qualidade medida, deve-se levar em conta
validade e a confiabilidade da medida e a garantia da validade da medida comea com uma
compreenso direta do que deve ser medido e ento realizar a medida to correta e precisa
quanto possvel.
5 - Significncias estatsticas versus poder estatstico A maioria das tcnicas
multivariadas, exceto anlise de agrupamento e escalonamento multidimensional, so
baseados na inferncia estatstica dos valores. Interpretar inferncias estatsticas requer que
sejam especificados os nveis de erro estatsticos aceitveis. A abordagem mais comum
especificar o nvel do erro tipo I, conhecido como alfa (). O erro alfa a probabilidade de
rejeitar a hiptese nula quando a mesma verdadeira, ou seja, a chance de o teste exibir
significncia estatstica quando na verdade no existe tal significncia. Ao especificar um
nvel alfa, se estabelecido os limites para o erro, especificando a probabilidade de se concluir
que a significncia exista quando na verdade essa no ocorre. Quando se especifica o nvel de
erro tipo I, tambm se determina um erro associado, chamado de erro tipo II ou beta (). O
erro beta a probabilidade de no rejeitar a hiptese nula quando na realidade essa falsa.
86
6 - Poder a probabilidade significncia estatstica ser indicada se estiver presente,
ou seja, o poder igual a (1-). Apesar de a especificao de alfa estabelecer o nvel de
significncia estatstica aceitvel, o nvel de poder que determina a probabilidade de sucesso
em encontrar as diferenas se elas realmente existem. Portanto reduzir o erro alfa reduzir o
poder do teste estatstico. Assim sendo, se deve trabalhar com o equilbrio entre o nvel alfa e
o poder resultante.
2.3.2 Caracterizao do Processo de Descoberta de Conhecimento em Base de Dados
O processo de descoberta de conhecimento em base de dados pode ser divido em trs
etapas: Pr-processamento, Minerao de Dados e Ps-processamento [GOLDSCHMIDT et
al., (2005)].
A etapa de pr-processamento compreende as funes relacionadas captao,
organizao e ao tratamento de dados. So na etapa de pr-processamento que se preparam os
dados para a etapa de minerao onde realizada a busca efetiva por conhecimentos teis no
contexto da pesquisa. A etapa de ps-processamento abrange o tratamento do conhecimento
obtido na minerao.
O tratamento dispensado na fase de ps-processamento nem sempre necessrio,
porm tem como objetivo a avaliao da utilidade do conhecimento [FAYYAD, (1996)]. Todo
conjunto de dados pode ser observado sob os aspectos intencionais e extensionais, sendo o
aspecto intencional referente estrutura do conjunto de dados, encontra-se nesse aspecto as
caractersticas ou atributos dos dados, j os registros representam o aspecto extensional
[DATE, (1991)].
Pode-se estender o conceito das trs etapas para um conceito onde se coloca uma nova
etapa conhecida como controle, nessa etapa o especialista tem a finalidade de corrigir
distores em quaisquer das etapas anteriores e deve ser realizado por um especialista com
elevado conhecimento do problema [MALHOTRA, (2004)]. Deve-se at mudar o rumo da
pesquisa caso sinta necessidade da sua interferncia para que a pesquisa atinja a utilidade do
conhecimento desejado, conforme figura 2.23.
87
Figura 2.23 Etapas operacionais no processo de descoberta do conhecimento.
Fonte: Adaptado pelo autor de GOLDSCHMIDT, (2005).
2.3.2.1 Pr-processamento
A etapa de pr-processamento compreende, conforme foi apresentado anteriormente,
s funes relacionadas captao, organizao, tratamento e a preparao dos dados para
etapa seguinte de minerao, possuindo relevncia no processo de descoberta, pois
compreende desde a correo de dados errados at o ajuste da formatao a serem utilizadas.
A seguir se descreve as etapas do pr-processamento:
Seleo dos Dados
Tratamento e Limpeza dos Dados
Normalizao dos Dados
Enriquecimento dos Dados
A - Seleo dos Dados
Essa etapa compreende na identificao e no planejamento de todas as atividades para
se chegar ao ponto final de carga dos dados no ambiente de minerao de dados. A seleo
deve levar em considerao quais informaes dentre os dados existentes so realmente
relevantes para a pesquisa.. Dependendo dessa escolha, os dados sero formatados de
INPUTS
Pr-Processamento
PROCESSAMENTO
Minerao de Dados
OUTPUT
Ps-processamento
CONTROLE
INPUTS
Pr-Processamento
PROCESSAMENTO
Minerao de Dados
OUTPUT
Ps-processamento
CONTROLE
88
maneiras diferentes. O primeiro requisito para que a seleo seja bem sucedida possuir dados
de qualidade.
O processo de seleo dos dados de grande relevncia na busca do conhecimento em
bases de dados. Mesmo j existindo data warehouse com os dados disponveis para anlise e
j pr-processados, essencial criar-se uma representao dos dados que satisfaa os objetivos
da anlise de dados a ser realizada e que se encaixe de forma tima na resoluo do problema
enfrentado [FERREIRA, (2005)].
O conceito de seleo dos dados engloba: consultas (queries) iniciais a data
warehouse ou outros repositrios de dados em busca dos dados procurados; consolidao de
toda a informao de interesse em um local ou base nica [CONTRERAS (2002)]. O processo
de seleo dos dados tem uma razo muito maior para existir do que simplesmente fornecer
uma base para os modelos a serem utilizados: ao selecionar os dados, o responsvel pela
anlise tambm preparado pelos dados [PYLE, (1999)].
Nesse processo o maior beneficiado o pesquisador, pois o mesmo ao despender
esforo para obter a melhor representao possvel para os dados, convive com as outras
formas de visualizar e detalhes. Compreendo com isso melhor o problema que est sendo
estudado, o que contribui em etapas futuras para um melhor desempenho, tanto do mesmo
quanto dos dados.
B - Tratamento e Limpeza
Limpeza de dados visa detectar e remover anomalias presentes nos dados com o
objetivo de aumentar e melhorar a sua qualidade. Tipicamente o processo de limpeza de dados
no pode ser executado sem o envolvimento de um perito no negcio ao qual correspondem os
dados, uma vez que a deteco e correo de anomalias requerem conhecimento especializado.
A limpeza dos dados envolve uma verificao da consistncia das informaes, a
correo de possveis erros e o preenchimento ou a eliminao de valores nulos e redundantes.
Nessa fase so identificados e removidos os dados duplicados e corrompidos. A execuo
dessa fase corrige a base de dados eliminando consultas desnecessrias que seriam executadas
pelos modelos e que afetariam o seu desempenho. A procura de valores absurdos que no
deveriam existir na base simplesmente por serem impossveis um das atividades
89
desempenhas na limpeza de dados, na prtica. No esforo para limpeza e consistncia dos
dados, os campos com valores absurdos, mesmo sendo raros, devem ser preenchidos com
valores possveis, utilizando-se, por exemplo, mdias ou medianas da varivel. Outra opo
seria a eliminao do registro que contm tal valor. A filosofia por trs dessas aes evitar
que tal valor atrapalhe a compreenso dos dados pelos modelos, levando-os a tomar
concluses errneas. Outro caso interessante de limpeza de dados o tratamento de valores
ausentes (missing). Se o nmero de observaes ausentes for significativo, o desempenho de
grande parte dos modelos de anlise de dados pode ser seriamente comprometido.
Para lidar com valores ausentes, em geral utiliza-se uma das seguintes abordagens:
Ignorar a descrio do indivduo ou mesmo eliminar o descritor e preencher os valores
ausentes manualmente.
C - Normalizao dos Dados
Essa etapa consiste em ajustar a escala dos valores de cada atributo de forma que os
valores fiquem em pequenos intervalos. Tal ajuste faz-se necessrio para evitar que alguns
atributos, por apresentarem uma escala de valores maior que os outros, influenciem de forma
tendenciosa em determinados mtodos de minerao de dados [GOLDSCHMIDT et al.,
(2005)]. Existem muitas maneiras de normalizao de dados, Linear, Por Desvio Padro, Pela
Soma dos Elementos, Pelo Valor Mximo dos Elementos e Normalizao por Escala Decimal.
A seguir algumas dessas tcnicas so conceituadas:
Normalizao Linear Essa tcnica tambm conhecida como interpolao linear,
consiste em considerar os valores mnimos e mximos de cada atributo no ajuste da
escala. Mapeia os valores de um atributo no intervalo fechado de 0 a 1. Mantm
distncias entre os dados normalizados que sejam proporcionais as distncias entre os
dados originais. Essa tcnica recomendada apenas quando se tem certeza que o
domnio dos atributos essa entre os valores mnimos e mximos considerados.
Normalizao por Desvio Padro Normalmente conhecida como Z-Score ou Z-Mean,
a padronizao por desvio padro considera a posio media dos valores de um
atributo, assim como os gros de disperso desses valores em relao posio media.
Essa tcnica de normalizao til quando os valores mnimo e mximo so
desconhecidos.
90
Normalizao Pela Soma dos Elementos Consiste em dividir cada valor do atributo
que esteja sendo normalizado pelo somatrio de todos os valores de tal atributo. Uma
desvantagem que certos valores podem ser muito pequenos comparado com os
demais.
Normalizao Pelo Mximo dos Elementos. Essa tcnica consiste em dividir cada
valor do atributo que esteja sendo normalizado pelo maior valor dentre todos os
valores de tal atributo.
Normalizao por Escala Decimal - Essa tcnica consiste em realizar o processo de
normalizao por meio do deslocamento do ponto decimal dos valores dos atributos a
ser normalizados. O nmero de casas decimais depende do maior valor absoluto do
atributo em questo.
D - Enriquecimento dos Dados
Essa etapa consiste em conseguir agregar mais informaes aos registros existentes
para que esses forneam mais elementos para a pesquisa. Esto includas nessa operao todas
as iniciativas que envolvam captao e transformaes junto fonte de dados original. Difere-
se da etapa de limpeza, pois no se restringe a preencher informaes ausentes. Busca-se,
agregar novas informaes, muitas vezes essa etapa esbarra no alto custo de implementao.
Uma das formas de enriquecimento de dados pode ser executada mediante a
incorporao de informaes fornecidas por outros sistema ou fontes, sendo muito comum
importao de informaes advindas de outras bases em adio aos dados das bases j
existentes. Tais informaes podem ser teis em um contexto de anlise fornecendo um
indicador para uma eventual tomada de deciso.
2.3.2.2 Minerao de Dados
O termo minerao de dados (data mining) define a explorao e anlise de grandes
quantidades de dados com o objetivo de encontrar padres, regras e relaes interessantes e
significativas para algum fim [BERRY, (2000)]. Sendo essa a principal etapa do processo,
nela ocorre busca efetiva por conhecimento por esse motivo entende-se que a etapa de
91
minerao engloba as mais variadas reas do conhecimento sendo vlida, tanto na
compreenso de clientes de uma empresa quanto no desenvolvimento de uma nova vacina
para alguma doena.
Existem dois tipos de minerao de dados: a direta e a indireta. A minerao de dados
direta tenta explicar ou categorizar a varivel alvo, definida como receita proveniente de
algum esforo de vendas ou a resposta aos indicadores de qualidade. Em geral toma a forma
de modelagem preditiva, onde se sabe o que se quer prever. Minerao de dados indireta, por
sua vez, procura encontrar padres ou similaridades entre grupos de registros de uma base de
dados sem o uso de um alvo particular ou de alguma coleo de classes pr-definida. Ambas
as abordagens no so mutuamente exclusivas e, na verdade, freqentemente as tarefas de
minerao de dados envolvem as duas. Esse trabalho focado na Minerao de Dados direta,
ou seja, existe um alvo e ele delineado uma modelagem desse indicador.
Existem muitas tcnicas de modelagem em minerao de dados. A escolha depende,
muitas vezes, do tipo da tarefa de minerao a ser realizada [GOLDSCHMIDT et al., (2005)].
2.3.2.2.1 Tarefas de Minerao de Dados
Uma tarefa equivale a uma operao de descoberta de conhecimento estando ligada a
etapa de minerao de dados. Conforme visto anteriormente essas tarefas podem ser divididas
em diretas e indiretas.
Os mtodos de minerao de dados podem ser classificados pela funo que executam
ou de acordo com a classe de aplicao em que podem ser usados [DILLY, (1995)]. Cada
classe de aplicao tem como base um conjunto de algoritmos a serem utilizados na extrao
de relaes relevantes de uma base de dados, diferindo uma das outras quanto aos tipos de
problemas que o algoritmo capaz de resolver.
Nessa sesso apresentada uma breve introduo as principais tarefas de minerao de
dados: Associao, Classificao, Clustering, Regresso e Sumarizao. Assim sendo
descreve-se abaixo as tarefas mais comuns na realizao do processo de descoberta de
conhecimento.
92
Classificao
Agrupamento por afinidade ou regras de associao
Regresso
Clustering
Sumarizao
Duas dessas tarefas (classificao, regresso) consistem em exemplos de minerao de
dados direta. As outras trs so exemplos de atividades da minerao de dados indireta.
A - Classificao
Consiste em descobrir a funo que mapeie um conjunto de registros em um conjunto
de rtulos categricos predefinidos denominados classes que, uma vez descoberta, tal funo
pode ser aplicada a novos registros de forma a prever a classe em que tais registros se
enquadram.
Essa modalidade tambm conhecida como regras de classificao, deciso
supervisionada, aprendizado supervisionado ou processo direto [GROTH, (1997)]. Para
classificar necessrio selecionar um atributo alvo, chamado varivel dependente ou classe,
cujo valor usado para elaborar regras de classificao e as variveis independentes ou
atributos preditores.
A classificao utiliza dados sobre o passado para encontrar padres significantes de
forma a induzir regras sobre o futuro, isto , regras que predizem o valor do atributo alvo, pela
combinao dos valores dos atributos preditores.
O processo inicia-se com um conjunto de treinamento e com os registros pr-
classificados espera-se associar cada incluso a um cdigo de classe, fundamentado nos
valores dos atributos preditores. O sistema deve inferir regras para classificar e encontrar a
descrio da classe. Ao final do processo, tem-se um modelo da base de dados capaz de
classificar um nmero maior de registros. A preciso do resultado da classificao medida
pela taxa de erro que o percentual de registros classificados incorretamente [BERRY et al.,
(2000)].
93
B - Agrupamento Por Afinidade ou Regras de Associao
Abrange a busca por itens que frequentemente ocorram de forma simultnea em
transaes do banco de dados. Um exemplo clssico e didtico da aplicao dessa tarefa na
rea de marketing durante um processo de descoberta de associao em sua vasta base de
dados. A associao ou afinidade de grupos visa combinar itens importantes, tal que, a
presena de um item em uma determinada transao pressupe a de outro na mesma transao.
Isto foi inicialmente proposto por AGRAWAL em 1993.
A tecnologia possibilitou s organizaes coletar e armazenar grandes quantidades de
dados, como o caso da tecnologia de cdigo de barras sobre os dados de venda [AGRAWAL
et al., (1992)]. Segundo a revista Business Miner (1997) as grandes redes varejistas estudam
as compras dos clientes para descobrir quais as vendas so normalmente realizadas ao mesmo
tempo, chamando isso de market basket analysis. Essa anlise pode determinar, por exemplo,
os produtos que devem estar expostos juntos, objetivando incrementar as vendas.
A regra de associao uma expresso representada na forma X => Y (X implica em
Y), em que X e Y so conjuntos de itens da base de dados; X o antecedente da regra (lado
esquerdo) e Y o conseqente da regra (lado direito) e pode envolver qualquer nmero de
itens em cada lado da regra [DILLY, (1995)]. O significado dessa regra que as transaes da
base que contm X tendem a conter Y. Um exemplo prtico afirmar que "30% dos registros
que contm X tambm contm Y; 2% dos registros contm ambos" [AGRAWAL et al.,
(1992)].
A regra de associao possui dois parmetros bsicos: o suporte e a confiana. Esses
parmetros limitam a quantidade de regras que sero extradas e descrevem a qualidade delas
[Para GOLDSCHMIDT, (2005)]. Considerando que os conjuntos de itens X e Y esto sendo
analisados, o suporte definido como a frao de registros que satisfaz a unio dos itens no
conseqente (Y) e no antecedente (X), correspondendo significncia estatstica da regra
[AGRAWAL et al., (1992)]. A confiana expressa pelo percentual de registros que satisfaz
o antecedente (X) e o conseqente (Y), medindo a fora da regra ou sua preciso [AGRAWAL
et al., (1992)]. No exemplo anteriormente citado, 30% o fator de confiana e 2% o suporte
da regra. BERRY & LINOFF, (2000) definem a confiana como a freqncia com que o
94
relacionamento mantm-se verdadeiro na amostra de treinamento e o suporte como a
freqncia com que a combinao acontece. Assim, uma associao pode se manter 100% do
tempo e ter a mais alta confiana, porm pode ser de pouca utilidade se a combinao ocorrer
raramente.
O problema das regras de associao encontrar todas as que possuem o suporte e a
confiana acima de um determinado valor mnimo, pois, na prtica os usurios normalmente
esto interessados somente num subconjunto de associaes [AGRAWAL et al., (1992)]. Um
dos algoritmos mais referenciados para esse mtodo o Apriori, nas diversas variaes, tais
como, o AprioriTid, DHP e Partition.
C - Regresso
Essa tarefa compreende, fundamentalmente, a busca por funes lineares ou no, que
mapeiam os registros de um banco de dados em valores reais. Essa tarefa similar tarefa de
classificao, sendo restrita apenas a atributos numricos [GOLDSCHMIDT, (2005)]. A
regresso linear a forma mais simples de regresso, em que a funo a ser abstrada a partir
dos dados uma funo linear. O nmero de variveis, ou atributos, envolvidos no problema
varia de um caso para outro. O caso mais simples conhecido como regresso linear
bivariada, na qual uma varivel aleatria Y, denominada de varivel dependente funo de
uma outra varivel denominada independente.
. X + = Y
(2.6)
Nesse caso a varincia da varivel Y assumida como constante, e e so os
coeficientes de regresso linear. Esses coeficientes podem ser obtidos a partir dos dados
analisados pelo mtodo dos mnimos quadrticos, que busca minimizar o erro entre os dados
reais e os dados estimados pela funo.
A regresso linear mltipla uma extenso da regresso linear bivariada envolvendo
mais de uma varivel independente. Nesse tipo de regresso, a varivel dependente Y deve ser
modelada como funo linear de um vetor de caractersticas multidimensional, conforme
equao a seguir.
95
. X X X + + + = Y
(2.7)
O mtodo dos mnimos quadrticos pode ser estendido para obter os coeficientes para a
regresso mltipla [HAN&KEMBER, (2001)].
Existem muitos problemas em que os dados no apresentam dependncia linear entre
si. Nesses casos, podem ser aplicadas tcnicas de regresso no linear. Pode-se citar como
exemplo a regresso polinomial na qual se adiciona termos polinomiais expresso do modelo
linear. Assim, aplicando transformaes s variveis, um modelo no linear pode ser
convertido em um modelo linear, que pode ento, ser resolvido pelo mtodo dos mnimos
quadrticos.
D Clustering
Esse mtodo utilizado para separar os registros de uma base de dados em
subconjuntos ou clusters, de tal forma que os elementos de um cluster compartilhem de
propriedades comuns que os distingam de elementos em outros clusters [GOLDSCHMIDT,
(2005)]. O objetivo nessa tarefa maximizar similaridades intra-cluster e minimizar
similaridades inter-cluster.
Diferente da tarefa de classificao, que tem rtulos pr-definidos, a clustering precisa
automaticamente identificar os grupos de dados aos que o usurio dever atribuir rtulos
[FAYYAD et al., (1996)].
um exemplo de aprendizado no supervisionado ou indireto, cujo objetivo agrupar
tipos similares de dados ou identificar excees [GROTH, (1997)]. O sistema tem que
descobrir suas prprias classes, isto , agrupar os dados e descobrir subconjuntos de objetos
relacionados ao conjunto de treinamento, encontrando descries de cada um desses
subconjuntos [DILLY, (1995)]. Um cluster pode ser definido como um conjunto de objetos
agrupados pela similaridade ou proximidade e a clustering como a tarefa de segmentar uma
populao heterognea em um nmero de subgrupos (ou clusters) mais homogneos possveis,
de acordo com alguma medida [BERRY&LINOFF, (2000)].
Quando o processo bem sucedido, os objetos do cluster tm alta homogeneidade
interna e alta heterogeneidade externa. Um exemplo disso a gerao de clusters de sintomas
96
de pacientes, que podem indicar diferentes doenas baseadas nas suas caractersticas. Na
clustering, diferentemente da classificao, no h classes pr-definidas. Na classificao, a
populao subdivida e associa cada registro a uma classe pr-definida, com base no modelo
desenvolvido por meio de treinamento e exemplos pr-classificados. A clustering mais geral
e freqentemente realizada como primeira etapa de outros mtodos de Minerao de Dados ou
de modelagem. Assim, aplica-se o modo direto para reconhecer relaes nos dados e o indireto
para explicar essas relaes [BERRY&LINOFF, (2000)].
aplicada em atividades de marketing para identificar os segmentos de mercado, para
encontrar estruturas significantes nos dados e na descoberta de fraudes ou dados incorretos
[GROTH, (1997)].
E - Sumarizao
A tarefa de sumarizao, tambm conhecida como descrio de conceitos, consiste
em identificar e apresentar, de forma concisa e compreensvel, as principais caractersticas dos
dados contidos em um conjunto analisado. So exemplos de aplicaes envolvendo a tarefa de
sumarizao:
Identificar as caractersticas dos assinantes de uma revista que reside em uma regio do
pas, identificando a faixa salarial, o nvel de escolaridades dos clientes e se possui ou
no residncia prpria;
Descrever o perfil dos meninos de rua, a faixa etria, se eles usam ou no drogas, e se
possuem ou no irmos.
Um conceito normalmente se refere a uma coleo de dados com pelo menos uma
caracterstica em comum. Por exemplo, clientes inadimplentes, pacientes com cardiopatias,
alunos de graduao dentre muitos. Sendo assim no se pode definir sumarizao como uma
simples enumerao dos dados. Busca-se gerar descries para caractersticas resumidas dos
dados e possvel comparao entre eles. Tais descries so denominadas descries de classe,
quando o conceito a ser descrito se refere a uma classe de objetos.
A descrio de conceitos pode ser interpretada como uma generalizao dos dados a
partir das caractersticas mais relevantes dentre os registros analisados. Um mtodo muito
utilizado na descrio de conceitos denomina-se deciso orientada a atributos. Esses mtodo
97
consiste da anlise de medidas da teoria da informao, faz parte do algoritmo tradicional
C4.5.
2.3.2.2.2 Ferramentas de Data Mining.
Atualmente existe uma grande variedade de produtos comerciais para minerao de
dados. Tem-se nesse item o objetivo de apresentar algumas das principais ferramentas
utilizadas para auxiliar na execuo do processo de Minerao. Entre algumas das principais
dificuldades para criao de uma ferramenta de minerao pode-se citar a necessidade de
manipulao de grandes e heterogneos volumes de dados, o tratamento de resultados
representados em diferentes formatos e a dificuldade de interao de diversos algoritmos
especficos.
A Weka
O Weka uma ferramenta de cdigo aberto, aplicvel em minerao de dados, flexvel,
desenvolvida na linguagem Java pelo curso de cincia da computao da Universidade de
Waikato na Nova Zelndia. A utilizao da ferramenta pode ser realizada de diversas
maneiras. Possui quatro diferentes implementaes de interface, que permitem que todos os
seus algoritmos sejam chamados diretamente via cdigo Java. As interfaces so:
Simple Client Nessa interface, a interao do usurio com o Weka ocorre por meio de
linhas de comando. Requer um profundo conhecimento do programa, porm
extremamente flexvel e gil para usurios avanados;
Explorer Trata-se da interface de utilizao mais comum, e enquadra separadamente
as etapas de pr-processamento, minerao de dados e ps-processamento;
Experimenter Constitui um ambiente de experimentao, em que testes estatsticos
podem ser conduzidos a fim de avaliar o desempenho de diferentes algoritmos de
aprendizado;
Knowledgeflow uma ferramenta grfica, ainda em desenvolvimento, que permite o
planejamento de aes, construo do fluxo de processos.
98
O Weka possui implementados diversos mtodos de associao, classificao e
clustering. A incluso ou remoo de novos mtodos pode ser realizada de forma simples e
rpida, o que torna a ferramenta verstil e expansvel. O Weka suporta a abertura direta de
arquivos ARFF, CSV, C45. Porm apenas consegue manipular os ARFF. Esse um arquivo
ASCII usado para definir atributos e seus valores. O Weka tambm permite a visualizao
grfica dos dados em forma de histograma, e a apresentao de resultados em arvores de
deciso, diagrama de disperso, alm de prover modelos grficos para montagem de redes
neurais.
B Darwin
Desenvolvido pela Thinking Machines Corp, o Darwin uma ferramenta disponvel
para operao nas plataformas Windows, Sun Solares e HP-UX. Fornece interfaces simples,
baseada no modelo Windows, e oferece tambm uma programao de vrios algoritmos de
minerao, que podem ser executados paralelamente. Pode ser utilizado em conjunto com
diversos bancos de dados, sendo capaz de implementar o modelo de minerao por completo.
C - Inteligent Miner
Ferramenta fabricada pela IBM que possui verses para operao nas plataformas
Windows, Solaris, AIX, OS/390 e OS/400. O Inteligente Miner no dependente do sistema
IBM, podendo tambm ser utilizado junto a outros bancos de dados de outros fabricantes. A
IBM tambm oferece o Inteligent Miner para texto, que realiza atividades de minerao em
dados de texto, incluindo a filtragem de e-mail e paginas Web. Escalvel e com suporte para
vrias plataformas, o pacote Inteligent Miner for Data oferece um conjunto de ferramentas
apto a fornecer uma estrutura que suporta o processo iterativo de minerao.
O Inteligent Miner permite a utilizao de algoritmo de minerao, de forma individual
ou combinada, para solucionar problemas de minerao tambm possui uma interface de
programao de aplicativos que permite o desenvolvimento de aplicao personalizada.
99
D - Bramining
uma ferramenta nacional de minerao produzida ao longo de trs dissertaes de
mestrado realizadas pela PUC e no IME. Essa ferramenta disponibiliza um ambiente para a
realizao do processo e conceitualmente trabalha em trs nveis denominados nveis
funcionais: Nvel dos Mtodos, Nvel das Operaes e Nvel das Etapas.
O nvel dos mtodos o nvel funcional mais baixo e contm os mtodos que se
encontram disponveis no Bramining para utilizao durante a realizao de aplicaes de
minerao. Os mtodos so classificados em operaes. Uma operao de minerao uma
especificao lgica de um grupo de mtodos que tem a mesma finalidade. As operaes
disponveis no Bramining compem o nvel funcional intermediaria da ferramenta,
denominado nvel de operaes. O nvel das etapas o nvel funcional mais elevado. Nele as
operaes de descoberta e conhecimento de dados so agrupadas nas etapas do processo de
descoberta e conhecimento: pr-processamento, minerao de dados, ps-processamento.
O processamento iterativo e interativo de uma aplicao de descoberta e conhecimento
pelo Bramining requer, a cada ao, que seja definido o mtodo que dever implementar tal
ao. A hierarquia mencionada anteriormente utilizada para auxiliar usurios inexperientes a
identificar, por meio de filtros, os mtodos disponveis que viabilizam a operao desejada.
Uma vez selecionada o mtodo desejado, a sua execuo demanda a especificao de estrutura
de entrada e dos parmetros especficos do referido mtodo. Cada mtodo, aps ser executado,
apresenta uma interface especifica com os resultados produzidos. Esses resultados podem ser
novos conjuntos de dados ou mesmo modelos de conhecimento descobertos.
E - Oracle Data Mining (ODATA MINING)
um software de minerao em que todas as atividades de descobertas de
conhecimento ocorrem no mesmo ambiente do gerenciador de banco de dados Oracle,
provendo uma plataforma integrada simples, segura e escalvel. Tal integrao representa um
diferencial importante em favor de sua utilizao, pois ao contrrio das demais ferramentas,
no requerendo a extrao prvia dos dados para que esses sejam processados pelos mtodos
de minerao.
100
O ODATA MINING permite a realizao de tarefas de classificao, regresso,
associao, clustering, e minerao de texto. A infra-estrutura de anlise de dados e
desenvolvimento de aplicaes integrada a minerao de dados suportada por meio do
software Java API, graphical user interface.
F SPSS
O software estatstico SPSS para Windows um poderoso sistema de anlise estatstica
e manuseamento de dados, em um ambiente grfico, em que a utilizao mais freqente, para
a maioria das anlises a efetuar, se resume seleo das respectivas opes em menus e caixas
de dilogos [FERREIRA, (2005)]. Alm disso, o sistema dispe de um editor de comandos, a
que o utilizador mais avanado poder recorrer a fim de realizar determinados tipos de
anlises mais complexas e elaboradas.
O SPSS implementa a tcnica de classificao baseada em associaes, cujo objetivo
gerar subconjuntos de regras de associaes, em que fica restrito ao lado direito das regras, o
atributo alvo da classificao. Alm de produzir regras de classificao, tambm pode ser
aplicado para extrair regras normais de associao e categorizao de textos, executa rvore de
deciso para analisar e gerar modelos de predio, com diagramas de rvore de fcil
entendimento, tambm tem produtos para rede neurais que prov modelagem e predio,
sries temporais e clustering [GROTH, (1997)].
um pacote dos programas para manipular, analisar, e apresentar dados; o pacote
usado extensamente nas cincias sociais e estatsticas. H diversos formulrios de SPSS. O
programa do ncleo chamado base de SPSS e h a nmero dos mdulos add-on que
estendem a escala da introduo de dados, estatstica, ou relatando potencialidades. Em nossa
experincia, o mais importantes desses para a anlise estatstica so os modelos avanados
SPSS e da regresso de SPSS os mdulos do add-on dos modelos.
2.3.2.2.3 Mtodos de Minerao
Cada mtodo de minerao requer necessidades de pr-processamento diferentes. Tais
necessidades variam em funo do aspecto extensional da base de dados em que o mtodo
101
utilizado [MORIK, (2000)]. Em decorrncia da grande diversidade de mtodos de pr-
processamento de dados, so muitas as alternativas possveis de combinaes entre os
mtodos. Sendo assim essa escolha pode influenciar na qualidade da pesquisa. A seguir se
definem alguns dos mtodos utilizados na minerao dos dados:
Redes Neurais
Algoritmos Genticos
Instncias
Estatsticos
Especficos
Arvore de Deciso
Lgica Nebulosa
A) Redes Neurais
Diversos modelos de redes neurais podem ser utilizados na implementao de mtodos
de descoberta e conhecimento de dados. Classificao, regresso, previso em series temporais
e clustering so exemplos de tarefas de minerao que podem ser implementadas por redes
neurais. A topologia da rede neural varia em funo do problema e da representao adotadas
para os dados. Em geral, em aplicaes de minerao, a camada de entrada do modelo neural
recebe os dados pr-processados de cada registro de um banco de dados. A rede processa esses
dados produzindo uma sada cuja natureza tambm varia em funo da aplicao.
Em redes neurais com aprendizado supervisionado, a entrada corresponde aos atributos
preditivos enquanto a sada do modelo corresponde ao atributo objetivo do problema. Assim
sendo, o algoritmo de aprendizado pode estimar o erro, ou distncia, entre a sada produzida e
a sada desejada. Em funo do erro calculado, o algoritmo ajusta os pesos das conexes da
rede a fim de tornar a sada rela to prxima quanto seja possvel da sada desejada. Esses
modelos so muito teis para reconhecimento de padres, e em particular, para tarefas de
minerao que envolve predio. Por outro lado, redes neurais com aprendizado no
supervisionado so adequadas para tarefas que envolvam descrio dos dados, ou seja, tarefas
de clustering.
102
A seguir se descreve os algoritmos de aprendizado back-propagation: algoritmo de
retro propagao do erro e de aprendizado supervisionado, cuja aplicao adequada tarefa
de minerao tais como classificao, regresso ou previso de series temporais.
Esse algoritmo tem como objetivo minimizar a funo de erro entre a sada gerada pela
rede neural e a sada desejada, utilizando o mtodo do gradiente descendente. A topologia de
uma rede neural no linear cujo comportamento seja codificado pelo algoritmo back-
propagation , em geral, composto de uma camada de entrada, uma camada de sada e um
nmero arbitrrio de camadas intermediaria. Cada neurnio de uma camada, com exceo da
camada de entrada, encontra-se conectado a todos os neurnios presentes na camada
intermediariamente anterior a sua.
B) Algoritmos Genticos
So modelos computacionais de busca e otimizao de solues em problemas
complexos, inspirados em princpios da teoria da evoluo natural de Charles Darwin e da
reproduo gentica. Segundo o principio bsico da evoluo natural de Darwin, indivduos
mais aptos possuem maiores chances de sobrevivncia e, consequentemente, mais
oportunidades de gerarem descendentes e perpetuarem seus cdigos genticos pelas geraes
seguintes. A identificao expressa individualmente pelo seu cdigo gentico que fica
representado nos cromossomos desse individuo.
Genericamente os algoritmos genticos so extremamente teis em problemas
complexos que envolvam otimizao. Em particular, podem ser aplicado a diversas tarefas de
minerao de dados. Essa tcnica procura obter solues por meio da evoluo de populaes,
por meio de solues codificadas em cromossomos artificiais.
Algoritmos genticos empregam um processo adaptativo e paralelo de busca de
solues em problemas complexos. O processo adaptativo, pois as solues existentes a cada
instante influenciam a busca por futuras solues. O paralelismo do processo decorrncia
natural do fato de que diversas solues so consideradas a cada momento pelos algoritmos
genticos.
Rule-Evolver: Baseado na teoria de algoritmos genticos [MICHALEWICZ, (1996)]
procura regras SE-ENTO para melhor descrever as classes de um problema. A parte SE de
103
cada regra dita qual intervalo de cada atributo da base de dados melhor caracteriza a classe
descrita aps o ENTO. Regras compostas por diferentes atributos podem ser agregadas com
a utilizao do conectivo E.
C) Instncias
Indica que o mtodo, ao processar um novo registro, leva em considerao as
instncias ou os registros existentes na base de dados. Um dos principais mtodos baseados
em instncia denominado de K-NN, ou seja, K vizinho mais prximo.
K-NN o mtodo muito utilizado em aplicaes envolvendo a tarefa de classificao.
Trata-se de um mtodo de fcil entendimento e que no requer treinamento e implementao
que no necessita de treinamento prvio para ser aplicado. O funcionamento do K-NN consiste
na tarefa de classificao por atributos de uma base de dados conhecida tambm como base de
referncia de um problema, e cada novo registro a ser classificado segui os passos descritos a
seguir:
Determinar o clculo da distncia do novo registro, a cada um dos registros existentes
na base de referncia;
Identificar os k registros da base de referncia que apresentaram menor distncia em
relao ao novo registro;
Apurao da classe mais freqente entre os k registros identificados no passo anterior;
Comparao da classe apurada com a classe real, computando erro o acerto do
algoritmo.
D Estatsticos
Existem diversos mtodos estatsticos para a classificao de padres, alguns clssicos
e outros mais recentes. Todos assumem a existncia de uma varivel (atributo) resposta, y, e
uma coleo de variveis de entrada, x = (x1, x2,..., xj), alm da disponibilidade de dados para
treinamento. A meta encontrar um modelo para prever (x f y) = que funcione bem quando
aplicado a um novo dado. Um resumo dos principais modelos aplicados a todas as tcnicas de
deciso pode ser encontrado em FRIEDMAN, (1995).
104
Entre as Metodologias mais usadas esto os classificadores Bayesianos. O princpio
bsico de classificadores Bayesianos est fundamentado na teoria da probabilidade Bayesianos
[DUDA et al., (2000)].
K-means Mtodo mais popular de Clustering, nesse mtodo toma-se,
randomicamente, k pontos de dados como sendo os centrides dos clusters. Em seguida, cada
ponto atribudo ao cluster cuja distncia desse ponto em relao em relao ao centride de
cada cluster a menor dentre todas as distncias calculadas. Um novo centride para cada
cluster computado pela media dos pontos do cluster, caracterizando a configurao dos
clusters para a iterao seguinte. O processo termina quando os centrides dos clusters param
de se modificar, ou aps um nmero limitado de iteraes que tenha sido especificada pelo
usurio.
E) Especficos
So mtodos desenvolvidos especificamente para implementar alguma tarefa de
descoberta e conhecimento de dados, no caso do Apriori um mtodo desenvolvido para
descoberta de associaes.
Apriori um algoritmo clssico de minerao que inspirou a criao de diversos
outros algoritmos como exemplo DHP, GSP entre outros. O Apriori baseia-se no principio da
antimonotonicidade do suporte segundo o qual um k-itemset somente pode ser freqente se
todos os seios (k-1)-itemset forem freqentes. Assim sendo, a combinao de itemsets para
gerar um novo itemset somente ocorre quando esses so freqentes.
F) rvore de Deciso
A rvore de deciso uma ferramenta completa e bastante conhecida para classificar
os dados e apresentar os resultados sob a forma de regras [BERRY & LINOFF, (2000)]. A
maioria das rvores de deciso executa a classificao em duas fases: construo da rvore e
prunning [AGRAWAL et al., (1992)]:
105
1. Construo da rvore: a rvore vai se ramificando por meio de sucessivas divises
dos dados com base nos valores dos atributos. O processo repetido recursivamente at que
todos os registros pertenam a uma classe:
2. Prunning (poda): remove as ramificaes que no tem valor significativo para criar
o modelo de classificao, selecionando a sub-rvore que contm a menor taxa de erro
estimada. Os ns so rotulados pelos nomes dos atributos; os galhos so os valores possveis
de cada atributo e as folhas so os valores das classes. Os registros so classificados seguindo
um caminho para baixo na rvore, sendo desenhada com a raiz no topo e as folhas embaixo.
Um registro entra na rvore pelo n raiz. Na raiz, aplicado um teste para determinar o
prximo n aonde o registro ir se posicionar. H diferentes algoritmos para escolher o teste
inicial, mas o objetivo sempre o mesmo: escolher aquele que melhor descreve a classe alvo.
O processo repetido at que o registro chegue a uma folha. Assim, todos os registros que
terminam na mesma folha so classificados da mesma forma. H somente um caminho da raiz
at cada folha e esse caminho a expresso da regra usada para classificar os registros
[BERRY & LINOFF, (2000)].
H vrios algoritmos para construir rvores de deciso. Os mais conhecidos so CART,
CHAID (Chi-Squared Automatic Interaction Detection), ID3 (Iterative Dichotomiser 3) e
C4.5.
G) Lgica Nebulosa
Diversos mtodos de minerao foram adaptados de forma a incorporar a flexibilidade
proporcionada pela lgica nebulosa. A lgica nebulosa (Fuzzy Logic) uma teoria matemtica
que tem como principais objetivos permitir a modelagem do modo aproximado de raciocnio,
imitando a habilidade humana de tomar decises em ambientes de incerteza e impreciso.
Com o conceito de lgica nebulosa constroem-se sistemas inteligentes de controle e suporte a
deciso que lidem com informaes imprecisas e subjetivas.
106
H) Sistemas Neuro-Fuzzy
Sistemas neuro-fuzzy (SNF) so sistemas hbridos que combinam as vantagens das
redes neurais, no que se refere ao aprendizado, com o poder de interpretao lingstico dos
sistemas baseados em lgica nebulosa.
Os sistemas neuro-fuzzy realizam, internamente, um mapeamento entre regies do
espao de entrada em regies fuzzy do espao de sada, por meio de regras fuzzy do sistema.
As regies fuzzy do espao de E/S so determinadas no processo de identificao da estrutura.
Nesse processo, os espaos de entrada e/ou sada so divididos segundo um determinado
mtodo de partio. As variveis de entrada e sada dos sistemas neuro-fuzzy so divididas
em vrios termos lingsticos (por exemplo: baixo, alto) que so utilizados pelas regras de
lgica nebulosa.
2.3.2.3 Ps-Processamento
Aps serem bitos os modelos de conhecimentos teis a partir das bases de dados
pesquisadas, as atenes se voltam para aplicabilidade dos resultados no contexto da pesquisa.
Essa fase compreende a analise final onde todos os dados criados so direcionados para as
tomadas futuras decises. Exemplos comuns da aplicao dos resultados so as alteraes em
estratgias de negcios que tenham como objetivo procurar tomar proveito dos conhecimentos
obtidos. Tais alteraes podem variar desde tomadas de decises sobre em que posio s
gndolas de supermercados, at polticas estratgicas de mercado.
O desenvolvimento de sistemas que utilizam conhecimentos extrados de base de dados
tem propiciado uma valiosa ferramenta na tomada de decises empresariais [AGRAWAL et
al., (1992)].
A - Simplificao do Modelo de Conhecimento
Consiste em remover detalhes desse modelo de conhecimento de forma a torn-lo
menos complexo, sem perda de informao relevante. A representao de conhecimento por
meio de regras usado em descoberta e conhecimento de dados. Para a compreenso humana,
107
um conjunto com grande quantidade de regras de difcil aceitao. E nesse contexto que
mtodos voltados ao corte de regras.
Esses mtodos se baseiam em medidas de qualidade das regras tais como preciso e
abrangncia. Para ilustrar considere um modelo de conhecimento composto por regra da
forma: XY, onde X e Y so predicados, ou seja, condies, verdadeiro ou falso em funo de
cada registro da base [Segundo HAN e KEMBER, (2001)].
Preciso ou acurcia da regra: o percentual de registros na base de dados que ao
satisfazerem aos antecedentes da regra, satisfazem tambm o conseqente.
[ ]
[ ]
.
^
X
Y X
A
cc
=
(2.8)
Abrangncia da regra: o percentual de registros da base de dados que ao satisfazerem
ao conseqente da regra, satisfazem tambm ao antecedente.
[ ]
[ ]
.
^
Y
Y X
A
br
=
(2.9)
Sendo comum em minerao que o usurio estabelea limites de acurcia e
abrangncia para as regras, de tal forma a excluir do modelo gerado todas as regras que no
satisfaam a tais limites.
B - Transformaes de Modelo de Conhecimento
Com a finalidade de facilitar a anlise muitas vezes se utiliza mtodos de
transformao sobre os modelos. Esses mtodos consistem basicamente na converso da
forma de representao do conhecimento de um modelo para outra forma de representao do
mesmo modelo, tornando-o mais entendvel.
Um exemplo comum a converso de arvores de deciso em regras ou vice-versa.
Conforma visto a fase de ps-processamento envolve a visualizao, a anlise e a
interpretao do modelo de conhecimento gerado pela etapa de minerao [GOLDSCHMIDT
et al (2005)]. Em geral, nessa etapa que o especialista em conhecimento e o especialista no
108
domnio da aplicao avaliam os resultados obtidos e definem novas alternativas de
investigao dos dados.
2 3.2.4 Controle
Nessa etapa o papel do pesquisador de fundamental importncia na conduo do
processo, pois diversos fatores podem influenciar nas etapas de desenvolvimento e
conhecimento de dados. O controle uma etapa que depende exclusivamente do
conhecimento do especialista, nessa rdua etapa o mesmo influencia na tarefa de orientar a
execuo de todo o processo de minerao. Para tanto exige conhecimento profundo do
cenrio, nesse o pesquisador utilizar experincias anteriores, seus conhecimento, sua intuio
e o poder de combinar subjetivamente os fatos de forma a decidir qual a melhor estratgia a
ser adotada.
Descreve que para as intervenes nas etapas de pr-processamento, minerao de
dados e ps-processamento deve se envolver geralmente em inmeros aspectos tais como:
fatos observados cuja origem e os nveis de detalhamentos so diversos e difusos, o
conhecimento e anlise dos dados intermedirios obtidos, opinies de outros especialistas no
contexto da aplicao, e o mximo de conhecimento prvio do problema a ser controlado
[FAYYAD et al., (1996)]. Fica claro o grau de dificuldade na formao de um pesquisador em
minerao, sendo essa tarefa rdua, longa e exaustiva, pois requer no somente o
conhecimento de uma ferramenta terica sobre a rea, mas tambm a participao desses em
inmeras experincias prticas.
2.3.3 Metodologias de Descoberta de Conhecimento em Base de Dados
A escolha e aplicao de tcnicas de descoberta de conhecimento em base de dados
(KDD), consistem em encontrar uma melhor aplicao para o seu problema, entre diferentes
tcnicas a serem aplicadas. A construo da Metodologia varia de tcnica para tcnica. Para a
classificao, o conjunto de treinamento usado para gerar uma explicao da varivel alvo
em relao s variveis independentes. Essa explicao pode ser na forma de uma rvore de
deciso, de rede neural ou de outra modalidade de relao entre a varivel que se deseja
109
classificar e as demais variveis da base de dados. A classificao utiliza as ocorrncias
passadas para construir um modelo futuro. Para isto, necessrio dados pr-classificados,
oriundos de dados histricos ou de um outro processo de descoberta de conhecimento.
2.3.3.1 Tipos de Metodologias
medida que as tcnicas de anlise de dados se multiplicam, fica aparente que a
concluso bem sucedida de uma pesquisa envolve mais do que a seleo do mtodo correto.
Segundo HAIR, (2005) questes que variam desde a definio do problema at o diagnstico
crtico dos resultados que devem ser abordados. A seguir se discute algumas das metodologias
de pesquisas encontradas atualmente.
A - Metodologia CRISP-DATA MINING
A Metodologia CRISP-DATA MINING foi concebida em finais de 1996 e o seu
desenvolvimento foi motivado pelo interesse crescente e generalizado, por um lado pelo
mercado de DATA MINING, e por outro, pelo consenso de que a indstria necessitava de um
processo padronizado [WIRTH, (2000)]. Os fundamentos dessa Metodologia vo alm dos
princpios acadmicos e tericos baseiam-se na prtica, na experincia daqueles que
desenvolvem de fato, projetos de DATA MINING. O conhecimento prtico foi assim
incorporado de forma a dar resposta aos requisitos dos utilizadores, no se centrando
unicamente na tecnologia, mas antes na resoluo de problemas do negcio HAN e KEMBER,
(2001). A Metodologia CRISP-DATA MINING descrita em termos de um processo
hierrquico, com um ciclo de vida que se desenvolve em seis fases:
Estudo de Negcios
Estudo dos Dados
Preparao dos Dados
Modelao
Implementao
Avaliao
110
As fases no tm uma seqncia fixa, dependendo do resultado e do desempenho das
outras fases ou das tarefas particulares de determinada fase [CHANPMAN et al., (2000)].
A Figura 2.24 apresenta o ciclo de vida da Metodologia CRISP-DATA MINING, em que as
setas indicam a seqncia, ligaes e interligao entre as fases.
Figura 2.24 Metodologia CRISP-DATA MINING.
Fonte: Adaptado de CHANPMAN et al. ( 2000).
B - Metodologia SEMMA
A Metodologia SEMMA foi proposta pelo Instituto SAS (SAS Institute Inc.
http://www.sas.com), que se dedica ao desenvolvimento de solues para estatstica, anlise de
dados, business intelligence, Data Mining SAS, 2005. Essa Metodologia surge como resposta
necessidade de definio, padronizao e de integrao dos processos de DATA MINING nos
ciclos de produo, para que a soluo seja aceite mais facilmente no ambiente do negcio
[GROTH, (2000)]. Mais do que uma Metodologia de DATA MINING, considerada como um
auxiliar para conduzir um projeto em todas as suas etapas, desde a especificao do problema
do negcio at sua implementao.
DATA MINING definida pelo Instituto SAS como o processo de extrair informao
valiosa e relaes complexas de um grande volume de dados e foi nesse sentido, que
111
dividiram o processo de DATA MINING em cinco etapas da Figura 2.25 dando origem ao
acrnimo SEMMA [SAS, (2005)][GROTH, (2000)]:
Figura 2.25 Metodologia SEMMA.
Fonte: Adaptado de SAS, (2005).
Numa forma resumida possvel apresentar essa Metodologia como um processo com
cinco fases, que se inicia com uma amostra (Sample) representativa dos dados qual se
aplicam tcnicas estatsticas de explorao e de visualizao dos dados (Explore).
Posteriormente so selecionadas e transformadas as variveis (Modify) consideradas
mais significativas (as variveis que sobressaram na fase anterior), as que so mais relevantes
em termos de projeto, e sobre as quais se constroem os modelos (Model) (aplicam-se
algoritmos no sentido de alcanar os objetivos) e por fim se avalia o modelo (Assess). Cada
uma das etapas distinta e corresponde a um ciclo, e as suas tarefas internas podem ser
executadas repetidamente sempre que necessrio, pode-se atualizar e ajustar quando surgir
nova informao. A caracterizao mais completa das etapas da Metodologia SEMMA.
C - Metodologia ADRIAANS e ZANTINGE
Essa abordagem do processo de minerao baseia-se na necessidade das organizaes
em obterem continuamente novas informaes sobre seus dados, por isso no deve ser
executado apenas uma vez, mas repetido sempre que novas necessidades de informaes
112
aparecerem. Portanto, nessa abordagem no existe uma etapa especfica para entendimento
dos dados. pressuposto que j exista um conhecimento prvio do domnio da base de dados
e, consequentemente, do objetivo do processo. O processo composto por seis etapas
conforme a Figura 2.26 [ADRIAANS, (1997)].
Figura 2.26 Metodologia ADRIAANS e ZANTINGE.
Fonte: Adaptado de Adriaans et al., (1997).
Seleo dos dados: Nessa etapa ocorre uma anlise de todos os dados operacionais da base de
dados e so selecionados apenas aqueles que so necessrios para alcanar os objetivos do
processo. Podem ser feitas novas selees quando houver outra iterao, ou seja, podendo
incluir dados anteriormente descartados, pois o processo iterativo, permitindo a retomada de
qualquer etapa, independente da etapa em que se encontra.
Limpeza: Nessa etapa so utilizadas diversas operaes de limpeza nos dados, como por
exemplo: a remoo de dados duplicados e a correo dos dados. A etapa de limpeza pode ser
executada inmeras vezes, j que impossvel prever com antecedncia todos os problemas de
qualidade existente na base.
Enriquecimento: Algumas informaes podem ser includas na base de dados para que seja
possvel atingir os objetivos do processo. Esses dados podem estar disponveis em outros
locais, ou at mesmo podem ser gerados a partir de dados existentes na base de dados e
transformados para se obter a informao.
Codificao: A forma que os dados esto armazenados nas bases de dados pode no ser a
representao mais apropriada para a utilizao no processo de minerao. Geralmente, os
dados tm sua representao apropriada ao contexto da aplicao. Por exemplo, um atributo
113
com valores literais pode no ser adequado a determinados algoritmos mineradores utilizados
na etapa de minerao de dados. Para adequ-lo pode ser necessrio normalizar esses valores
dentro de um determinado intervalo. A codificao um procedimento criativo, existem
diversas maneiras de codificao, assim difcil descrev-las, pois cada caso deve ser
analisado individualmente e sua codificao pode variar de acordo com a escolha do algoritmo
minerador da prxima etapa.
Minerao de dados: Essa a etapa onde os dados so manipulados para que seja extrado o
conhecimento. a etapa que mais exige dos recursos computacionais. O autor afirma que,
utilizando inicialmente uma ferramenta de consulta SQL, pode ser possvel ter uma viso geral
dos dados para ento partir para uma anlise menos trivial. Nessa primeira tarefa, 80% do
conhecimento so extrados e j podem revelar alguma informao interessante. Entretanto, as
informaes extradas por essas consultas podem no ser suficientes, surgindo necessidade
de se utilizar tcnicas avanadas.
Apresentao dos resultados: Finalizada a etapa de minerao de dados, resultam
informaes num formato especfico de acordo com a tcnica utilizada. Deve-se levar em
conta que os dados podem estar codificados ou mesmo que o mtodo utilizado na etapa de
minerao que gere, como sada, informaes em algum formalismo ou representao muito
especficas.
Esses resultados devem ser exibidos de forma clara para que sejam de fcil
entendimento para quem ir utiliz-los, geralmente pessoas que necessariamente no
interpretaro os resultados to facilmente quanto aquela que conduziu o processo de
minerao. .
D - Metodologia KLEMENTINEN
KLEMENTINEN et al., (1997) apresentam uma Metodologia que pode ser usada para
automatizar aquisio de conhecimento. As fases dessa Metodologia so aquelas j definidas
pelo autor FAYYAD, (1996): pr-processamento, transformao, descoberta, apresentao e
utilizao na Figura 2.27.
114
Figura 2.27 Metodologia KLEMENTINEN.
Fonte: Adaptado de KLEMENTINEN et al., (1997).
No entanto, a maior nfase dada nas duas fases centrais dessa Metodologia:
Fase de descoberta de padres: onde so encontrados todos os padres
potencialmente relevantes para algum critrio bastante livre;
Fase de apresentao: onde so fornecidos mtodos flexveis para iterativa e
interativamente criar diferentes vises para os padres descobertos.
Nas duas primeiras fases do processo, os dados so coletados e preparados de forma
adequada para descoberta de padres. Uma viso geral sobre os dados pode ser produzida
nessa fase. Os atributos identificados como irrelevantes so removidos e novos atributos
podem ser derivados. Na fase de descoberta de padres, todos os padres potencialmente
interessantes so gerados do conjunto de data set. A apresentao do conhecimento descoberto
uma parte principal dessa Metodologia. Nessa fase, os padres relevantes podem ser
localizados de grandes colees de padres potencialmente relevantes.
E - Metodologia FELDENS
FELDENS et al. (1998) propem uma Metodologia integrada, na qual as tecnologias
de minerao de dados e data warehouse, bem como questes de visualizao tm papis
muito importantes no processo. Tambm supe uma forte interao entre mineradores de
dados e pessoas da organizao para questes de modelagem e preparao de dados. As fases
definidas para essa Metodologia so: pr-processamento, minerao de dados e ps-
processamento, conforme Figura 2.28.
A fase de pr-processamento inclui tudo o que feito antes da descoberta e
conhecimento de dados. Nesta fase feita uma anlise na organizao, para focar no projeto
115
de descoberta e conhecimento de dados, a anlise dos dados existentes, integrao de fontes de
dados, transformaes de dados, etc.
Figura 2.28 Metodologia FELDENS.
Fonte: Adaptado de FELDENS et al., (1998).
A fase de minerao de dados inclui a aplicao de algoritmos, possivelmente a
aplicao repetida. A escolha dos algoritmos pode ser realizada baseando-se na anlise que
feita na fase de pr-processamento. A fase de ps-processamento pode ser definida por
operaes de filtragem, estruturao e classificao. Somente aps essa fase, o conhecimento
descoberto apresentado ao usurio. O conhecimento descoberto pode ser filtrado por alguma
medida estatstica, por exemplo, suporte, confiana ou outro critrio definido pelo usurio.
Estruturao significa que o conhecimento pode ser organizado de forma hierrquica.
F - Metodologia HAIR
Uma grande contribuio foi dada por HAIR et al., (2005) que apresentou uma
metodologia baseada em seis estgios. A meta do autor no foi de fornecer um conjunto rgido
de procedimentos, mas sim orientaes que enfatizem maneira de se construir um modelo.
Um processo com seis estgios para construir modelos fornece uma estrutura para
desenvolver, interpretar e validar qualquer anlise multivariada. O processo discutido por
HAIR consiste nos estgios a seguir:
116
Estgio 1: Definio do problema da pesquisa, dos objetivos e da tcnica multivariada a ser
usada.
O ponto de partida para qualquer anlise mltipla definir o problema da pesquisa e os
objetivos de anlise em termos conceituais, antes de especificar qualquer varivel ou medida.
Um modelo conceitual no precisa ser complexo e detalhado; pode ser uma simples
representao das relaes a serem estudas. Se uma relao de dependncia proposta como
objetivo da pesquisa, devem ser especificados os conceitos de dependentes e independentes. J
para uma aplicao de uma tcnica de independncia, as dimenses de estrutura ou
similaridade devem ser especificadas. Devem ser observados que um conceito, diferentemente
de uma varivel sempre ser definidas, independente da relao.
Inicialmente devem ser identificadas idias ou os tpicos de interesse, em vez de se
concentrar nas medidas especificas a serem utilizados. Isso minimiza as chances de conceitos
relevantes serem omitidos no esforo de desenvolver medidas e de definir as especificidades
do plano de pesquisa.
Com o objetivo e o modelo conceitual especificados, deve-se escolher a tcnica
multivariada a ser utilizada. Aps escolher entre um mtodo de dependncia ou
independncia, a ltima deciso selecionar a tcnica em particular com base nas
caractersticas de medidas das variveis dependentes e independentes. As variveis podem ser
especificadas antes do estudo em seu planejamento ou depois que os dados foram coletados,
quando so definidas anlises especificas.
Estgio 2: Planejamento da pesquisa.
Com o modelo conceitual estabelecido e a tcnica multivariada selecionada, a ateno
se volta para a implementao. Para cada tcnica deve ser desenvolvido um plano de anlise
que aborde as questes particulares a seu propsito e projeto. As questes incluem
consideraes gerais, como tamanho mnimo da amostra, tipos permitidos ou exigidos de
variveis e mtodos de estimao, alm de aspectos especficos, como o tipo de medidas de
associao de resultados agregados ou desagregados em anlise conjunta ou uso de
formulaes especiais de variveis para representar efeitos no-lineares ou interativos em
117
regresso. Em cada caso, essas questes resolvem detalhes especficos e exigncias para a
coleta dos dados.
Estgio 3: Suposies em anlise.
Nesse estgio devem-se fazer vrias suposies sobre as relaes entre as variveis
dependentes e independentes que afetam o procedimento estatstico (mnimos quadrticos). A
seguir discutem-se testes para as suposies e possveis aes para corretivas.
Atender as suposies da anlise e essencial para garantir que os resultados obtidos
sejam realmente representativos nas observaes, obtendo com isto os melhores resultados
possveis. As questes bsicas a serem respondidas nesse estgio esto ligadas s suposies
abaixo:
Linearidade do fenmeno medido;
Varincia constante dos termos de erro;
Independncia dos termos de erro;
Normalidade da distribuio dos termos de erro.
Todas as tcnicas multivariadas tm suposies inerentes, estatsticas e conceituais,
que influenciam muito suas habilidades para representar relaes multivariadas. Cada tcnica
tem tambm uma srie de suposies conceituais que lidam com questes como a formulao
de modelo e os tipos de relaes representadas. Antes de qualquer estimao de modelo, deve
ser garantido que as suposies estatsticas e conceituais estejam satisfeitas.
Estgio 4: Estimao do modelo e avaliao do ajuste geral do modelo.
Com a anlise da pesquisa especificada em termos de variveis dependentes e
independentes, a amostra considerada adequada para os objetivos do estudo e as suposies
avaliadas para as variveis individuais, o processo de construo do modelo agora segue para
a estimao do modelo a ser pesquisado e a avaliao do ajuste geral do modelo. Nesse estgio
devem ser cumpridas trs tarefas bsicas:
118
Selecionar um mtodo para especificar o modelo a ser estimado;
Avaliar a significncia estatstica do modelo geral na previso da varivel
estatstica;
Determinar se algumas das observaes exercem uma influencia indevida nos
resultados.
No processo de estimao, se dispe de opes para atender caractersticas especificas
dos dados ou maximizar o ajuste dos dados. Depois que o modelo estimado, o seu ajuste
geral avaliado para estabelecer se atinge nveis aceitveis sobre os critrios estatsticos, se
identifica s relaes propostas e se tem significncia prtica. Muitas vezes o modelo
reespecificado, em uma tentativa de atingir melhores nveis de ajustes e explicao geral. Em
todos os casos, um modelo aceitvel deve ser obtido antes de se prosseguir.
Estgio 5: Interpretao das variveis estatstica pesquisadas.
Nesse estgio deve-se examinar a equao preditiva, e com isto avaliar a importncia
relativa que as variveis individuais na previso geral do produto. O pesquisador nesse estgio
tem como funo interpretar a varivel estatstica de regresso pela avaliao dos coeficientes
de regresso estimados em termos de sua explicao da varivel dependente, no se deve
avaliar to somente o modelo de regresso estimado, mas tambm as variveis independentes
omitidas, se uma busca seqencial ou abordagem combinatria foi empregada. Alm disso,
algumas tcnicas tambm estimulam mltiplas variveis estatsticas que representam
dimenses latentes de comparaes ou associaes. A interpretao tambm pode levar a re-
especificaes adicionais as variveis e/ou formulao do modelo, onde o modelo re-
estimado e ento novamente interpretado. O objetivo identificar evidencias empricas de
relaes multivariadas nos dados da amostra que possam ser generalizados para a populao
total.
Estgio 6: Validao dos Resultados.
Essa fase consiste em generalizar a aplicao do modelo, demonstrando que ele no
especfico as observaes utilizadas na estimao. Nesse estgio final se deve garantir que ele
representa a populao geral e que sejam apropriadas as situaes nas quais usada. As
119
tentativas de validar o modelo so direcionadas no sentido de demonstrar a generalidade dos
resultados para a populao total, sendo que essas anlises de diagnsticos acrescentam pouca
interpretao dos resultados, mas podem ser vistas como uma garantia de que os resultados
so os melhores descritivos dos dados e generalizveis a populao.
2.3.3.2 Avaliao da Metodologia
Nesse passo, a Metodologia construda dever ser criteriosamente avaliada visando a
sua aplicao no problema sugerido. Objetiva determinar se algum conhecimento adicional foi
descoberto ou se as hipteses existentes foram confirmadas. Devem ser definidas as regras
selecionadas no estudo que agregam valores teis predio. A medida dos resultados se
refere especificamente ao valor para o negcio e se esse resultado pode ser usado no futuro.
Identificar as informaes teis, sua incorporao aos processos de negcio e mais
importante, quem usar essas informaes o grande segredo da minerao de dados [BERRY
(2000)].
Para conferir a performance da Metodologia, aplica-se uma estimativa coleo final
de registros pr-classificados. A taxa de erro do conjunto de treinamento um bom preditor da
taxa de erro dos demais dados. Aps esse passo, fecha-se o ciclo de minerao de dados.
Novas hipteses podem ser formuladas, reiniciando o processo.
120
Captulo 3
Metodologia Utilizada
3.1 Introduo
Para efeito dessa pesquisa utilizou-se da metodologia descrita por HAIR et al (2005)
com as tcnicas de regresso mltipla. A anlise de regresso mltipla uma tcnica
estatstica, que pode ser usada para se analisar a relao entre uma nica varivel dependente
(critrio) com vrias variveis independentes (preditoras).
Regresso mltipla um processo poderoso e flexvel para a anlise de relaes
associadas entre uma varivel mtrica dependente e uma ou mais variveis independentes,
podendo ser utilizada conforme descrito a seguir [MALHOTRA, (2004)]:
Determinar se as variveis independentes explicam uma variao significativa na
varivel dependente: se existe uma relao;
Determinar quanto da variao na varivel dependente pode ser explicado pelas
variveis independentes: intensidade da relao;
Determinar a estrutura ou a forma da relao: a equao matemtica que relaciona as
variveis independentes e dependentes;
Predizer os valores da varivel dependente;
Controlar outras variveis independentes quando da avaliao das contribuies de
uma varivel ou conjunto de variveis especificas.
Um dos objetivos da anlise de regresso mltipla usar as variveis independentes
cujos valores so conhecidos para prever ou explicar os valores da varivel dependente. Cada
varivel independente selecionada pelo especialista ponderada pelo procedimento da anlise
de regresso para garantir a mxima relao de previso a partir do conjunto de variveis
independentes. Os pesos denotam a contribuio relativa das variveis independentes para a
previso geral e facilitam na interpretao sobre a influncia de cada varivel em fazer a
121
previso, apesar da correlao entre as variveis independentes complicarem o processo
interpretativo. A varivel estatstica de regresso formada pela ponderao das variveis
independentes.
O processo de construo do modelo em seis estgios, como foi visto no Captulo 2,
utilizado como referncia para discutir os fatores que impactam na criao, estimao,
interpretao e validao da anlise de regresso a ser analisada em seguida.
A Figura 3.1 mostra os estgios que a pesquisa seguiu.
122
Figura 3.1 Estgios no diagrama de deciso de regresso mltipla.
Fonte: Adaptado pelo autor do HAIR, (2005).
Problema de pesquisa
Selecionar objetivos
Previso
Explicao
Selecionar Variveis dependentes e independentes
Questes do planejamento de pesquisa
Obter um tamanho de amostra adequado para garantir :
Poder estatstico
Generalizao
Suposies em analise mltipla
As variveis atendem as suposies de :
Linearidade
Normalidade
Homoscedasticidade
Independncia dos termos
Seleo de uma tcnica de estimao
Mtodo combinatria
Mtodo de busca seqencial
Examinar significncia estatstica e pratica
Coeficiente de determinao
Coeficiente ajustado de determinao
Erro padro da estimativa
Significncia estatstica de coeficiente de regresso
Identificar observaes influentes:
H alguma observao determinada como influente e que exige
eliminao da analise
Interpretao da varivel estatstica de regresso
Avaliar a equao com os coeficientes de regresso
Avaliar a importncia relativa das variveis independentes com o
coeficiente beta
Avaliao da multicolinearidade e seus efeitos
Sim
No
Validao dos resultados
Estgio 6: Validao
dos Resultados
Estgio 5: Interpretao
da Varivel Estatstica
Estgio 4:
Estimao do
Modelo e
Avaliao do
Ajuste Geral
Estgio 3: Anlise de
Suposies
Estgio 2: Planejamento
da Pesquisa
Estgio 1: Objetivo
123
3.2 Objetivo (Estgio 1)
Nesse estgio trabalha-se com adequao do problema da pesquisa, especificaes de
uma relao estatstica e a seleo das variveis dependentes e independentes. Todo o
planejamento inicial da pesquisa deve ser fundamentado na seleo das variveis a serem
utilizadas, sendo necessrio nessa tcnica que o especialista identifique qual varivel
dependente e quais as independentes. Para isto torna-se importante o conhecimento das
variveis, pois a seleo deve ser baseada em questes conceituais ou tericas.
A regresso mltipla fornece um meio de avaliar objetivamente o grau e carter da
relao entre as variveis dependentes e independentes, pela formao da varivel estatstica a
partir da varivel independente. Na seleo da varivel dependente se deve estar conhecedor
de todas as variveis, para isto descreve-se a seguir sucintamente todas as variveis coletadas.
A) Objetivo da Pesquisa
O objetivo principal entender o comportamento dos clientes de telecomunicaes que
so usurios de Internet de banda larga, por meio da anlise da taxa de abandono associado
com as medidas de qualidade de servios prestados. Tenta-se associar como a qualidade de
servio prestado ao cliente pode ser percebida por ele e como isto pode afetar diretamente a
taxa de abandono. Para isto utilizou-se da anlise mltipla de dados com a tcnica de regresso
linear com a utilizao da ferramenta estatstica SPSS, visando com isto encontrar uma
equao linear que correlacione os indicadores de qualidade com a rotatividade da planta, a
qual conhecida mundialmente como Taxa de Abandono. Esse objetivo principal
desdobrado nos seguintes objetivos especficos:
1) Descrever e explicar uma forma de relao entre os servios de banda larga
disponibilizados pelas empresas de telecomunicaes e a taxa de abandono da planta;
2) Analisar um conjunto de variveis que possua a maior relevncia para o problema em
estudo.
124
As duas hipteses propostas para essa pesquisa, considerando-se que a taxa de abandono a
varivel dependente, e os indicadores de qualidade de servio so as variveis independentes esto
descritas abaixo:
H0: No existe relao entre a taxa de abandono e os indicadores de qualidade de servio;
Hl: Existe uma relao entre a taxa de abandono e os indicadores de qualidade de servio;
B) Problema da Pesquisa
A regresso linear mltipla tem suas aplicaes em duas grandes classes de problema
de pesquisa: previso e explicao, as quais no so mutuamente excludentes, e uma aplicao
da anlise de regresso linear mltipla pode abordar qualquer um desses problemas de
pesquisa ou ambos.
Nessa pesquisa tem-se como aplicao apenas uma destas classes, explicao, que
feita por meio de uma relao entre o problema, existncia de abandono no servio de Internet
de banda larga, medida pela sua taxa de abandono com os indicadores de qualidade de servio
de banda larga.
C) Seleo das variveis dependentes e independentes
Como o objetivo da pesquisa proposta uma relao de dependncia, h necessidade
de se especificar e selecionar as variveis dependente e independente. Para tanto, descrito os
indicadores de Internet banda larga utilizados nas empresas de telecomunicaes, em seguida
feito anlise dos atributos de valor utilizando-se a tcnica de Mudge (mtodo de priorizao
das variveis) para, respaldado em informaes substanciadas, se caracterizar os parmetros
no sentido de que fazer uma seleo adequada das referidas variveis.
C.1 Descrio dos Indicadores de Internet Banda Larga
Com o aparecimento dos servios Internet de banda larga e a obrigatoriedade por parte
da ANATEL em controlar os indicadores de qualidade de desempenho para os Servios
125
Telefnicos Fixos Comutados (STFC), a rea responsvel pela qualidade nas empresas de
telecomunicaes no segmento banda larga foram motivadas a criar indicadores de qualidade
similares aos indicadores da telefonia fixa para esse novo servio. Esses indicadores so
coletados aps os clientes realizarem ligaes telefnicas efetuadas a um call center por meio
de um nmero 0800.
A definio do que medir deve estar associado aos fatores crticos que influenciam o
comportamento e a sobrevivncia de uma organizao. Tais fatores crticos esto ligados
diretamente ao setor ao qual pertence, influenciando estrategicamente em seu resultado na
sobrevivncia e, portanto no posicionamento competitivo da organizao.
Para definir o que medir as empresas de telecomunicaes criaram a rea de gesto e
controle de qualidade. Essa rea tinha a funo de analisar as exigncias do rgo regulador,
ANATEL - Agencia Nacional de Telecomunicaes, sobre os indicadores de qualidade que
so obrigatrios, bem como procurar posicionar adequadamente de forma estratgica os
mesmos em sintonia com as exigncias, tendncias e necessidades do mercado. Sendo assim
dividiu-se os indicadores em indicadores de negcio usados para medir a satisfao do cliente,
e em indicadores de qualidade usados para medir o desempenho das operaes de Front -
Office.
A figura 3.2 ilustra onde os indicadores que esto inseridos no contexto da empresa, os
indicadores de taxa de abandono, ganho e retiradas so utilizados para medir a satisfao do
cliente, enquanto os outros indicadores esto ligados ao desempenho das operaes de Front -
Office da empresa associados qualidade do servio.
126
Figura 3.2 Caracterizao dos servios e entendimento do valor oferecido ao cliente dentro do quadro
geral de competitividade em servio.
Fonte: Adaptado de CORRA, (2002).
O referencial a ser estabelecido, na forma de indicadores de desempenho deve ser, em
primeira instncia, externa organizao, sendo de fcil compreenso no intuito de dar
suporte ao processo decisrio.
Na Tabela 3.1mostra-se os indicadores de qualidade que so coletados, bem como uma
breve descrio dos mesmos.
A
M
B
I
E
N
T
E
E
S
T
R
A
T
E
G
I
A
D
A
E
M
P
R
E
S
A
COMPETNCIAS
RESULTADOS
U
S
O
D
O
S
R
E
C
U
R
S
O
S
RETENAO
FIDELIZAAO
SATISFAAO / ENCANTAMENTO
VALOR OFERTADO
FRONT OFFICE
RETAGUARDA
127
Tabela 3.1 Indicadores de Qualidade.
Indicador Formula dos Indicadores Valores Origem
IGT
Reparos Aberto nos ltimos 30 dias X 100
Total de Instalao Realizada nos ltimos 30 dias
Percentual Ligaes
Telefnicas
0800
TEMPO MEDIO
REPARO
Tempos de Reparo no ms
Base de Terminais Reclamados no ms
Percentual Ligaes
Telefnicas
0800
IPGC
Instalaes Executados em at 3 dias corridas x 100
Total de Instalao no Perodo
Percentual Ligaes
Telefnicas
0800
RPAV
Reparos Executados no Prazo (4 h ) X 100
Total de Reparos no Ms
Percentual Ligaes
Telefnicas
0800
RPDC
Reparos Executados no Prazo (8 h ) X 100
Total de Reparos no Ms
Percentual Ligaes
Telefnicas
0800
RPT
Reparos Executados no Prazo (4 ou 8 h ) X 100
Total de Reparos no Ms
Percentual Ligaes
Telefnicas
0800
RRAV
Reparos Reincidentes < 90 dias (Alto V.) X 100
Total de Reparos no Ms
Percentual Ligaes
Telefnicas
0800
RRDC Reparos Reincidentes < 90 dias (D. C.) X 100.
Total de Reparos no Ms
Percentual Ligaes
Telefnicas
0800
RRT
Reparos Reincidentes < 90 dias X 100
Total de Reparos no Ms
Percentual Ligaes
Telefnicas
0800
TAXA DE
REPARO
Quantidade de Reparos em 30 dias X 100
Base em Servio Ms
Percentual Ligaes
Telefnicas
0800
TEMPO DE
INSTALAAO
Tempos de Instalao no ms
Base de Terminais instalados no ms
Percentual Ligaes
Telefnicas
0800
Fonte: Elaborado pelo autor.
128
Na Tabela 3.2mostra-se os indicadores de negcio que so coletados bem como uma
breve descrio dos mesmos.
Tabela 3.2 Indicadores de Negcio.
Indicador Formula dos Indicadores Valores Origem
GANHO
( das Instalaes das Retiradas)100
Base em Servio no Ms Anterior Percentual
Informaes
Coletados do
Sistema de
Controle
Empresarial
TAXA
PREVENTIVA
dos Reparos Preventivos
dos Reparos Corretivos do Ms Anterior Percentual
Informaes
Coletados do
Sistema de
Controle
Empresarial
TAXA DE
ABANDONO
Quantidade de Retiradas X 100
Base em Servio do Ms Anterior
Percentual
Informaes
Coletados do
Sistema de
Controle
Empresarial
Fonte: Elaborado pelo autor.
A seguir, se descreve, de forma sucinta, todas as variveis citadas nas Tabelas 3.1 e
3.2:
Ano: Refere-se ao ano em que foram coletados os dados para anlise, tendo sido trabalhado
no processo de coleta no ano de 2006.
Base: A quantidade de clientes banda larga em servio, ou seja, a quantidade de clientes na
planta que esto gerando fatura. Existe uma diferena ente clientes em servio e clientes
instalados, o primeiro so todos os clientes que esto gerando conta o segundo refere-se base
de clientes que se pode instalar. Para efeito desse trabalho, refletir a verdadeira quantidade de
clientes que podem gerar uma reclamao, sendo trabalhado com a base de clientes em
servios.
Taxa de Abandono: a troca constante de clientes, por eles no estarem satisfeitos com o
produto/servio, forando a empresa a sempre conseguir novos clientes para sobreviver,
quando deveria ser para aumentar a clientela, ou seja, a taxa de cancelamentos em %
calculada como o nmero de cancelamentos do perodo considerado entre o tempo mdio
desse perodo.
129
Estado: Unidade da federao ao qual o indicador refere-se, no nosso trabalho todos os
indicadores tem ndices coletados por filial (unidade da federao) de atuao dessa empresa
de telecomunicaes com atuao em 16 Estados do Brasil (Amazonas, Roraima, Par,
Amap, Maranho, Piau, Cear, Rio Grande do Norte, Paraba, Pernambuco, Alagoas,
Sergipe, Bahia, Minas gerais, Esprito Santo e Rio de Janeiro).
Ganho: Esse indicador mede o ganho na planta em relao a sua base em servio, podendo ser
bastante til na anlise do crescimento.
Instalao em Garantia Total (IGT): Esse indicador mede a quantidade das instalaes, ou
seja, ele indica se as instalaes esto sendo feitas abaixo da qualidade desejada, devido
baixa quantidade de reclamaes no foi vivel segmentar esse indicador, pois era um nmero
muito pequeno de usurios. Nesse indicador quanto menor melhor.
Instalaes: Quantidade de circuitos instalados na planta, valor acumulado de todas as
instalaes do ms, coletado no ultimo dia de cada ms.
Tempo Mdio de Reparo (TMR): Tempo mdio que se leva para realizar um reparo. Esse
tempo tem a finalidade de auditoria na produtividade do tcnico. Nesse indicador quanto
menor maior a produtividade.
Instalao no Prazo Grandes Clientes (IPGC): Esse indicador mede todas as instalaes
feitas no prazo de 3 dias referentes ao segmento alto valor.. Nesse indicador quanto maior
melhor.
Ms: Ms do ano no qual foram coletados os indicadores. Todos os indicadores tm
periodicidade diria menos o taxa de abandono, que tem periodicidade mensal, no caso dos
indicadores com periodicidade diria, deve ser escolhido o ltimo dia de cada ms para efetuar
a coleta, considerando o indicador o acumulado mensal.
Taxa de Preventivas (QRPR): Quantidade de reparos preventivos realizadas em circuitos de
banda larga. Seleciona-se uma quantidade igual ou maior que 8% da quantidade de reparos
efetuadas no ms anterior. Quanto maior melhor
Reparos: Quantidade total de clientes que reclamaram algum problema do seu servio de
banda larga. Entra nesse quantitativo todas as reclamaes, procedentes ou improcedentes, por
se tratar da viso cliente do servio. Nesse indicador quanto menor melhor
Retiradas: Quantidade total de retiradas efetuadas pela prestadora de servio no ms em
questo. Quanto menor melhor
130
Reparo no Prazo Alto Valor (RPAV): Esse indicador mede todos os reparos feitos no prazo
de 4 horas referentes ao segmento alto valor. Nesse indicador quanto maior e melhor.
Reparo no Prazo Demais Clientes (RPDC): Esse indicador mede todos os reparos feitos no
prazo de 4 horas referentes ao segmento demais clientes. Nesse indicador quanto maior e
melhor.
Reparo no Prazo Total (RPT): Esse indicador mede todos os reparos feitos no prazo de 8
horas para demais clientes e 4 horas para clientes alto valor. A segmentao desse indicador
essa no diferencial de horas entre a marcao alto valor e demais clientes. Nesse indicador
quanto menor melhor. Nesse indicador quanto maior melhor.
Reparo Reincidente Alto Valor (RRAV): Esse indicador mede os reparos que se
reincidentes em 90 dias para a segmentao alto valor. Tendo a funo de verificao da
qualidade do reparo executado, mede-se a quantidade de reparos que necessita ir mais de uma
vez para resolver qualquer que seja o problema do cliente. Nesse indicador quanto menor
melhor. Nesse indicador quanto menor melhor.
Reparo Reincidente Demais Clientes (RRDC): Esse indicador mede os reparos que se
reincidentes em 90 dias para a segmentao demais clientes. Tendo a funo de verificao da
qualidade do reparo executados, mede-se a quantidade de reparos que seja necessrio irem
mais de uma vez para ser resolvido qualquer que seja o problema do cliente. Nesse indicador
quanto menor melhor.
Reparo Reincidente Total (RRT): Esse indicador mede os reparos que se reincidentes em 90
dias para a segmentao nas duas segmentaes (demais clientes e alto valor). Tendo a funo
de verificao da qualidade do reparo executados, mede-se a quantidade de reparos que seja
necessrio irem mais de uma vez para se resolver qualquer que seja o problema do cliente.
Nesse indicador quanto menor melhor.
Taxa de Reparo (TRP): Esse indicador mede a quantidade de reparos executados na viso
cliente sobre a base em servio referente a todos os segmentos. Nesse indicador quanto menor
melhor.
Tempo Mdio de Instalao (TMI): Tempo mdio que se leva para realizar uma instalao.
Esse tempo tem a finalidade de auditoria na produtividade do tcnico. Nesse indicador quanto
menor maior a produtividade.
131
C.2) Mtodo de priorizao das variveis (Tcnica matricial de Mudge)
Procura-se selecionar os indicadores que podem ser relevantes. Nessa fase feito uma
adaptao nos passos propostos por PARASURAMAN et al., (1998) e LAPIERRE (2000)
para os indicadores mostrados nas Tabelas 3.2 e 3.3.
Taxa de transmisso de Atendimento refere-se ao tempo dispensado para execuo
do servio ou reparo:
Tempo Mdio de Reparo (TMR)
Tempo Mdio de Instalao (TMI)
Confiabilidade traduz-se como a disponibilidade e no desempenho dos servios e
reparos, podendo ser medido pelo nmero mdio de reparos, ou pelo atendimento do
cliente no prazo no caso de instalao.
Taxa de Reparo (TRP)
Instalao no Prazo Grandes Clientes (IPGC)
Mantenabilidade - a capacidade de um item ser mantido ou recolocado em condies
de executar suas funes requeridas, sob condies de uso especificadas, quando a
manuteno executada sob condies determinadas e mediante os procedimentos e
meios prescritos em um determinado prazo.
Reparo no Prazo Alto Valor (RPAV)
Reparo no Prazo Demais Clientes (RPDC)
Reparo no Prazo Total (RPT)
Consistncia reflete a previsibilidade do resultado esperado, sendo percebida pela
ausncia de erro.
Instalao em Garantia Total (IGT)
Reparo Preventivo (QRPR)
Reparo Reincidente Alto Valor (RRAV)
Reparo Reincidente Demais Clientes (RRDC)
Reparo Reincidente Total (RRT).
O principal objetivo dessas definies foi criar condies para a operacionalizao do
valor por meio do conhecimento dessas operaes, resultando na representao sistemtica do
132
servio de manuteno, obtida pelo desenvolvimento dos conceitos relacionados ao sistema
genrico de operaes.
Devem ser priorizados os critrios de percepo do valor junto aos clientes, de forma a
focar as aes gerenciais nesses critrios. Essa priorizao realizada por meio dos "atributos
de valor" e da equao inicial do valor utilizando-se o mtodo das relaes funcionais
desenvolvido por Mudge que foi explicado no Capitulo 2.
Critrio de Avaliao: nessa fase estabelece-se uma escala apropriada de importncia,
sendo que nessa pesquisa adotou-se uma escala de graduao ponderada, comparao
mtua de grau de importncia.
Em funo da existncia da priorizao dos indicadores na empresa em estudo, no ano
de 2006 foi realizada por seus especialistas na rea de manuteno junto aos clientes uma
adequao dos parmetros da metodologia preconizada por Mudge. Esses resultados
encontram-se consolidados na Tabela 3.3 onde foram preenchidas todas as linhas da matriz
sempre registrando na clula quem mais importante e qual o peso da importncia, se muito
(peso 3), mdio (peso 2) ou pouco (peso 1). Na coluna total se faz a soma de todos os pontos
obtidos dos indicadores tanto na horizontal como na vertical.
A partir dessas informaes montou-se a equao do valor percebido, em que se
caracteriza por uma equao em os termos referentes confiabilidade participam com os
indicadores, reparo no prazo alto valor com grau de importncia de 15%, reparo no prazo
demais clientes com 14%, e reparo no prazo total 12%. Tendo outro fator de percepo de
valor consistncia no qual, reparo reincidente alto valor e reparo reincidncia total com 15%
de grau de importncia para ambos e reparo reincidente demais clientes com 11%.
133
Tabela 3.3 Tabela de priorizao dos fatores de avaliao do servio de manuteno segundo a
tcnica de Mudge.
TMR TMI TRP IPGC RPAV RPDC RPT IGT QRPR RRAV RRDC RRT
T
O
T
A
L
%
TMR TMR2 TMR2 IPGC2
RPAV3
RPDC3 RPT3 TMR3 TMR3 RRAV3 RRDC3 RRT3 10 7
TMI TMI1 IPGC2
RPAV3
RPDC3 RPT3 TMI2 TMI2 RRAV3 RRDC3 RRT3 5 2
TRP IPGC2
RPAV3
RPDC3 RPT3 TREP2 TREP2 RRAV1 RRDC3 RRT3 4 3
IPGC RPAV3 RPDC3 RPT3 IPGC2 IPGC2 RRAV3 RRDC3 RRT3 6 4
RPAV
RPDC3 RPT2 RPAV1 RPAV3 RRAV3 RPAV2 RRT3 23 15
RPDC RPDC3 RPDC2 RPDC1 RRAV3 RRDC2 RRT2 21 14
RPT RPT2 RPT2 RRAV2 RRDC1 RPT2 18 12
IGT IGT2 RRAV1 RRDC1 RRT1 2 1
QRPR RRAV1 QRPR1 RRT1 1 1
RRAV RRAV2 RRT1 22 15
RRDC RRT1 16 11
RRT 23 15
151 100
Fonte: Elaborado pelo autor.
.
% 15 , % 11 , % 15 , % 1 , % 1
, 14% , 15% , 4% , RP 3% , M1 2% , % 7
=
RRT RRDC RRAV QRPR IGT
RPT RPAV IPGC T T TMR
percebido Valor
(3.1)
Na Tabela 3.4 tem-se a representao dos fatores de avaliao do servio de
manuteno.
134
Tabela 3.4 Fatores de avaliao do servio de banda larga X escala de graduao da importncia
relativa para o cliente.
FATORES DE PERCEPAO
DE VALOR
INDICADORES ASSOCIADOS
GRAU DE
IMPORTANCIA
(%)
1 Tempo Mdio de Reparo (TMR) 7
2
Taxa de transmisso de
Atendimento (VA)
Tempo Mdio de Instalao (TMI) 3
3 Taxa de Reparo (TRP) 3
4
Instalao no Prazo Grandes Clientes
(IPGC)
4
5 Reparo no Prazo Alto Valor (RPAV) 15
6
Reparo no Prazo Demais Clientes
(RPDC)
14
7
Confiabilidade (CF)
Reparo no Prazo Total (RPT) 12
8 Instalao em Garantia Total (IGT) 1
9 Reparo Preventivo (QRPR) 1
10
Reparo Reincidente Alto Valor
(RRAV)
15
11
Reparo Reincidente Demais Clientes
(RRDC)
11
12
Consistncia (CS)
Reparo Reincidente Total (RRT). 15
Fonte: Elaborado pelo autor.
As aes gerenciais previstas e baseadas nos critrios de percepo do valor junto aos
clientes devem ainda ser analisadas do ponto de vista da existncia de possveis conflitos,
segundo a equao final do valor com as quais o mtodo da anlise de conflitos, sugerido por
GIANESI e CORRA, (1994). Como a definio e caracterizao de uma srie histrica no
espao temporal requerido dos custos no so valores fceis de se identificar, os conflitos
entre os indicadores no puderam ser analisados e, consequentemente, percebidos.
135
Para o estabelecimento das aes gerenciais no so suficientes o conhecimento dos
"atributos de valor" priorizados e sua anlise de conflito. As aes gerenciais normalmente so
aplicadas em processos gerenciais, portanto, preciso correlacionar os "atributos de valor"
priorizados com os processos de manuteno.
Essa correlao realizada nesse passo, por meio do mtodo sugerido por GIANESI e
CORRA, (1994) descrito no Capitulo 2, que classifica os processos prioritrios como reas
de deciso do negcio, ou seja, (Gesto de Material, Gesto de RH, Conceituao de
Manuteno, Organizao Operacional, Gesto do Cliente, Sistema de Informao e
Planejamento e Controle), os quais so descritos especificamente para o servio de
manuteno.
Na Tabela 3.5 mostra-se a correlao entre os fatores de percepo de valor que foram
priorizados e os processos crticos de um sistema de operaes.
Tabela 3.5 Atributos de Valor versus processos crticos nas operaes de manuteno.
TMR TMI TREP IPGC RPAV RPDC RPT IGT QRPR RRAV RRDC RRT
Gesto de
materiais
Gesto de
RH
Conceito de
Manuteno
Organizao
Operacional
Sistema de
Informao
Gesto do
Cliente
Planejamento
Controle
Fonte: Elaborado pelo autor.
Relao Fraca Relao Mdia Relao Forte
A avaliao de desempenho tambm necessria ao estabelecimento das aes
gerenciais para operacionalizao do valor proposto, na medida em que quantifica e define um
valor numrico para o desempenho dessas operaes. O objetivo dessa etapa medir
instantaneamente o desempenho do servio de manuteno, de forma a identificar quais os
"atributos de valor" devem ser focados, baseado na comparao com a priorizao realizada
136
anteriormente. Alm disto, essa avaliao de desempenho resulta em uma noo quantitativa
do valor proposto.
C.3 )Identificao das variveis independentes e da varivel dependente
Aps analise dos dados conforme os critrios anteriormente descritos, conclui-se que
se deve trabalhar, nessa pesquisa, com 12 variveis independentes, as quais foram
consideradas as mais representativas segundo os atributos de valor (definidos anteriormente),
quais sejam: Tempo Mdio de Reparo (TMR), Tempo Mdio de Instalao (TMI), Taxa de
Reparo (TRP), Instalao no Prazo Grandes Clientes (IPGC), Reparo no Prazo Alto Valor
(RPAV), Reparo no Prazo Demais Clientes (RPDC), Reparo no Prazo Total (RPT), Instalao
em Garantia (IGT), Reparo Preventivo (QRPR), Reparo Reincidente Alto Valor (RRAV),
Reparo Reincidente Demais Clientes (RRDC), Reparo Reincidente Total (RRT).
Devido natureza do problema, selecionada a taxa de abandono como a varivel
dependente, tendo em vista que o objetivo dessa pesquisa verificar a correlao das outras
variveis com a taxa de abandono. Para melhor entendimento dessa varivel feito, a seguir,
uma breve descrio das suas caractersticas, sendo importante salientar que os dados
referentes taxa de abandono da planta so confidenciais.
C.4) Caracterizao da Taxa de Abandono
Conhecendo a estrutura do mercado de banda larga no Brasil, fcil perceber que ele
apresentou um crescimento muito rpido e ainda est em fase de crescimento, diferentemente
de mercados mais antigos como o de telefonia fixa. A concorrncia entre empresas de banda
larga, empresas de cabo e empresas que provem o servio rdio, fazendo desse mercado
competitivo e dinmico. De qualquer forma, medida que o mercado se expande e o nmero
de clientes realmente desprovidos da tecnologia banda larga diminui, em algum tempo s
restar um nico tipo de consumidor para as empresas atrarem: aquele que j utiliza o servio
de outro concorrente. Nesse ponto, surge a preocupante questo da taxa de abandono que j
custa milhes de reais por ano s principais empresas do Pas. Por esse indicador quanto
menor seu valor, melhor.
137
A) O Significado do Taxa de Abandono
Segundo MATT, (2001) a taxa de abandono consiste no ato de um cliente abandonar
uma empresa em favor de um concorrente, terminando toda a sua relao com a empresa
antiga e iniciando uma nova relao com uma outra. A origem do termo, muito
provavelmente, se encontra no sentido do verbo to churn na lngua inglesa, que significa
mexer, agitar violentamente. O fenmeno da taxa de abandono nas empresas de banda larga
causa exatamente o que o verbo quer dizer: uma grande agitao de clientes no mercado,
trocando de empresa a todo o momento, o que, por sua vez, leva as empresas a se mexerem
em busca de novas formas de manter seus clientes no seu negcio, ao mesmo tempo em que
buscam seduzir os clientes da concorrncia.
B) Possveis Causas
Existem dois tipos de taxa de abandono: o voluntrio e o involuntrio. O taxa de
abandono voluntrio ocorre quando o cliente por vontade prpria termina os servios com a
empresa [FERREIRA, (2005)]. Podendo ainda ser dividido em taxa de abandono deliberado,
quando o consumidor possui razes relacionadas diretamente ao seu uso da tecnologia para
troc-la por uma concorrente, ou taxa de abandono acidental, causado por razes que fogem
ao controle do cliente, como mudanas de localidade de moradia, problemas financeiros
pessoais e outras grandes mudanas de vida. O taxa de abandono involuntrio resultado de
uma ao da prpria empresa, que, por motivos de fraude, falta de pagamentos e at mesmo
utilizao do produto indevidamente, pode vir a romper sua relao com o cliente. Na Tabela
3.6 apresenta-se as principais causas para o taxa de abandono em uma empresa.
138
Tabela 3.6 Causas da taxa de abandono em uma empresa.
TECNOLOGIA
ECONOMIA
QUALIDADE
FRAUDE
SOCIO PSICOLOGICO
DELIBERADO
CONVENIENCIA
NO-PAGAMENTO
FINAAS
LOCALIDADE
V
O
L
U
N
T
R
I
O
ACIDENTAL
GRANDES
MUDANAS
I
N
V
O
L
U
N
T
R
I
O
UTILIIZAO FOR A DO ESCOPO
CONTRATUAL
Fonte: Adaptada de FERREIRA, (2005).
Como se pode perceber, a taxa de abandono voluntrio deliberado pode variar muito,
indo desde a insatisfao com o servio adquirido, podendo ter suas causas na qualidade de
servio prestado, passando por problemas com o valor pago pelo servio, e chegando at
mesmo a ter causas como a influncia de famlia e amigos insistindo para que o usurio troque
de empresa.
C) Relao entre reteno do cliente e lucratividade
Uma correta gesto da qualidade dos servios pode produzir um pacote de valor que
gere nveis de satisfao que garantam a permanecia do cliente na empresa criando assim um
lao de fidelidade. Um cliente satisfeito um agente de marketing da empresa, fazendo
propaganda boca a boca e divulgando sua satisfao em um circulo de influencia, auxiliando a
ampliar a conquista de novos clientes. Porm um cliente insatisfeito tem um potencial mais
devastador ainda, pois segundo HESKETT et al., (1994) um cliente insatisfeito tende a
reportar sua insatisfao para outros 11 clientes. importante salientar que essa pesquisa
ocorreu antes da Internet por esse motivo os nmeros hoje devem ser muito mais
devastadores.
139
Um dos modelos mais presentes na literatura o que relaciona o grau de satisfao do
cliente a uma comparao entre a expectativa que ele tem, antes de passar pela experincia do
servio, e a percepo obtida depois que passou pela experincia do servio [CORRA,
(2002)].
As expectativas do cliente so formadas com base em alguns fatores como a
necessidade e desejos do cliente a sua expectativa comunicao que foi feita boca a boca e
finalmente o preo do servio [ZEITHAML et al., (1990)].
D) Custo da taxa de abandono de cliente
Para analisar o custo da taxa de abandono deve-se dividir a questo em quatro etapas
conforme a anlise a seguir [KOTLER, (1996)]:
Inicialmente deve-se definir e mensurar a taxa de abandono;
Em seguida, devem ser distinguidas as vrias causas que levam um cliente a abandonar
a empresa;
Estima-se o volume de lucro perdido com a taxa de abandono;
Para por ltimo, calcula-se quanto custaria reduzir a taxa de abandono.
3.3 Planejamento da Pesquisa (ESTGIO 2)
Os passos iniciais foram dados na direo de se entender o problema da pesquisa,
selecionar os objetivos e explicar a taxa de abandono por meio da regresso mltipla. A
definio de variveis dependentes e independentes, no planejamento de uma pesquisa, faz
com que o especialista considere questes como o tamanho da amostra e a natureza das
variveis, que deve ser feito com base no entendimento do negcio, do problema e das
informaes existentes que possam contribuir para uma melhor caracterizao.
A obteno dos dados feita por meio da coleta em um sistema de tratamento ao
cliente de uma empresa de telecomunicaes sempre tendo em vista a confiabilidade dos
dados. importante ressaltar que nessa primeira etapa, entende-se que para um melhor
desempenho seria fundamental que as empresa armazenassem os dados em uma data
140
warehouse. Nesse caso no seria necessria a coleta mensal e armazenamento feito em
planilhas para s depois se realiza a limpeza e o tratamento.
A determinao do tamanho da amostra complexa e envolve vrias consideraes de
ordem quantitativas e qualitativas [MALHOTRA, (2004)]. Os fatores qualitativos mais
importantes na determinao desse tamanho so: importncia da deciso, natureza da
pesquisa, o nmero de variveis, natureza da anlise, os tamanhos amostrais em anlises
similares, as taxas de incidncia, taxas de preenchimento e a restrio de recursos.
De um modo geral, para decises mais importantes necessrio obter um nmero
maior de informaes e essas informaes devem ser obtidas de maneira mais precisa, sendo
que uma quantidade maior de amostra requer um custo maior da obteno dessas observaes.
A) Tamanho da Amostra
No planejamento de uma pesquisa devem ser consideradas questes como o tamanho
da amostra e a natureza das variveis independentes. O tamanho da amostra tem impacto
direto sobre a adequao e o poder estatstico na anlise mltipla de variveis. Amostras
pequenas, no so indicadas para anlise mltiplas. Do mesmo modo, amostras muito grande,
mais de 1000 observaes, tornam os testes de significncia estatstica sensveis, muitas vezes
indicando que qualquer relao seja estatisticamente significante. Com amostras muito
grandes, deve-se garantir que o critrio de significncia prtica seja atendido junto com a
significncia estatstica. O poder influenciado diretamente e em magnitude pelo tamanho da
amostra.
Nessa pesquisa procurou-se medir e verificar o impacto direto e a magnitude
considervel sobre o poder, que o tamanho da amostra poder afetar a pesquisa, ou seja, a
probabilidade de se detectar como estatisticamente significante um nvel especifico de R. Para
isso Foi coletado um total de 168 observaes ocorridas em uma grande empresa do setor de
telecomunicaes, que atua em 14 estados nas regies nordeste e sudeste do Pas.
No intuito de responder a questo sobre o tamanho da amostra utilizada a Tabela
estatstica do anexo II, na qual o nvel de significncia = 0,05 e 12 variveis independentes
com 168 observaes possvel detectar um o valor de R maior ou igual a igual a 15 % a um
poder de 0,80.
141
Alm do poder estatstico, o tamanho da amostra afeta a generalizao dos resultados
pela proporo entre observaes e variveis independentes. Existe uma regra geral para que a
razo observaes/variveis independentes no deve ser menor que 5 para 1, sendo o nvel
desejado de 15 a 20 observaes por varivel independente. Quando esse nvel alcanado, os
resultados devem ser generalizveis se a amostra representativa. Para o caso dessa pesquisa,
se tem: Razo (Observaes/ Variveis Independentes) = 168/12 = 14 observaes por
varivel independente.
B) Generalizao no tamanho da amostra
Alm do papel na determinao do poder estatstico, o tamanho da amostra afeta a
generalizao dos resultados pela proporo entre as observaes e variveis independentes.
Segundo HAIR et al., (2005) uma regra geral que a razo jamais deve ficar abaixo de
5 para 1, o que significa que deve haver cinco observaes para cada varivel independente na
varivel estatstica. Se as quantidades de observaes forem inferiores a cinco existir o risco
de super ajustar a varivel estatstica com a amostra, perdendo a generalizao. Apesar da
relao mnima aconselhada de 5 para 1, o nvel desejado para a relao de 15 a 20
observaes para varivel independente.
3.4 Suposies em Anlise de Regresso Linear Mltipla (ESTGIO 3)
Todas as tcnicas multivariadas tm suposies inerentes, estatsticas e conceituais,
que influenciam muito suas habilidades para representar relaes multivariadas. Para as
tcnicas baseadas em inferncia estatstica, as suposies de normalidades multivariadas,
linearidade, independncia de termos de erro e igualdade de varincias em uma relao de
dependncia devem ser satisfeitas.
As suposies inerentes anlise de regresso mltipla se aplicam as variveis
individuais e a relao como um todo. No capitulo 2 examinou-se os mtodos disponveis para
avaliar as suposies para as variveis individuais. No entanto, na regresso mltipla, uma vez
que a varivel estatstica tenha sido determinada, ela atua coletivamente na previso da
varivel dependente. Com isto necessrio avaliar as suposies no apenas para as variveis
142
individuais, mas tambm para a varivel estatstica em si. Para isto deve-se examinar a
varivel estatstica e a sua relao com a varivel dependente para atender as suposies da
regresso mltipla. A questo bsica se, no processo de clculo dos coeficientes de regresso
e de explicao da varivel dependente, as suposies da anlise de regresso sero atendidas.
As suposies a serem atendidas so:
Linearidade do fenmeno medido;
Varincia constante dos termos de erro;
Independncia dos termos de erro;
Normalidade da distribuio dos termos de erro.
Linearidade do fenmeno medido Usada para expressar o conceito de que o modelo
possui as propriedades de aditividade e homogeneidade. A linearidade da relao entre
variveis dependentes e independentes representa o grau em que a variao na varivel
dependente associada a varivel independente. Em temos gerais, os modelos lineares
prevem valores que recaem em uma linha reta que tem uma mudana com unidades
constantes (coeficiente angular) da varivel dependente em relao a uma mudana com
unidade constante da varivel independente. A linearidade pode ser examinada por meio de
grficos de resduos.
O conceito de correlao baseado em uma relao linear, o que a torna uma questo
crucial na anlise de regresso. A linearidade pode ser examinada por meio do grfico de
resduo. Qualquer padro curvilneo consistente nos resduos indicar a existncia de uma
relao no-linear. Em regresso mltipla com mais de uma varivel independente um exame
dos resduos mostra os efeitos combinados de todas as variveis independentes, mas no se
podem ser examinados todas as variveis independentes separadamente. Para isto se utiliza os
grficos de regresso parcial, os quais mostram a relao de uma nica varivel independente
com a dependente.
Linearidade o fenmeno que relaciona as variveis dependentes e independentes
representando o grau em que a varivel dependente associada a varivel independente
[HAIR, (2005)]. Na regresso mltipla uma vez que a varivel estatstica tenha sido
143
determinada, ela atua coletivamente na previso da varivel dependente, sendo necessrias
avaliaes das suposies no apenas para as variveis individuais, mas tambm para a
varivel estatstica em si.
Um resduo a diferena entre o valor observado de Y e o valor de Y prognosticado
pela equao de regresso. A representao grfica dos resduos versos as variveis
independentes um mtodo bsico para identificar violaes de suposies para a relao
geral [MALHOTRA, (2004)].
Em anlise mltipla um exame dos resduos mostra os efeitos combinados de todas as
variveis independentes, mas no se podem ser examinadas quaisquer varivel independente
separadamente em um grfico de resduos. Para isto utiliza-se o grfico de regresso parcial,
os quais mostram a relao de uma nica varivel independente com a dependente. Eles
diferem dos grficos de resduos, pois a reta que passa pelo centro dos pontos que era
horizontal nos grficos de resduos, agora tem uma inclinao para cima ou para baixo,
dependendo do coeficiente de regresso para aquela varivel independente ser positivo ou
negativo.
O grfico de disperso, mais conhecido no sistema SPSS como scatterplot um grfico
de pontos que representa em um plano (x, y) n pares de valores numricos escalares, sendo
possvel com isto analisarem a distribuio escalar de duas variveis. Esse grfico permite
analisar outliers, observaes fora do padro, apresentando no eixo vertical a varivel
dependente e no eixo horizontal as variveis independentes.
144
A seguir nos grficos 3.3 e 3.4 so analisadas as caractersticas da regresso parcial
para as 12 variveis independentes escolhidas.
Grfico 3.3 Analise dos grficos de regresso parcial (TMR, TRP, QRPR, TMI, IGT, RRAV).
Fonte: Adaptado do SPSS.
145
Grfico 3.4 Analise dos grficos de regresso parcial (RRT,PT,RRDC,RPAV,RPDC,IPGC).
Fonte: Adaptado do SPSS.
146
Aps anlise visual verifica-se que os grficos dos indicadores possuem retas que
passam pelo centro dos pontos, tendo uma inclinao para cima ou para baixo dependendo do
coeficiente de regresso para a varivel independente.
Varincia Constante do Termo de Erro A presena de varincias desiguais
(heteroscedasticidade) tambm uma das violaes comuns de suposies, sendo o seu
diagnostico feito com grficos de resduos ou teste estatstico simples. A diferena entre a
mdia e um valor observado o desvio em relao a media. A varincia o desvio quadrtico
mdio em relao a media, esse valor nunca pode ser negativo [MALHOTRA, (2004)].
Quando os dados se apresentam agrupados em torno da media, a varincia pequena. Quando
os dados esto dispersos, a varincia grande.
Quando a varincia dos erros parece constante ao longo de um domnio de variveis
preditoras, diz-se que os dados so homoscedsticos. A suposio de varincia igual do erro da
populao critica para a aplicao correta da regresso linear. Quando os termos de erro tm
varincia crescente ou flutuante diz-se que os dados so heteroscedsticos. Conforme visto a
anlise de resduos uma boa forma de verificar.
A representao grfica de resduos (estudantizados) versus os valores dependentes
previstos e a sua comparao com o grfico nulo no mostra um padro consistente se a
varincia for constante. Verifica-se ao analisar o grfico 3.5 que a representao grfica dos
resduos (estudantizados) versus os valores dependentes previstos e a sua comparao com um
grfico nulo mostra no um padro consistente, ou seja, a varincia constante.
Grfico 3.5 Resduos (estudantizados) versus os valores dependentes.
Fonte: SPSS.
147
Independncia dos Termos de Erro Assume-se que cada valor previsto
independente. Com isto, o valor previsto no essa relacionado com qualquer outra previso, ou
seja, eles no so seqenciados por qualquer varivel. Pode-se identificar melhor tal
ocorrncia fazendo o grfico de resduos em relao a qualquer varivel seqencial possvel.
Se os resduos forem independentes, o padro devera parecer aleatrio e semelhante ao grfico
nulo dos resduos, sendo as violaes identificadas por um padro consistentes nos resduos.
O Grfico 3.6 mostra-se os resduos em relao a qualquer varivel seqencial
possvel, ou seja, em relao valor previsto, nos mostra que os resduos so independentes,
tendo um padro aleatrio semelhante ao grfico nulo de resduos, com isto fica caracterizado
independncia dos termos de erro.
Grfico 3.6 Resduos em relao a qualquer varivel seqencial possvel.
Fonte: SPSS.
Normalidade da Distribuio dos Termos de Erro A normalidade da distribuio dos
termos de erro, segundo HAIR, (2005) e MALHOTRA, (2004) a violao de suposio mais
freqentemente encontrada.
O diagnostico mais simples para o conjunto de variveis independentes na equao
um histograma de resduos, com uma verificao visual para a distribuio que se aproxima da
normal. Uma outra forma analisar o grfico de probabilidade da normal onde distribuio
normal forma uma reta diagonal e os resduos graficamente representados so comparados
com a normal.
O grfico 3.7 mostra a correlao entre a varivel estatstica e a varivel dependente.
Verifica-se nesse grfico sua forte correlao e que a inclinao da regresso mede a direo e
148
a magnitude da relao. Quando as duas variveis esto correlacionadas positivamente, a
inclinao positiva conforme verificado no grfico. Mostrado no Grfico 3.7. Normal dos
resduos verifica-se uma tendncia de distribuio uniforme, os pontos encontram-se bastantes
prximos de uma reta, sem desvios substanciais ou sistmicos de modo que no h razo para
duvidar da normalidade dos erros, sendo assim os resduos so representativos de uma
distribuio normal.
A seguir so mostrados os grficos de disperso e o histograma da varivel dependente
em relao resduo padro.
Grfico 3.7 Normal dos Resduos.
Fonte: SPSS.
O grfico 3.8 mostra a distribuio normal dos dados e a sua correlao entre os dados
coletados e a Taxa de Abandono, como se verifica visualmente existe uma distribuio que se
aproxima da normal.
Grfico 3.8. Histograma da taxa de abandono.
Fonte: SPSS.
V
a
r
i
v
e
l
E
s
t
a
t
s
t
i
c
a
A
c
u
m
u
l
a
d
a
Varivel Observada Acumulada
V
a
r
i
v
e
l
E
s
t
a
t
s
t
i
c
a
A
c
u
m
u
l
a
d
a
Varivel Observada Acumulada
F
r
e
q
n
c
i
a
Regresso Estudantizada Residual
F
r
e
q
n
c
i
a
Regresso Estudantizada Residual
149
Na Tabela 3.7 apresenta-se as descries estatsticas da varivel dependente e das
independentes aps a normatizao, pelo mtodo do desvio padro.
Tabela 3.7 Descries Estatsticas.
Quantidade Indicador Mnimo Mximo Mdia
Desvio
Padro Varincia
1 RRAV 6,80 99,6 21,3 16,6 277
2 IGT 0,52 97,9 18,0 24,7 612
3 RRT 6,52 34,8 17,9 5,16 26,6
4 RPT 71,8 100 96,6 3,75 14,1
5 IPGC 000 100 88,1 12,7 161,8
6 RRDC 5,74 38,3 18,2 5,25 27,5
7 RPAV 16,9 100 83,5 23,4 549
8 RPDC 57,5 100 97,9 3,65 13,34
9 TMR 000 5,55 4,66 0,70 6,00
10 Taxa de Abandono 000 0,05 0,01 0,01 0000
11 Taxa Reparo (TRP) 0,02 0,24 0,06 0,03 0,001
12 PREVENTIVAS (QRPR) 0,08 0,16 0,12 0,13 0,007
13 Tempo de Instalao (TMI) 000 100 88,8 12,5 156
Fonte: SPSS.
Analisando os valores da curtose para os indicadores na Tabela 3.8, verifica-se que a
mesma tem valores positivos, ou seja, os dados tm uma distribuio relativamente elevada
comparada com a distribuio normal. Enquanto as taxas de instalao em garantia e do taxa
de abandono tem uma distribuio positivamente assimtrica, ou seja, um arco simples acima
da diagonal, a taxa de instalao no prazo de grandes contas tem um arco simples abaixo da
diagonal tendo uma distribuio assimetricamente negativa, porm nenhum dos indicadores
tive valores fora do intervalo entre 1 e -1. Analisando a curtose verifica-se que todos os
valores so positivo, o que indica que os indicadores tm uma distribuio relativamente
elevada comparada com a normal.
Para padronizarmos os dados utilizou-se a tcnica de Normalizao por Desvio Padro
normalmente conhecida como Z-Score ou Z-Mean, considera na posio media dos valores de
um atributo, assim como os graus de disperso desses valores em relao posio mdia.
Passa-se a analisar os dados gerados por um sistema de analise estatstica. Essa normalizao
foi feita por meio da funo a seguir:
150
( )
( )
.
f
f if
if
S
X X
Z
=
(3.2)
Em que: Xif Valor a ser normatizado, Xf Mdia e Sf Desvio Padro.
Tabela 3.8 Descries Estatstica Normatizada.
Mdia Varincia Assimetria Curtose
Estatstica Estatstica Estatstica Erro Padro Estatstica Erro Padro
TAXA DE ABANDONO 0.00 1.00 0.48 0.19 1.46 0.37
RRAV 0.00 1.00 0.85 0.19 0.94 0.37
IGT 0.00 1.00 0.24 0.19 0.79 0.37
RRT 0.00 1.00 0.73 0.19 0.89 0.37
RPT 0.00 1.00 -1.63 0.19 2.58 0.37
RRDC 0.00 1.00 0.89 0.19 1.75 0.37
IPGC 0.00 1.00 -1.00 0.19 1.66 0.37
RPAV 0.00 1.00 -1.73 0.19 3.08 0.37
RPDC 0.00 1.00 -2.74 0.19 8.61 0.37
TMR 0.00 1.00 -0.96 0.19 0.33 0.37
TRP 0.00 1.00 1.64 0.19 4.18 0.37
QRPR 0.00 1.00 2.20 0.19 5.41 0.37
TMI 0.00 1.00 -0.96 0.19 0.33 0.37
Fonte: SPSS.
Aps ter sido especificado os objetivos, selecionado as variveis, avaliado se as
variveis atendem as suposies, deve ser trabalhado o modelo de regresso. Nesse estgio
deve-se, selecionar o mtodo para a especificao, avaliar a significncia estatstica do modelo
e determinar se algumas das observaes exercem uma influencia indevida nos resultados.
Esses tpicos sero detalhados conceitualmente em seguida.
3.5 Estimao do Modelo de Regresso e Avaliao do Ajuste Geral do Modelo
(ESTGIO 4)
Aps terem sido especificados os objetivos da anlise de regresso, selecionando as
variveis dependentes e independentes, abordado as questes de planejamento da pesquisa e
tendo sido avaliado se as variveis atendem s suposies da regresso, deve-se ajustar o
modelo de regresso e avaliar a preciso explicativa geral das variveis independentes. Nesse
estgio devem ser cumpridas trs tarefas bsicas: selecionar um mtodo para especificar um
151
modelo, avaliar a significncia estatstica do modelo e determinar se alguma das observaes
exerce uma influencia indevida nos resultados.
3.6.1 Seleo de um Mtodo para Especificar um Modelo
Na maioria dos casos, a pesquisa tem vrias possveis variveis independentes que
podem ser escolhidas para incluso na equao de regresso. Algumas vezes, o conjunto de
variveis independentes pode ser especificado, outras vezes no. Para selecionar um mtodo
para especificar o modelo a ser ajustado na pesquisa tem-se que considerar a abordagem a ser
escolhida. Algumas vezes, o conjunto de variveis pode ser especificado e o modelo
essencialmente usado com uma abordagem confirmatria. Em outros casos, podem ser
escolhidas algumas variveis em um conjunto. Existem vrios mtodos adequados para a
tarefa conforme abaixo:
Mtodo Especificaes Confirmatrias a abordagem mais simples e mais exigente,
pois deve ser especificado completamente o conjunto de variveis independentes a serem
utilizadas. Fica na responsabilidade do pesquisador assegurar de que o conjunto de variveis
atinja a previso mxima. Nessa abordagem se tem total controle sobre a seleo das variveis,
devendo ser assegurado que o conjunto de variveis atinja a previso mxima, embora
mantendo um modelo parcimonioso.
Mtodo Busca Seqencial Os mtodos de busca seqencial tm em comum a
abordagem de estimar a equao com um conjunto de variveis e ento acrescentar
seletivamente ou eliminar variveis at que alguma medida de critrio geral seja alcanada.
Essa abordagem fornece um mtodo objetivo para selecionar variveis que maximiza a
previso com o menor nmero de variveis empregadas. H trs tipos de abordagem de busca
seqencial: Stepwise e Forward (adio) e Backward (eliminao), as quais sero descritas
abaixo:
Estimao Stepwise Talvez seja a abordagem mais comum para a seleo
seqencial, pois ela permite examinar a contribuio de cada varivel
independente para o modelo de regresso sendo que cada varivel
considerada para a incluso antes do desenvolvimento da equao. A varivel
independente com a maior contribuio acrescentada em um primeiro
152
momento. Variveis independentes so ento selecionadas para incluso, com
base em sua contribuio incremental sobre as variveis na equao. Comea
com um modelo de regresso simples no qual a varivel mais fortemente
correlacionada com a dependente usada. Examina os coeficientes de
correlao parcial para encontrar uma varivel adicional que explique a maior
parte estatisticamente significante do erro da primeira equao. Recalcula a
equao de regresso usando as duas variveis independentes sendo ento
examinando o valor parcial de F. Esse procedimento continua examinando
todas as variveis independentes no modelo para determinar se alguma deveria
ser includa na equao;
Estimao Forward e Backward Processo de tentativa e erro para encontrar a
melhor estimativa de regresso, enquanto o Forward vai adicionado as variveis
uma a uma e verificando a equao, o mtodo Backward computa a equao
com todas as variveis e depois vai eliminando as que no contribuem
significativamente como o processo. A principal diferena da abordagem
Stepwise em relao aos procedimentos Forward e Backward a sua habilidade
em acrescentar ou eliminar variveis em cada estgio. Uma vez que uma
varivel acrescentada ou eliminada nos esquemas de Forward e Backward
no h como reverter ao em um estgio posterior.
Mtodo Abordagem Combinatria um processo de busca generalizado em todas as
possveis combinaes de variveis independentes. O procedimento mais conhecido a
regresso em todos os possveis subconjuntos, a qual exatamente como o nome sugere.
Todas as possveis combinaes das variveis independentes so examinadas e o conjunto de
variveis que melhor se adequar identificado.
3.6.2 Avaliao da Significncia Estatstica do Modelo
Para avaliao da significncia do modelo estatstico inicia-se testando a hiptese que a
quantia de variao explicada pelo modelo de regresso maior que a variao explicada pela
media, ou seja, que R maior que zero, sendo a estatstica F usada para esse fim. Se o
153
tamanho da amostra for pequeno, o erro amostral poder ser muito grande para se dizer, com
um grau de certeza necessrio, que o coeficiente no igual zero.
Significncia do modelo geral: Para testar a hiptese de que a quantia de variao
maior que a variao explicada pela mdia (ou seja, que R maior que zero), usa-se a
estatstica F, onde:
.
totais erros os iberdade d Graus de l
totais erros dos quadrados dos
o a regress iberdade d Graus de l
erros dos quadrados dos
F a Estatstic
=
Dois aspectos importantes sobre essa razo devem ser observados:
Cada soma de quadrados dividida por seus graus de liberdades apropriados
simplesmente a varincia dos erros de previso;
Se a razo da varincia explicada pela varincia de referncia for alta, a varincia
estatstica da regresso deve ser de valor significante na explicao da varivel
dependente.
Tambm se sabe da influncia do tamanho da amostra no valor de R. Para resolver
isto tm sido proposta vrias normas prticas em que deve ocorrer uma variao de 10 a 15
observaes por varivel independente. Como parte integrante dos softwares de regresso,
encontra-se o clculo do R ajustado, esse coeficiente deve ser analisado igualmente ao
coeficiente de determinao, porm o valor de R ajustado, leva em considerao o nmero
especifico de variveis independentes e o tamanho da amostra em que cada modelo baseado,
sendo particularmente til na comparao entre equaes de regresso.
Os testes de significncia de coeficiente de regresso fornecem uma avaliao
emprica de seu verdadeiro impacto. Apesar desse no ser um teste de validade, ele determina
se os impactos representados pelos coeficientes so generalizveis a outras amostras dessa
populao.
154
3.6.3 Identificao de Observaes Influentes
At agora, a pesquisa foi concentrada na identificao de padres gerais no conjunto
inteiro de observaes. Agora se desvia a ateno para observaes individuais, com o
objetivo de encontrar quais observaes esto fora dos padres gerais do conjunto de dados ou
que influenciam fortemente nos resultados da regresso. Deve ser lembrado que essas
observaes no so necessariamente ruins, no sentido que devam ser eliminadas. No entanto
deve-se primeiramente identific-las e avaliar seu impacto antes de seguir adiante. As
observaes influentes so de trs tipos bsicos: Atpicas, Pontos de alavancagem e Influentes.
As observaes atpicas so identificadas apenas em relao a um modelo especifico de
regresso. As observaes atpicas tem sido tradicionalmente a nica forma de observao
influente considerada em modelos de regresso.
Os pontos de alavancagem so observaes diferentes das demais, com base em seus
valores para variveis independentes. Seu impacto particularmente perceptvel nos
coeficientes estimados para uma ou mais variveis independentes. Finalmente, as observaes
influentes a categoria mais ampla, incluindo todas as observaes que tem um efeito
desproporcional sobre os resultados de regresso. As observaes influentes incluem tanto as
observaes atpicas e os pontos de alavancagem.
Os procedimentos para identificar todos os tipos de observaes influentes so muito
numerosos e ainda no muito bem definidos. Todos os softwares fornecem uma anlise de
resduos com os quais, aqueles com grandes valores podem ser facilmente identificados. As
observaes influentes, as atpicas e os pontos de alavancagem so baseados em quatro
condies:
Um erro em observaes ou entrada de dados;
Uma observao valida, mas excepcional, explicvel por uma situao extraordinria;
Uma observao excepcional sem explicao convincente;
Uma observao comum em suas caractersticas individuais, mas excepcional em sua
combinao de caracterstica.
Para anlise final, tenta-se identificar observaes atpicas que sejam influentes e
determinar se elas deveriam ser excludas ou no. Apesar de procedimentos mais detalhados
155
estarem disponveis para identificar observaes atpicas, usa-se nessa pesquisa os resduos
para identificar observaes atpicas.
3.6 Interpretao das Variveis Estatsticas (ESTGIO 5)
Nesse estagio deve-se interpretar a varivel estatstica de regresso pela avaliao dos
coeficientes de regresso estimados em termos de sua explicao da varivel dependente.
Avalia-se com isto no apenas o modelo de regresso estimado, mas tambm as variveis
independentes que foram eventualmente omitidas se uma busca seqencial ou abordagem
combinatria foi empregada. Assim aps avaliar os coeficientes estimados, deve-se tambm
avaliar o impacto potencial de variveis omitidas para garantir que a significncia gerencial
seja avaliada, juntamente com a significncia estatstica.
3.6.1 Avaliao da equao com os coeficientes de regresso
Os coeficientes de regresso estimados devem ser usados para calcular os valores
previstos para cada observao e para expressar a variao esperada na varivel dependente
para cada variao unitria nas variveis independente. A interpretao da varivel estatstica
de regresso acontece com a estimao do modelo concluda, a varivel estatstica de
regresso especificada e os testes diagnsticos que confirmam a adequao dos resultados
administrativos, nessa etapa pode-se examinar a equao a qual inclui X1, X2,..., Xn variveis
da equao. A Tabela dos coeficientes fornece a equao de explicao a partir da coluna
coeficientes, nessa coluna o termo constante e os coeficientes para X1, X2,..., Xn sendo a
equao escrita como:
. X X X
n 2 2 1 1 0
+ + + + =
n
Y (3.3)
3.6.2 Avaliao da importncia relativa das variveis independentes com o coeficiente beta
Com a equao definida pode-se verificar o nvel de importncia relativa das variveis
individuais na explicao geral do problema. Nessa situao todas as variveis devem ser
156
expressa em uma escala nica, e assim comparaes diretas podem ser feitas. Mas na maioria
dos casos, os coeficientes so empregados para que comparaes diretas possam ser feitas.
Na Tabela de coeficientes na coluna coeficientes padronizados de regresso. Assim sendo
possvel efetuar comparaes diretas entre as variveis para se certificar de sua importncia
relativa na varivel estatstica de regresso.
3.6.3 Avaliao dos efeitos da multicolinearidade
Em todas as anlises de variveis estatsticas de regresso, deve ser observado o
impacto da multicolinearidade, ou seja, variveis altamente colineares podem afetar
negativamente o resultado. Para resolver esse problema duas medidas esto disponveis para
testar o impacto da colinearidade: Clculo dos valores da tolerncia e do VIF.
O valor da tolerncia a quantidade da varincia da varivel explicada pelas outras
variveis, ou seja, uma alta tolerncia indica pouca colinearidade. O fator de inflao VIF o
contrario da tolerncia, logo so procurados valores VIF pequenos como indicativo de baixa
inter-correlao entre as variveis.
Nessa abordagem a multicolinearidade pode afetar substancialmente as variveis
includas por ltimo na equao, assim sendo apos avaliar os coeficientes estimados, se deve
tambm avaliar o impacto potencial de variveis omitidas a fim de garantir a significncia
gerencial da pesquisa.
Multicolinearidade a correlao entre as variveis independentes. Esse um
problema de dados, e no de especificao do modelo. A situao ideal era ter diversas
variveis independentes altamente correlacionadas com a varivel dependente, porm com
pouca correlao entre elas prprias. A tarefa fundamental : avaliar o grau de
multicolinearidade e determinar seu impacto sobre os resultados e as aes corretivas se for o
caso.
Os efeitos da multicolinearidade podem ser classificados em termos de explicao e
estimao. Os efeitos da explicao se referem principalmente a habilidade do procedimento
de regresso e do pesquisador em representar e compreender os efeitos de cada varivel
independente na varivel estatstica. Quando ocorre multicolinearidade, o processo de
separao de efeitos individuais se torna mais difcil. Primeiro, ela limita o tamanho do
157
coeficiente de determinao e fica cada vez mais difcil acrescentar uma nica previso
explanatria a partir de variveis adicionais. Segundo, ela torna a determinao da
contribuio de cada varivel independente mais complexa porque os efeitos das variveis
independentes esto confusos, ou seja, a quantia de varincia nica para as variveis
independentes reduzida a nveis que torna a estimao de seus efeitos individuais muito
problemticos.
Alm dos efeitos na explicao, se podem ter grandes efeitos na estimativa dos
coeficientes e em seus testes de significncia estatstica. Primeiro analisa-se o caso extremo de
multicolinearidade em que duas ou mais variveis so perfeitamente correlacionadas, chamado
de singularidade, esse efeito impede a estimao de quaisquer coeficientes. Nesse caso a
singularidade deve ser removida antes que a estimao dos coeficientes possa prosseguir.
Identificao da Multicolinearidade A maneira mais simples e obvia de se identificar
a colinearidade um exame da matriz de correlao para as variveis independentes. A
presena de altas correlaes a primeira indicao de colinearidade substancial. Duas das
maneiras mais comuns para avaliar a colinearidade so: o valor de tolerncia e seu inverso o
fator de inflao de varincia (VIF). Essas medidas dizem-nos o grau em que cada varivel
independente explicada pelas demais variveis independentes. Em termos simples, cada
varivel independente se torna uma dependente e passa por uma regresso em relao s
demais variveis independentes. Tolerncia a quantia de variabilidade da varivel
independente selecionada no explicada pelas outras variveis independentes. Logo valores
pequenos de tolerncia denotam colinearidade elevada. Segundo HAIR et al., (2005) um valor
de referncia comum uma tolerncia de 0,10, o que corresponde a um valor de VIF acima de
10.
3.7 Validao dos Resultados (ESTGIO 6)
Aps identificar o melhor modelo, o passo final garantir que ele represente a
populao geral (generalizao) sendo com isso apropriado as situaes nas quais usado
(transferibilidade). A melhor orientao a extenso em que o modelo de regresso se ajusta a
um modelo terico existente ou um conjunto de resultados previamente validados sobre o
mesmo tpico. Em muitos casos, contudo, no h resultados anteriores ou teorias disponveis.
Assim, tambm sero feitas abordagens empricas para a validao de um modelo.
158
A) Amostras adicionais ou particionadas.
A mais apropriada abordagem emprica de validao testar o modelo de regresso em
uma nova amostra tirada da populao geral. Uma nova amostra garantir representatividade e
pode ser usada de diversas maneiras. Primeiro, o modelo original pode prever valores na nova
amostra e o ajuste preditivo pode ser calculado. Segundo, um modelo separado pode ser
estimado com uma nova amostra e ento comparado com a equao original em relao
caracterstica como as variveis significantes includas; sinal, tamanho, e importncia relativa
de variveis; e preciso preditiva. Em ambos os casos se determinada validade do modelo
original, comparando-o com modelos de regresso estimados com a nova amostra.
Muitas vezes, a habilidade de coletar novos dados limitada ou impraticvel por
fatores como custo, presses de tempo ou disponibilidade de respondentes. Quando esse o
caso, deve ser dividida a amostra em duas partes: uma amostra de estimao para criar o
modelo de regresso e a amostra de reserva ou validao, usada para testar a equao.
Muitos procedimentos, tanto aleatrio quanto sistmicos, esto disponveis para dividir os
dados, de modo que cada um tire duas amostras independentes do conjunto nico de dados.
B) Clculo da estatstica PRESS
Uma abordagem alternativa para obter amostras adicionais para fins de validao em
utilizar a amostra original de uma maneira especializada, calculando a estatstica PRESS, uma
medida semelhante R, usada para avaliar a preciso preditiva do modelo de regresso
estimado. Difere das abordagens anteriores no sentido de que no um, mas n-1 modelos de
regresso so estimados. O procedimento, semelhante s tcnicas bootsrapping, omite uma
observao na estimao do modelo de regresso e ento prev a observao omitida com o
modelo estimado. Logo a observao no pode afetar os coeficientes do modelo usado para
calcular seu valor previsto. O procedimento aplicado novamente, omitindo uma outra
observao, estimando um novo modelo e fazendo a previso. Os resduos para as observaes
podem ento ser somados para fornecer uma medida geral de ajuste preditivo.
159
C) Comparao de modelo de regresso
Quando se compara modelos de regresso, o critrio mais comum empregado o ajuste
preditivo geral. Foi discutido anteriormente que R nos fornece essa informao, mas
apresenta uma desvantagem: medida que mais variveis so acrescentadas, R sempre
aumenta. Assim, aps termos includo todas as variveis independentes, no encontrado um
R maior, mas pode-se descobrir que um nmero menor de variveis independentes resulta em
um valor quase idntico. Portanto para comparar modelos com diferentes nmeros de
variveis independentes, usa-se o R ajustado, o qual igualmente til na comparao de
modelos com diferentes conjuntos de dados, uma vez que se faz uma compensao para os
diferentes tamanhos de amostras.
160
Captulo 4
Anlise dos Resultados
4.1 Introduo
Como j discutido anteriormente, a taxa de abandono um problema relevante com
expressivo valor financeiro que afeta de forma direta as empresas, principalmente as de
telecomunicaes. Fica evidenciado que a natureza da questo e os impactos nocivos da perda
de clientes tm que serem pesquisados, sendo a forma escolhida de se enfrentar a questo o
entendimento das causas da taxa de abandono provocadas pela qualidade do servio. Essa
pesquisa teve a finalidade de identificar eventuais correlaes dos indicadores de qualidade
com a taxa de abandono, tendo sido necessrio se compreender os indicadores de qualidades
para que, por meio deles, fosse possvel identificar as causas para prevenir a taxa de abandono.
Para avaliar o desempenho dos indicadores de qualidade utilizou-se uma base de dados
real de uma das quatro maiores empresas de telefonia do Brasil. O nome da empresa no foi
considerado relevante e mantido sob sigilo. A base de dados correspondeu aos dados de 12
meses coletados entre os meses de janeiro a dezembro de 2006.
Para os testes e simulaes realizados, foi utilizada a ferramenta SPSS sendo a anlise
de regresso mltipla a tcnica escolhida por ser a tcnica de dependncia mais amplamente
usada e verstil, aplicvel em cada faceta da tomada de decises em negcios. Nessa pesquisa
descreve-se como a anlise de regresso mltipla usada para resolver problemas de pesquisa
importantes, particularmente na rea de negcios em telecomunicaes. A varivel dependente
foi taxa de abandono. As variveis independentes foram: tempo mdio de reparo, tempo
mdio de instalao, taxa de reparo, instalao no prazo grandes clientes, reparo no prazo alto
valor, reparo no prazo demais clientes, reparo no prazo total, instalao em garantia, reparo
161
preventivo, reparo reincidente alto valor, reparo reincidente demais clientes e o reparo
reincidente total.
4.2 Estimao do Modelo de Regresso, Avaliao do Ajuste Geral e da Significncia
Estatstica do Modelo.
Na estimao deve-se dispor de alternativas para atender caractersticas especificas dos
dados ou maximizar o ajuste dos mesmos. Depois que o modelo estimado, o seu ajuste geral
pode ser avaliado para estabelecer se atinge nveis aceitveis sobre os critrios estatsticos, se
identifica s relaes propostas e se tem significncia prtica.
Na maioria dos casos de regresso mltipla, deve ser feito escolha entre vrias
possveis variveis independentes que podem ser selecionadas para incluso na equao de
regresso. Conforme foi visto no capitulo 3, pode-se escolher entre especificao
confirmatria, combinatria e busca seqencial. Abaixo sero analisadas as variveis nos dois
mtodos (combinatria e busca seqencial), onde escolhido o que melhor se adaptar aos
objetivos dessa pesquisa.
4.2.1) Mtodo Combinatrio
A abordagem mais simples a especificao combinatria. um processo de busca
generalizada em todas as possveis combinaes das variveis independentes. Todas as
possveis combinaes das variveis independentes so examinadas e o conjunto de variveis
que melhor se ajustar identificado. A primeira simulao com a incluso de todas as
variveis disponibilizadas tendo o universo das amostras do ano de 2006.
1) Coeficiente de Determinao
O objetivo saber se as variveis explicativas usadas no modelo (a componente
determinstica) explicam da variabilidade total da varivel dependente, ou seja, verificar se
coerente capacidade explicativa do modelo. Se a capacidade explicativa do modelo elevada
ento o resduo do modelo (efeitos no captados pela componente determinstica) reduzido.
162
Geralmente, nos modelos de regresso linear a estatstica usada para quantificar a
capacidade explicativa do modelo o R, designado por coeficiente de determinao. Essa
estatstica constitui a proporo da variao explicada face variao total da varivel
dependente. Como regra geral o modelo selecionado o com R mais elevado.
No modelo de regresso linear, a proporo da variao explicada dada pelo
coeficiente de determinao que varia de 0 a 1, 0<= R<=1. O seu valor zero quando SQE
(Soma dos Quadrados Explicada) tambm zero e SQR=SQT (Soma dos Quadrados Totais).
O valor de R 1 quando SQE=SQT e SQR=0 (Soma dos Quadrados dos Resduos)
A partir da Tabela 4.1 pode-se observar que R = 0,54 significando que 54,0 % da
variabilidade total dos dados so explicados pelo modelo de regresso, ou seja, as doze
variveis independentes so responsveis por explicarem esse percentual da varivel
dependente (taxa de abandono). Em outras palavras, essas variveis independentes utilizadas
no modelo de regresso linear ajudam a explicar em torno de 54% da variao da taxa de
abandono. Entretanto, ficam por explicar 46% das variaes da taxa de abandono, que se deve
a outros fatores no considerados.
Tabela 4.1 Sumrio do modelo Combinatrio.
Fonte: SPSS.
Os valores de R e R ajustado apontam para um bom poder de explicao da equao
de regresso, os quais ficaram prximos dos valores obtidos por meio do mtodo Stepwise,
que oportunamente elucidado.
Sumrio do Modelo Combinatrio Sumrio do Modelo Combinatrio
163
2) Equao Estimada
O principal objetivo dos modelos de regresso a estimao dos parmetros
desconhecidos . A esse processo comum chamar-se de ajuste do modelo aos dados. A
Tabela 4.2 contm as estimativas dos parmetros e respectivas estimativas do erro padro, as
estimativas dos coeficientes padronizados e o valor da estatstica t-student.
A partir da Tabela 4.2 pode ser caracterizada a equao de regresso que pode ser vista
a seguir:
Tabela 4.2 Coeficiente do modelo Combinatrio.
Coefficients
a
.000 .000
.144 .388 .144 .886 .714 -.099 .068 .579 -.029 -.010 .453 2.206
.171 .079 .171 .159 .032 .015 .327 .882 .171 .061 .129 7.770
-.197 .049 -.197 -.534 .127 -.173 .022 -.360 -.122 -.043 .332 3.015
.087 .057 .087 -.513 .132 -.201 .027 -.039 -.121 -.043 .243 4.117
.672 .079 .671 .544 .146 .516 .827 .917 .566 .242 .130 7.687
.139 .046 .139 .021 .003 .048 .229 -.293 .236 .086 .381 2.627
-.042 .044 -.042 -.946 .346 -.129 .046 -.220 -.076 -.027 .409 2.447
.390 .041 .390 .043 .965 -.080 .084 .256 .003 .001 .467 2.141
.608 .146 .608 3.322 .000 .396 .808 .499 .579 .310 .849 1.160
.414 .054 .414 7.466 .000 .304 .505 .575 .507 .438 .977 1.061
-.310 .149 -.310 5.631 .001 -.566 -.128 -.145 -.206 -.179 .266 3.144
.525 .065 .525 -3.120 .000 .401 .644 .116 .590 .472 .291 3.723
(Constant)
RRAV
IGT
RRT
RPT
RRDC
IPGC
RPAV
RPDC
TMR
TRP
QRPR
TMI
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig. Lower Bound Upper Bound
95% Confidence Interval for B
Zero-order Partial Part
Correlations
Tolerance VIF
Collinearity Statistics
Dependent Variable: TAXA_DE_ABANDONO a.
Fonte: SPSS.
). ( 525 , 0 ) ( 310 , 0 ) ( 414 , 0 ) ( 608 , 0
) ( 39 , 0 ) ( 042 , 0 ) ( 139 , 0 ) ( 672 , 0 ) ( 087 , 0
) ( 197 , 0 ) ( 171 , 0 ) ( 144 , 0
TMI QRPR TRP TMR
RPDC RPAV IPGC RRDC RPT
RRT IGT RRAV Abandono de Taxa
+ +
+ + + +
+ + =
(4.1)
A equao estimada pode ser vista como uma tentativa para explicar as variaes na
varivel dependente que resultaram das alteraes nas variveis independentes. Mesmo com
bons valores dos coeficientes ajustados de determinao, na estrutura do modelo, permanecem
ainda todas as 12 variveis, o que causa um grande inconveniente gerencial para implement-
lo.
164
3) Teste de Hiptese para a Significncia do Modelo
Esse teste usado para estabelecer se existe ou no alguma relao entre a varivel
dependente e o conjunto de variveis independentes. Consistindo em testar as seguintes
hipteses:
0 :
2 1 0
= = =
p
H ;
k H
k
algum para 0 :
1
.
A estatstica do teste tem, sob H0 (a hiptese H0 significa que a regresso no
significativa), a distribuio F com p e (n-p) graus de liberdade. A rejeio da hiptese H0
indica a existncia de regresso. As quantidades necessrias para calcular o valor observado
dessa estatstica esto dispostas na Tabela 4.3, denominada de Tabela de anlise de varincia -
ANOVA.
Como F
obs
= 12.572 maior que F
c
=F
(95% ; 11; 156)
= 1,80 (valor percentual de uma
distribuio F com 11 graus de liberdade no numerador e 156 no denominador) deve ser
rejeitada H0 em favor da hiptese alternativa de que a regresso estatisticamente
significativa. Em outras palavras, pode-se dizer que ao nvel de significncia de 0,05, rejeita-
se a hiptese da regresso no ser significativa. Ento h evidncia para afirmar que existe um
relacionamento linear entre o conjunto de variveis explicativas e a taxa de abandono.
Tabela 4.3 ANOVA do modelo Combinatrio.
Fonte: SPSS.
165
4) Teste de Hiptese para o Parmetro k
Aps a verificao de que pelo menos um dos parmetros k significativo, deve-se
testar a significncia de cada um deles, isto , para cada parmetro k (k=1,..., p), testam-se as
hipteses:
; 0 :
0
=
k
H
. 0 :
1
k
H
O teste para cada parmetro feito utilizando a estatstica t-student com (n-p) graus de
liberdade, o desvio padro amostral S(bk) e o estimador bk. A estatstica do teste dada por
( )
.
*
k
k
b S
b
t =
(4.2)
Se |t*| t(1-/2; n-p), o teste no rejeita H0; caso contrrio o teste rejeita H0 em favor
de H1. A rejeio de H0 indica uma contribuio significativa da varivel independente Xk no
modelo.
A partir dos resultados apresentados na Tabela 4.2 se obtm os dados da estatstica t
para os 12 parmetros a serem testados. Para verificar que a varivel TMR no muito til,
isto , que sua influncia sobre a varivel dependente no significativa testa-se a hiptese
nula do coeficiente para essa varivel cujo valor crtico tc 2,258 (para os graus de liberdade
so 11 e 156).
Como | tc | 2,258 < | t | = 3,322 concluem-se que, ao nvel de significncia de 0,05, h
evidncia para dizer que a varivel TMR til na explicao da taxa de abandono, ou seja, a
varivel TMR contribui para a explicao da taxa de abandono. J para a varivel RRAV (| tc |
2,258 > | t | = 0,886, sendo feito uma anlise similar, rejeita-se a hiptese H
1
em favor da
hiptese nula, ou seja, ela no significativa na explicao da taxa de abandono.
Por meio dos dados observados a partir da referida Tabela e fazendo-se comparao
com o valor Tabelado cujo valor crtico de tc 2,258 pode ser concludo que apenas as
166
estatsticas t correspondentes aos parmetros
9
,
10
,
11
e
12
podem ser validadas, ou seja, as
variveis TMR, TRP, QRPR e TMI so estatisticamente significativas.
4.2.2) Mtodo Seqencial Stepwise
Nesse mtodo os regressores includos ou excludos durante a elaborao do modelo
podem ser reexaminados. Permite examinar a contribuio de cada varivel independente para
o modelo de regresso, sendo cada varivel considerada para incluso antes do
desenvolvimento da equao. A principal vantagem em relao aos outros mtodos
seqenciais a sua habilidade em acrescentar ou eliminar variveis em cada estgio.
1) Coeficiente de Determinao
A seguir, so mostrados os dados obtidos por meio do mtodo Stepwise. A partir de
seus respectivos valores, que se encontram na Tabela 4.4, foi considerado adequado em
desconsiderar o modelo de especificao confirmatria e a utilizar, nessa pesquisa, o modelo
de busca seqencial Stepwise. Para esse trabalho o mtodo seqencial mostra-se mais
adequado devido ser objetivo para selecionar as variveis que maximizam o poder de
explicao com o menor nmero de variveis empregadas.
Na Tabela 4.4 so mostradas os valores obtidos para as observaes de 2006 pelo
modelo seqencial Stepwise, onde se verifica que se deixa de trabalhar com 12 variveis
independentes para trabalhar apenas com quatro e, apesar dessa reduo substancial, os
valores de R e R ajustados ficam muito prximos dos valores do modelo anterior (mtodo
Combinatrio).
167
Tabela 4.4 Sumrio do modelo STEPWISE.
Fonte: SPSS.
A parir da Tabela 4.4 pode-se observar que R = 0,52 significando que 50,4 % da
variabilidade total dos dados so explicados pelo modelo de regresso, ou seja, as quatro
variveis independentes so responsveis por explicarem esse percentual da varivel
dependente (taxa de abandono). Em outras palavras, essas variveis independentes utilizadas
no modelo de regresso linear ajudam a explicar em torno de 50% da variao da taxa de
abandono. Entretanto, ficam por explicar 50% das variaes da taxa de abandono, que se deve
a outros fatores no considerados. Os valores de R e R ajustado apontam para um bom poder
de explicao da equao de regresso.
2) Equao Estimada
O principal objetivo dos modelos de regresso a estimao dos parmetros
desconhecidos . A esse processo comum chamar-se de ajuste do modelo aos dados. A
Tabela 4.5 contm as estimativas dos parmetros e respectivas estimativas do erro padro, as
estimativas dos coeficientes padronizados e o valor da estatstica t-student.
A partir da Tabela 4.5 pode ser caracterizada a equao de regresso que pode ser vista
abaixo:
Sumrio do Modelo Seqencial (Stepwise)
168
Tabela 4.5 Coeficientes do modelo Stepwise.
Fonte: SPSS.
. ) ( 39 , 0 ) ( 60 , 0 ) ( 41 , 0 ) 1 ( 53 . 0 QRPR TMR TRP TM Abandono de Taxa + + = (4.3)
A equao de regresso estimada pode ser vista como uma tentativa para explicar as
variaes na varivel dependente que resultaram das alteraes nas variveis independentes.
3) Teste de Hiptese para a Significncia do Modelo
Esse teste usado para estabelecer se existe ou no alguma relao entre a varivel
dependente e o conjunto de variveis independentes. Consistindo em testar as seguintes
hipteses:
H0: 1 = 2 = ... = p = 0;
H1: k 0 para algum k.
A estatstica do teste tem, sob H0 (a hiptese H0 significa que a regresso no
significativa), a distribuio F com p e (n-p) graus de liberdade. A rejeio da hiptese H0
indica a significncia de regresso. As quantidades necessrias para calcular o valor observado
dessa estatstica esto dispostas na Tabela 4.6, denominada de Tabela de anlise de varincia -
ANOVA.
Como F
obs
= 43.367 claramente superior a F
c
=F
(95% ; 4 ; 163)
= 2,40 (valor percentual de
uma distribuio F com 4 graus de liberdade no numerador e 163 no denominador) deve ser
169
rejeitada H0 em favor da hiptese alternativa de que a regresso estatisticamente
significativa. Em outras palavras, pode-se dizer que ao nvel de significncia de 0,05, rejeita-
se a hiptese da regresso no ser significativa. Ento h evidncia para afirmar que existe um
relacionamento linear entre o conjunto de variveis explicativas e a taxa de abandono.
Tabela 4.6 ANOVA do modelo Stepwise
Fonte: SPSS.
4) Teste de Hiptese para o Parmetro k
Aps a verificao de que pelo menos um dos parmetros k significativo, deve-se
testar a significncia de cada um deles, isto , para cada parmetro k (k=1,..., p), testam-se as
hipteses:
H0: k = 0;
H1: k 0.
O teste para cada parmetro feito utilizando a estatstica t-student com (n-p) graus de
liberdade, o desvio padro amostral S(bk) e o estimador bk. A estatstica do teste dada pela
equao (4.2), como foi visto anteriormente.
170
Se |t*| t(1-/2; n-p), o teste no rejeita H0; caso contrrio o teste rejeita H0 em favor
de H1. A rejeio de H0 indica uma contribuio significativa da varivel independente Xk no
modelo.
Por meio dos resultados apresentados na Tabela 4.5 se obtm os dados da estatstica t
para os 4 parmetros a serem testados. Para verificar que a varivel TMR no muito til,
isto , que sua influncia sobre a varivel dependente no significativa testa-se a hiptese
nula do coeficiente para essa varivel cujo valor crtico tc 2,258 (para os graus de liberdade
so 4 e 163).
Como | tc | 2,258 < | t | = 9,051 concluem-se que, ao nvel de significncia de 0,05, h
evidncia para dizer que a varivel TRM til na explicao da taxa de abandono, ou seja, a
varivel TMR contribui para a explicao da taxa de abandono
Com os dados observados a partir da referida Tabela e fazendo-se comparao,
similares ao que foi feito anteriormente, com o valor Tabelado cujo valor crtico de tc 2,258
conclui-se que todas as estatsticas t correspondentes aos parmetros
1
,
2
,
3
e
4
podem ser
validadas, ou seja, as variveis TMI, TMP, TMR e QRPR so estatisticamente significativas.
. Para a anlise a seguir se trabalha com uma varivel dependente e quatro variveis
independentes sendo que o mtodo utilizado para clculo foi o Stepwise devido a sua
habilidade em acrescentar ou eliminar variveis em cada estgio, at encontrar a melhor
equao, conforme j discutido anteriormente.
Todas as correlaes entre as variveis so mostradas na Tabela 4.7. O exame da
matriz indica que o TMI foi a obteve a maior correlao com a varivel dependente taxa de
abandono (0,52), sendo tambm verificado que a correlao entre o taxa de abandono e a
varivel TRP tambm foi alta (0,42). Existem outras variveis correlacionadas, mas que foram
eliminadas devido utilizao dessas variveis que juntas na mesma equao no serem
apropriadas. Essas variveis juntas causam uma alta colinearidade, ficando-se ento com as
quatro variveis.
171
Tabela 4.7 Correlaes.
Fonte: SPSS.
4.2.3 Identificao de Observaes Influentes
No Grfico 4.1 so identificados dois pontos atpicos sendo eles os pontos 111 e 139,
no indicador de Taxa de Reparo. Esses pontos foram identificados na base de dados com
sendo da filial Amazonas. Verificou-se por meio da anlise realizada que ocorreu uma grande
precipitao pluviomtrica (chuva). Essas precipitaes climticas so adversas prtica da
atividade de telecomunicaes, causando paralisaes no backbone da cidade de Manaus bem
como provocando interferncia no sistema de transmisso, qual atendida por meio de
satlite. A quantidade mdia de intervenes fica em torno de 15 acionamentos por ms. S no
ms de maro 63 acionamentos e no ms de maio 61.
Grfico 4.1. Identificao de pontos atpicos.
REPAROS
PREVENTIVOS
(QRPR)
TEMPO MEDIO DE
INSTALAAO (TMI)
TEMPO MEDIO DE
REPARO (TMR)
TAXA DE REPARO
(TRP)
TAXA DE
ABANDONO
2
1
0
-1
139
111
Fonte: SPSS.
Correlao das Variveis Correlao das Variveis
172
No grfico 3.2 (captulo 3) se verificou dois pontos fora do histograma, onde foi
identificado, pelo mtodo de diagnostico casewise que foi exposto na Tabela 4.7. Essas
observaes so as de nmero 111 e 139, as quais j tinham sido mostradas no grfico 3.6
anteriormente.
Tabela 4.8 Diagnstico Case wise.
Fonte: SPSS.
4.3 Interpretao das Variveis Estatsticas e Validao dos Resultados
Com a estimao do modelo concluda, a varivel estatstica de regresso especificada
e os testes diagnsticos confirmando a adequao dos resultados administrados, o prximo
passo examinar a equao preditiva encontrada.
Iniciou-se essa pesquisa com 12 variveis independentes e uma dependente. Aps
introduzir os dados na ferramenta SPSS, o sistema calculou a equao pelo mtodo Stepwise,
que foi previamente selecionado, tendo sido verificado, nessa primeira anlise valores de R =
52,0% e R ajustado = 50,0 %, o que caracteriza valores bastante animadores para a taxa de
abandono que foi encontrada na equao (4.3), nesse caso analisa-se individualmente os
coeficientes desta equao.
Em que:
TMI Representa o tempo mdio gasto na instalao do circuito, ou seja, o tempo
desde abertura da ordem de servio at o seu efetivo fechamento.
TRP Representa a taxa de reparo executado no prazo acordado com o cliente esse
prazo varia de 8 horas para clientes Alto Valor e 24 horas para os Demais Clientes geralmente
so os clientes varejo.
Diagnstico Case Wise Diagnstico Case Wise
173
QRPR Esse valor representa a quantidade de reparos preventivos efetuados nas
empresas.
TMR Representa o tempo mdio gasto no reparo do circuito, ou seja, o tempo
desde abertura do Bilhete de Defeito at o seu efetivo fechamento.
A - Interpretao dos Coeficientes do Modelo Stepwise
O valor do coeficiente para a varivel Tempo Mdio de Instalao TMI de 0,53, o
que significa que, isolando-se as outras variveis da equao, para um aumento de
10% normatizado na varivel TMI ocorre um aumento normatizado de 5% na taxa de
abandono, que em valores no normatizados se refere a um aumento em mdia de
2500 clientes na taxa de abandono e um aumento em mdia de 10 horas no tempo de
instalao;
O valor do coeficiente para a varivel Tempo Mdio de Reparo TMR e de 0,60, o que
significa que, isolando-se as outras variveis da equao, para um aumento de 10%
normatizado na varivel TMR ocorre um aumento normatizado de 6% na taxa de
abandono, que em valores no normatizados se refere a um aumento em mdia de
2800 clientes na taxa de abandono e um aumento em mdia de 1 hora no tempo de
reparo;
O valor do coeficiente para a varivel TRP e de 0,41, o que significa que, isolando-se
as outras variveis da equao, para um aumento de 10% normatizado na varivel
TRP ocorre um aumento normatizado de 4,1% na taxa de abandono, que em valores
no normatizados se refere a um aumento em mdia de 1700 clientes na taxa de
abandono;
O valor do coeficiente para a varivel QRPR e de 0,39 que significa, isolando-se as
outras variveis da equao, para um aumento de 10% normatizado na varivel QRPR
ocorre uma diminuio normatizado de 3,9% na taxa de abandono, que em valores no
normatizados se refere a uma diminuio em mdia de 1600 clientes na taxa de
abandono.
174
Nota-se que no modelo escolhido, as variveis tm pesos bem distribudos em relao
varivel estatstica, no tendo nenhuma um peso consideravelmente muito maior do que um
outro. Verifica-se tambm que quanto mais sejam realizados reparos preventivos, mais so
reduzidas as sadas de clientes da empresa. Verifica-se, por outro lado, que um tempo mdio
de instalao elevado causa uma grande insatisfao nos clientes refletindo em sua provvel
sada. Isto tambm percebido com relao quantidade de reparo o cliente banda larga que
no concorda quando fica fora do acesso a Internet e tambm afeta na sua sada da empresa.
Nesse trabalho os valores de tolerncia esto entre 0,57 e 0,97 e os valores do VIF
(Variance Inflation Factor) entre 1,76 e 1,15 o que caracterizam nveis baixos de
colinearidade levando a interpretao dos coeficientes da varivel estatstica como no sendo
afetada desfavoravelmente pela multicolinearidade. A Tabela 4.5 mostrou todos os valores de
tolerncia e VIF para o modelo selecionado (Stepwise).
4.4 Concluses
Nesse contexto, o modelo estimado chega essencialmente ao resultado em que so
observadas duas influncias fortes (o tempo mdio de reparo e o tempo mdio de instalao) e
outras duas influncias um pouco menores (taxa de reparo na planta e quantidade de reparo
preventivo) sendo esse ltimo inversamente proporcional ao valor da Taxa de Abandono. Isso,
gerencialmente falando, bastante favorvel, pois significa que quanto mais for realizada a
manuteno preventiva, mais se eleva a satisfao do cliente e, consequentemente, haver
diminuio da taxa de abandono.
Uma elevao em uma das trs variveis normatizadas (tempo mdio de reparo, tempo
mdio de instalao e taxa de reparo na planta) resulta em um aumento na taxa de abandono
(Churn), ou seja, uma maior sada de clientes da empresa, enquanto um aumento na
quantidade de reparos preventivos resulta em uma diminuio na taxa de abandono.
175
Captulo 5
Concluses
5.1 Concluses
O objetivo desse trabalho foi tentar explicar o comportamento do cliente no setor de
telecomunicaes, usurio de Internet de banda larga, com o uso de uma equao que
representa a taxa de abandono em funo dos indicadores de qualidade de servio. Para isto foi
necessrio caracterizar a taxa de abandono, bem como suas causas. Foi identificado que h
dois tipos de causas associadas taxa de abandono: causas voluntrias e causas involuntrias.
Essa pesquisa procurou se deter apenas nas causas voluntrias, ou desligamento por motivo
deliberado ligado qualidade. Podem-se destacar como principais contribuies desse
trabalho:
1) Consolidao, em forma de relao, dos indicadores de qualidade de servios de banda
larga, disponibilizados pelas empresas de telecomunicaes taxa de abandono da planta;
Um passo inicial nesse sentido foi realizar um estudo sobre o processo de descoberta
de conhecimento em banco de dados para, a partir do estudo, analisar os dados da pesquisa,
normaliza-los e selecionar o mtodo para especificao do modelo da equao final. Para o
equacionamento houve preocupao com a avaliao da significncia estatstica e a
interpretao das variveis. O resultado foi uma equao em que foi identificado que alguns
indicadores de qualidade devem ter, por partes dos gestores de manuteno das empresas de
telecomunicaes, uma maior ateno, pois so esses indicadores que efetivamente
influenciam a taxa de abandono.
176
Aps o entendimento da aplicabilidade da equao estatstica, foi realizada uma anlise
gerencial dos dados encontrados, em que se verificou a existncia de uma correlao entre os
indicadores de qualidade de servio e a taxa de abandono, ou seja, 50,4 % da taxa de abandono
no ano de 2006 esta relacionada a causas voluntrias por motivo deliberado ligado
qualidade. Essas causas esto ligadas a quatro indicadores de qualidade: Tempo Mdio de
Reparo, Tempo Mdio de Instalao, Preventivas e Taxa de Reparo, conforme caracterizado
no campo da dissertao.
2) Analise do conjunto de variveis que exercem maior relevncia para o problema
abordado.
Por meio da analise das 12 variveis identificou-se que Tempo Mdio de Reparo,
Tempo Mdio de Instalao, Preventivas e Taxa de Reparo possuem uma maior relevncia
sobre a taxa de abandono. Consequentemente existem indicativos que devem ser focados para
diminuir a taxa de abandono:
Diminuio da Taxa de Reparo, ou seja, o cliente para banda larga muito
exigente com o servio prestado, no aceitando paralisaes. Esse fato pode ser
explicado quando se verifica que esse cliente tem como caracterstica ficar
conectado rede o mximo de tempo possvel. Para isto tem-se que agir na
redundncia de sistemas, procurando ao mximo evitar as causas comuns de
reparos como quedas de backbone, falta de conectividade, etc.;
Outro fator indicado que depois de ocorrida uma paralisao, o tempo de
restabelecimento do servio deve ser o menor possvel. Esse fator foi medido
pelo tempo mdio de reparo, e foi demonstrado que quanto maior for o tempo
para remover a falha maior a taxa de abandono. Nesse caso devem ser
procuradas ferramentas de recuperao remota de falhas no intuito de diminuir
o Tempo de Reparo;
Em relao aos Reparos Preventivos, a pesquisa sinalizou que uma boa
prtica de reteno, pois na antecipao das possveis falhas conta
positivamente. Quanto maior a quantidade de reparo preventivo realizado
menor o taxa de abandono, podendo ser explicado pela satisfao do cliente.
177
Sendo assim, surge a necessidade de se implementar sistemas de gerncia e
analise da degradao do sinal, para que, a partir dessas analises, sejam gerados
reparos preditivos, com a finalidade de antever as falhas;
Por fim, o Tempo Mdio de Instalao, que afeta a percepo de qualidade do
cliente antes mesmo que ele seja cliente. A analise mostra que quanto menor
esse tempo, menor sero as taxas de abandono. Nesse caso pode-se deduzir que
o cliente que no tem suas expectativas iniciais atendidas estar mais propenso
a abandonar a empresa. Tem-se ento que manter as expectativas ou super-las
sempre que possvel antecipando os prazos de instalao. Caso ocorra algum
problema nos processos de instalao ou que as suas expectativas tenham
valores diferentes das possibilidades de atendimento das operadoras de servio,
fica como sugesto manter o cliente bem informado e que os atrasos e novos
prazos sejam sempre negociados com o ele.
Conforme anlise no Anexo III Tabela AIII.3, para uma operadora, que tm uma base
de 1.2 milhes de clientes com uma taxa mensal de abandono de 2 %, estima-se uma perda
financeira da ordem de 251 milhes de reais. Caso aes derivadas dessa dissertao sejam
implementadas poder-se-ia reduzir a taxa de abandono de 2% para 1,59%. Essa reduo est
referendada nas taxas de melhorias, citadas na Tabela AIII.4, as quais so balizadas em
parmetros de qualidades internacionais, referendados pela empresa em anlise. Em termos
financeiros essa melhoria pode ser estimada em patamares de uma reduo de perda de 45
milhes. Os resultados obtidos demonstram a aplicabilidade da equao, bem como as
possibilidades de ganho para as prestadoras de servio que decidirem utilizar a equao como
parte de suas estratgias de manuteno.
Por fim, pode-se entender que a manuteno tem um papel fundamental como parcela
de contribuio do valor total produzido, e no desempenho das atividades ligadas ao servio.
Isto se evidencia na participao de perdas de clientes, decorrentes do desempenho em termos
da qualidade das operaes de manuteno. Por outro lado, pode-se concluir que uma
instalao ou reparo feito em menor tempo, uma preventiva bem feita ou a confiabilidade do
servio expressa por menores taxas de reparo, afetam a positivamente a satisfao do cliente
fazendo com que ele permanea na empresa. Para isto os gestores tm que empreender
178
investimentos em melhoria de qualidade na instalao, reparos e nas manutenes preventivas,
que devem sempre ser vistos pela tica da reteno de cliente e manuteno da base, sendo a
taxa de abandono o modo mais prtico de se evidenciar a eficincia do todo.
5.2 Recomendaes para Estudo Futuro
Propostas para futuros desenvolvimentos sobre o tema:
Testar a equao envolvendo a base de dados de outras operadoras, visando estabelecer
um modelo de avaliao de desempenho da taxa de abandono de forma mais
abrangente;
Inserir na equao um indicador para avaliar os custos da atividade de manuteno,
objetivando uma anlise do seu desempenho nesse requisito. Pretende com isso, atuar
de forma a reduzir os custos da m qualidade no servio prestado;
Realizar uma pesquisa de campo para verificar a percepo do cliente sobre a
qualidade do servio de banda larga. O intuito que com essa percepo se promovam
aes de melhoria e conseqentemente a diminuio nas taxas de abandono;
Levantar detalhadamente nas bases de dados informaes da taxa de abandono,
separando os motivos do abandono, para que se possa gerar uma equao com maiores
informaes entre as entradas e a sada dos clientes.
179
Referencias Bibliogrficas
ADRIAANS, Pieter; ZANTING, Dolf. Data Mining. Addison-Wesley, England, 1996.
ATTADIA, L. C. D. L.; MARTINS, R. A. Medio de Desempenho Como Base Para
Evoluo da Melhoria Contnua. Revista Produo, Vol. 13, 1999.
ALENCAR, Marcelo Sampaio. Telefonia Digital. So Paulo: rica, 1998.
ALMEIDA, Adiel Teixeira; WAJSMAN, Dymitr. Engenharia de Manuteno: Viso
Conceitual. Anais IV Congresso Brasileiro de Manuteno, 1999.
ANDERSON, E. W.; FORNELL, C.; LEHMANN, D. R. Customer Satisfaction, Market Share
and Profitability: Findings from Sweden. Journal of Marketing, Vol. 58, July, 1994.
AGRAWAL, R., S.; GHOSH, T.; IMIELINSKY, B. Yer, A. Swami. An Interval Classifier for
Database Mining Applications. Proc. 18th Int. Conf. Very Large Databases, pp 560-573,
Vancouver, 1992.
BALLOU, D. G. K. Tayi. Enhancing Data Quality in Data Warehouse Environments.
Communications of the ACM, 1999.
CALADO, L. R.; BACARIM, D. P. Qualidade dos Servios de Telefonia Fixa: A Viso do
Usurio Versus Prestadora. XII SIMPEP, Bauru, SP, Brasil, novembro, 2005.
BERRY, M.; LINOFF, G. Mastering Data Mining: The Art and Science of Customer
Relationship Management. John Wiley & Sons, 2000.
BERRY, L. L. Emerging Perspectives on Services Marketing. Chicago, Illinois: American
Marketing Association,1983.
BEST, R. Market based management. Englewood Cliffs, NJ: Prentice-Hall International,
1997.
BOZDOGAN, H. Statistical Data Mining & Knowledge Discovery. CHANPMAN &
Hall/CRC, 2003.
BRANCO, FILHO G. Dicionrio de termos de manuteno, confiabilidade e qualidade. Rio
de Janeiro: ABRAMAN, 1996.
BUOSI, T.; GANGA G. M. D., et al., Proposio de um Modelo Conceitual para o Projeto de
Sistemas de Medio de Desempenho. X SIMPEP, 2003.
180
FILHO, R. A., Carvalho, N. C. D., et al., (Auto) Avaliao do Desempenho Empresarial da
Manuteno: O Diferencial Competitivo na Busca da Sustentabilidade (Aplicao das
Metodologias do PNQ e da ISO 9000 ao Ambiente da Manuteno). XI SIMPEP, Bauru, SP,
Brasil, novembro, 2004.
COETZEE, J. L. Maintenance. Republic of South Africa: Maintenance Publishers, 1998.
CORRA, H. L. The Links between Uncertainty, Variability of Outputs and Flexibility in
Manufacturing Systems. University of Warwick, Warwick, 2002.
CONTRERAS R. J. Tcnicas de Seleo de Caractersticas Aplicadas a Modelos Neuro-
Fuzzy Hierrquicos, Dissertao de Mestrado, Departamento de Engenharia Eltrica,
Pontifcia, Rio de Janeiro, 2002.
CHAPMAN, Pete; CLINTON, Julian; KERBER, Randy; KHABAZA, Thomas; REINARTZ,
Thomas; SHEARER, Colin; WIRTH, Rdiger; CRISP-DM 1.0 Step-by-Step data hmining
guide; CRISP-DM Consortium, 2000.
CSILLAG, J. M. Anlise do Valor. 4 edio, So Paulo: Atlas, 1995.
DATE, C.J. Introduo a Sistemas de Banco de Dados. Rio de Janeiro: Campus, 1991.
DAVIS, T. R. V. Internal Service Operations: Strategies for Increasing Their Effectiveness
and Controlling Their Cost. Organizational Dynamics, Vol. 20, Autumn, 1992.
DAVIS, T. R. V. Managing Internal Service Delivery in Organizations. Advances in Services
Marketing, Vol. 2, 1993.
DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. Wiley-Interscience, 2
Edition, 2000.
DWIGHT, R. A. Concepts for Measuring Maintenance Performance. New Development in
Maintenance: An International View. Moret Ernst and Young, 1995.
EADE, R. The Importance of Predictive Maintenance. Iron Age New Steel, 1997.
EDWARD, Corwin D. The Meaning of Quality. Quality Progress, October, 1968.
FACINA, Tas. Manuteno Sem Fronteiras. Revista Manuteno. Julho e Agosto, 1999.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; UTHURUSAMY, R. Advances in
Knowledge Discovery & Data Mining, Cambridge, MA (The AAAI Press/The MIT Press),
1996.
181
FERREIRA, J. B. Minerao de Dados na Reteno de Clientes em Telefonia Celular.
Engenharia Eltrica, Pontifcia, Rio de Janeiro, 2005.
FERREIRA, J. I. A. X. Como Medir A Competitividade das Organizaes. Revista Produo
on-line, Num. 2, Agosto, de 2006.
FERREIRA, Aurlio Buarque de Holanda. Dicionrio Aurlio Bsico da Lngua Portuguesa.
So Paulo: Nova Fronteira, 1995.
FITZSIMMONS, James A.; MONA, J. Administrao de Servios Operaes, Estratgias, e
Tecnologia da Informao. 4edio, So Paulo: Bookman, 2004.
FELDENS, M.A. et al. Towards a Methodology for the Discovery of Useful Knowledge
Combining Data Mining, Data Warehousing and Visualization. CLEI (Conferncia Latino
americana de Informtica), Equador, 1998.
FREITAS, A. L. P. A Qualidade em Servios no Contexto da Competitividade. Revista
Produo On-Line, Vol. 5, 2005.
FRIEDMAN J. H. An Overview of Predictive Learning and Function Approximation. In From
Statistics to Neural Networks: Theory and Pattern Recognition Applications. Berlin, Springer,
1995.
FNQ (Fundao Nacional de Qualidade) site disponvel: http://www.fnq.org.br/site acesso em:
26/04/2008.
GALE, B. T. Gerenciando o Valor do Cliente Criando Qualidade & Servios que os
Clientes Podem Ver. So Paulo: Pioneira, 1994.
GERAERDS, W. M. J. The Cost of Downtime for Maintenance: Preliminary Considerations.
Maintenance Management International, Vol.5, 1985.
GERAGHETY, T. Obtendo a Efetividade do Custo de Manuteno Atravs da Integrao das
Tcnicas de Monitoramento de Condio, RCM e TPM. SQL Systems, Brasil, 2001.
GEROLAMO, M. C.; ESPOSTO, K. F., et al. Modelo para Identificao de Aes de
Melhoria de Desempenho Alinhadas Estratgia. XXII Encontro Nacional de Engenharia de
Produo Curitiba, PR, outubro, 2002.
GIANESI, I. G. N.; CORRA, H. L. Administrao Estratgica de Servios Operaes
Para a Satisfao do Cliente. So Paulo: Atlas, 1994.
GRONROONS, Christian. Marketing Gerenciamento e Servio A Competio por Servio na
Hora da Verdade. 4 edio, So Paulo: Campus, 1993.
182
GAVIN, D. A. The Process of Organization and Management Sloan Management. Review:
33, 1998.
GOLDSCHMIDT, Ronald; PASSOS, Emmanuel. Data Mining Um Guia Prtico,
Conceitos, Tcnicas, Ferramentas, Orientaes e Aplicaes. So Paulo: Campus, 2005.
GOUVEIA, J. B.; JNIOR J. F. Um Cenrio Organizacional em Constantes Transformaes.
(Artigos para publicao). Departamento de Economia, Gesto e Engenharia Industrial,
Universidade de Aveiro, Portugal, 2004.
GROTH, Robert. Data Mining: Building Competitive Advantag. Prentice Hall PTR, USA,
2000.
GROTH, Robert. Data Mining: a Hands-on Approach for Business Professionals. New
Jersey, EUA: Prentice Hall, 1997.
GROVER, G. J., S.R. The Implementation of Business Process Reengineering. Journal Of
Management Information Systems, Vol.12. 1995.
GUMMESSON, E. Marketing Revisited: The Crucial Role of the Part-Time Marketers.
European Journal of Marketing, Vol. 25, Num. 2, 1991.
HAIR, J. J. F. Anlise Multivariada de Dados. So Paulo: Bookman,Vol.1. 2005.
HAN, J.; KEMBER, M. Data Mining: Concepts and Techniques. San Francisco: Morgan
Kaufmann Publishers, 2001.
HARDY, W. C. QoS Measurement and Evaluation of Telecommunications Quality of Service.
New York: John Wiley & Sons, 2001.
HESKETT, James L. Service Breakth Roughs: Changing the Rules of the Gam. The Free
Press, 1990.
HESKETT, J. L.; JONES, T. O.; LOVEMAN, G. W.; SASSER, W.E.; SCHLESINGER, L. A.
Putting the Service-Profit Chain to Work. Harvard Business Review, March-April, 1994.
HUBER, F.; HERMANN, A; MORGAN, R. Gaining Competitive Advantage Through
Customer Value Oriented. Journal of Consumer Marketing, Vol.18, Num.01, 2001.
IACOBUCCI, D.; GRAYSON, K. A.; OSTROM, A. L. The Calculus of Service Quality and
Customer Satisfaction: Theorical and Empirical Differentiation and Integration. Greenwich,
CT: JAI Press, Vol. 3, 1994.
IRELAND, F; DALE, B. G. A Study of Productive Maintenance Implementation. Journal of
Quality in Maintenance Engineering, Vol.7, Num.3, 2001.
JUDD, R. C. Differentiates with the 5th P: People. Industrial Marketing Management, 1987.
183
JURAN, J. M. A Qualidade Desde o Projeto: Novos Passos Para o Planejamento da
Qualidade em Produtos e Servios. So Paulo, Vol.2. 1994.
KAPLAN, R. S. N. A Estratgia em Ao: Balanced Scorecard. Traduo de Luiz Euclydes
Trindade Frazo Filho. Rio de Janeiro, 1996.
KIYAN, F. M. Proposta Para Desenvolvimento de Indicadores de Desempenho Como
Suporte Estratgico. Engenharia de Produo, Unidade Escola de Engenharia de So Carlos
(EESC), 2001.
KLEMETTINEN, M.; MANNILA, H.; TOIVONEN, H. A Data Mining Methodology and Its
Application to Semi Automatic Knowledge Acquisition. DEXA Workshop, 1997.
KOTLER, Philip. Administrao de Marketing Anlise Planejamento Implantao e
Controle. 3 edio, So Paulo: ATLAS, 1996.
KOTLER, Philip. Administrao de Marketing Anlise, Planejamento, Implementao e
Controle. 4 edio, So Paulo: ATLAS, 1998.
LAROSE, D. T. Discovering Knowledge in Data an Introduction to Data Mining. New Jersey,
2005.
LEAL, R. M. D. P. Atraso e Modernidade no Brasil Globalizado. Uma Anlise do Discurso
da Mdia na Privatizao das Telecomunicaes. Comunicao e Cultura da Escola de
Comunicao, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2001.
LAPIERRE, J. Customer - Perceived Value in Industrial Contexts. Journal of Business &
Industrial Marketing, Vol.15, Num. 2/3, 2000.
LICHTENTHAL, J. D.; WILSON D. T.; LONG, M. M. Scientific Contribution to the Field
from the Journal of Business-To-Business Marketing. Journal of Business Research, Vol. 38,
1998.
LILJANDER, V.;STRANDVIK, T. The Relation between Service Quality, Satisfaction and
Intentions. Managing Service Quality, Vught, 1995.
LOVELOCK, C. Classifying Services to Gain Strategic Marketing Insights. Journal of
Marketing, Vol. 47, Num.3, 1983.
MALHOTRA, N. K. Pesquisa de Marketing: Uma Orientao Aplicada. So Paulo, 2004.
MANTOVANI, C. A. Uma Sistemtica de Gesto da Capacidade Apoiada na Anlise e
Melhoria dos Processos para Prestadoras de Servios de Telecomunicaes. Mestrado,
Engenharia de Produo, Universidade Federal de Santa Catarina, Florianpolis, 2001.
184
MARCCELLI, R. P. O Papel dos Indicadores de Desempenho na Estratgia das
Organizaes para o Aprimoramento de Processos: Um Estudo de Caso. Mestrado,
Departamento de Engenharia de Produo e Sistemas, Universidade Federal de Santa
Catarina, Florianpolis, 2000.
MARGEM, F. M. Uma Anlise da Qualidade de Servio nas Lojas OI Telemar Utilizando
Mtodo Servqual. XII SIMPEP, Bauru, SP, Brasil, Novembro, 2005.
MARTINS, R. A.; NETO, P. L. D. O. C. Indicadores de Desempenho Para a Gesto Pela
Qualidade Total: Uma Proposta de Sistematizao. Gesto e Produo, Vol. 5, 1998.
MAGGARD, B. N., RHYNE, D. M. Productive Maintenance: A Timely Integration of
Production and Maintenance. Production and Inventory Management Journal, 6-11, 1992.
MCCARTHY, E. J. Basic Marketing. Homewood, Ill.: Irvin, 1960.
MEEKING, A. Unlocking the Potential of Performance Measurement: a Practical
Implementation Guide. Public Money & Management, 5-12, 1995.
MEREDITH, J. R. The Management of Operations: A Conceptual Emphasis. 4th, ed. Wiley,
1992.
MUDGE, A. E. Numerical Evaluation of Functional Relationships. Texas: SAVE Proc., Vol.
2, 1967.
MUDGE, A. E. Value Engineering: A Systematic Approach. 2 Ed., Pennsylvania, 1981.
MUDGE, A.E. Numerical Evaluation of Functional Relationships. Value Engineering,
September, 1968b.
MUDGE, A.E. The Preparation of Use of Value Engineering Chart. Value Engineering, July,
1968a.
MICHAELIS. Moderno Dicionrio da Lngua Portuguesa. So Paulo: Companhia
Melhoramentos, 1998.
MIRSHAWKA, Victor; OLMEDO, Napoleo L. TPM Moda Brasileira. So Paulo:
MAKRON Books, 1994.
MICHALEWICZ, Z. Genetic Algorithms + Data Structures = Evolution Programs. 3rd ed.
Springer-Verlag, March 1996.
MOLBRAY, John. Reliability Centered Maintenance. Oxford: Butterworth Heinemann, 1997.
The Responsible Custodianship of Physical Assets. Disponvel em:
<http://www.aladon.co.uk/12cust.html>. Acesso em: 04 set. 2002.
185
MONCHY, Franois. A Funo Manuteno: Formao Para a Gerncia da Manuteno
Industrial. So Paulo: Durban, 1989.
MORAIS, A. P. D.; GODOY, L. P. Qualidade em Servios: Uma Abordagem Conceitual. XII
SIMPEP, Bauru, SP, Brasil, Novembro, 2005.
MORIK, K. The Representation Race Preprocessing for Handling Time Phenomena.
Proceeding of the European Conference on Machine Learning, 2000.
MOSS, Marvin A. Designing for Minimal Maintenance Expense: A Practical Application of
Reliability and Maintainability. New York, Marcel Dekker, 1985.
NAKAJIMA, S. Productive Maintenance Development Program: Implementing Total
Productive Maintenance. Cambridge, Productivity Press, 1989.
NBR5462. Confiabilidade e Mantenabilidade. Rio de Janeiro: ABNT, 1994.
NEELY, A. et. al. Designing Performance Measures: A Structured Approach. International
Journal of Operations & Production Management, Vol. 17, Num.11, pp. 1131-1152, 1997.
NETTO, C. A. A. Proposta de Modelo de Mapeamento e Gesto Por Macroprocessos.
Doutorado, Departamento de Engenharia de Produo, Escola Politcnica da Universidade de
So Paulo, So Paulo, 2004.
NORMANN, R. Administrao de Servios: Estratgia e Liderana nas Empresas de
Servios. So Paulo: Atlas, 1993.
NOWLAN, F. S.; HEAP, H. Reliability Centered Maintenance. National Technical
Information Service, Springfield, Virginia, US Department of Commerce, 1978.
NUNES, E. Larcio. Manuteno Centrada em Confiabilidade (MCC): Anlise da
Implantao em Uma Sistemtica de Manuteno Preventiva Consolidada. Mestrado,
Programa de Ps-graduao em Engenharia de Produo, Universidade Federal de Santa
Catarina, Florianopolis. 2001.
PARASURAMAN, A., Zeithaml, V.A., Berry, L. L. A Conceptual Model of Service Quality
and Its Implications for Future Research. Journal of Marketing, American Marketing
Association, 1985.
PARASURAMAN, A, ZEITHAML, V.A BERRY, L. L. SERVQUAL: A Multiple-Item Scale
for Measuring Consumer Perceptions of Service Quality. Journal of Retailing, Vol. 64, 1988.
PIATETSKY-SHAPIRO, Measuring Lift Quality in Database Marketing. Journal of
SIGKDD Exploration Newsletter, Vol. 2, New York; 2000.
186
PEHANICH, M. Behind the lines. Prepared Foods, 164, 12, 87, 1995.
PORTER, M. E. Competitive Advantage Creating and Sustaining Superior Performance.
New York, the Free Press, 1985.
PINTO, Alan Kardec; XAVIER, Jlio Nassif. Manuteno: Funo Estratgica. Rio de
Janeiro: Qualitymark, 1998.
PYLE, D. Data Preparation for Data Mining. Departamento de Engenharia de Produo,
Escola Politcnica da Universidade de So Paulo, So Paulo, 1999.
RAVALD, A; GRNROOS, C. The Value Concept and Relationship Marketing. European
Journal of Marketing, Vol. 30, Num. 2, 1996.
REBOUAS, D. P. Planejamento Estratgico Conceito, Metodologias e Prticas. So
Paulo: ATLAS, 1998.
ROSE, K. H. A Performance Measurement Model. Quality Progress, 1995.
SALOMI, G. G. E. et. al. Servqual x Servperf: Comparao Entre Instrumentos Para
Avaliao da Qualidade de Servios Internos. Gesto & Produo, Vol. 12 Num. 2, 2005.
SAS Enterprise, Site do software de minerao de dados. Disponvel:
http://www.sas.com/technologies/analytics/datamining/miner/index.html [acesso 10/2006].
SAYLES, L. R. Managerial Behavior. New York: Mc Graw-Hill, 1964.
SCHOELL, W. F.; IVY, J. T. Marketing: contemporary concepts and practices. Boston,
Mass.: Allyn and Bacon, 1981.
SLACK, N., CHAMBERS, S., HARLAND, C., HARRISON, A, JOHNSTON, R.
Administrao da Produo. So Paulo: ATLAS, 1997.
SIQUEIRA, H. Soares Gonalves. Formao Interdisciplinar: Exigncia Scio Poltica Para
Um Mundo Em Rede. 2004, http://www.angelfire.com/sk/holgonsi/mundorede.html acesso
em julho de 2007.
SRIA, F. G. Proposta de Alinhamento de Modelos Conceituais Para Melhoria Contnua dos
Processos da Manufatura. XII SIMPEP, Bauru, SP, Brasil, 2005.
STAUSS, B. Internal Services: Classification and Quality Management. International Journal
of Service Industry Management, Vol.6, Num. 2, 1995.
TACHIZAWA, Takeshy et. al. Gesto de Negcios Vises e Dimenses da Organizao.
2 edio, So Paulo: ATLAS, 2003.
187
TAKASHINA, Newton Tadachi; FLORES, Mario Cesar Xavier. Indicadores da Qualidade e
do Alto Desempenho: Como Estabelecer Metas e Medir Resultados. Rio de Janeiro:
Qualitymark, 1996.
TAVARES, Lourival. Administrao Moderna da Manuteno. Rio de Janeiro: Novo Plo
Publicaes, 1999.
TBOUL, James. A Era dos Servios Uma Abordagem de Gerenciamento. Rio de Janeiro:
Qualitymark, 1995.
WALTERS, D. Marketing and Operations Management: Integrated Approach to New Ways
of Delivering Value. Management Decisions, MCB Press, n.37/3, 1999.
WALTERS, D; LACASTER, G. Value and Information Concepts and Issues for
Management. Management Decisions, MCB Press, n.37/8, 1999.
WEBSTER, F. E. Market Driven Management. New York, Wiley, 1994.
WIRTH, Ruediger. CRISP-DM Position Statement. 6th ACM SIGKDD International
Conference on Knowledge Discovery & Data Mining, USA, 2000.
WIRTH, R. et al. Toward Process-Oriented Tool Support for Knowledge Discovery in
Database. 1997.
WIKSTROM, S.; NORMANN, R. Knowledge and Value: A New Perspective on Corporate
Transformation. London, Routledge, 1994.
ZEITHAML, Valarie A.; PARASURAMAN, A.; BERRY, Leonard L. Delivering Quality
Service: Balancing Perception and Expectations. Free Press, 1990
ZEITHAML, V. A. Consumer Perceptions of Price, Quality and Value: A Means-End Model
and Synthesis of Evidence. Journal of Marketing, Vol. 52, July, 1988.
XENOS, Harilaus Georgius d'Philippos. Gerenciando a Manuteno Produtiva. Belo
Horizonte: Desenvolvimento Industrial, 1998.
188
ANEXO I
Indicadores de Gesto no Setor de Telecomunicaes no Brasil
O mercado de telecomunicaes no Brasil j em 1960 estabeleceu padres de
qualidade para os servios vinculados s linhas telefnicas. Para regulamentar esses padres o
Pas criou o Ministrio das Comunicaes. Nessa poca o mercado apresentava um servio
estatal sem concorrncia e com pouco foco em servio de atendimento ao cliente as
expectativas dos clientes, chamados de Usurios.
A partir da segunda metade dos anos 90 surgiu necessidade de investimentos na rea
de telecomunicaes, sendo a privatizao do setor uma das premissas do Fundo Monetrio
Internacional (FMI) que foi imposta ao governo neoliberal do presidente Fernando Henrique
Cardoso com intuito de sanear a divida externa. Para isto foi criada a Lei 9472 de julho de
1997 que dispe sobre a organizao dos servios de telecomunicaes, e cria-se um rgo
regulador. Aspectos institucionais e da Lei Geral das Telecomunicaes aprovada em votao
na Camara dos Deputados, no Senado Federal e sancionada pelo presidente da Repblica
Fernando Henrique Cardoso. Abre-se definitivamente o mercado para a privatizao do setor,
dando incio ao perodo atual.
Aps esses movimentos legais foi aprovado o Plano Geral de Telecomunicaes em
1998 que no seu Artigo 1 constava sobre o plano geral de qualidade para o servio telefnico
fixo comutado, esse artigo for o precursor do regulamento de indicadores de qualidade que
tem os seguintes objetivos:
Art. 1 Esse regulamento estabelece as definies, mtodos e freqncia de coleta de
informaes, consolidao e envio Agncia Nacional de Telecomunicaes - ANATEL, de
indicadores de qualidade apresentados no Plano Geral de Metas de Qualidade para o Servio
Telefnico Fixo Comutado PGMQ - STFC, aprovado pela Resoluo n 341, de 20 de junho
de 2003.
Art. 2 O conjunto de informaes do presente regulamento tem por objetivo
possibilitar o desenvolvimento do processo de gesto, pela ANATEL, da qualidade do Servio
Telefnico Fixo Comutado, destinado ao uso do pblico em geral - STFC, prestado nos
regimes pblico e privado.
189
Pargrafo nico. Esse regulamento aplicvel a todas as chamadas realizadas no
mbito da rede de suporte do STFC, assim como, a todas as chamadas entre essa rede e redes
de suporte a outros servios de telecomunicaes de interesse coletivo a ela interconectada.
Nas disposies gerais em seu artigo cinco estabelece como obrigatria, pelas
prestadoras do STFC, a coleta, o clculo, a consolidao e o envio ANATEL, das
informaes relativas a todos os indicadores definidos no presente regulamento, respeitando as
particularidades das outorgas de cada prestadora. Sendo o resultado os indicadores
consolidados enviados, mensalmente ANATEL.
O servio de Internet em banda larga que surgiu no Brasil no ano de 1999, como uma
alternativa para agregar valor ao servio telefnico fixo comutado assumiu como indicadores
de qualidade aqueles que se mostraram eficientes no acompanhamento e gesto do servio
telefnico fixo.
190
ANEXO II
A Tabela AII.1 ilustra o mnimo que pode ser considerado estatisticamente
significativo com um poder de 0,80 para diversos nmeros de variveis independentes e
tamanhos de amostras.
Tabela AII. 1: Nveis de significncia.
Nvel de Significncia ()=0,01 Nvel de Significncia ()=0,05
Nmero de Variveis Independentes Nmero de Variveis Independentes
Tamanho
da
Amostra 2 5 10 15 20
Tamanho
da
Amostra 2 5 10 15 20
20 45 56 71 NA NA 20 39 48 64 NA NA
50 23 29 36 42 49 50 19 23 29 42 42
100 13 16 20 23 26 100 10 12 15 18 21
250 5 7 8 9 11 250 4 5 6 9 8
350 4 5 5 6 7 350 4 5 5 7 9
500 3 3 4 5 6 500 3 4 5 6 7
1000 1 2 2 2 3 1000 1 1 2 2 2
Fonte: Adaptado do HAIR, (2005).
191
ANEXO III
Estimativa de Custo da Taxa de abandono
Como j foi verificado anteriormente no Capitulo 2, a taxa de abandono gera um custo
para a empresa. Aqui se tenta quantificar o lucro trazido por um cliente fiel, com uma mdia
de consumo de R$ 100,00 por ms com o servio de banda larga, com uma expectativa de
receita de 10 anos a uma taxa de desconto de 13% ao ano. Isso representa teoricamente o fluxo
de caixa que esse cliente particular gera.
Inicialmente estimado o fluxo de receita do cliente, como valor futuro. A Tabela
AIII. 1 ilustra quanto se perde em faturamento por ano com a taxa de abandono.
Tabela AIII.1: Estimativa de perda.
Valor Gasto Pelo Cliente Por Ano
Taxa de Juros Ano VF
Quantidade de
Abandono / Ano
Receita R$ 1.200,00 13% R$ 1.356,00 160.508
Total de Perda de Receita
(VF*Quantidade Abandono Ano) R$ 217.648.848,00
Fonte: elaborado pelo autor.
Depois se calcula o valor gasto com uma retirada de cliente da empresa conforme a
Tabela AIII. 2. Esta Tabela identifica os valores mdios gastos com uma retirada e o total
desses em um ano.
192
Tabela AIII. 2: Valores mdios gastos com abandono.
Item Valor Quantidade Total
Retirada R$ 59,00 160508 R$ 9.469.972,00
Instalao R$ 111,00 160508 R$ 17.816.388,00
Material R$ 23,00 80254 R$ 1.845.842,00
Comisso de Vendas R$ 25,00 160508 R$ 4.012.700,00
Postos Call Center HH R$ 26.70 26751.3 R$ 714.260,60
Total R$ 33.859.162,60
Fonte: elaborado pelo autor.
Para finalmente somar os valores da receita estimada perdida com as despesas gastas
com as retiradas. Verifica-se, ento, na Tabela AIII. 3 os custos com a taxa de abandono.
Tabela AIII. 3: Estimativa de despesas com abandono.
Item Valor Por Ano
Total de Perda de Receita R$ 217.648.848,00
Despesa Total com Retiradas R$ 33.859.162,60
Total R$ 251.508.010,60
Fonte: elaborado pelo autor.
Verifica-se por meio da tabela AIII, que muito dinheiro perdido com o abandono dos
clientes no servio de banda larga, a partir das analises efetuadas nesta dissertao, fica clara a
importante de atender as necessidades e superar as expectativas dos clientes. Para essa
superao identificou-se que uma alta qualidade no servio influencia positivamente e que se
deve medir e acompanhar os indicadores de qualidade relacionando sempre, a melhoria de
qualidade do servio ao aumento de satisfao do cliente. Consequentemente isso causar uma
diminuio na taxa de abandono.
No se tem a pretenso de associar todas as perdas causadas pela taxa de abandono aos
problemas com a qualidade no servio. Nessa pesquisa encontra-se uma explicao para 50,4
% da taxa de abandono realizada no ano de 2006 que foi referente falta de qualidade.
193
Para sugerir reduo nos indicadores de qualidade de servio procurou-se analisar
parmetros de qualidades internacionais referendados pela empresa em anlise. Na Tabela
AIII. 4 mostra-se alguns dos parmetros analisados.
Tabela AIII. 4 : Parmetros de qualidade.
Indicador Mdia Melhoria Proposta
TMI 88 Horas 80 Horas
TRP 6 % 5 %
TMR 4 Horas 3 Horas
QRPR 8 % 12 %
Fonte: elaborado pelo autor.
194
ANEXO IV
Breve Histrico das Comunicaes.
O processo de comunicao visual foi desenvolvido no princpio da dcada de 1790,
pelo engenheiro francs Claude Chappe, que inventou a palavra telgrafo (do grego, escrever
distncia). Consistia em transmitir letras, palavras e frases atravs de um cdigo visualizado
a partir de 3 rguas de madeira articuladas colocadas na parte alta de um poste ou edifcio. A
primeira linha de semforos data de 1794 e ligava Paris a Lilly, distantes 225 km. Este sistema
teve larga difuso no sculo XVIII e princpios do sculo XIX na Frana e em outros Pases.
Um destes telgrafos de semforos esteve instalado no alto das Torres de So Suplicio em
Paris e foi usado para transmitir as notcias das campanhas Napolenicas. Estes processos
visuais de comunicao estavam obviamente dependentes das condies naturais de
visibilidade.
S aps a criao dos processos eltricos o telegrafo foi impulsionado de forma mpar
a velocidade e o alcance da transmisso de mensagens distncia. Um dos pioneiros foi o
mdico espanhol Francisco Salv, de Barcelona. Em 1795 transmitiu mensagens por meio da
descarga de um condensador. Em 1804, o mesmo Salv criou outro tipo de telgrafo eltrico
constitudo por fios (cada um correspondendo a uma letra), por vasos de gua nas
extremidades e por uma pilha de Volta. A letra transmitida era detectada pela formao de
bolhas gasosas formadas no vaso correspondente letra. As bolhas eram obtidas por eletrlise
da gua. Com este sistema conseguiu enviar mensagens at 1 km de distncia. Em 1812, o Dr.
Samuel Von Smmering de Munique, na Alemanha, atingiu 3 km de distncia com um
telgrafo do mesmo tipo. O seu sistema era constitudo por 24 fios ligados a 24 voltmetros
que correspondiam s 24 letras do alfabeto e mais 10 para algarismos.
Em 1832, o diplomata e baro russo Pawel Schilling inventou um sistema de telgrafo
eltrico com a inovao de necessitar apenas de 6 fios, ao contrrio dos anteriores. As letras
transmitidas eram detectadas pelo movimento de agulhas magnticas colocadas sobre bobinas.
Ao serem percorridas por corrente, as bobinas produziam campos magnticos que faziam
desviar as agulhas. Tambm os fsicos alemes Gauss e Weber fizeram funcionar um telgrafo
em 1833, baseado nos movimentos da agulha magntica.
195
O ingls William Cook viu uma demonstrao do telgrafo de Schilling em 1836 em
Heidelgerg e construiu vrios aparelhos semelhantes, associando-se a Charles Wheatstone,
professor do Kings College de Londres. O primeiro telgrafo por eles desenvolvido foi
patenteado em 1837. Tinha 6 fios e 5 agulhas magnticas, donde lhe veio o nome de telgrafo
de 5 agulhas. As agulhas eram acionadas por eletroms. Eram acionadas duas agulhas de cada
vez, pois cada letra era definida por duas agulhas. Por exemplo, a letra H era definida pelas
primeira e segunda agulha. Este sistema foi usado em 1839 em Inglaterra, entre Paddington e
West Drayton, numa distncia de 21 km, servindo para informar as posies dos comboios.
Tornou-se o primeiro servio telegrfico comercial e foi tambm o primeiro uso comercial da
eletricidade. Para chegar a este ponto foi necessrio o desenvolvimento de vrias tcnicas,
nomeadamente das pilhas eltricas, dos eletroms e da fabricao dos fios de cobre em lugar
dos fios de ferro. Mais tarde, em 1839, Cook e Wheatstone criaram um telgrafo mais simples,
o telgrafo de 2 agulhas. Podia transmitir vinte e duas palavras por minuto.
Nos Estados Unidos, o pintor Samuel Morse inventou um sistema mais prtico, com
um interruptor, um eletrom e apenas um fio. Em 1838, Morse registrou uma patente com a
descrio do seu telgrafo. Visto usar apenas um fio foi necessrio utilizar um cdigo para
cada letra constitudo por pontos, traos e espaos. Os pontos correspondiam a uma ao breve
sobre o eletrom, o trao a uma ao mais longa e o espao a uma pausa. Assim era base do
cdigo Morse.
Em 1844 este sistema foi experimentado entre Baltimore e Washington, numa distncia
de 64 km, utilizando aquele cdigo. Este sistema de Morse permitiu um grande
desenvolvimento do telgrafo. Em 1852 haviam sido instalados 64 000 km de linhas
telegrficas no mundo. Em 1848 Wheatstone construiu o primeiro telgrafo ABC, com um s
fio e um eletrom. Possua um disco que indicava as letras recebidas. Em 1851 Wheatstone
modificou o modelo para imprimir as letras numa tira de papel. Verificou-se que os
operadores de Morse facilmente decifravam o cdigo por audio dos eletroms, sem recorrer
leitura do papel, o que levou adaptao do aparelho de forma a produzir um estalido. Com
este processo a transmisso atingia as trinta palavras por minuto.
Em 1855, o professor ingls Davis Hughes inventou na Amrica o telgrafo impressor,
constitudo por um teclado no lado emissor, em que cada tecla correspondia a uma letra e por
uma mquina impressora no lado receptor. Wheatstone continuou a melhorar os telgrafos,
196
nomeadamente o de Morse. Um dos aperfeioamentos foi incluso, em 1858, de uma
perfuradora de fita de papel, o que permitiu atingir quase seiscentas palavras por minuto, pois
as mensagens eram perfuradas na fita antes de serem enviadas. Por outro lado o aumento do
trfego telegrfico trazia grandes problemas tcnicos e econmicos s empresas telegrficas
que ansiavam por aumentar a capacidade de trfego das suas linhas.
As prximas invenes vieram nesse sentido. Em 1872, o americano Joseph B. Stearns
inventou o telgrafo duplex que permitia a transmisso de duas mensagens simultneas pela
mesma linha, uma em cada sentido. Em 1872 o francs Jean-Maurice-mile Baudot, inventou
o telgrafo multiplex, que veio permitir a transmisso de duas ou mais mensagens
simultaneamente, pela mesma linha e no mesmo sentido. Edison tambm desenvolveu um
telgrafo duplex, aperfeioando o de Stearns e em 1874 demonstrando que o seu telgrafo
quadruplex era capaz de transmitir simultaneamente quatro mensagens pelo mesmo fio, duas
num sentido e duas no outro. Em 1876 ano da Exposio Centenria da Philadelphia, Gram
Bell decidiu fazer uma exibio de suas invenes a Sir. William Thomson. A Bell Telephone
foi criada em 1878, em Nova Iorque, com 5.000 aes.
As primeiras centrais telefnicas automticas
Pouco tempo aps a inveno do telefone e das centrais de comutao, surgiu a idia
de que a ligao entre as vrias linhas telefnicas poderia ser feita automaticamente, sem a
ajuda de operadores. Em uma central telefnica automtica, a prpria pessoa que quer
telefonar envia sinais eltricos especiais de seu aparelho para certos instrumentos na central
telefnica, e esses instrumentos ligam a pessoa com o telefone desejado. Em 1879, os irmos
Thomas e Daniel Connelly, juntamente com Thomas J. McTighe, patentearam o primeiro
sistema em que um usurio podia controlar um mecanismo de comutao distncia.
Esquema do sistema de comutao automtica de Connely e McTighe, o aparelho se
baseava nos telgrafos ABC de Wheatstone e era bastante primitivo, nunca tendo sido
utilizado na prtica. A parte principal do sistema era um tipo de roda dentada, semelhante aos
dispositivos utilizados em relgios, que era movida por meio de um eletrom e que s podia
girar o espao de um "dente" de cada vez. Cada vez que o eletrom recebia um pulso de
eletricidade, ele atraa uma barra metlica, e esta fazia a roda dentada girar um espao.
197
medida que a roda girava, ela ia movendo um brao metlico que entrava em contato
sucessivamente com os contatos referentes s vrias linhas telefnicas. Assim, enviando
sucessivos pulsos eltricos, era possvel escolher, distncia, a ligao desejada com um
pequeno nmero de linhas.
Em 1884, Ezra Gilliland, da companhia Bell, desenvolveu um sistema de comutao
automtica que podia trabalhar com um mximo de 15 linhas. Nesse sistema primitivo,
semelhante ao de Connely e McTighe, porm um pouco mais simples, havia um contato
metlico que se movia passo a passo, pulando de uma posio para outra, quando o usurio
apertava um boto. O nmero de vezes que o boto era apertado determinava a conexo que
era produzida. Esse sistema tambm no foi utilizado, na prtica.
O sistema automtico Strowger
O avano realmente importante ocorreu em 1889, quando um agente funerrio da
cidade de Kansas chamado Almond B. Strowger comeou a desenvolver um sistema
automtico de comutao que realmente funcionou. Conta-se que Strowger desconfiava das
telefonistas, e acreditava que elas propositadamente desviavam os chamados de seus clientes
para um outro agente funerrio. Por isso, ele resolveu inventar um sistema de comutao que
dispensasse o uso das telefonistas. Almond Strowger Aps vrios estudos e tentativas,
conseguiu construir, com a ajuda de um relojoeiro, um sistema para 100 linhas telefnicas. O
sistema foi patenteado em 1891, e no mesmo ano Strowger estabeleceu a Automatic Electric
Company para comercializar seu invento.
A primeira central telefnica automtica, utilizando o sistema de Strowger, foi aberta
em La Porte, Indiana, em 1892. Nos dez primeiros anos aps o invento de Strowger, foram
instaladas mais de 70 centrais automticas nos Estados Unidos. O sistema de Strowger era um
aperfeioamento dos aparelhos anteriores. Ele tambm tinha um dispositivo com um contato
metlico principal, mvel, que se deslocava passo a passo, acionado por eletroms,
"varrendo" diversos contatos fixos, cada um deles conectado a uma linha telefnica. Mas havia
uma diferena importante: o sistema se movia dentro de um cilindro e podia tanto girar em
torno do eixo do cilindro como tambm se mover para cima e para baixo. O cilindro tinha, em
sua parte interna, 10 fileiras com 10 contatos metlicos cada uma, totalizando 100 contatos. A
198
"vassoura" ou "escova" metlica central podia assim se deslocar facilmente e escolher um dos
100 contatos, cada um dos quais representava uma linha telefnica.
O sistema de comutao automtica desenvolvido por Strowger tem duas partes
bsicas. Uma o dispositivo existente na prpria central telefnica, que realiza as conexes
entre as linhas telefnicas. A outra um dispositivo colocado nos aparelhos dos usurios, que
permite enviar sinais central telefnica informando o nmero do telefone com o qual se quer
fazer conexo. O dispositivo precisa conectar os fios do telefone que est chamando com
qualquer uma das conexes dos outros aparelhos. Inicialmente, os usurios no dispunham de
nenhum mecanismo especial para enviar os sinais central. Eles tinham dois botes na caixa
dos seus telefones, e deviam apertar cada um deles um determinado nmero de vezes. Por
exemplo, para se conectar com o telefone nmero 34, era necessrio apertar o primeiro boto 3
vezes e o segundo boto 4 vezes. Cada vez que um boto era apertado, ele enviava um
pequeno pulso eltrico para a central e fazia o dispositivo se mover um passo. O sistema
funcionava, portanto, da seguinte forma. Quando uma pessoa queria telefonar, ela tirava o
telefone do gancho e ento apertava os botes do seu aparelho. Na central telefnica, o
dispositivo ligado a este telefone ia se movendo, primeiro na direo vertical, depois girando,
at fazer a ligao com o nmero desejado. Ento, a pessoa girava a manivela do magneto,
para produzir um sinal na campainha do nmero chamado. Durante toda a conversa, o
dispositivo Strowger se mantinha na mesma posio, ligando as duas linhas. Quando a
conversa terminava, era necessrio apertar um boto que fazia o dispositivo Strowger da
central telefnica voltar para a sua posio inicial. Se a pessoa no apertasse esse boto, seu
telefone continuaria conectado linha que havia sido chamada antes. Com um dispositivo do
tipo Strowger original, era possvel escolher apenas uma de 100 linhas telefnicas.
Seria possvel construir cilindros com maior nmero de contatos, mas isso era
complicado, sob o ponto de vista tcnico. Havia outros problemas com o sistema. Cada
telefone precisava estar ligado central telefnica atravs de vrios fios: os fios que enviavam
a voz, e outros fios que enviavam os sinais eltricos para mover o dispositivo automtico. Isso
encarecia bastante o sistema porque, o custo dos fios telefnicos era bastante alto. No caso do
primeiro tipo de sistema, com botes, era necessrio um fio para cada boto, aumentando dois
fios para uma rede de 99 telefones. Um segundo problema era que cada telefone da rede
precisava dispor do seu prprio dispositivo na central telefnica. Esses dispositivos eram caros
199
e ficava quase todo o tempo parado, pois cada usurio utilizava o telefone apenas durante uma
pequena parte do dia. Outro problema era que uma pessoa podia se conectar a um telefone que
j estava sendo usado. Nas centrais com telefonistas, isso no acontecia, porque a telefonista
sempre verificava se a linha j estava ocupada. Nas primeiras centrais automticas, no havia
nada que impedisse uma pessoa de se ligar a uma linha ocupada, e nesse caso ela podia ouvir a
conversa de outras pessoas ou intrometer-se na conversa. Por fim, cada pessoa precisava se
lembrar de apertar um ltimo boto ao terminar a conversa, para fazer o dispositivo do tipo
Strowger da central voltar posio inicial.
Aperfeioamentos do sistema Strowger
Strowger empregou algumas pessoas que ajudaram a aperfeioar o seu sistema
automtico. Em 1892, ele contratou Anthony E. Keith e, em 1894, Frank A. Lundquist e os
irmos Erickson (John e Charles). Foram essas pessoas, e no o prprio inventor, que
aperfeioaram esse sistema.
Em 1896, Strowger teve problemas de sade e se afastou da companhia que havia
criado, morrendo em 1902. Keith resolveu em 1893 um problema simples: a pessoa que
telefonava no precisava mais apertar um boto quando terminava a conversa. A prpria
colocao do telefone no gancho enviava um sinal central telefnica, que fazia o dispositivo
Strowger voltar posio inicial. Alm disso, em 1894, Keith, Lundquist e os irmos Erickson
eliminaram a possibilidade de uma pessoa se conectar a linhas j ocupadas.
Em 1896, Keith e os irmos Erickson desenvolveram um processo que eliminava a
necessidade de que os usurios ficassem apertando vrios botes. Foi colocado no aparelho
telefnico um sistema que enviava seqncias de pulsos do aparelho do usurio para a central.
Esses dispositivos empregavam discos que eram girados e que, ao voltarem para sua posio,
iam fazendo essencialmente mesma coisa que a pessoa fazia antes apertando o boto vrias
vezes. exatamente por causa desses discos, utilizados durante quase um sculo, que at hoje
utilizamos a expresso "discar um nmero", embora utilizemos telefones que no possuem
mais discos, e sim teclas. No sistema de discagem utilizado durante muitas dcadas, o
funcionamento sempre foi essencialmente o mesmo. A pessoa girava o disco at uma certa
posio (um nmero) e largava o disco. Ento, uma mola fazia o disco voltar para a posio
200
inicial, e ao mesmo tempo um mecanismo atrs dele fazia uma sucesso de contatos eltricos,
enviando uma srie de "clicks" para a central telefnica. Esses sinais produziam o mesmo
efeito que apertar o primeiro boto vrios vezes. Depois, quando a pessoa novamente girava o
disco e enviava novos sinais, o efeito produzido na central telefnica era o mesmo de apertar o
segundo boto vrias vezes. Esse sistema reduziu tambm o nmero de fios ligando cada
aparelho central telefnica. No mesmo ano em que inventaram o sistema de discagem, Keith
e os irmos Erickson comearam a desenvolver um modo de utilizar o dispositivo de Strowger
em uma rede com 1.000 linhas telefnicas. Em vez de construir um dispositivo maior, eles
resolveram utilizar dois dispositivos. A idia simples. As linhas so divididas em "troncos",
cada uma com 100 linhas. Cada tronco pode, portanto, utilizar um dispositivo Strowger
comum, com 100 posies. Utilizando 10 dispositivos Strowger, possvel fazer conexes
com 10 troncos de 100 linhas, atingindo assim 1.000 linhas.
Seletor de linha (1905) desenvolvido por Keith esse sistema, quando um usurio quer
se conectar a uma das linhas, ele disca primeiramente um nmero, que corresponde escolha
do tronco; ento, na central telefnica, um aparelho simples (um seletor com 10 posies)
estabelece sua ligao com o tronco. Ao ser conectado a esse tronco, a sua linha ligada a um
segundo aparelho, do tipo Strowger, e os dois nmeros seguintes enviados pelo usurio vo
escolher a linha exata dentro do tronco. No h limites para o sistema, pois possvel formar
10 grupos de 10 troncos (um total de 10.000 linhas), por exemplo, introduzindo mais uma
etapa da discagem. Sistema automtico tipo Strowger passo-a-passo com vrias etapas, um
telefone ligado, primeiramente, a um dispositivo que tem 10 opes, cada uma delas ligada
a um aparelho tipo Strowger com 100 ligaes, cada uma dessas 100 ligaes pode levar a um
outro aparelho Strowger, e assim por diante. Uma central desse tipo (com dois estgios) foi
instalada em 1897, para 400 linhas, cada telefone tinha, na central, um seletor simples de
apenas 4 posies, e 4 dispositivos do tipo Strowger de 100 posies. Portanto, a central
telefnica tinha, ao todo, 400 seletores simples e 1.600 dispositivos do tipo Strowger. O
sistema funcionou, mas era extremamente caro. Para redes com nmero ainda maior de linhas,
o sistema se torna proibitivamente dispendioso. Portanto, embora o sistema pudesse ser
aumentado de forma ilimitada, seu custo aumentava tanto que o tornava invivel para redes
grandes.
201
O sistema passo-a-passo
Esse tipo de problema foi resolvido por Frank Lundquist, que havia sado da
companhia de Strowger em 1896 e desenvolvido um novo processo, que foi patenteado em
1897. A idia consistia essencialmente em utilizar um menor nmero de dispositivos na
central telefnica automtica, levando em conta que, da forma como o sistema funcionava,
quase todos os dispositivos ficavam a maior parte do tempo sem funcionar. Na prtica, como
apenas cerca de 10% dos telefones era utilizado ao mesmo tempo, o nmero de dispositivos
realmente utilizados a cada momento era ainda menor. Portanto, devia haver um modo de, em
vez de ter um conjunto de dispositivos Strowger para cada linha telefnica, utilizar um nmero
menor, partilhado por todos. Como fazer isso? Lundquist imaginou que bastaria introduzir um
novo seletor que procurasse um dispositivo desocupado para usar. Vamos imaginar,
primeiramente, uma rede com apenas 100 linhas, que exigia (pelo sistema antigo) 100
dispositivos do tipo Strowger. Pode-se agora construir uma central telefnica que tenha apenas
10 desses dispositivos. Cada um deles serve para fazer conexes com todas as 100 linhas, mas
eles no "pertencem" a nenhum assinante em particular. Eles ficam disponveis, esperando que
algum precise deles. Para que possam ser partilhados, necessrio haver um pr-seletor, ou
seletor de dispositivo desocupado. Cada linha telefnica, ao chegar central, ligada a um
pr-seletor desse tipo. No exemplo que estamos considerando, esse pr-seletor tem 10
posies diferentes, podendo ser ligado a cada um dos 10 dispositivos Strowger. Quando uma
pessoa quer fazer uma ligao e tira o telefone do gancho, esse pr-seletor colocado em
movimento na central e vai girando de posio em posio e testando, at encontra um
dispositivo do tipo Strowger desocupado. Ento, um som especial ouvido pela pessoa que
est querendo fazer a ligao, e ela pode discar o nmero desejado, enviando os sinais
eltricos para o seletor Strowger que foi selecionado. Quando termina a ligao, esse
dispositivo Strowger fica desocupado, e pode ser utilizado por outra pessoa. Esse novo tipo de
sistema, embora introduza uma etapa a mais, utiliza um menor nmero de dispositivos
seletores, e por isso muito mais barato. Assim, o sistema de ligao de uma linha a outra
linha telefnica utiliza uma seqncia de etapas, passando por vrios dispositivos encadeados.
Esse sistema chamado "passo-a-passo".
202
Uma central para 4.000 linhas foi instalada em New Bedford (Estado de
Massachusetts), e depois em outros locais (principalmente fora dos Estados Unidos). Esse
sistema foi aperfeioado e adotado no mundo todo, at 1926, quando foi introduzido o sistema
crossbar na Sucia. O servio de comutao automtica se expandiu mais fortemente na
Europa (especialmente na Frana), na primeira dcada do sculo XX. Na dcada de 1910, as
centrais automticas se espalharam nos Estados Unidos, mas apenas entre os sistemas
telefnicos "independentes" (isto , os que no pertenciam ao sistema Bell). A Bell passou a
utilizar no incio do sculo XX algumas pequenas centrais automticas em vilas e regies
rurais em que era difcil treinar e empregar telefonistas, mas apenas na dcada de 1910
comeou a se preocupar com a necessidade de centrais automticas exigidas por grandes
cidades. Somente na dcada de 1920 prpria Bell adotou o sistema automtico, utilizando
telefones com discos, que passou a ser chamado de "sistema francs", embora tivesse sido
inventado nos Estados Unidos. A substituio das centrais manuais foi lenta: at 1936, 52%
das centrais dos Estados Unidos utilizavam telefonistas.
Histrico das Telecomunicaes no Brasil.
Observa-se o universo das telecomunicaes ao longo de sua existncia, em trs
importantes perodos evolutivos:
1. A inveno e universalizao do telefone,
2. a digitalizao do sistema de telefonia e
3. a convergncia total das plataformas de telecomunicaes.
O primeiro ciclo teve como precedente a inveno do telgrafo, em 1837, iniciando-se
efetivamente, em 1876, com a criao do telefone. Com durao de aproximadamente 90 anos,
o primeiro grande ciclo das telecomunicaes foi marcado, fortemente, por grandes
descobertas e invenes, encerrando-se com as primeiras ligaes DDD (Discagem Direta a
Distncia), em 1960.
A partir da dcada de 60, um novo ciclo teve incio, estendendo-se at os dias atuais.
Essencialmente voltadas digitalizao dos sistemas de telecomunicaes, suas caractersticas
203
principais vm sendo: a compactao constante do hardware, implicando em equipamentos
cada vez menores, e o aumento crescente do software, acarretando em capacidades de
processamento de informaes cada vez maiores. Nesta fase, alm dos servios de voz, a
comunicao de dados passou, gradativamente, ocupar maior espao nas telecomunicaes. O
processo de digitalizao iniciou, com maior abrangncia, sobre os sistemas de transmisso,
utilizando a tcnica de digitalizao de sinais denominada PCM (Pulse Code Modulation).
Com menor intensidade nos primeiros anos, a digitalizao foi tambm, aos poucos, sendo
introduzida no ambiente das centrais telefnicas, atravs de equipamentos com tecnologia
CPA (Controle por Programa Armazenado). Finalmente, as redes de acesso de ltima milha,
que permaneciam analgicas quase que em toda extenso, comearam a ser equipadas,
parcialmente, com sistemas digitais. As solues mais utilizadas so compostas por
dispositivos digitais compactos (pticos e eltricos) PDH e SDH, Modems pticos e enlaces de
rdio digital.
Estas solues tm possibilitado a digitalizao dos meios de acesso para grandes e
mdios usurios. Outra forma, que permitiu aumentar o ndice de digitalizao da rede de
acesso de ltima milha, foi introduzida atravs de terminais RDSI (Rede Digital de Servios
Integrados). Na dcada de 80 as linhas ADSL comearam a ser desenvolvida na Europa e nos
Estados Unidos, esta tecnologia emergente vinha para suportar as aplicaes de vdeo
conferencia entre dois pontos, o que convencionamos chamar na literatura tcnica de circuitos
ponto-a-ponto.
No ano 2000 as empresas telefonias brasileiras iniciaram um processo de vendas
baseadas em um produto de grande valor agregado telefonia fixa, chamado ADLS, o sistema
era baseado em uma tecnologia avanada, e de algoritmos criativos, com o intuito de se obter
a compresso das informaes sobre o par de linhas metlicas.
Em julho 2002, o ITU finalizou as recomendaes G.992.3 (G.dmt.bis) e G.992.4,estes
dois novos padres para a tecnologia ADSL, foram denominados pelos seus criadores de
ADSL2, como aluso a uma verso melhorada da tecnologia ADSL. Em janeiro 2003, ao
mesmo tempo em que o nmero de usurios da primeira gerao do padro ADSL passou da
marca de 30 milhes, a recomendao G.992.5 foi oficialmente adicionada famlia ADSL2
com o nome ADSL2plus, ou simplesmente ADSL2+ como usualmente conhecido. Diversas
204
outras caractersticas e melhorias foram incorporadas tambm na forma de novos anexos e
recomendaes.
As prestadoras de servio de acesso banda larga e os usurios desempenharam um
papel importante na concluso das recomendaes do padro ADSL2, j que os resultados
obtidos a partir do uso prtico do ADSL puderam ser incorporados pelo ITU nessas
recomendaes na forma de novas funcionalidades ou de melhorias de desempenho. Como
conseqncia, o ADSL2 proporciona um uso mais amigvel para os assinantes, e torna-se
mais rentvel para os prestadores de servio, mantendo e ampliando o grande sucesso do
ADSL.
O ADSL2 (ITU G.992.3 e G.992.4) apresenta novas caractersticas e funcionalidades
que tm o objetivo de melhorar o desempenho e a interoperabilidade, e adiciona suporte para
novas aplicaes e servios, e para novas formas de implementao dos servios. Entre as
novas caractersticas oferecidas podem-se destacar as melhorias na taxa de bits e na distancia
do enlace, o ajuste adaptativo de taxa de bits, as novas facilidades de diagnstico, e a nova
modalidade stand-by para o controle do uso de energia. O ADSL2+ (ITU G.992.5) duplica a
largura da banda usada para a transmisso de dados downstream, duplicando tambm as taxas
de bits downstream, e conseguindo taxas de at 20 Mbit/s em linhas telefnicas com distncias
de at 1,5 km. As solues que usam o ADSL2+ geralmente so do tipo multmodo, ou seja,
permitem operao conjunta, na mesma infra-estrutura, do ADSL, do ADSL2, e tambm dos
Chipsets ADSL2+.
O ADSL2+ permite que os prestadores de servio possam evoluir suas redes para
suportar servios avanados, tais como as aplicaes de Vdeo, de forma flexvel, permitindo
que uma nica soluo possa atender tanto os servios em enlaces curtos (mais prximos da
estao telefnica) como os servios em enlaces longos (mais distantes da estao telefnica).
Alm disso, o ADSL2+ inclui todos os benefcios das caractersticas e do desempenho de
ADSL2, ao mesmo tempo em que pode operar com os equipamentos legados da verso ADSL.
Desta forma, os prestadores de servio podem oferecer a nova tecnologia ADSL2+ nas
suas redes sem ter que atualizar os equipamentos existentes, permitindo uma transio gradual
para servios avanados. Sendo assim esta tecnologia se mostra atualmente como o futuro das
linhas banda larga no mundo.
205
ANEXO V
Regresso Linear Mltipla Utilizando o Software SPSS
O pakage estatstico SPSS para windows um sistema de anlises estatsticos e
manuseamento de dados, num ambiente grfico, em que utilizao mais freqente, para a
maioria das anlises, se resume a seleo das respectivas opes de menus e caixas de
dilogos.
Editor de Dados
O editor de dados do SPSS um programa do tipo planilha de calculo que permite criar
ou editar dados. Muitas das caractersticas do editor so similares aos das planilhas execel.
Cada clula contm um valor ou uma observao de um indivduo, em relao a uma
determinada caracterstica ou varivel. As clulas podem apenas conter valores numricos ou
alfanumricos, no sendo permitido definir formulas em clulas.
Importao de Base de Dados Externos
O programa dispoem de uma rotina de importao de Base de Dados criados em outras
aplicaes, nomeadamente planilhas de calculo, banco de dados, bases ASCII. Nessa pesquisa
importaram-se os dados dos indicadores contidos em uma planinha Excel, conforme mostrado
na figura AV.1 a seguir:
Figura AV.1 Importao de Dados.
Fonte: SPSS adaptado pelo autor.
206
Os arquivos em Excel so constitudos por diversas planilhas, a rotina de importao
assegurada pelo protocolo Open Database Connectivity (ODBC), que um mtodo padro de
importao de partilha de dados entre bases de dados e outros programa. Os controladores
ODBC utilizam a linguagem SQL (Structured Query Language) padro para acessar dados de
origens exteriores.
Aps a importao concluda utiliza-se dos passos conforme mostrada na figura AV.2,
para estimar uma equao linear mltipla:
Figura AV.2: Regresso linear mltipla por meio do SPSS.
Fonte: SPSS adaptado pelo autor.
A seguir se seleciona a opo de regresso linear conforme mostrado na caixa de
dialogo da figura AV.3:
Figura AV.3: Representao da seleo das variveis.
Fonte: SPSS adaptado pelo autor.
207
No campo de variveis independentes esto includas todas as variveis explanatrias.
O mtodo de calculo pode ser selecionado entre os mtodos seqenciais (Stepwise, Backward,
Forward) ou combinacionais (Enter).
Ao selecionar o boto Statistics, se faz as escolhas das opes de descries das
variveis bem como os testes estatsticos pertinentes a analise conforme mostra a figura AV.4:
Figura AV.4: Seleo dos dados estatsticos.
Fonte: SPSS adaptado pelo autor.
Por meio da seleo do boto Plots, se faz a escolha dos grficos que devem ser
gerados pelo software SPSS, conforme mostrado a seguir:
Figura AV.5: Seleo dos grficos estatsticos.
Fonte: SPSS adaptado pelo autor.
208
Ao se selecionar o boto Options, se faz a escolha da probabilidade F que deve ser
usado pelo software SPSS.
Figura AV.6: Escolha da probabilidade F.
Fonte: SPSS adaptado pelo autor.
Por fim tecla-se o boto OK conforme mostrada na figura AV.3 para se encerrar a
pesquisa encontrando-se as tabelas e grficos apresentados nesta dissertao.