You are on page 1of 8

Caracterização, Visualização e Classificação na Manutenção Preditiva

† ‡
Paulo M. Oliveira*, Victor Lobo*, Victor Barroso , Fernando Moura Pires

*Escola Naval, Departamento AEL, Alfeite, 2800 Almada (pmonica@mail.telepac.pt)



Instituto Superior Técnico ISR/DEEC, Torre Norte, Piso 7, Av. Rov. Pais, P-1096 Lisboa Codex (vab@isr.ist.utl.pt)

Departamento de Informática, FCT – UNL, 2825-114 Caparica (fmp@di.fct.unl.pt)

ABSTRACTO acessíveis externamente, e suficientemente


representativas do estado que se pretende conhecer
Nos últimos anos, tem havido um incremento e/ou da evolução de estado que se pretende prever?
considerável no esforço de investigação relacionado Se não houver, o problema será simples: não será
com a manutenção preditiva. Com efeito, a possível fazer manutenção preditiva. Mas assumindo
necessidade crescente de optimização do esforço de que esses observáveis existem, como é que os
manutenção tem vindo a aumentar o interesse em identificamos? Caso a caso? Haverá tipos de
conseguir criar mecanismos automáticos de análise abordagem suficientemente genéricos para
de condição. No entanto, nem sempre se torna claro funcionarem em todos os casos? A resposta é, claro,
qual o parâmetro (ou parâmetros) que, estando sim e não. Sim, deveremos fazer a análise caso a
acessíveis ao observador exterior, conseguem, de caso, e não, não há métodos genéricos de abordagem
modo consistente e fiável, indicar (ou caracterizar) a que funcionem em todos os casos.
existência de falhas potenciais no sistema.
Neste artigo pretendemos abordar, de forma não Há, porém, métodos de abordagem que se têm
exaustiva, algumas metodologias de abordagem que vindo a revelar eficazes em certos tipos de situação.
podem ser utilizadas. Serão abordados os algoritmos Um deles é o da análise de vibrações.
de processamento que têm vindo a ser, ultimamente,
preferidos, com ênfase particular nos mecanismos de Falar em análise de vibrações tem sido, em
extracção de características espectrais. Serão grande parte, falar de análise espectral, ainda que a
apresentados exemplos recentes e ilustrativos do relação entre estes dois campos não seja directa.
desempenho que esses tipos de abordagem nos Mesmo assumindo (de forma restritiva), que a análise
poderão fornecer. de vibrações implique a análise de movimentos
periódicos, ainda assim não é imediato que isso
I - INTRODUÇÃO implique análise espectral. Há todo um conjunto de
técnicas para análise de periodicidades sem recurso a
O conceito de manutenção preditiva tem-se vindo técnicas espectrais. Mas é de técnicas espectrais que
a afirmar como uma das ideias base de suporte ao trataremos neste artigo.
sempre crescente esforço de racionalização e
optimização do esforço de manutenção. Numa primeira parte, abordaremos sucintamente
as limitações da análise espectral convencional.
Como conceito, é extremamente simples. Tudo se Passaremos depois a abordar métodos mais recentes
resume à utilização de observáveis externas que que, devido à alteração dos paradigmas fundamentais
possam não só caracterizar o estado interno de um em que assentam, têm vindo a demonstrar serem
equipamento, mas também prever a sua tendência de capazes de fornecer observáveis externos com rigor e
evolução. Conseguir-se-á assim evitar acções de fiabilidade acrescidos.
manutenção desnecessárias e/ou contraproducentes,
minimizando simultaneamente a probabilidade de Numa segunda parte, abordaremos o tipo de
avaria por falta de manutenção. algoritmos que, baseados nesses observáveis
externos, poderão fazer diagnósticos de condição,
Como ferramenta de trabalho, porém, as prognósticos de evolução, ou, na sua versão mais
dificuldades são bem maiores. O maior problema simples, servir de meros auxiliares à decisão humana.
reside, claro, na identificação (ou na própria
inexistência) dos tão desejados “observáveis externos II - ANÁLISE ESPECTRAL CONVENCIONAL,
representativos do estado interno”. Haverá, em cada E SUAS LIMITAÇÕES
caso particular, características mensuráveis,
Com a expressão análise espectral convencional
pretendemos aqui englobar todos os métodos Se pretendermos extrair bons observáveis,
(clássicos e modernos) de análise espectral cujos capazes de servir de base a algoritmos (automáticos
resultados não contenham o tempo como variável ou não) de decisão sobre o estado interno dos
independente. Ou seja, métodos com os quais equipamentos, necessitaremos de ferramentas mais
obtenhamos descrições espectrais dos fenómenos poderosas, que consigam fornecer informação
analisados, mas sem indicação dos seus momentos de espectral sem perder, nesse processo, a informação
ocorrência. temporal.

A análise de Fourier é, claramente, um caso A busca por este tipo de métodos iniciou-se há já
paradigmático desta classe de métodos. Quando algumas décadas (ver [1]). A primeira aproximação
fazemos a decomposição de Fourier ( S ( f ) ) do sinal ao problema foi extremamente simples. Se os
métodos conhecidos não conseguiam lidar
gravado ( s ( t ) ), a variável t (tempo) desaparece da
convenientemente com períodos de observação em
nossa descrição do fenómeno, como se pode que o conteúdo espectral dos sinais sofresse
facilmente apreciar em (1). alterações, então tudo o que havia a fazer era
∞ subdividir o sinal observado em blocos
∫ s(t ) e
− j 2πft
S( f ) = dt (1) suficientemente pequenos para que, dentro de cada
−∞ um deles, o conteúdo espectral do sinal fosse
aproximadamente constante. Particularizando
Este tipo de abordagem tem a enorme vantagem novamente para o caso da transformada de Fourier,
de ser intuitiva, já que consiste, de forma mais ou tudo se resume à subdivisão do sinal observado em
menos directa (dependendo do método em causa ) na blocos menores (dentro dos quais se possa considerar
mera decomposição dos sinais recolhidos em funções o espectro constante), e à obtenção de uma
elementares (exponenciais complexas) que transformada de Fourier para cada um deles. A
correspondem directamente à noção física do dinâmica espectral do sinal sob análise estará patente
conceito de frequência. Esta vantagem é, porém, nas diferenças espectrais entre blocos sucessivos.
também a sua maior fraqueza. Uma exponencial Este procedimento (ainda hoje bastante utilizado)
complexa tem uma frequência bem definida, mas não ficou conhecido pelo nome de Short-Time Fourier
tem início nem fim. Dura para sempre. Determinar Transform (STFT).
quais são as exponenciais que constituem um sinal
diz-nos pois quais as frequências que ele contém, mas É claro que, quando pretendermos implementar a
nada nos diz sobre o momento em que essas STFT, teremos uma decisão a tomar: de que tamanho
frequências ocorreram. Se, por outro lado, deverão ser os blocos? A resposta não é fácil. Na
permanecermos no domínio do tempo, saberemos verdade, para obter a resposta correcta, precisaríamos
quando ocorreram os efeitos registados, mas não de conhecer o sinal. Mas conhecer o sinal é
teremos informação espectral sobre eles. Parece, pois, precisamente o nosso objectivo. Se utilizarmos
que a extracção de informação relativa a um dos blocos demasiados longos, perderemos a capacidade
domínios nos impede de ter informação sobre o de detectar transientes e outros fenómenos de duração
outro, e que não será possível fazê-los coexistir. inferior à de um bloco, já que cada bloco será tratado
pela transformada de Fourier como tendo um
Para piorar um pouco as coisas, todos os métodos espectro constante. Por outro lado, se, na esperança
convencionais produzirão valores médios para o de detectarmos fenómenos de curta duração,
período de observação do sinal recolhido. Este efeito reduzirmos demasiado a duração de cada um dos
é facilmente perceptível, no caso particular da blocos, então perderemos a capacidade de análise
decomposição de Fourier, pela mera existência do espectral, já que a capacidade de resolução em
integral em (1). O facto de obtermos valores médios frequência é inversamente proporcional à duração do
para o período de observação tem o efeito perverso bloco em análise. No que respeita a transientes de
de fazer com que a grande maioria dos efeitos curta duração, a escolha parece pois estar entre
transientes não sejam detectados. Um transiente de sermos capazes de os detectar mas sem os conseguir
curta duração, ainda que intenso, em pouco analisar devidamente, ou não os detectarmos de todo.
influenciará os valores médios do período de
observação. Ou seja: os métodos de análise espectral III - ANÁLISE TEMPO FREQUÊNCIA
convencionais não só não nos localizarão
temporalmente os transientes, como, ainda para mais, Na tentativa de colmatar as insuficiências da
nos dificultarão bastante a sua detecção. STFT, vários métodos têm sido sugeridos, com maior
ou menor sucesso. Desses métodos, ir-nos-emos forma eficaz, a informação que a distribuição contém.
restringir à classe das distribuições bilineares tempo- Esses observáveis poderão, depois, ser entregues a
frequência. Estas distribuições conseguem-nos um classificador automático.
fornecer uma descrição espectral do sinal recolhido
num plano bidimensional, cujos eixos são o tempo e a IV - A FUNÇÃO DE AMBIGUIDADE
frequência. Ou seja. Ao contrário dos métodos
convencionais de análise espectral, estas distribuições Mas como reduzir o número de observáveis?
conseguem caracterizar a evolução do espectro do Escolher apenas alguns dos N2 pontos? Quais? O
sinal ao longo do tempo, lidando facilmente com a problema está em que os pontos que identificam um
existência de dinâmica espectral dentro do bloco em determinado transiente poderão ser diferentes de cada
análise. Como exemplo ilustrativo do seu vez que o transiente ocorre, já que basta não termos a
desempenho, veja-se a Figura 1, onde se representa imagem do segundo transiente temporalmente
um sinal monocomponente, cuja frequência central alinhada com a imagem do primeiro para que os
varia sinusoidalmente dentro do bloco analisado. pontos que caracterizam o transiente sejam diferentes
num e noutro caso. Se conseguíssemos o alinhamento
temporal das distribuições relativas a um mesmo
transiente, poderíamos efectivamente escolher alguns
pontos característicos do transiente e, assim, reduzir a
dimensionalidade do problema. Obter este
alinhamento é normalmente, porém, um problema
bem maior do que o nosso problema inicial.

A solução para este impasse encontra-se na


própria estrutura matemática das distribuições
bilineares tempo-frequência ( TF (t , f ) ).

Todas estas distribuições podem ser obtidas a


partir da seguinte expressão geral [2]:
Figura 1 - Distribuição Tempo-Frequência de
sinal com dinâmica espectral. TF (t , f ) = ∫ ∫ ∫ Ψ (u , υ , τ ) e j 2π (υu −υt −τf ) dυ du dτ ,

Como se vê nesta figura, a distribuição detectou e onde


caracterizou perfeitamente a dinâmica espectral do τ τ
sinal. Ψ (u , υ , τ ) = φ (υ , τ ) s (u + ) s* (u − ),
2 2
Por conseguir evidenciar comportamentos os limites de integração são − ∞ e + ∞ , e s * (t ) é o
dinâmicos que, com recurso a métodos complexo conjugado do sinal em análise.
convencionais de análise espectral, não seriam
detectados, estas distribuições conseguirão, Isto quer dizer que estas distribuições mais não
potencialmente, produzir mais e melhores são do que a transformada de Fourier bidimensional
observáveis, emprestando uma maior solidez à fase duma versão modificada da Função de Ambiguidade,
de classificação dos sinais observados, e consequente função esta bem conhecida de outros campos,
diagnóstico do estado interno do equipamento. nomeadamente de teoria radar e sonar [3]. Assim, em
vez de tentarmos extrair observáveis a partir da
Nem tudo são rosas, porém. Ao utilizar uma distribuição tempo-frequência, podemos, de forma
destas distribuições, a dimensionalidade do problema perfeitamente equivalente, extraí-los a partir da
aumentou quadraticamente. Se, antes da distribuição, função de ambiguidade do sinal recolhido. A
tínhamos, digamos, N pontos observados, a imagem vantagem é imediata. Os desalinhamentos temporais
produzida pela distribuição terá N2 pontos. Para no plano tempo-frequência transformam-se, no plano
qualquer N realista, isto implica um número de de ambiguidade, em meras diferenças de fase e
pontos com os quais nenhum classificador automático tornam-se, portanto, em grande medida, irrelevantes.
conseguirá lidar. Torna-se, assim, necessário abordar Assim, no plano de ambiguidade, é perfeitamente
o problema de como extrair, a partir do resultado de possível decidir quais os pontos que, de forma
uma distribuição tempo-frequência, um número óptima, caracterizam e separam as várias classes de
reduzido de observáveis que consigam sumarizar, de transiente que pretendemos detectar. São estes os
pontos que devemos entregar ao classificador Para mais que três parâmetros, esta solução torna-
automático, como sendo os observáveis obtidos. Se, a se impraticável. Neste caso, os parâmetros formam
T
título de exemplo, apenas usarmos pontos do plano um vector n-dimensional X = [ x1,x2,….,xm] . Um dos
de ambiguidade que estejam no eixo Λ=0, estaremos modos de visualizar esse vector seria, por exemplo,
a caracterizar os transientes apenas pelo seu conteúdo projectá-lo sobre um espaço bi-dimensional. Mas será
espectral; se usarmos apenas pontos do eixo ϑ=0, que essa projecção contém toda a informação do
estaremos a caracterizar os transientes apenas pelas vector original ? Só em casos muito particulares.
suas características temporais. Qualquer ponto que
não pertença a estes eixos caracterizará o transiente Se a dimensão intrínseca dos sistema, ou seja o seu
em termos mistos, tanto temporais como espectrais. É número de graus de liberdade, for de facto 2, é
assim possível trazer o número de pontos necessários possível fazer um mapeamento para 2 dimensões sem
para uma boa detecção/classificação para valores qualquer perda de informação. Há no entanto duas
entre os 5 e os 10 pontos apenas. situações possíveis:

V - VISUALIZAÇÃO • Se os pontos definidos pelos vectores de


parâmetros estiverem todos sobre uma superfície
Após termos obtido os valores para os parâmetros plana, então os parâmetros que estamos a usar
que caracterizam o sistema temos que decidir o que são linearmente dependentes. Neste caso, através
fazer esses valores. Como veremos mais adiante, é de simples manipulações algébricas podemos
possível ter um classificador automático, que com obter 2 parâmetros (ortogonais entre si) que
esses valores é capaz de atribuir um estado ao caracterizam completamente o sistema.
sistema. No entanto, essa informação pode ser pouco
rica para os operadores do sistema que normalmente • Se os pontos definidos pelos vectores formarem
gostariam de poder, de alguma forma, “ver” o que se uma superfície curva, então não é possível, no
está a passar. Por outro lado, o desenho do caso geral, fazer uma projecção linear para um
classificador automático implica um certo plano bi-dimensional. Imaginemos por exemplo
conhecimento sobre os dados que só pode ser obtido a trajectória de um insecto sobre um tapete
através de uma análise exploratória desses mesmos enrolado. Embora saibamos que é possível
dados. Por estas duas razões, os processos de mapear essa trajectória sobre um espaço bi-
visualização de dados têm uma grande importância, dimensional (a superfície do tapede), tal não
havendo muitos pacotes de software dedicados pode ser feito linearmente. De facto os métodos
exclusivamente a “visualização científica de dados”. clássicos apenas conseguem fazer mapeamentos
não-lineares para casos muito específicos. No
Para um único parâmetro, a visualização é trivial, entanto, há vários métodos baseados em
pois basta um vulgar manómetro para transmitir ao inteligência artificial que nos permitem fazer
utilizador toda a informação. Mas, se tivermos muitos esses mapeamentos, como por exemplo os SOM
parâmetros o elevado número de manómetros tornaria -Self-Organizing Maps, que veremos adiante.
muito difícil a interpretação do todo. Se tivermos 2
ou 3 parâmetros ainda conseguimos representar a Se a dimensão intrínseca do sistema for maior
informação através de um gráfico a 2 ou 3 dimensões, que dois, há que distinguir ainda duas situações:
passando a interpretar os parâmetros recolhidos (que
podem ou não ter uma interpretação física imediata 1. O sistema pode ser aproximado por um sistema
como temperatura, frequência instantânea, taxa de de dimensão 2 sem perder demasiada
variação da frequência, etc) como coordenadas num informação.
espaço cartesiano, a que chamamos espaço de
características (ou espaço de features). Neste espaço, Neste caso, se o sistema for basicamente linear,
determinadas zonas estarão associadas a é possível fazer uma decomposição em
determinadas situações características (bom componentes principais (por exemplo através de
funcionamento, falta de lubrificação, avaria, etc). A uma transformada de Karhunen-Loéve [4] ).
evolução dos parâmetros no tempo define trajectórias Este caso é fácil de detectar, pois se ao fazer a
do sistema nesse espaço. Essas trajectórias conterão descomposição em componentes principais
claramente informação relevante sobre a tendência verificarmos que duas dessas componentes são
que o sistema está a seguir. Operador pode assim de facto muito mais significativas que as outras,
visualizar facilmente a tendência de evolução do então a aproximação é válida.
sistema. Se o sistema estiver longe de ser linear uma
decomposição em componente principais
lineares não pode dar bons resultados, e não Neurónios do SOM (Espaço de saída )
existem ferramentas matemática para calcular as
componentes principais não lineares para um
caso genérico. Mais uma vez as técnicas
baseadas em inteligência artificial como o SOM
conseguem nestes casos fazer mapeamentos
aceitáveis.

2. O sistema não pode ser aproximado por um


sistema de dimensão 2 sem cometer erros
demasiado grandes.

Se a dimensão intrísica do sistema for de facto


muito alta, então não é de todo possível fazer Vector dos Parâmetros de entrada (n-dimensional)
um mapeamento global para 2 dimensões. No
entanto, é possível aproximar o sistema Figura 2 - Estrutura de um SOM
localmente (ou seja, para pequenas Quando o SOM está treinado para uma dada
perturbações) através de um mapeamento para tarefa, os neurónios que são vizinhos na grelha de
duas dimensões. O mapeamento global assim saída correspondem a situações parecidas (ou seja
obtido terá descontinuidades, mas continuará a correspondem a pontos próximos no espaço de
ser útil para fazer a visualização do características). Cada vez que lhe apresentamos um
comportamento do sistema. vector de parâmetros obtemos um neurónio vencedor,
que representa o estado em que o sistema se encontra.
Com o evoluir dos parâmetros, outros neurónios
Este último caso (sistemas de dimensão intrínseca passarão a ser vencedores, e a sucessão destes
muito elevado) ocorre frequentemente, e por isso neurónios define uma trajectória no espaço de saída.
têm-se desenvolvido vários métodos de mapeamento Se associarmos a determinados neurónios situações
não linear de espaços n-dimensionais para espaços bi- bem conhecidas (uma dada avaria, bom
dimensionais. Neste artigo vamo-nos debruçar sobre funcionamento, etc) podemos ter uma ideia muito
um desses métodos, os SOM-Self-organzing Maps, razoável do tipo de evolução que está a ocorrer, e
também conhecidos como redes neuronais de tomar as medidas apropriadas (ver Figura 3).
Kohonen, ou mapas topológicos.
Mapa de Indicador da sitação
SOM Menus
Classificação actual do sistema
Um SOM consiste numa grelha n-dimensional
(quase sempre bi-dimensional) de neurónios (ver
Figura 2). Cada neurónio é composto por um vector
de pesos, um somador/multiplicador, e eventualmente
uma “etiqueta” que identifica o estado que esse
neurónio representa. O valor de saída de um neurónio
é o produto interno entre o seu vector de pesos, e o
vector de dados que está a ser apresentado à rede. Em
vez do produto interno, pode ser usada qualquer
medida de distância entre os dois vectores. Chama-se
neurónio vencedor, ao neurónio que tiver maior valor
de saída.

Legenda

Figura 3 - Exemplo da visualização de um SOM


numa aplicação para MS-Windows desenvolvida
pelos autores
Como é que se obtém um SOM treinado ? A estaremos num estado de avaria ou pré-avaria.. No
solução é inicializar os neurónios com valores entanto nesse caso já não estamos apenas na presença
aleatórios, e passar por uma fase de treino em que se de um sistema de visualização, mas estamos já na
vão apresentando conjuntos de parâmetros para que a presença de um sistema classificador.
rede se ajuste a eles. Á medida que o treino decorre,
os neurónios vão-se espalhando pelo espaço de VI – CLASSIFICAÇÃO
características, indo concentrar-se nas zonas onde a
densidade de probabilidade de se encontrar o estado Embora, como acabámos de ver, uma ferramenta
da máquina é maior. O SOM forma como que um de visualização possa ser usada como um
“tapete elástico” que é torcido espacialmente, de classificador, o problema da classificação deve ser
modo a que qualquer estado do sistema tenha sempre abordado com outro tipo de ferramentas.
um pedaço de “tapete” por perto, que o representa. A
definição formal do algorítmo [5] é a seguinte: Formalmente, o problema clássico da clas-
sificação é descrito da seguinte forma:
Para cada vector de caracterísicas X =
[x1,x2,….,xm] T fazer o seguinte: Dado um vector de m características
(features) X = [ x1,x2,….,xm]T pretende-se
1. Calcular a distância a cada um dos neurónios determinar a qual das c classes c1, c2… cn
Wij. ele pertence.

dij = || Xk - Wij || Se considerarmos que há um erro quando a classe


atribuída é diferente da classe real, e se todos os erros
2. Seleccionar o neurónio que estiver mais tiverem a mesma “gravidade”, então o classificador
próximo como neurónio vencedor. óptimo, porque minimiza o número de erros, é aquele
que maximiza a probabilidade à posteriori P( ci | X ).
Wvencedor = ( Wij : dij = min( dmn) ) Se conhecermos perfeitamente a distribuição do
vector X para cada classe, ou seja P( X | ci ), e a
3. Modificar os pesos de cada neurónio de acordo probabilidade de cada classe, P(ci), então
com a regra: conseguimos encontrar o classificador óptimo, visto
que P( ci | X )= P( X | ci ) P(ci) / P(X), e o termo P(X)
Wij = Wij + α h(Wvencedir r,Wij) || Xk – Wij || pode ser eliminado pois é independente da classe.

Onde Infelizmente, os pressupostos do classificador


α é o ritmo de aprendizagem, que tende para descrito raramente se verificam. Por um lado, é
0 ao longo do treino. frequente que haja custos diferentes associados a
h(.,.) é a função de vizinhança do neurónio cada tipo de erro (é mais grave dizer que uma
vencedor, que tem um valor alto se o máquina avariada está boa do que o oposto). Este
neurónio em causa está perto do vencedor, e problema pode ser resolvido, introduzindo uma
baixo em caso contrário. Esta vizinhança função de custo para cada erro. Por outro lado,
também tende para 0 durante o treino. geralmente não se conhece perfeitamente a
distribuição do vector X para cada classe, o que
4. Repetir o processo com outro vector de constitui uma dificuldade bem maior.
características até que um dado critério de
paragem seja atingido. A melhor maneira de estimar a distribuição de X
para cada classe, P( X | cI ), é observando amostras
Depois de ajustados os pesos dos neurónios, recolhidas cuja classe conheçamos. O processo de
teremos de os etiquetar, isto é, atribuir a construção dessa estimativa chama-se processo de
determinados neurónios certos significados. Para tal aprendizagem do classificador, durante a qual lhre
vemos quais são os neurónios vencedores para estamos a apresentar exemplos conhecidos.
situações que conhecemos bem, e atribuímos a esses
neurónios o significado correspondente. Por exemplo, Existem dois tipos de técnicas para fazer essa
se numa situação de avaria por falta de lubrificação o estimativa: os métodos paramétricos e os não
neurónio vencedor é o que está nas coordenadas paramétricos. Nos estimadores paramétricos, assume-
(3,4), então esse neurónio passa a ter a “etiqueta” se que distribuição de X obedece a um dado modelo,
falta_de_lubrificação, e sempre que o neurónio e estimam-se os parâmtros desse modelo de modo
vencedor for esse neurónio, ou um seu vizinho, que melhor se ajustem aos valores observados. Nos
não paramétricos não se assume nada sobre a 2. Seleccionar o neurónio que estiver mais
distribuição de X, e geralmente fazem-se estimativas próximo como neurónio vencedor.
locais da densidade de probabilidade de X locais
necessários, sem recurso a nenhum modelo (por Wvencedor = ( Wij : dij = min( dmn) )
exemplo, com o método das janelas de Parzen ou dos
vizinhos mais próximos [4]). 3. Modificar os pesos de cada neurónio de acordo
com a regra:
No entanto, obter uma estimação rigorosa de P( X
| cI ) é sempre um problema difícil e delicado. Se a classe do neurónio for igual à do vector
Algumas das limitações podem ser ultrapassadas X fazer
usando técnicas baseadas em inteligência artificial,
que conseguem fazer classificações razoáveis, mesmo Wij = Wij + α h(Wvencedir r,Wij) || Xk – Wij ||
com um número relativamente modesto de amostras
de treino. Senão, fazer

SOM E LVQ COMO CLASSIFICADORES Wij = Wij - α h(Wvencedir r,Wij) || Xk – Wij ||

De entre os muito métodos para construir Onde


classificadores usando técnicas de inteligência α é o ritmo de aprendizagem, que tende para
artificial, vamo-nos debruçar neste artigo sobre 0 ao longo do treino.
aqueles baseados em “Self-Organizing Maps” h(.,.) é a função de vizinhança do neurónio
(Mapas auto-organizados, ou SOM), que como já vencedor, que tem um valor alto se o
referimos podem ser usados como classificadores. neurónio em causa está perto do vencedor, e
baixo em caso contrário. Esta vizinhança
Após termos treinado um SOM e atribuído também tende para 0 durante o treino.
etiquetas aos neurónios que mapeiam condições bem
conhecidas, ficamos ainda com um conjunto 4. Repetir o processo com outro vector de
normalmente grande de neurónios sem etiquetas. características até que um dado critério de
Estes correspondem a situações que podem acontecer paragem seja atingido.
mas ainda não aconteceram ou a situações que não
podemos classificar claramente como sendo um Aplicar o algoritmo LVQ a um SOM permite que
estado determinado (o sistema pode não estar 100% ele classifique melhor os casos já conhecidos.
bom, mas também não tem nenhuma avaria
iminente). Podemos agora fazer duas coisas: Podemos agora perguntar em que é que um SOM
ou LVQ estão relacionados com a estimação de P( ci |
• Remover os neurónios que não estão etiquetados, X ). De facto, estes dois algoritmos estão a apenas a
pois não têm informação conclusiva seleccionar protótipos que serão usados para fazer
• Reajustar os neurónios, usando no treino apenas uma classificação de vizinho mais próximo. Prova-se
situações conhecidas. que o erro cometido por um destes classificadores é
assimptoticamente (quando o número de protóptipos
A este segundo passo chama-se fazer uma é grande) menor que duas vezes o erro do
aprendizagem supervisionada, e existe um algorítmo classificador óptimo. Assim, embora este método não
semelhante ao SOM para o fazer, o LVQ (Linear seja óptimo, o facto de ser computacionalmente fácil
Vector Quantizer), originalmente desenvolvido para de calcular, numericamente estável, e dar resultados
compressão de dados, e que tem a seguinte muito satisfatórios, faz com que seja usado muito
formulação: frequentemente

Para cada vector de características X = VII - CONCLUSÕES


[x1,x2,….,xm] T para o qual se conhece o estado
correcto, fazer o seguinte: Com base num número restrito de parametros
observados externamente é possível caracterizar o
1. Calcular a distância a cada um dos neurónios estado interno de um sistema. Mesmo que a escolha
Wij. desses parâmetros não possa ter sido feita de modo
ideal, há métodos que permitem diminuir a
dij = || Xk - Wij || dimensionalidade do espaço de parâmetros para a
dimensionalidade intrínseca do sistema, ou mesmo,
eventualmente com alguma perda de informação,
reduzi-la a um espaço bi-dimensional de forma a que
o estado do sistema possa ser visualizado por um
operador.

Para além da visualização, podemos também


fazer a classificação automática do estado do sistema.
Apesar da obtenção do classificador óptimo nem
sempre (ou quase nunca) ser possível, há métodos
que, embora sub-óptimos, são facilmente
implementados.

REFERÊNCIAS

[1] D. Gabor, “Theory of Communication”, Journal


of the Institution of Electrical Engineers”, vol. 93,
pp.429-457, Novembro 1946.

[2] L.Cohen, “Generalized phase-space distribution


functions”, Jour. Math. Phys., vol. 7, pp.781-786,
1966

[3] P.M. Woodward, Probability and Information


Theory with Applications to Radar, Pergamon Press,
1953

[4] K.Fukunaga, Statistical Pattern Regognition,


Academic Press, 1990

[5] T.Kohonen, Self-Organizing Maps, Springer-


Verlag, 1995

You might also like