Subsimbolicas 1

CAPTULO 3
Tcnicas Subsimblicas: Redes Neurais
Contriburam:
Martin Buch, Universidade de Kaiserslautern
3.1.
Filosofia Geral da Aplicao do Raciocnio Subsimblico a Padres: Redes Neurais Aprendendo Dados, Classificadores e Agrupadores
Como vimos na berve viso geral do aprendizado em IA fornecida no captulo anterior, chamamos de Raciocnio Subsimblico ao processamento de informao em um nvel onde os padres representam conjuntos de dados, mas onde no podemos associar um significado imediato a cada dado ou elemento do padro processado. Isto significa que trabalhamos com dados, que em seu conjunto podem ser chamados de informao e assumir um significado, mas onde no sabemos ou no podemos determinar o significado de cada parte do conjunto de informao em separado. O mesmo vale para as representaes internas, intermedirias desses dados: usamos sistemas que representam essa informao, mas eles so sistemas black box - caixa preta - produzindo classificaes dos padres e resultados numricos, sem no entanto fazer isto de forma explcita. As redes neurais so o melhor exemplo de um sistema subsimblico: mesmo que cada parte de um padro apresentado a uma rede tenha um significado explcito, associvel a um smbolo de nosso modelo do mundo real, a representao interna dos dados no procesador (a rede) no explcita e no possui significado. Um mtodo subsimblico tipicamente incapaz de
Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina
CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais
explicar porque chegou a uma determinada concluso, uma vez que um mapeamento explcito de causa-e-efeito no existe. Fica mais fcil ilustrar este conceito atravs de um exemplo. Imagine um sistema militar para classificar tipos de navios ("inimigos") a partir do padro de rudo emitido por estes, da forma como captado por um submarino ("nosso"). Hipotetize que ns sabemos que um determinado padro de rudos corresponde a um porta-avies de determinada classe de uma determinada nacionalidade. Este padro inclue um conjunto de freqncias e as variaes de amplitude dessas freqncias, alm de algumas outras informaes. Ns podemos associar um conjunto de smbolos a esse padro: "Porta-Avies modelo Banheiro de Corto Maltese", mas classificamos o padro como um todo. Ns no sabemos dizer que papel tem uma freqncia X qualquer do rudo neste padro ou que parte mecnica do navio em questo ela representa. Talvez no saibamos nem mesmo, se vamos continuar conseguindo classificar o padro, caso retiremos os valores correspondentes a esta freqncia do padro. Este um exemplo tpico. Mesmo em situaes onde os dados possuem um significado conhecido, como no caso de dados de um paciente cardaco potencial, onde eu sei o significado da freqncia cardaca, mas onde eu no sei o relacionamento entre a freqncia cardaca e a chance deste paciente ser vtima de um infarto numa determinada situao futura. esse relacionamento, que eu no posso mapear de forma explcita, que eu quero que um sistema subsimblico mapeie implicitamente para mim. E os sistemas subsimblicos fazem isto, mas o fazem de forma fechada, sem gerar mapas, tabelas estatsticas ou conjuntos de regras de como criam este mapeamento. As Redes Neurais Artificiais so o mais difundido e popular conjunto de mtodos subsimblicos, sendo em geral caixas-pretas por excelncia. Existem outros mtodos que no vamos abordar aqui. O fato das redes neurais serem caixas pretas muitas vezes citado como uma de suas desvantagens. Neste captulo ns vamos ver que isto relativo. Este captulo pressupe que voc j viu Teoria das Redes Neurais na cadeira de Inteligncia Artificial do Curso de Cincias da Computao ou de Sistemas de Informao da UFSC e que voc tem o conhecimento terico bsco sobre os mtodos: aqui ns vamos ver
Aldo von Wangenheim
O Simulador SNNS - Stuttgarter Neural Network Simulator
aplicaes de redes neurais e tcnicas de integrao das mesmas em sistemas mais complexos.
3.2.
O Simulador SNNS - Stuttgarter Neural Network Simulator

O SNNS um dos melhores simuladores de Redes Neurais existentes. Por isso ns vamos v-lo aqui. O objetivo de alocarmos um captulo a ele o de prover ao aluno com uma ferramenta poderosa para a execuo dos exerccios propostos, livrando-o da necessidade de ter de programar ele mesmo as redes.
Figura 3.1.
Interface de Usurio do SNNS Padro para Unix/Linux
O SNNS possui outra vantagem: aps treinada um rede, voc pode gerar com o SNNS um arquivo em linguagem "C" contendo a rede treinada, utilizando o utilitrio snns2c fornecido juntamente com a verso Unix/ Linux. Este arquivo compilado pode ser utilizado como prorama standa-
lone ou ento como biblioteca (.dll ou .so) linkada ao programa aplicativo que voc for usar. Isto uma vantagem para as aplicaes que voc vai desenvolver, pois permite que, se voc for desenvolver as aplicaes em Smalltalk, voc utilize o pacote "DLL & C connect" para usar estas redes na sua aplicao em Smalltalk ou, que se voc for desenvolver a sua aplicao em C, integre a rede diretamente ao seu cdigo. O SNNS possui duas verses: SNNS Padro e JavaNNS. A verso padro fornecida em cdigo-fonte e pode ser compilada para qualquer plataforma Unix/Linux. Ela possui uma srie de utilitrios que permitem a integrao das redes neurais treinadas com o sistema em programas aplicativos. O JavaNNS uma nova implementao em Java com finalidade exclusiva de ensino. Est disponvel sob a forma de arquivo .jar para plataforma MS Windows e oferece apenas o ambiente de treinamento e teste interativo de redes neurais, no oferecendo nenhuma ferramente de integrao das redes em programas aplicativos.
3.3.
Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres

H dois modelos de redes neurais utilizados na prtica como classificadores passveis de serem gerados atravs de aprendizado supervisionado. Ambos os modelos baseiam-se nos Perceptrons feed-forward 1, variando o nmero de camadas e a funo de ativao e, por conseguinte, a regra de aprendizado: a) As Redes Backpropagation2 e b) as Redes de Base Radial. Por serem as mais utilizadas e, do ponto de vista prtico, mas mais importantes, vamos nos ocupar aqui das Redes Backpropagation, tambm chamadas redes-BP. As redes de Base Radial, conhecidas
1. Conceito referido por alguns autores em Lngua Portuguesa como Alimentao Adiante. Como na literatura internacional de computao em muitas lnguas, no somente a inglesa, este termo j se estabeleceu como termo tcnico, vamos nos abster aqui de tradues de eufonia questionvel. 2. Retropropagao. A rede em si na verdade um perceptron de trs ou mais camadas utilizando uma funo quaselinear como funo de ativao. Chamamos de redes backpropagation porque o algoritmo de aprendizado utilizado assim chamado.
Aldo von Wangenheim
tambm por redes-RBF podem ser usadas, em teoria, para representar os mesmos tipos de problemas que uma rede Backpropagation equivalente. Alguns autores argumentam que so mais eficientes durante o treinamento. Por outro lado, a compreenso de seu algoritmo de aprendizado envolve uma matemtica bastante mais complexa. Como so utilizadas para resolver o mesmo tipo de problemas que os onde Backpropagation encontra aplicao, sem vantagens considerveis na qualidade do resultado final, vamos ignor-las aqui. No final desta seo h uma comparao entre redes-RBF e redes-BP, extrada de [Haykin] e um comentrio nosso sobre redes-RBF e sua relao com Nearest Neighbour e mtodos que utilizam NN, como IBL*. Como esta disciplina pressupe que voc j viu o assunto Redes Neurais, vamos aqui apenas recordar alguns conceitos matemticos importantes para que voc entenda a nossa discusso mais adiante de como se deve aplicar corretamente Backpropagation.
3.3.1.
Simbolismo matemtico
Existem vrias convenes amtemticas para a nomenclatura dos elementos de uma rede neural. Durante todo o captulo de Redes Neurais vamos utilizar a simbologia matemtica descrita em [Hertz et.ali.]. Um conjunto de treinamento um conjunto p de padres, todos de mesmo tamanho, cada qual dividido em duas partes: vetor de entrada e vetor de sada . O vetor de sada representa a atividades esperada nos neurnios de sada quando apresentado o vetor de entrada nos neurnios de entrada da rede. Matematicamente o conjunto de treinamento pode ser definido como: { ( = 1, , p ) } Os elementos so os seguintes:
Vetor de entrada do padro de treinamento apresentado camada de entrada. Valor de entrada deste padro para o neurnio k da camada de entrada.
Vetor de sada esperado do padro de treinamento apresentado camada de entrada. Valor de sada deste padro para o neurnio i da camada de sada. Peso da conexo dirigida do neurnio j para o neurnio i. L-se peso da conexo que i recebe de j. Entrada total do neurnio j para o padro . No confunda com ativao. Sinal de sada (ativao) do neurnio interno (hidden) j para o padro . Sinal de sada (ativao) do neurnio da camada de sada (output) i para o padro . Funo de ativao. Computa a ativao de um neurnio dada uma entrada h.
w ij hj
Vj
Oi g
3.3.2.
Princpios Bsicos das Redes Backpropagation

A idia bsica de toda rede neural feedforward com aprendizado supervisionado que, durante o seu treinamento, aplicamos sua camada de entrada o padro que desejamos que seja aprendido e propagamos a ativao gerada por este padro na camada de neurnios de entrada, camada a camada, at gerarmos uma ativao nos neurnios da camada de sada. Cada neurnio i de uma camada est tipicamente ligado a todos os neurnios j da camada anterior e recebe o sinal h de todos estes, cada qual ponderado pelo peso wij da conexo correspondente. Cada neurnio possui uma funo de ativao g() cuja varivel independente a entrada h do neurnio. Todo neurnio i possui um sinal de sada, que ser denominado Vi se o sinal for dirigido para outra camada da rede (neurnios de entrada e internos) ou Oi se o neurnio for de sada. A relao entre o sinal de sada e a ativao g(h) do neurnio tipicamente a identidade. A separao da ativao e do sinal de sada em duas variveis permite
Aldo von Wangenheim
realizar-se de forma elegante o sincronismo de toda a rede (inerentemente paralela) quando se simula a mesma em uma mquina de von Neumann (seqencial): Atualizamos os valores de sada dos neurnios de uma camada somente depois de termos calculado todas as ativaes desta camada. Isto especialmente importante em redes BP recorrentes e outros modelos de rede onde neurnios possuem ligaes com neurnios da prpria camada. O objetivo do treinamento supervisionado modificar os pesos das conexes da rede de tal forma que a sada O gerada para o vetor de entrada do padro pela rede seja o mais prximo possvel do vetor de sada deste padro, de forma que no futuro, quando apresentarmos um outro vetor similar a , a rede produza uma resposta o mais prxima possvel de . Para realizarmos esta modificao dos pesos, representamos o erro de sada da rede como uma funo do conjunto dos pesos, E( w), e utilizamos a tcnica denominada descida em gradiente (gradient descent ou Gradientenabstieg ) para realizar alteraes iterativas dos pesos de forma a reduzir o erro . Para isto, representamos inicialmente E(w) como uma funo-custo baseada na soma dos quadrados dos erros: 1 E(w) = -2
2 1 i O i = -2
w ik k
A funo acima representa o erro do resultado apresentado pela rede como uma funo da diferena entre o resultado esperado e os pesos das ligaes entre a camada de sada e a anterior e a entrada desta camada. Como os valores de entrada e de sada so dados, o conjunto de variveis independentes formado pelos pesos e o erro est representado como funo dos pesos. A variao do erro em funo dos pesos pode ento ser representada pelo vetor das derivadas parciais do erro em funo dos pesos , tambm Edenominado gradiente do erro: ---------. w ik Este vetor possui a propriedade de apontar no sentido do maior acrscimo de erro. Portanto para reduzir E(w) da forma mais rpida possvel
movemo-nos no sentido contrrio e definimos a modificao dos pesos como: E - = w ik = --------- w ik
i O i k

Chamamos a esta frmula de regra-delta. Como esta modificao dos pesos deve ser gradativa, para evitar que uma modificao brusca de pesos faa a rede desaprender outro padro j aprendido, utilizamos os seguintes princpios:
introduzimos uma taxa de aprendizado , tipicamente de valor < 0,2 apresentamos os padres de treinamento em ordem aleatria, garantindo que tenhamos apresentado todos antes de reapresentarmos algum. Podemos tambm representar a alterao dos pesos individualmente para cada padro :
ik
= i O i k

ik
= i k onde:

i = i O i
No treinamento de redes neurais, ao invs de falarmos de iteraes, chamamos a cada ciclo de apresentao de todos os padres de poca . Antes de iniciar uma nova poca, reorganizamos os padres em uma nova ordem aleatria. A cada poca todos os padres so apreseentados. A regra-delta, tal qual est representada acima, ainda no nos permite treinar a rede, apenas expressa um vetor de modificao dos pesos para
Aldo von Wangenheim
a camada de sada. Vamos agora recapitular brevemente a regra de aprendizado das redes-BP.
3.3.3.
Aprendizado das Redes-BP

O fato que fez com que a pesquisa em redes neurais ficasse quase 20 anos (1968 - 1984) parada no cenrio internacional foi o seguinte conjunto de fatos:
para que uma rede neural feedforward possa representar uma funo
qualquer (universalidade representacional) ela necessita de pelo menos uma camada intermediria, alm da camada de entrada e da de sada e a funo de ativao de pelo menos parte dos neurnios deve ter carter no-linear.
para que a rede possa aprender, necesrio que possamos calcular a

derivada do erro em relao aos pesos em cada camada, de trs para frente, de forma a minimizar a funo custo definida na camada de sada. Para isto ser possvel, a funo de ativao deve ser derivvel. J o modelo de rede de McCulloch & Pitts possua um carter representacional quase universal, mas no apresentava a possibilidade de treinar-se redes com camadas intermedirias, pois a funo de limiar por eles desenvolvida no era derivvel. A regra de aprendizado do modelo do Perceptron podia treinar redes com quantas camadas se quisesse, mas estas camadas intermedirias eram inteis pois a funo de ativao linear do neurnio do Perceptron fazia com que camadas adicionais representasssem transformaes lineares sobre transformaes lineares, o que equivalente a uma nica transformao linear e incapaz de representar problemas linearmente inseparveis. Como resolver este problema? Atravs de uma idia muito simples: introduzir uma no linearidade bem comportada atravs de funes quaselineares contnuas e derivveis. Com isto conseguimos:
introduzir uma no linearidade sem no entanto alterar de forma radical a

resposta da rede (ela se comporta de forma similar a uma rede linear para casos normais) e
possibilitar o clculo da derivada parcial do erro em relao aos pesos

(o que ns queramos desde o comeo) de uma forma elegante e generalizvel para todas as camadas. As funes de ativao quaselineares que se costuma utilizar tm a forma geral do desenho abaixo.
Figura 3.2.
Grfico da forma geral da funo de ativao quaselinear
Esta famlia de funes possue comportamento assinttico, significando que para valores valores muito grandes ou muito pequenos de y elas tendem a um valor constante. Alm disso derivvel e, prxima de sua parte mais normal, possue um comportamento muito semelhante ao de uma reta inclinada, como em uma funo linear. As duas funes mais utilizadas so a tangente hiperblica e a funo logstica, mostradas abaixo, juntamente com suas derivadas: g(h) = tanh h g (h) = 1 g (h ) 1 g(h) = -------------------------1 exp 2 h g (h) = 2 g(h) 1 g(h) O parmetro um parmetro livre com > 0 que permite parametrizar o comportamento da funo. Na prtica utilizamos geralmente =1. Estas duas funes possuem a propriedade adicional de se poder definir suas derivadas em funo delas mesmas, significando que se pode reuti2
10
Aldo von Wangenheim
lizar o valor j calculado para a ativao ao se realizar a retropropagao do erro, sem necessidade de novos clculos complexos. A funo tangente hiperblica possui domnio no intervalo aberto ]-1, +1[ e a funo logstica no domnio ]0, 1[ . Podemos escolh-las de acordo com nosso domnio de aplicao ou fazer, como o fazem a maioria dos simuladores de redes-BP, tomar a funo logstica como funo padro e suprir valores negativos de sada atravs da adio de uma constante. Essa constante muitas vezes provida atravs de um neurnio virtual a mais em cada camada, denominado bias neuron, que possui sada constante e negativa. Dessa forma podemos reescrever a funo-custo: 1 E(w) = -2
i O i
i
1 = -2
i g w ik k
i k
Derivando, podemos agora reescrever a regra-delta: E - = w ik = --------- w ik
i g hi g h i k

E a regra para modificao dos pesos imediatamente aps a apresentao de cada padro: w
ik
= i k onde:

i = i O i g h i 3.3.3.1. Aprendizado para Redes de Vrias Camadas As frmulas deduzidas acima nos permitem implementar uma descida em gradiente, realizando o aprendizado, em redes de duas camadas. Como j discutimos, porm, necessitamos de redes com pelo menos uma camada interna. Para extender o aprendizado a redes de uma camada interna, temos de primeiramente extender a nossa funo-custo de forma que ela diferencie entre pesos de neurnios internos e pesos de neurnios de sada.
11
Para isto observemos a figura 3.3 abaixo, que representa uma rede de 9 neurnios divididos em trs camadas. Voc pode observar na figura que
Figura 3.3.
Rede feedforward tpica mostrando nomenclatura utilizada.
os pesos k -> j so representados por wjk e os pesos j -> i so representados por Wij. Lembrando que a nossa funo-custo tem a forma geral: 1 E(w) = -2
i O i
i
...e que desejamos minimizar E(w) modificando gradualmente o vetor dos pesos w = (w11,....,W 11,....). Para isso, vamos inicialmente definir como surge o vetor de sada da rede Oi:
Depois que o vetor de entrada foi apresentado camada de

entrada, cada neurnio da camada intermediria recebe a entrada definida por: hj =
wjk k
k
12
Aldo von Wangenheim
produzindo como sada a ativao de um neurnio interno:

Vj
= g (hj ) = g
wjk k
k
o que faz com que um neurnio de sada possua a entrada:

hi
W ij Vj
i
W ij g wjk k
i k
e produz como sada da rede:

Oi = g hi c = g
Wij V j
i
= g
W ij g wjk k
i k
o que, por sua vez nos permite escrever a funo-custo da seguinte

forma: 1 E(w) = -2
W ij g
w jk k
Esta funo E(w) contnua e diferencivel para todos os wjk,, Wij. Isto permite que se utilize o mtodo de descida em gradiente para construir o algoritmo de aprendizado. Faremos a descida em gradiente em etapas, uma para cada conjunto de pesos entre camadas. Para uma rede BP com uma camada interna, isto feito de trs para frente (por isso retropropagao do erro) em duas etapas, uma para Wij e outra para wjk. Para Wij fica como segue: Com isso, a regra-delta para a adaptao dos pesos da camada de sada fica: E - = W ij = --------- Oi g h i V j = i V j i W ij
g hi
Oi
13
E ---------= W ij
- --------- ------O i W ij
O i
i O i ---------W ij

O i
Oi
h i g h i ---------W ij
i O i g hi V j

Observe que esta praticamente a mesma regra que havamos escrito antes, somente substitumos os valores do vetor de entrada pelos valores da ativao dos neurnios internos. Para o caso dos pesos entrada -> interno ns vamos ter de aplicar a regra da cadeia tambmpara as derivadas internas: E V j E -------- ----------------- = w jk V w jk
E O i V j - ---------------- -------O i V W ij
j
com a regra da cadeia

h j --------g hj w jk
i i
Oi
h i -------g hi Vj
i O i g hi W ij g hj k
14
Aldo von Wangenheim
Com isso, a regra-delta para a adaptao dos pesos da camada interna fica: E - = W ij = --------- w jk
j k

j = g h j
W ij i
i
Observe que esta frmula possui carter genrico extensvel a qualquer camada interna, pois se criarmos um buffer para os deltas da adaptao da camada anterior, podemos utiliz-los para a atual, de trs para frente. Dessa forma, a regra-delta generalizada para a m-sima camada de uma rede backpropagation fica assim (considerando-se a camada de entrada como camada 0 e a camada de sada como camada M):
w pq =
m,
Vq
m 1,
m,
g ( h j ) ( p O p ), para camada de sada = M = m, m+1 m + 1, , w rp r seno (m < M) g hp r
M,
3.3.3.2.
Algoritmo de Aprendizado para Redes de Vrias Camadas Em termos prticos, o que vai nos interessar para formular o algoritmo de aprendizado por retropropagao do erro (error backpropagation) a regra delta generalizada , como foi apresentada acima. A partir dela possvel formular-se todo o algoritmo de aprendizado. O algoritmo como segue: Algoritmo Backpropagation
15
Dados:
uma rede feedforward de M camadas um conjunto de conexes ponderadas por pesos e dirigidas da camada
m -1 para a camada m: w ij
m
uma funo de ativao no-linear contnua e diferencivel no domnio dos valores a serem treinados na rede
uma taxa de aprendizado um conjunto de treinamento contendo entradas e sadas.

Execuo:
1.
2.
3.
Inicialize os pesos wm das camadas m = 0, ... ,M com valores aleatrios e pequenos. Escolha um padro do conjunto de treinamento: Entrada da rede: Sada desejada: 0 Apresente o padro rede: V k = k para todos os neurnios de entrada. Propague a ativao atravs das m = 1,...,M camadas restantes da rede: V i = g(h i ) = g(
m m
wij V j
m j
m1
4.
at que as sadas da rede tenham sido calculadas. Calcule os para a camada de sada: i = g hi i O i

5.
para todo i. Itere pelas camadas anteriores, de trs para frente, calculando os atravs da retropropagao do erro: p
m,
= g hp
m,
wrp
r
m+1
m + 1,
para todo neurnio p da camada m - 1.
16
Aldo von Wangenheim
6.
Determine a variao dos pesos para todas as camadas: w pq =

m
Vq
m1
7.
para todas as conexes entre neurnios. Determine os novos pesos das conexes: w pq = w pq + w pq
m m m
8.
Retorne ao passo 2 e tome o prximo padro.
3.3.4.
O que aprende uma Rede-BP ?

Como citamos em outras partes deste texto, uma rede backpropagation, ao contrrio de redes-RBF ou classificadores baseados em Nearest Neighbour, como IBL, aprende uma funo capaz de mapear a entrada sada, caso esta exista. Se o conjunto de treinamento for inconsistente a rede no aprender nada ou aprender cada exemplo individual do conjunto de treinamento, caso a criemos grande o suficiente. Em princpio, o mapeamento entrada-sada em uma rede-BP est distribudo sobre o total dos pesos e conexes da rede, sendo bastante difcil associarmos um determinado neurnio e suas conexes a uma determinada classe. Do ponto de vista matemtico, existem vrias interpretaes do significado dos pesos aprendidos por uma rede neural. Uma discusso detalhada deste assunto foge do escopo de uma disciplina de graduao e ns remetemos literatura, principalmente [Hertz et.ali.]. Existem, porm, algumas situaes interessantes, onde o aprendizado da rede neural pode ser visualizado e podemos realmente associar um ou um conjunto de neurnios a uma determinada classe. Isto tende a acontecer quando o conjunto de treinamento contm classes realmente muito bem comportadas. O exemplo clssico para este comportamento o encoder (codificador). Este exemplo est includo na coleo de exemplo sprontos do SNNS e sugerimos ao leitor que faa alguns experimentos com ele. O encoder um exemplo onde podemos fazer os padres de ativao dos neurnios da
17
camada interna representarem uma compresso dos dados de treinamento e ainda utilizar esta compresso de dados como um cdigo representando os mesmos. O encoder toma um valor de entrada de 0 a 7 e aprende a asoci-lo a mesma sada, possundo 8 neurnios de entrada, um para cada valor e 8 neurnios de sada, com a mesma representao. Na camada intermediria possui apenas 3 neurnios. O objetivo que, ao aprender a associao entrada-sada, ele codifique os dados. A figura abaixo mostra o encoder recebendo o nmero 1 como padro de entrada (01000000) e representando internamente este nmero como 101.
Figura 3.4.
Encoder
O conjunto de treinamento do encoder no s linearmente separvel, mas tambm linearmente independente e, portanto, um conjunto extremamente fcil de aprender, que no necessitaria de uma camada interna, podendo ser representado por um perceptron simples. Mesmo assim interessante de se observar o fenmeno da representao interna. Este fenmeno porm no ocorre sempre dessa forma, com a rede inventando seu prprio cdigo binrio. s vezes os pesos se
18
Aldo von Wangenheim
distribuem de uma forma tal na rede que no possvel uma interpretao visual da representao interna. 3.3.4.1. Exerccio: Observando o Encoder Vamos ver com que freqncia o encoder realmente aprende uma representao interna que para ns, humanos, faz sentido. Carregue o exemplo do encoder no SNNS. Reinicialize a rede e treine-o. Bastam 100 pocas pois o conjunto aprendido extremamente rpido. Feito isto, v para o modo updating e repasse todo o conjunto de treinamento pela rede. Foi possvel criar-se um arepresnetao interna similar a algum cdigo binrio conhecido ? Repita este processo vrias vezes, reincializando, treinando e testando a rede para ver como ela se comporta.
3.3.5.
Desenvolvimento de Aplicaes e Resultados Prticos do Uso de Backpropagation

Esta seo dedicada a aspectos prticos do desenvolvimento de aplicaes que utilizem uma rede neural como classificador de padres, em particular uma rede-BP. Alm disso ser sugerido aqui um exerccio que dever ser resolvido pelo aluno. Importante: O texto abaixo est estruturado de forma a complementar o assunto visto em aula de laboratrio. O material no pretende ser autoexplicativo nem didaticamente autosuficiente: esta seo supe que a aula a que ela se refere foi assistida pelo aluno e serve apenas de referncia.
3.3.5.1.
Aprendizado de Conjuntos Intrincados O conjunto de dados distribudo sob a forma de duas espirais duplas, como j foi dito anteriormente, um conjunto clssico de teste para redes neurais. Vamos tentar avaliar a competncia de todos so mtodos que veremos nesta disciplina utilizando este conjunto de dados. At agora voc viu como tcnicas simples como kNN e como mtodos simblicos que utilizam Nearest Neighbour, como IBL se comportam frente a este conjunto de dados. Nesta seo veremos como se comporta uma rede-BP frente ao mesmo conjunto de dados. O objetivo desta comparao fornecer-lhe dados para avaliar a performance e adequao desta tcnica.
19
Para isto utilizaremos uma rede neural como mostra a figura abaixo. Esta rede est organizada em 3 camadas, possuindo apenas uma camada interna. A organizao desta camada interna como uma matriz somente um subterfgio grfico para fazer a rede caber na janela do simulador, a posio de um neurnio nesta matriz, ao contrrio do que ocorrer mais adiante em redes de Kohonen, no possui nenhum significado.
Figura 3.5.
Rede-BP para teste do conjunto espiral dupla mostrada no visualizador de rede do SNNS
A camada da esquerda a camada de entrada, a camada da direita a camada de sada. Ambas possuem dois neurnios. Na de entrada so apresentadas as coordenadas x e y do ponto na espiral e na de sada, h um neurnio para cada classe (brao da espiral). O neurnio que apresentar a maior atividade representa a classe resultante da classificao de um ponto apresentado. A prxima figura representa o grfico de variao do erro E(w) durante o treinamento desta rede. A abcissa representa o nmero de pocas (ciclos sobre todos os 360 padres) e a ordenada o erro global E(w) da rede. Ns interrompemos o treinamento em 42.000 pocas, o que para
20
Aldo von Wangenheim
um conjunto de treinamento de 360 padres, perfaz 15.120.000 iteraes. Observe que o erro se reduz em saltos. Isto comum em mtodos de descida em gradiente e significa que o processo encontrou uma ravina na paisagem de gradientes e comeou a desc-la at encontrar outro plat.
Figura 3.6.
Grfico do erro global E(w) da rede da figura anterior.
Decidimos abortar o treinamento em 42.000 ciclos pois o erro no apresentou mais reduo significativa durante 20.000 ciclos, o que significa que a rede ou encontrou o mximo de fidelidade possvel no mapeamento da funo que desejamos que aprenda ou ento que encontrou um mnimo local na paisagem de erro. Um mnimo local um pequeno vale na paisagem de erro definida por E(w), mas que no contm o menor erro possvel. Como as regies ao redor de um mnimo local so regies que possuem todas um erro menor e o mtodo de descida em gradiente tenta sempre encontrar um novo conjunto de valores de pesos que reduza o erro e nunca um que aumente,
21
a rede nunca sair dal. Mnimos locais so o maior problema que deparamos em mtodos de descida em gradiente. Como o estado inicial do sistema aleatrio e a ordem de apresentao dos padres tambm, o caminho que leva ao mnimo erro global pode passar por um mnimo local ou no, dependendo do acaso. Quando nos deparamos com um mnimo local onde a rede encalhou, a nica opo que temos utilizando o algoritmo de rede-BP tradicional a de reinicializar a mesma e treinar novamente desde o incio. N prxima figura vemos trs situaes de grfico de erro completamente diferentes geradas aps 50.000 pocas pela mesmo rede com o mesmo conjunto de dados. Apenas foram geradas inicializaes diferentes, porm com os mesmos parmetros. Ns vamos discutir questo dos mnimos locais e outros aspectos importantes como oscilaes na prxima seo.
Figura 3.7.
Comparao de variao aleatria de performance de treinamento em dependncia da inicializao
Nos trs casos acima, apesar da performance de aprendizado ter sido bastante diferente, em nenhum dos trs casos a rede encontrou um mnimo local e estacionou em um plat de erro constante. Todas as trs redes atingiram um erro prximo de 0.
22
Aldo von Wangenheim
Na figura abaixo vemos o resultado da projeo de duas superfcies de deciso geradas por duas das mostradas anteriormente. Cada projeo gerada atravs de uma ferramenta do SNNS que permite associar-se graficamente dois neurnios de entrada a um de sada. O grfico resultante mostra a ativao do neurnio de sada para todas as possveis combinaes de valores de entrada nos dois neurnios selecionados. No caso especfico da espiral dupla, onde existem apenas dois neurnios de entrada e dois neurnios de sada, esta projeo corresponde superfcie de deciso gerada pela rede. Compare este resultado com a performance do algoritmo IBL, observando que cada rede que gerou este resultado teve de ser treinada durante 20 minutos em um computador com 512 MB de RAM e um processador AMD 1800+ e que o algoritmo IBL (1, 2 ou 3) toma uma frao de segundo para realizar a mesma coisa em um computador com essas especificaes.
Figura 3.8.
Duas projees das superfcies de deciso geradas pelas redes anteriores
Observe que na rede (A) h uma rea mapeada incorretamente. A rede (B) aprendeu a espiral com qualidade aceitvel. A rede (A) a primeira rede neural treinada, cuja treinamento foi interrompido em funo de uma mnimo local. Aqui podemos observar que o mnimo local que a rede
23
encontrou a impediu de aprender uma parte do problema, fazendo com que a superfcie de deciso ficasse incompleta. 3.3.5.2. Aprendizado de Conjuntos Intrincados Apresentando Erro Para termos uma idia como se comporta uma rede-BP nos casos onde existe algum erro nos conjuntos de dados, retomemos as nossas espirais geradas apresentando desvio aleatrio de posio dos dados do conjunto de treinamento de at 15 e de at 30 pixel.
Figura 3.9.
Espirais com erro de at 15 e de at 30 pixel na posio dos pontos
O resultado do treinamento de trs redes com o conjunto de dados de treinamento com erro de at 15 pixel pode ser visto abaixo. Observe que a superfcie de deciso gerada (mostra a rede cuja curva de treinamento est em preto) bastante boa. As curvas de treinamento mostram que uma das redes treinadas (curva em azul), alm de mostrar um comporta-
24
Aldo von Wangenheim
mento de aprendizado bastante ruim, com muitas oscilaes, provavelmente vai cair em um mnimo local.
Figura 3.10.
Comparao de 3 redes treinadas com o conjunto com erro de 15 pixel
Se utilizarmos o conjunto de treinamento gerado com erro de at 30 pixel, a qualidade do aprendizado deteriora bastante, como vemos na superfcie de deciso abaixo. As curvas comparam a performance de uma rede treinada com dados com erro de 30 pixel (vermelho), erro de at 15 pixel e uma treinada com dados sem erro.
Figura 3.11.
Comparao de 3 redes treinadas com o conjunto com erro de 30 pixel
25
3.3.5.3.
Descida em Gradiente, Mnimos Locais e outros aspectos prticos do treinamento de uma rede-BP Como citamos brevemente antes, o processo de reduo do erro E(w) pertence a uma categoria de mtodos matemticos denominado Mtodos de Descida em Gradiente (Gradient Descent Methods). Nocaso especfico das redes-BP, que nos interessa, podemos imaginar a idia de que o erro uma (hiper) superfcie em um espao definido pelos pesos [w] da rede neural. O estado atual da rede (conjunto de valores especfico dos pesos das conexes entre os neurnios) um ponto sobre esta superfcie. O nosso objetivo mover este ponto atravs da alterao dos valores do spesos de forma a encontrar uma posio onde o erro seja o menor possvel. O movimento realizado sempre no sentido de reduzir-se o erro, ou seja sempre descendo a superfcie de erro de forma que o prximo ponto seja uma posio mais funda nesta superfcie, at encontrar uma posio de onde no sejja possvel descerse mais. Se imaginarmos uma situao 3D, onde h apenas dois pesos definindo os espaos x e Y e a coordenada z sendo definida pelo erro, podemos imaginar o processo como o mostra a figura abaixo.
Figura 3.12.
Idia da descida em gradiente
Pos.inicial
Na prtica teremos situaes muito mais complexas do que essa, onde os pesos definem um espaes 20,100 ou at 1000 dimenses. Para entender o conceito, porm, costumamos visualiz-lo em situaes simplificadas. A forma mais ismples de visualizar o processo de descida em gradiente a situao onde temos apenas um peso para ser modifi-
26
Aldo von Wangenheim
cado. Isto nos permite representar a descida em gradiente em um grfico 2D, onde a abcissa o nico peso w e a ordenada o erro global E(w) em funo dos valores de w. Este exemplo simplificado mas permite uma excelente visualizao das situaes mais importantes neste contetxo. O material abaixo um resumo do tutorial de redes neurais disponibilizado pela Neuro-Fuzzy AG (Grupo de Trabalho Neuro-Fuzzy) do Departamento de Matemtica da Universidade de Muenster, Alemanha. As imagens originais so GIFs animados que mostram o processo descrito textualmente para cada figura. No podemso repetir tudo aqui, por isso sugerimos que o leitor olhe no site da dsciplina para visualizar melhor o que est sendo explicado aqui. Mnimo Loca l: Partindo-se da configurao de pesos inicial w1, o mtodo de descida em gradiente no encontrar a soluo (mnimo global).
Figura 3.13.
Mnimo Local
27
Plat encontrado em E(w)durante treinamento da rede neural. Durante um longo perodo no haver mudanas significativas em E(w). Aps um tempo, porm, o mnimo absoluto (global) encontrado.
Figura 3.14.
Plat
Oscilaes ocorrem quando o processo de descida de gradiente cai em uma ravina de onde no sai mais. Tambm uma espcie de mnimo local. O passo de modificao dos pesos (taxa de aprendizado) grande demais para que a rede caia na ravina, mas pequena demais para sair do mnimo. Ao conrrio do mnimo local comum, aqui a rede no encontra um estado estvel.
Figura 3.15.
Oscilaes
28
Aldo von Wangenheim
A Oscilao Indireta uma situao de oscilao mais complexa, onde a rede tambm fica "presa" em um mnimo local e no encontra um estado estvel. Neste caso porm, existem estados intermedirios entre os estados extremos da oscilao, onde o erro por momentos se permite reduzir.
Figura 3.16.
Oscilaes Indiretas
Sada do mnimo timo para um subtimo. Se a mudana dos pesos se inicia numa rea de gradiente muito grande, os primeiros ajustes podem ser excessivamente grandes e levar a rede a passar do vale onde est o mnimo global, para uma regio com um mnimo local.
Figura 3.17.
29
3.3.6.
Breve Comparao entre Redes-BP, redes-RBF e mtodos simblicos utilizando Nearest Neighbour
Nesta seo realizaremos uma breve comparao entre redes-RBF e redes-BP, extrada de [Haykin] e um comentrio nosso sobre redes-RBF e sua relao com Nearest Neighbour e mtodos que utilizam NN, como IBL*. As redes-RBF e os perceptrons de mltiplas camadas treinados com algoritmo backpropagation (redes-BP) so ambos exemplos de redes feedforward no lineares treinadas atravs de aprendizado supervisionado, sendo aproximadores universais. Isto quer dizer, se existe uma funo capaz de mapear o conjunto de vetores de entrada no conjunto de vetores de sada (classes) desejado, este mapeamento garantido ser possvel de ser aprendido, dispondo-se de memria e tempo de processamento suficientes. Esta equivalncia garante que sempre existir uma rede-RBF capaz de reproduzir o comportamente de uma rede-BP especfica e vice-versa. As diferenas entre os modelos so as seguintes:
1.
2.
3.
Uma rede-RBF clssica ter sempre uma nica camada interna (hidden layer), enquanto uma rede-BP pode ter vrias. As redes-BP so homogneas e todos os neurnios possuem o mesmo modelo, compartilhando a mesma funo quaselinear de ativao, no importando em qual camada se encontram1. Os neurnios de uma redeRBF possuem funes de ativao diferentes, sendo que a camada interna possue geralmente uma funo gaussiana e a camada de sada uma funo linear (que pode ser a identidade). Isto significa que a camada interna de ma rede-RBF no linear, mas sua camada de sada linear. No rede-BP todas as camadas so no-lineares. A funo de ativao dos neurnios da camada interna de uma redeRBF calcula a distncia euclideana entre o vetor de entrada e o centro daquele neurnio. A funo de ativao de uma rede-BP calcula o produto interno do vetor de entrada pelo vetor de pesos daquele neurnio.
1. Com exceo da camada de entrada, que em ambos os modelos serve apenas para distribuir o sinal de entrada camada interna e onde a funo de ativao sempre a funo identidade.
30
Aldo von Wangenheim
4.
Como conseqncia do ponto acima, as redes-BP constroem aproximaes globais de um nico mapeamento de entrada-sada no-linear, aproximando uma funo que representa este mapeamento, enquanto que as redes-RBF constroem aproximaes locais para mapeamentos de entrada-sada no-lineares utilizando modelos no-lineares com decaimento exponencial (p.ex. funes gaussianas) para este fim. Em resumo, uma rede-BP tenta encontrar uma nica funo no-linear capaz de representar o problema sendo treinado, enquanto que uma redeRBF realiza um conjunto de aproximaes locais no-lineares (uma por neurnio interno) baseadas em distncia euclideana e delimitadas por uma funo gaussiana que sejam linearmente separveis e possam ser representadas pela funo de mapeamento linear implementada entre a camda interna e a camada de sada.
Figura 3.18.
Viso geral da distribuio das funes de ativao em redes-BP e -RBF: Acima de cada camada est representado o tipo de funo de ativao tpico.
Considere agora o seguinte: Sabemos que mtodos utilizando Nearest Neighbour, como os algoritmos da famlia IBL ou kNN realizam um mapeamento muito parecido com a descrio das redes-RBF dada acima. A diferena est no fato de que no existe uma suavizao da distncia euclideana atravs de uma curva gaussiana (ou funo similar). A nolinearidade que permite ao modelo baseado em NN representar problemas complexos introduzida pela heurstica de limiar mvel dada pela regra de escolha do prottipo mais similar. Traduzindo em outras palavras, o
31
modelo utilizado pelo algoritmo IBL, por exemplo, um mapeamento local no linear porque, apesar da distncia euclideana representar um mapeamento linear, o fato de aplicarmos uma deciso binria ao resultado da nossa comparao de distncias (tomando o prottipo mais prximo) representa uma no-linearidade similar ao de um limiar (threshold). Sugerimos que voc tome alguns problemas clssicos (espiral dupla, por exemplo) e outros com os quais voc esteja familiarizado e realize uma comparao entre a performance de redes-RBF com vrias topologias e a performance de vrios modelos IBL, como IBL2, IBL3, etc. Qual a diferena no tempo de treinamento ? Qual a diferena na taxa de erros de classificao ? Qual a tolerncia a erros ? Acreditamos que os resultados que voc vai obter vo lhe ensinar bastante sobre reconhecimento de padres.
32
Aldo von Wangenheim
Uma Aplicao de Reconhecimento de Padres Simples: Reconhecer CEPs em Cartas
3.4.

Tarefas que parecem mais complexas do que a classificao de dados sintticos como o da espiral dupla, so, muitas vezes, bastante mais simples. Um exemplo o caso do reconhecimento tico de caracteres impressos. Suponha um sistema para litura automtica do CEP em cartas. O sistema pressupe que o CEP foi batido mquina. Nosso exerccio aqui pressupe tambm que os passos iniciais, onde o CEP dever ser identificado na carta, recortado da imagem da carta e normalizado para uma mesma resoluo (nmero de pixel) so realizados por um algoritmo que no interessa no momento (vamos v-los mais tarde no captulo de processamento de imagens). Um exemplo de um conjunto de nmeros + hfem impresso por uma mquina de escrever e possveis CEPs escritos com ela est abaixo.
Figura 3.19.
CEPs
33
Para criar um pequeno sistema de OCR (reconhecimento tico de caracteres) vamos supor que a primeira linha do escaneado na figura anterior ser nossa amostra para treinamento. Para preparar esta amostra para que uma rede neural possa aprend-la temos de primeiramente seguir os seguintes passos:
1.
Decidir por uma representao. Neste caso vamos escolher representar os valores diretamente atravs de seus valores de pixel. Como a camada de entrada de uma rede-BP unidimensional, vamos representar a matriz de uma imagem por linhas, cada linha ao lado da anterior.
Os algarismos
Figura 3.20.
2.
Aumento do contraste. As imagens da amostra (escaneadas com os tons de cinza do papel) so de baixa qualidade. Simplesmente aumentamos o contratste da imagem para tornlos mais visveis.
Os algarismos com mais contraste
Figura 3.21.
3.
Reduo da resoluo. Se pretendemos representar cada algarismo pelos seus pixels, no podemos fazer isto numa resoluo onde cada algarismo ocupa uma matriz 70x100 ou similar. Temos de realiz-lo de forma simplificada. F-lo-emos inicialmente com uma matriz de aproximadamente 10x15.
Os algarismos em baixssima resoluo
Figura 3.22.
34
Aldo von Wangenheim
4.
Normalizao: Como os tipos da mquina de escrever so de tamanho diferente, escolhemos um tamanho-meta e normalizamos as imagens para este tamanho. O tamanho-meta ser 10x15 pixel, significando 150 neurnios na camada de entrada da rede. Agora tomamos cada nmero, recortamos exatamente os pixeis no brancos e redimensionamos a imagem resultante para 10x15.
Os algarismos normalizados
Figura 3.23.
Tudo o que temos de fazer ainda criar arquivos de dados para treinamento da rede. Ns fizemos um mtodo simples em Smalltalk que l um arquivo de dados binrio e incluios dados em um arquivo ASCII na sintaxe do SNNS. Como entrada para este mtodo usamos um conjunto de dados gerado a partir das imagens acima salvando-as em formato .RAW (s bytes e mais nada) em um editor de figuras. A cada figura carregada neste mtodo, associamos manualmente um valor de sada.
35
Agora podemos criar uma rede-BP no SNNS com 150 neurnios de entrada, 10 de sada e um nmero qualquer (no nosso exemplo: 30) na camada intermediria, como na figura abaixo:
Figura 3.24.
Ativao da camada de entrada ao apresentar-se um padro
3.4.1.
Trabalho
Passado em sala de aula.
36
Aldo von Wangenheim
Agrupadores: Usando Aprendizado No Supervisionado para Organizar Padres
3.5.

J vimos anteriormente, quando discutimos o conceito de aprendizado indutivo, a diferena entre um classificador e um agrupador. As redesBP vistas anteriormente so o exemplo mais consagrado de modelos de redes neurais atuando como classificadores: a classe a que pertence cada padro um dado intrnsico do conjunto de treinamento e o que queremos que seja aprendido exatamente um mapeamento entre a informao e a classe que associamos a ela de antemo. Um outro grupo de problemas aquele onde no sabemos de antemo a qual classe um padro pertence nem quais so as classes em que o nosso problema se divide. Queremos que um mecanismo de reconhecimento de padres seja capaz de detectar semelhanas entre padres apresentados e que agrupe esses padres durante o aprendizado de tal forma, que possamos utilizar o resultado do aprendizado de duas maneiras distintas: a) como uma forma de abstrao dos padres apresentados, onde associamos cada grupo descoberto pelo mtodo a uma classe ou categoria e b) como um classificador auto-organizante, onde podemos utilizar a informao codificada durante o agrupamento dos padres em categorias como mecanismo de classificao de novos padres, apresentados em um estgio posterior. A forma mais tradicional de se realizar esta tarefa atravs da utilizao dos mtodos da Estatstica Multivariada, principalmente da Anlise de Agrupamentos e da Anlise de Discriminantes. Estas so tcnicas desenvolvidas mais ou menos durante a dcada de 1950 e possuem algumas limitaes e algumas vantagens. Veremos isto no captulo correspondente. No campo das redes neurais existem trs modelos clssicos de redes neurais que podem funcionar como agrupadores: Competitive Learning, os Mapas Auto-Organizantes de Kohonen - SOM e os modelos baseados na Teoria da Ressonncia Adaptativa - ART. Desses trs modelos, o modelo de Kohonen, tambm conhecido como Rede de Kohonen o modelo matematicamente mais elegante e tambm o de maior aplicao prtica. este modelo que ns vamos ver como exemplo de agrupadores neurais nesta disciplina.
37
3.5.1.
O Modelo de Kohonen e Quantizao de Vetores

O pesquisador finlands Teuvo Kohonen possui uma longa histria de pesquisas no campo de modelos para descoberta de interrelacionamentos intrnsecos em distribuies de padres, que se iniciou com pesquisas na rea da Anlise de Componentes Principais e quantizao de atributos em conjuntos de vetores (pesquisa descrita em seu primeiro livro na rea) e foi evoluindo no sentido de tentar descrever modelos cada vez mais plausveis do ponto de vista biolgico. O objetivo de suas pesquisas, na dcada de 1980, passou a ser o de descobrir um modelo de auto-organizao de informaes em um processo de aprendizado indutivo capaz de ser usado como modelo para o aprendizado e organizao de informaes no neocrtex cerebral de um animal superior [Koho88]. O modelo deveria ser capaz de explicar como estmulos similares so aprendidos e agrupados em reas prximas no crebro de um animal e levam a uma posterior categorizao desses estmulos e fomao subseqente de um modelo de mundo, criando uma explicao implcita do que foi percebido atravs dos agrupamentos de estimulos relacionados em categorias na memria e realizando o processo inteligente da abstrao. Estas pesquisas foram inspiradas nas descobertas que as neurocincias estavam realizando sobre o fato de que conceitos similares parecem estar representados em reas prximas no crebro humano e que essa localizao espacial deveria ser uma caracterstica do aprendizado. Em funo desse objetivo inspirado em modelos biolgicos de aprenidzado, o modelo de Kohonen talvez o modelo de rede neural mais prximo de um modelo de aprendizado biolgico1. Kohonen publicou vrios artigos sobre o seu modelo, cada qual descrevendo-o sob aspectos um pouco diferentes. Talvez o mais importante desses artigos, e um dos menos conhecidos, seja o artigo publicado por
1. Mesmo assim, a plausibilidade biolgica refutada por um passo muito importante do algoritmo de Kohonen: a determinao do vencedor. Este passo do aprendizado de Kohonen poderia ser explicado atravs de um mecanismo de emisso de neurotransmissores inibidores por parte de um neurnio ativado de forma muito forte por um estmulo externo (o vencedor). Esta explicao no serve como modelo, porm, para uma determinao global do vencedor, pois um efeto desses, caso existisse (o que no ocorre, ao que se sabe), seria necessariamente local.
38
Aldo von Wangenheim
Kohonen e Helge Ritter, da Universidade de Munique, em 1989 na revista Biological Cybernetics [KR89]. Neste artigo eles descrevem o modelo em detalhes, explicando o conceito de vizinhana e da funo de vizinhana e aplicam o modelo a dois exemplos, um de aprendizado indutivo de conceitos e outro de aprendizado lingstico. o nico artigo escrito por Kohonen onde a funo de vizinhana discutida em detalhes. O fato de esta revista na poca ser lida quase exclusivamente por um pblico de bilogos e ciberneticistas, tornou a funo de vizinhana utilizada por Kohonen um dos aspectos menos conhecidos de seu modelo e em muitos livros sobre redes neurais essa funo sequer citada. Consideramos o artigo de Kohonen e Ritter um marco to importante na histria das redes neurais e uma explicao to perfeita sobre o modelo, que vamos reproduzi-lo aqui na ntegra, atravs da sua traduo para o Portugus realizada por Maricy Caregnato e Emerson Fedechen, do CPGCC da UFSC. Esta traduo ser entremeada de comentrios nossos e de exemplos de reproduo dos experimentos de Kohonen e Ritter com o SNNS.
3.5.2.
Os Mapas Auto-Organizantes de Kohonen

Teuvo Kohonen e Helge Ritter Biological Cybernetics, 61, 241-254, Elsevier, Amsterdam, 1989
Traduo: Maricy Caregnato e Emerson Fedechen, CPGCC, UFSC. 3.5.2.1. Resumo A formao auto organizvel de mapas topogrficos para dados abstratos, tais como palavras, est demonstrada neste trabalho.Os relacionamentos semnticos nos dados so refletidos por suas distancias relativas no mapa. Duas simulaes diferentes baseadas em modelos de redes neurais que implementam o algoritmo de mapas de atributos auto organizveis so demonstrados. Para ambas o novo ingrediente essencial a incluso de contexto no qual cada smbolo aparece dentro de dados de entrada. Isto habilita a rede neural a detectar a "similaridade lgica" entre palavras na estatstica de seus contextos. Na primeira demonstrao o contexto simplesmente consiste de um conjunto de valores de atributos que ocorrem em conjuno com as palavras. Na segunda demonstrao, o
39
contexto definido pelas seqncias nas quais as palavras ocorrem, sem considerar nenhum dos atributos associados. Proposio verbal simples consiste de substantivos, verbos e advrbios tem sido analisados dessa forma. Frases ou clusulas envolvem algumas dessas abstraes que aparecem no pensamento, isto , a categoria mais comum, nas quais as palavras so agrupadas automaticamente em ambas simulaes. Tambm argumentamos que um processo similar pode estar no funcionamento do crebro. 3.5.2.2. Hipteses sobre a representao interna de Elementos da lingstica e estruturas Um dos problemas mais intrigantes na teoria de redes neurais artificiais e biolgicas , dimensionar um simples sistema adaptativo para tornarse hbil a encontrar abstraes, invarincias, e generalizaes de dados crus. Muitos resultados interessantes em reconhecimento de padres (percepo artificial de imagens, acstica, e outros padres) j tem sido obtido. Extrao de atributos de elementos de dados relatados geometricamente ou fisicamente, contudo, ainda tarefa muito concreta, pelo menos no princpio. Um objeto de estudo quanto mais abstrato e enigmtico processa informao cognitiva que divide com elementos de conhecimento e seus relacionamentos; isto freqentemente identificado com a capacidade de usar linguagens. O propsito do presente trabalho estudar se isto possvel para criar abstraes em redes neurais artificiais, tal que elas, pelo menos na forma primitiva, refletiriam algumas propriedades de representaes cognitivas e lingsticas e relaes. Em particular estamos mostrando aqui novos resultados que demonstram que um processo auto organizvel est realmente apto a criar uma rede neural topograficamente ou geometricamente organizando mapas que mostram relaes semnticas entre dados simblicos. Isto pode ser adequado para chamadas como representaes de mapas semnticos auto organizveis. Estamos relatando nossos resultados para a base fundamental da cognio , chamada, categorizao de observaes. Como as conexes
40
Aldo von Wangenheim
dessas idias de teorias fundamentais de conhecimento podem por outro lado permanecerem obscuras, isso pode ser prprio para comear com uma pequena reviso de um fundo filosfico, chamada, a teoria das categorias como o ltimo framework de abstrao.
3.5.2.2.1. Categorias e suas relaes para representaes neurais e lingsticas
Os conceitos mais gerais de abstrao que so necessrios para representar o mundo emprico so chamadas categorias; elementos de reduo bsica e formas de pensamento e comunicao podem tambm ser encontrados em todas as linguagens primitivas como tambm as mais desenvolvidas. As categorias esto supostas a abranger todo o domnio de conhecimento, e parta formar as bases de conhecimento. Aristteles de fato j distinguiu dez categorias. As mais comuns de todas so: 1) Itens (objetos), 2) Qualidades (propriedades) 3) Estados (ou mudanas de estado) 4) Relacionamentos (espacial, temporal e outros). Nas linguagens a categoria 1 corresponde aos substantivos, a categoria 2 aos adjetivos, e categoria 3 aos verbos. Para a representao da categoria 4, diferentes linguagens usam advrbios, preposies, ps posies , pontos finais, inflexes, ou sintaxe (ordem das palavras). Naturalmente muitas classes de palavras auxiliares so necessrias para inter relatar frases e clusulas, para indicar modalidades lgicas, como tambm para facilitar inferncia dedutiva e indutiva. O profundo significado original metafsico de "categoria" foi perdido no uso comum desta palavra. "Categorias" so freqentemente identificadas como classes de itens como animais , plantas, etc. Mais exatamente tais classes somente constituem subcategorias da Categoria1. Desde que representaes de categorias ocorreram em todas as linguagens, muitos recursos tem estipulado que os elementos semnticos mais profundos de uma linguagem podem ter uma representao fisiolgica em um domnio neural; e se eles so independentes de uma histria cultural diferente, isso conclui que tais representaes devem ser herdadas geneticamente.
41
Na poca que a predisposio gentica de elementos de linguagem foi sugerida, no havia mecanismo conhecido que teria explicado as origens das abstraes em informaes neurais processada outra ento evolue.. Isto no foi desde que a modelagem "redes neurais" alcanasse o nvel presente quando pesquisadores comearam a descobrir de propriedades abstratas de representaes internas dos sinais de modelos na rede fsica. L existe pelo menos duas classes de modelos com este potencial: a rede backpropagation e a map self-organizing. O encontrado indica que as representaes internas de categorias podem ser derivveis de relaes e regras mtuas de um sinal primrio ou elementos de dados. Contudo o propsito deste paper no afirmar que todas as representaes no crebro biolgico somente so adquiridas pelo aprendizado. Os princpios adaptativos discutidos abaixo podem ser considerados como frameworks tericos, e a primeira faze do aprendizado a forma mais simples. totalmente possvel que um processo similar esteja trabalhando em um ciclo gentico, por outro lado esses mecanismos explcitos so difceis para imaginar. Isso agora ser prprio para abordar o problema de mapas semnticos auto organizveis usando dados que contm informaes implcitas relatando simples categorias; se mais tarde forem detectados automaticamente , podemos pensar que o passo significante em direo ao processamento lingstico auto organizvel foi feito. Um aspecto pode ser ainda enfatizado. Isso talvez no seja razovel para procurar por elementos de linguagens no crebro. A viso mais fundamental que as funes fisiolgicas so esperadas para refletir a organizao categrica e no tanto as formas lingsticas detalhadas.
3.5.2.2.2. Exemplos de modelos de redes neurais para representaes internas
Redes semnticas. Para a materializao reta de representaes internas a rede semntica foi sugerida. Na sua forma original elas compreendem uma estrutura grfica com nodos e links. Os nodos podem ser itens ou conceitos (grupos de atributos), enquanto os links indicam relaes: as mais
42
Aldo von Wangenheim
simples relaes binrias representam as co-ocorrncias de itens em eventos observados, links rotulados descrevem suas relaes qualificadas. As redes semnticas supostamente tem a contrapartida um por um em clulas neurais e suas interconexes. Por onde um processo de busca seria interpretado como ativao expansiva nessa rede neural. Na viso neurofisiolgica contempornea dado como grau de especificidade a resoluo espacial altamente improvvel em biologia. Mais um tem que compreender que modelos de rede neural do crebro , significam semntica de predisposio para os nodos e links terem sido postulados; como um "mapeamento " no derivado de nenhum processo auto organizvel. Camadas internas em redes-BP Se na atualidade famlias de redes neurais "feedforward" com errros de propagao de fundo significa que podem ser considerados como modelos biolgicos ou no, clulas ou nodo nas suas camadas escondidas freqentemente parecem aprender respostas que so especficas para algumas qualidades abstratas de informaes de entrada. Contudo, deve ser enfatizado que a propagao de fundo crucialmente baseado em aprendizado supervisionando. O estmulo de sada em relao ao de entrada, so forados para dar valores por otimizao de parmetro de pesos internos dos nodos na rede . Em uma rede multi-nvel com dados estruturados pode acontecer que para alcanar a otimizao global , alguns nodos de camadas internas tornam-se afinados para representar alguns tipos de "eigendata" de sinais que ocorrem, que representam a "generalizao" ou "abstraes ". Foi demonstrado recentemente que os pesos de vetores da camada escondida podem convergir para valores que codificam itens lingsticos de acordo com suas regras semnticas . Essas regras esto definidas explicitamente no processo de aprendizagem. Mapas de auto organizao (caractersticas topolgicas) A forma mais genuna de auto organizao o aprendizado competitivo que tem a capacidade de encontrar agrupamentos das informaes primrias , eventualmente em modo de organizao hierrquica. Em um sistema de caractersticas de clulas sensitivas o aprendizado competitivo significa que um nmero de clulas est comparando os mesmos sinais de entrada com seus parmetros internos , e a clula com o melhor competidor (winner) ento auto ajustada a esta entrada. Desta forma diferentes clulas aprendem diferentes aspectos da sua entrada , que podem ser
43
considerados como a mais simples forma de abstrao.O mapa de auto organizao um adiantado desenvolvimento do aprendizado competitivo em que a clula de melhor entrada tambm ativa seus vizinhos topogrficos na rede para fazer parte no afinamento da mesma entrada. Um acerto, no significa resultado bvio coletivo , o aprendizado coletivo assume a rede neural como uma falha de duas dimenses. As diferentes clulas tornam-se ajustados a diferentes entradas em uma moda ordenada , definindo caractersticas de sistemas de coordenadas atravs da rede. Aps o aprendizado, cada entrada obtm uma resposta localizada , qual posio no papel reflete a mais importante "coordenada caracterstica"da entrada. Isso corresponde a uma projeo no linear do espao de entrada na rede que faz a melhor relao de vizinhana entre elementos explcitos geometricamente. Particularmente se os dados so agrupados hierarquicamente , uma representao muito explcita est localizada na mesma estrutura gerada. Enquanto mapas auto organizveis como foram usados para muitas aplicaes para visualizar dados agrupados , muitas possibilidades intrigantes so diretamente possveis de criar um processo de representao topogrfica da semntica de relao no mtrica implicando em dados lingsticos. 3.5.2.3. As funes de processamento da informao esto localizadas no crebro? Justificao do modelo. Contra retirada geral e a favor da localizao Geralmente a psicologia comportamental enfatiza a natureza globall e holstica do mais alto processamento de informaes humana. Algum procura neurofisiolgica encontradas realmente precisa suportar essa viso. Distribuio de resultados de aprendizagem na massa celular do crebro foi descoberta em experimentos clssicos de de Lashley em 1938, que por um longo tempo o crebro foii interpretado como sendo uma caixa preta com mais ou menos componentes eqipotenciais que podem ser repassados aos outros. Uma viso extrema carrega todas as tentativas para isolar e localizar funes cognitivas no crebro como uma maneira moderna de fenologia. verdade que em um processo que conduz a percepo ou ao, muitas partes do crebro esto envolvidas em uma iterao ou moda recursiva.
44
Aldo von Wangenheim
Isto contudo, poderia ser dito de algum dispositivo ou mecanismo que foi designado para representar uma tarefa particular, , e precisa da cooperao de todos estes componentes. Contudo, isso seria absurdo negar, na visualizao de dados neurofisiolgicos, o crebro contm partes, redes, e mesmo simples clulas neurais que representam funes parciais especficas. L existem registros de vrios tipos de clulas de atributos sensitivos ou lugares que respondem a qualidades especficas de estmulo sensorial, e o neurnio motor que controla msculos particulares so localizados certamente. As funes globais obviamente seguem da cooperao de componentes muito grandes desse tipo. A quantia de paralelismo e redundncia no processamento podem ser enormes. No resto da questo somente interessa o grau ou perspiccia da localizao, como tambm uma organizao hierrquica possvel de tais funes localizadas. Tcnicas para determinar localizao e suas crticas No final do sculo IXX, a organizao topogrfica detalhada do crebro, especialmente o cortex, j foi deduzvel de dficits funcionais e falhas comportamentais que foram induzidas por vrios tipos de defeitos causados acidentalmente, adequado para tumores, mal formaes , hemorragias ou leses causadas artificialmente . Uma tcnica moderna causa leses controlveis e reversveis, para estimular uma parte em particular na superfcie cortical por pequenas correntes eltricas, atravs disso eventualmente induzem efeitos inibitrios e excitatrios, mas de qualquer forma uma funo local assume um distrbio. Se tal estmulo confinado globalmente ento sistematicamente interrompe uma habilidade cognitiva especfica tais como objetos, l existe a menor indicao que o lugar correspondente essencial para aquela tarefa. Esta tcnica foi criticada freqentemente pelo fato que carrega para todos os estudos nas leses. Por outro lado uma leso similar no mesmo lugar sempre causaria a mesma deficincia, e a mesma deficincia nunca foi produzida por um outro tipo de leso, ela no logicamente possvel usar como dado como uma prova conclusiva para localizao; a parte principal da funo pode residir em outro lugar, enquanto a leso pode destruir somente uma conexo do controle vital para ela. Hughlings Jackson j declarou "Para localizar os danos que destroem a fala e para localizar a fala so duas coisas diferentes "
45
Uma outra forma controlvel para a determinao da localizao comprimir quimicamente ou herdar o processo que causa o engatilhamento dos neurnios , ou seja, usar pequenos retalhos embebidos em striquinina. Esta tcnica foi usada com sucesso para mapear, isto , funes sensoriais primrias. O mtodo mais simples localizar uma resposta para armazenar o potencial ou encadeamento de impulsos neurais associados com ele. Apesar de desenvolver tcnicas multi-eletrdo geniais, este mtodo no detectou todas as respostas em uma rea desde que o encadeamento neural seja homogneo , a unio faz um neurnio particular ser mais eventual, especilamente de um sensor primrio e de reas associativas , foi feito por vrias tcnicas registradas eletrofisiolgicamente. Evidencias mais conclusivas para localizao podem ser obtidas por modernas tcnicas imaginrias que mostram diretamente a distribuio espacial da ativao do crebro associado com a funo alcanando uma resoluo espacial de alguns milmetros. Os dois mtodos principais que so baseados em traadores radioativos so eles: Positron Emission Tomography(PET), e auto radiografia do crebro atravs de conjuntos de colimadores muito pequenos (cmara gama). PET revelam mudanas no uptake oxignio metabolismo fosfato. O mtodo de cmara gama detecta mudanas diretamente no fluxo sanguneo cerebral. Os fenmenos correlate com a ativao neural local, mas eles no esto hbeis a seguir rapidamente os fenmenos. Em magnetoencephalography (MEG), o baixo campo magntico causado por respostas neurais detectado, e por computao desses recursos, as respostas neurais podem ser diretamente ser analisada com razovel rapidez , com uma resoluo espacial de juno de milmetros. A principal desvantagem que somente tais dipoles atuais so detectveis, as que esto em paralelo na superfcie do crnio, isto , principalmente o silco do crtex que pode ser estudado com este mtodo. Parece existir uma tcnica no ideal que sozinha seria usada para mapear todas as respostas neurais. Ela necessria para combinar estudos anatmicos, eletrofisiolgicos, imaginrios e histoqumicos. Mapas topogrficos em reas sensoriais Genericamente, dois tipos de mapas fisiolgicos so distinguveis no crebro: aqueles que soa claramente ordenados, e aqueles que so quase
46
Aldo von Wangenheim
randomicamente organizados, respectivamente. Mapas que formam uma imagems contnuas ordenada de algumas "superfcies receptivas" podem ser encontradas na viso, e crtices somatosensoriais no cerebelo , e em certo ncleo. A escala local no fator de sublimao desses mapas depende da importncia comportamental de sinais particulares , ou seja, imagens de parte foveal da retina , a ponta dos dedos e os lbios so sublimes em relao as outras partes. H assim um mapeamento "quasiconformal"da "superfcie" dentro do crebro.Tambm h mais mapas abstratos, ordenados, contnuos em muitas outras reas sensoriais primrias , tais como o tonotopic ou mapas de freqncia auditiva. Isso uma caracterstica comum de tais mapas que so confinados para uma rea menor, raramente excedendo 5mm de dimetro, como isso justificado para usar o modelo dela no qual a rede total assumida homogeneamente estruturada. Sobre uma rea , um mapeamento espacialmente ordenado ao longo de uma ou duas dimenses de atributos importantes de um sinal sensorial usualmente discernvel. Fisiologistas tambm usam a palavra "mapa" para respostas no ordenadas para estmulos sensoriais contanto que estes sejam localizveis espacialmente, at se eles forem randomicamente dispersos em cima de uma rea de vrios centmetros quadrados e muitos tipos diferentes de respostas forem encontrados na mesma rea. Respostas visuais mais complexas encontradas em nveis mais altos so mapeadas desta forma: por instncia, clulas foram detectadas respondendo seletivamente a faces. Evidncias para localizao de funo lingstica : Foi conhecido no incio do sculo que a afasia sensorial causada por leso nas parte superior e posterior do lobo temporal no crebro chamada rea de Wernicke; mas com tcnicas modernas de tratamento de imagem somente uma localizao muito mal feita de funes da linguagem tem sido possvel. Praticamente toda a funo sistemtica de alta resoluo mapeada foi feita por um mtodo de simulao. muito mais difcil localizar lingsticas em funes semnticas no crebro do que para mapear as reas sensoriais primrias. Primeiro, ele ainda no esta claro para quais aspectos da linguagem as dimenses caractersticas podem corresponder. Segundo, como foi notado recentemente como um mapeamento pode ser disperso.Terceiro, resposta para
47
elementos lingsticos podem somente ocorrer dentro "time windows". Quarto, as tcnicas experimentais usadas em animais estudados sendo usualmente evasivos, no podem ser aplicados a seres humanos, a menos que exista indicao de uma operao cirrgica. Contudo, o significado entre evidencias experimentais j avalivel suportando a viso do grau mais alto da localizao nas funes da linguagem. PET da imagem tem revelado que durante a tarefa de processar simples palavras , diversos lugares de cortes corticais so ativados simultaneamente. Estes no esto todos localizados na rea de Wernicke :algumas partes do lobo frontal e as reas associativas podem mostrar respostas simultaneamente tambm, especialmente em locais obviamente associados com percepo visual e auditiva , articulao e planejamento de tarefas. Ao invs de estudar representaes internas , localizao de lugares relacionados a processos semnticos precisam de melhor resoluo ao invs de um milmetro to difcil de registrar mesmo por estmulos de mapas, entretanto este mtodo no pode detectar algum pico de atividade temporal, isso pode apenas produzir bloqueio temporrio reversvel do processo em uma regio confinada a um milmetro quadrado. Estimulaes repetidas da mesma rea causa uma espcie de deficincia temporria , isto , erros em nomear objetos, ou dificuldade em recolecionar da memria de padres verbais curtas. Contudo, a estimulao de algumas outra reas apenas 5mm j separados podem induzir tipos completamente diferentes de deficincia ou sem efeito algum. Adicionalmente estes so casos de pacientes bilnges onde nomeados pelo mesmo objeto e prejudicado em apenas uma das linguagens dependendo da rea que est sendo estimilada. Isso parece como se a funo da linguagem fosse organizada como um mosaico de mdulos localizados . Outra evidncia indireta para um mapeamento estruturado est disponvel em diversos casos nas deficincias selecionadas como resultado de pancadas ou crebros feridos. Exemplos incluem deficincias no uso de palavras concretas por abstratas , inamimado por animado ou deixando objetos e comida contra palavras animadas. L existe relatrio bem documentado em impairements seletivos relatando quais subcategorias como objetos internos , partes do corpo, frutas, vegetais.
48
Aldo von Wangenheim
Anlise de qual informao tem direcionado a concluso que existe mdulos separados no crebro por uma "palavra lexicamente visual" e a palavra lexicamente fontica para reconhecimento da palavra em semntica lxica para o significado da palavra como uma sada lxica para palavras articuladas, respectivamente cada um desses mdulos pode ser independentemente falho. As falhas categoricamente relatadas acima parecem relatar danos causado seletivamente para a "lxica semntica ". Estas observaes no podem prover evidncias conclusivas para a localizao de classes semnticas sem a lxica, porque em todos esses casos no foi possvel avaliar a extenso espacial precisamente no tecido afetado no crebro. Nonetheles isso parece justificado para aquele estado de falha seletiva em que um grande nmero de casos, seria muito difcil explicar se a organizao semntica aparente da observao no estivasse em alguma forma ponderada no layout espacial do sistema. 3.5.2.4. Representao de dados topologicamente relacionados em um mapa auto organizvel Algum modelo sugerido para a formao auto organizvel de representaes internas (como clulas de caractersticas sensitivas) precisa tambm estar apto para fazer relaes essenciais entre itens de dados explcitos. Uma forma intrigante de alcanar isso a formao de mapas espaciais, que talvez sejam o local mais conhecido de representaes. Vrios anos atrs , um dos autores (Kohonen) desenvolveu um modelo de adaptao neural capaz de fazer formao no supervisionada de mapas espaciais para vrios tipos diferentes de dados. Nesta seo primeiro mostraremos o modelo de equao (simplificado) e ento explicaremos como um mapa de estrutura preservada de dados relatados hierarquicamente gerada por ele. Descrio mais detalhada do processo e seu fundamentos podem ser encontradas na publicao original e tambm alguns desenvolvimentos recentes (Kohonen 1982 a-c, 1984; Cotrell and Fort 1986; Ritter and Schulten 1986, 1988, 1989) O modelo assume um conjunto de neurnios adaptativos interagindo lateralmente, geralmente arranjados como uma lmina em duas dimenses.Os neurnios so conectados como um feixe comum de fibras de
49
entrada. Algum padro de atividade surge nas dadas fibras de entrada para a excitao de algum grupo de neurnios locais. Depois do aprendizado, as posies espaciais de grupos especficos excitados em um mapeamento de padres de entrada em uma lmina bidimensional , o ltimo tendo a propriedade do mapa topogrfico, isto , ele representa as relaes de distancia de alta dimenso do espao dos sinais de entrada aproximadamente como distancia de relacionamento nas laminas neurais bidimensionais. Esta propriedade considervel segue de interaes laterais assumidas e bastante simples de baixa adaptao biologicamente justificada. De fato, parece que os requerimentos principais auto organizveis so: (I) os neurnios so expostos a um nmero suficiente entradas diferentes (II) para cada entrada, as conexes de entradas sinpticas somente o grupo excitado afetado (III)atualizao similar imposed em muitos neurnios adjacentes e (IV) o resultado ajustado tal que o aumento da mesma resposta para a subseqente , entrada similar suficiente. Matematicamente o padro de atividade das entradas est described por um vetor x n-dimensional onde n o nmero de linhas de entrada. A resposta do neurnio r especificada por um vetor wr n-dimensional , eventualmente correspondendo ao vetor ao vetor de eficcias sinpticas e isso medido pelo produto x|wr . Para a eficincia do processo e convenincia matemtica, todos os vetores de entrada so sempre normalizados para tamanho nico, considerando que o wr no precisa ser normalizado explicitamente no processo , cedo ou tarde o processo os normalizar automaticamente. Os neurnios esto arranjados em uma grade bi-dimensional, e cada neurnio est rotulado pela sua grade bi-dimensional de posio r. O grupo de neurnios excitados escolhido para estar centralizado no neurnio s para que x. ws seja o mximo. Esta forma e extenso so descritas por uma funo hrs , cujo valor a excitao do neurnio r se o centro do grupo estiver em s. Esta funo pode ser constante para todo o r em uma "zona de vizinhana" em torno de s e zero, como em uma simulao presente em que so supostas para descrever o mapeamento mais natural. Neste caso hrs ser o maior em r=s e declnio para zero
50
Aldo von Wangenheim
com distncia decrementada ||r-s||. A melhor modelagem realista escolhida para h rs :
rs ---------------2 h rs = e ( t )
( 1)
isto , a distancia Gaussiana ||r-s|| cuja varincia /2 controlar os radianos do grupo.

Figura 3.25.
Forma da funo de vizinhana
rede A
= hrs
x
vencedor j vizinho s
Os ajustes correspondentes para a entrada X devem ser dados por:

nov o
Wr
= h rs ( X W r
v elho
(2 )
A equao (2) pode ser justificada assumindo a tradicional lei de Hebb para modificaes sinpticas, e um processo adicional "active" no linear de esquecimento para a fora sinptica. A equao (2) foi desejada propriamente de algumas adaptaes de confinamento para a vizinhana do neurnio s e responde melhor ao x. Ns devemos presentear aqui alguma prova para que estas condies realmente conduzem para uma organizao ordenada do mapa. Para o
51
presente propsito suficiente dizer que os mapas resultantes so projees no lineares no espao de entrada nessa superfcie com duas propriedades: (I) os relacionamentos de distncia entre a fonte de dados so preservados pelas suas imagens no mapa to fielmente quanto possvel. Contudo, um mapeamento de um espao alto-dimensional para um baixo-dimensional geralmente alterar mais distancias e s preservar o mais importante relacionamento de vizinhana entre os itens de dados , isto a topologia de suas distribuies. Este o fator comando da informao de uma representao reduzida em que detalhes irrelevantes so ignorados. (II) Se diferentes vetores de entrada aparecem com diferentes freqncias , o mais freqente ser mapeado para domnios maiores a custa das menos freqentes. Estes resultados em uma localizao muito econmica de recursos de memria para itens de dados concesses com descobrimentos fisiolgicos. Se os dados formam agrupamentos no espao de sada, isto , se h regies com vrias freqncias e ao mesmo tempo muitos dados similares (I) e (II) assegurar que os dados do agrupamento so mapeados para um domnio de localizao comum no mapa. Alm disso, o processo arranjar a mtua posio desses domnios em que a forma para capturar a topologia completa do agrupamento possvel. Desta forma, como agrupamentos hierrquicos podem ser melhorados, uma pensamento freqentemente capaz de representar uma forma de abstrao. 3.5.2.5. Mapas de auto organizao semntica. Simbologia de mapas de auto organizao. Na demonstrao descrita em (kohonen 1982c) e (kohonen 1984), os mapas de auto organizao principalmente refletem as relaes de distancias mtricas entre vetores de representaes de padres. Como informaes so caractersticas dos mais baixos nveis de percepo, em linguagem particular e raciocnio, parece sobrar no processo de smbolos discretos. daqui ns devemos entender como o crebro pode representar entidades simbolgicas . Em vista da localizao parecer vista neste nvel, ns devemos particularmente expor como o mapea-
52
Aldo von Wangenheim
mentos de smbolos pode ser formada em qual relao lgica ocupa lugares vizinhos. Um pensamento pode aplicar as leis de adaptao neuronal a um conjunto de smbolos que podem criar um mapa topogrfico que mostra a distncia lgica entre os smbolos como comparados em dados contnuos. Para a similarieade mais tarde sempre mostrar de uma jeito natural, como diferenas mtricas entre seus cdigos contnuos. Isto no mais verdadeiro para a simbologia de itens discretos, como palavras para quais nenhuma mtrica foi definida. Isto no verdade para discrio, itens simblicos, como palavras, para as quais nenhuma mtrica foi definida. Isto est no mais natural smbolo que seu significado dissociado do seu cdigo. Daqui a relao lgica entre diferentes smbolos deseja-se em geral no ser diretamente detectveis pelos seus cdigos e no pode assim presumir nenhuma relao mtrica entre os smbolos, mesmo quando eles representam itens similares. Como seria ento possvel mape-los topograficamente? A resposta que o smbolo, ao menos no processo de aprendizagem poderia ser frequentemente apresentado em contexto semelhante, i.e. em conjuctura com todos ou parte dos valores atribudos ao item que ele codifica, ou com outro, correlacionando smbolos. O modelo bsico do sistema para mapas simblicos aceita cada dado do vetor x como uma concatenao de dois (ou mais) campos, um especificando o cdigo simblico, denotado por xb e o outro, o conjunto de atributos, denotado por xa, respectivamente. X = [Xs | Xa] (3) X = [0 0 1 0 0 | 1 0 1 0 0 1 ....1 1 0 0] A equao 3 ilustra em equao vetorial que a decodificao da parte simblica e a parte atributo pode formar um vetor somado com dois componentes ortogonais. A idia central de mapas simblicos, que as duas partes so ponderadas apropriadamente como a norma da parte
53
atributo predominada sobre a parte simblica durante o seu processo de organizao; o mapeamento topogrfico desse momento principalmente reflete os relacionamentos mtrico do conjunto de atributos. Deste modo, as entradas para sinais simblicos, de qualquer forma, so ativados todo o tempo, traos de memrias deles so formadas para a entrada correspondente de outras clulas do mapa que foi selecionado (ou atualmente forado) pela parte atributo. Se ento, durante a recognio de dados de entrada, o sinal dos atributos so perdidos ou esto muito fracos as mesmas unidades do mapa so selecionadas base da parte simblica unicamente. Deta forma os smbolos vm codificados dentro de um ordem espacial refletindo suas similaridades lgicas (ou semnticas). Atributos podem ser variveis com valores escalares discretos ou valores contnuos ou eles podem alcanar propriedades qualitativas como "bom" ou "ruim". Isto simplesmente para assumir que a identidade de cada atributo clara nas suas posies no "campo atributo" xa, por meio do qual a presena ou falta de uma propriedade qualitativa pode ser indicada por um valor binrio, dizendo 0 ou 1 respectivamente. Ento a (desnormalizada) similaridade entre dois conjuntos de atributos podem ser definidos em termos do nmero de atributos comuns para vrios conjuntos, ou equivalncias, como produto ponto dos respectivos vetores atributos. Para ilustrar isto com um modelo concreto de simulao, considere o dado fornecido na fig.1. cada coluna uma muito esquemtica descrio de um animal, baseado na presena (=1) ou falta (=0) ou algum dos 13 diferentes atributos dados esquerda. Alguns atributos, como "penas" e "2 pernas" so combinados, indicando mais diferenas significantes que os outros atributos. A seguir, ns vamos pegar cada coluna para o campo atributo xa do animal indicado no topo. O prprio nome do animal no pertence a xa mas ao invs disso especifica a parte do smbolo xs do animal. Selecionar o cdigo do smbolo pode ser feito de uma varidade de formas. Entretanto, ns agora queremos ter certeza que o cdigo dos smbolos indiquem alguma informao sobre similaridades entre os itens. Daqui ns escolhemos para a parte simblica do k-th animal um vetor ddimensional, o qual k-th componente tem um valor fixo de a, e dos
54
Aldo von Wangenheim
Figura 3.26.
Nomes de animais e seus atributos
galinha
pomba
cachorro
raposa
ganso
coruja
falco
cavalo 0 0 1 0 1 1 1 1 0 0 1 0 0
guia
zebra 0 0 1 0 1 1 1 1 0 0 1 0 0
pato
gato
tigre
pequeno 1 mdio grande 0 0
1 0 0 1 0 0 0 0 1 0 0 0 0
1 0 0 1 0 0 0 0 1 0 0 0 1
1 0 0 1 0 0 0 0 1 0 0 1 1
1 0 0 1 0 0 0 0 1 1 0 1 0
1 0 0 1 0 0 0 0 1 1 0 1 0
0 1 0 1 0 0 0 0 1 1 0 1 0
0 1 0 0 1 1 0 0 0 1 0 0 0
0 1 0 0 1 1 0 0 0 0 1 0 0
0 1 0 0 1 1 0 1 0 1 1 0 0
lobo
1 0 0 0 1 1 0 0 0 1 0 0 0
0 0 1 0 1 1 0 0 0 1 1 0 0
0 0 1 0 1 1 0 1 0 1 1 0 0
0 0 1 0 1 1 1 0 0 0 0 0 0
2 pernas 1 4 pernas 0 tem plo cascos crina penas caar gosta correr voar nadar 0 0 0 1 0 0 1 0
quais componentes remanescentes so zeros. Este d o nmero de itens (d = 16 em nosso exemplo). Para esta escolha, a distncia mtrica entre dois vetores xs o mesmo, irrespectivo dos smbolos codificados. O parmetro a pode ser interpretado como medindo a "intensidade" de entrada dos campos simblicos e isso determina a realtiva influncia da parte simblica comparada com a parte atributo. Como ns procuramos o ltimo que ir predominar, ns escolhemos um valor para a = 0.2 para nossa simulao. Combinando xa e xs de acordo com (3), cada animal foi codificado por um 29-dim vetor de dados x = [xs, xa]t (*elevado a t*). Finalmente cada vetor de dado foi normalizado a um nico tamanho. Embora isso apenas um significado tcnico para garantir uma boa estabilidade no processo de auto-organizao, sua contraparte biolgica
vaca
leo
55
Figura 3.27.
Depois que a rede treinou com os dados de entrada, apresenta-se os nomes dos animais isoladamente. Um agrupamento de acordo com a similaridade gerado.
pato . . ganso . . pomba . .
. . . . . . . . .
. . . . . coruja . . . .
cavalo . . . falco . . . guia .
. zebra . . . . . . . .
. . . . . . . . . .
. . . lobo . .
vaca . . . . .
. . . . . . . . . .
. . tigre . . leo . . . gato
cachorro . . . raposa . . .
galinha .
poder ser intensificada a normalizao dos padres de atividade de entrada. Os membros do conjunto de dados assim obtidos foram apresentados iterativelmente e em uma ordem randomica para uma rede planar de 10 x 10 neuronios sujeita a um processo de adaptao descrito a seguir. A coneco inicial fora entre os neurnios e seus n = 29 linhas de entrada onde so escolhidos os pequenos valores randomicos. i. e. nenhuma ordem prioritria foi imposta. Entretanto depois de um processo de 2000 apresentaes, cada "clula" torna-se mais ou menos responsvel por uma das combinaes de atributos de ocorrncia e simultneamente para um dos nomes de animais tambm. Se nes testarmos agora qual clula d a resposta mais forte se apenas o nome do animal apresentado como dado de entrada (i.e. x =[xs,0]t (*elevado
56
Aldo von Wangenheim
Figura 3.28.
Tabela com os dados de treinamento utilizados por Kohonen e Ritter, mostrando a parte xa de atributos do vetor atenuada em 80%. Observe que xa a matriz transposta da mostrada na fig. 3.26
0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,0
0,2 0,2 0,2 0,2 0,2 0,2 0,0 0,0 0,0 0,0 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,2 0,2 0,2 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,2 0,2 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,2 0,0 0,0 0,2 0,2 0,2 0,0 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,2 0,2 0,2 0,2 0,0 0,2 0,2 0,2 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,2 0,2 0,0 0,2 0,2 0,2 0,2 0,0 0,2 0,0 0,0 0,2 0,2 0,2 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,2 0,2 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0
1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0
0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0
0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0
0,0 0,0 0,0 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0
a t*), ns obtemos o mapa mostrado na fig. 3.27 (os pontos indicam neurnios com respostas fracas) Isto altamente aparente que a ordem espacial das respostas foi capturada a essencial "famlia de relacionamentos" entre os animais. Clulas respondendo para, e.g. "birds" ocupam a parte esquerda da rede, "hunters" como tambm "tiger", "lion" e "cat" recolhem para a direita, mais "peacefull" espcies como "zebra", "horse",e "cow" agregam ao meio superior. Dentro de cada conjunto, um novo agrupamento de acordo com a similaridade discernido. A fig. 3 mostra o resultado de um "traado simulado da penetrao do eletrodo" para a mesma rede. Ela difere da fig. 2 em que agora cada clula tem sido marcada pelo smbolo que seu melhor estmulo, i. e., extrai a melhor resposta para aquela clula. Isto faz o parcelamento do "territrio neural" em domnios especficos para estes itens visveis de entrada. Hierarquia deste modo representada por domnios aninhados. A classe geral (e.g. "bird") ocupa um largo territrio, no qual ele mesmo diferenciado em subdomnios aninhados, correspondendo a mais itens especializados ("owl","duck", "hen", etc.). Embora fortemente idealizado, este resultado muito sugestivo de como o sistema de auto-organizao para guiar espacialmente a formao de traos de memria em tal maneira que seu layout fsico final forma uma imagem direta da hierarquia do mais importante "conceito de realcionamentos".
57
Figura 3.29.
"mapeamento da atividade cerebral" para a rede na fig.3.27. Cada clula marcada pelo nome do animal gerando a melhor resposta. Clulas respondendo ao mesmo nome de animal formam domnios, os quais so agrupados de acordo com a similaridade entre os animais.
cavalo cavalo ganso falco falco coruja coruja guia guia guia cavalo zebra zebra falco falco falco coruja guia guia guia zebra zebra zebra falco falco falco coruja guia guia guia zebra zebra zebra lobo lobo vaca vaca lobo lobo lobo vaca vaca lobo lobo lobo vaca tigre tigre tigre leo vaca tigre tigre tigre leo leo
pato pato ganso ganso ganso pomba pomba pomba galinha galinha
pato pato ganso ganso coruja coruja pomba pomba galinha galinha
cachorro cachorro cachorro leo
cachorro cachorro cachorro cachorro leo cachorro cachorro cachorro cachorro gato raposa raposa raposa raposa raposa raposa gato gato gato gato
O resultado da realizao de uma simulao no SNNS utilizando estes dados pode ser vista na figura abaixo. Na Figura 3.30. mostrada a ativao da rede aps apresentao apenas da parte simblica do padro de nmero 13 (leo). Aqui foi utilizada uma rede de Kohonen de 10x10 com uma camada de entrada de 29 neurnios, como descrito no experimento. Observe a atividade de neurnios agrupada em um cluster em torno de um neurnio com ativao mais forte. Regras Baseadas em Mapas Semnticos No exemplo do mapa animal, a regra do contexto foi ainda muito simples: A decodificao simblica foi relacionada a um conjunto de atributos estaticamente explcitos. Em linguagem natural, e obviamente em qualquer percepo natural tambm, os itens e seus atributos, e
58
Aldo von Wangenheim
Figura 3.30.
Resultado de treinamento de uma rede com SNNS: ativao aps apresentao da parte simblica do padro #13 (leo). O vermelho representa ativao mais alta.
obviamente algum estado informativo usualmente ocorrem em uma sequncia temporal. O conceito do contexto ento precisa ser ampliado e a dimenso do tempo dosado tambm. Talvez o caminho mais simples para fazer isto, definir o contexto de cada item com todos os outros itens (juntos com suas ordens seriais) que ocorrem em um certo "perodo de tempo" ao redor do item selecionado. Neste trabalho ns no perderemos tempo com uma representao fsica concreta de sinais, de qualquer forma os padres so temporais, como se fala, ou espaciais, como em texto. Para as converses sries - paralelo, redes neurais podem usar caminhos com diferentes tempos, estados prprios que dependem das sequncias, ou de algum outro mecanismo implementado na memria short-term. Aqui ns mostramos concentrando-se apenas ans similaridades entre as exdpresses que levanta-se de ocorrncias condicionais de suas partes,e simplesmente imagina que trios ou pares de palavras podem de algum modo ser apresentadas s portas de entrada do sistema. Linguagens contm muitos outros nveis de significado. Isto possvel para construir casos, onde the devida "janela" para o enetendimento da palavra tem que compreender uma sequencia inteira. Em outra mo, a possiblidade de formar gramticas demosntra que uma significante parte da estrutura da linguagem ainda manifesta-se em um imenso baixo nvel,
59
abaixo para padres de palavras e concluses. Deteco de tal estrutura "escala curta" poder ser o foco de nosso interesse nesta seo e ns demostraremos que a incluso de um muito limitado contexto de palavras permite o modelo bsico da rede (1) a formar mapas semnticos, no qual as palavras itens so agrupadas de acordo com a semntica categorias (objetos, atividades, qualificaes, etc.) e simples similaridade.
Figura 3.31.
a Lista as palavras usadas (nomes, verbos e advrbios), b padres de sentenas e c alguns exemplos de sentenas de trs palavras geradas
Padres de sentenas 5 12 1 9 2 2 5 14 5 13 1 9 3 2 9 1 5 14 1 9 4 2 9 2 6 12 1 10 3 2 9 3 6 13 1 11 4 2 9 4 6 14 1 10 12 2 10 3 6 15 1 10 13 2 10 12 7 14 1 10 14 2 10 13 8 12 1 11 12 2 10 14 8 2 1 11 13 1 11 4 1 11 14 1 11 12 2 5 12 2 11 13 2 5 13 2 11 14
Bob/Jim/Mary cavalo/cachorro/gato cerveja/gua carne/po corre/caminha trabalha/fala visita/telefona compra/vende gosta/odeia bebe/come muito/pouco rpido/lentamente frequentemente/rarament e bem/mal (a)
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 1 1 1 1 1 1 1 1 1
1 8 3 1 8 4 1 9 1
Mary gosta de comer Jim fala bem Mary gosta de Jim Jim come frequentemente Mary compra carne cachorro bebe rapido cavalo odeia carne Jim come raramente Bob compra carne gatos caminham suavemente Jim come po Gato odeia Jim Bob vende cerveja (etc)
(b)
Para a nossa demonstrao, ns usamos um conjunto de 3 sequncias de palavras randomicamente geradas construdas do vocabulrio da Fig. 4 a. O vocabulrio contm nomes, verbos e advrbios, e cada classe contm vrias subdivises, como nome de pessoas, animais e objetos inanimados em uma categoria de nomes. Essas distines so em parte de uma gramtica, em parte da semntica natural . De qualquer forma, por razes discutidas na seo 4.1, eles mostraram no ser discernveis de um cdigo de palavras prprias mas apenas de um contexto de onde as palavras so usadas. Em linguagem natural, como um contexto poderia conter uma rica variedade de experincias sensoriais. Nesta demonstrao muito limitada, entretanto, ns poderemos apenas pegar
60
Aldo von Wangenheim
no cliente o contexto fornecido pelo ambiente textual imediatamente adjacente de cada palavra corrente. Isso ir retornar que mesmo este contexto extremamente restrito ser suficiente para fazer saber alguma estrutura semntica interessante. claro que isto requer que cada sentena no seja totalmente randomica, mas obedea algumas ltimas regras rudimentares de gramtica e semntica com exatido. Isto assegurado por restringir a seleo randomica a um conjunto de 39 padres de sentenas "legais" apenas. Cada padro um trio de nmeros da figura 4b. Uma sentena construda pela escolha de uma tripla e substituindo cada nmero por uma das palavras com o mesmo nmero na fig. 4.a. Este resultado um total de 498 diferentes sentenas de palavras triplas, alguns dos quais so dados na fig 4c. (Se aquelas indicaes so verdadeiras ou no no nos interessa: ns estamos apenas interessados exatido semntica). Nesta demonstrao muito simples, sups-se que o contexto de uma palavra seria suficientemente definida pelo par formado pelos seus predecessores e sucessores imediatos. (Para ter tais pares tambm para a primeira e ltima palavra da sentena, ns decidimos que as sentenas sero concatenadas em uma ordem randmica da sua produo.) Para o vocabulrio de 30 palavras na fig 4a ns poderamos ter procedido como na seo 4.1 e representado cada para por um vetor de 60-dim com dois no-zeros de entrada. Para uma codificao mais otimizada, de qualquer forma, como explicado mais detalhadamente no apndice I, ns assumimos para cada palavra, um vetor randmico 7-dim de tamanho nico, escolhido fora do conjunto para cada palavra independentemente para uma distribuio probabilstica isotropica. Daqui cada par predecessor/sucessor foi representado por um codigo vetorial de 14-dim. Isso aconteceu em todos os nossos experimentos computacionais que preferencialmente demos ateno para cada clusula separadamente, uma estratgia de aprendizagem muito mais eficiente foi considerar cada palavra neste contexto mdio sob um conjunto de clusulas possveis, antes apresentando isso ao algoritmo de aprendizado. O (significado) contexto de uma palavra foi deste modo definido primeiramente como mdia sobre 10.000 sentenas de todos os cdigos vetoriais de pares predecessor/sucessor cercando essa palavra. O trigsimo resultado da 14dim "contexto mdio de palavras", normalizada a um nico comprimento, assumiu uma regra similar como campo de atributos xa na simulao
61
prvia. Cada "campo de atributo" foi combinado com um 7-dim "campo simblico", xs consistindo em um cdigo vetorial para a sua palavra, mas adequada ao comprimento a. Neste momento, o uso do vetor de cdigo randmico quase garantiu que o campo simblico xs no saiba nenuma informao sobre relacionamentos de similaridade entre as palavras. Como antes, o parmetro a determinou a influncia relativa da parte simblica em comparao a parte contextual e teria o conjunto de a = 0.2.
Figura 3.32.
"Mapa Semntico" obtido na rede de 10 x 15 clulas
. cerveja . . rpido . lentamente . bem . mal . . . bebe
gua . . . . . . . . . . . . . .
. . . . . . freqentemente . . . . . . corre .
carne . . Pequeno . . . . . . Fala . . . .
. . . . . muito . . trabalha . . . . . caminha
. po . . . . . . . . . compra . . .
. . . . raramente . . come . . . . vende . .
. . . . . . . . . . . . . . odeia
cachorro cavalo . . . . Jim . . . . . visita . . . . gato . Bob . . Mary . . telefona . . . gosta
62
Aldo von Wangenheim
Para esse experimento uma grade planar de 10 x 15 neurnios formais seriam usados. Como antes, cada neurnio inicialmente faria apenas coneces randmicas fracas ao n = 21 linhas de entrada do sistema, ento novamente, nenhuma ordem inicial seria apresentada. Depois de 2000 apresentaes de entrada as respostas dos neurnios das partes simblicas somente seriam testadas. Na fig. 5, o quadro simblico foi escrito para mostrar o local onde o sinal do smbolo x = [xs,0]t (*elevado a T*) deu a resposta do mximo. Ns claramente vemos que os contextos tem "canalizado" os itens das palavras s posies de memria das quais refletem as relaes gramticas e semnticas. Palavras de mesmo tipo, i. e. nomes, verbos e advrbios tem segregado em separado, grandes domnios. O "mapa semntico" obtido em uma rede de 10 x15 clulas depois de 2000 representaes de pares de palavras-contexto derivados de 10.000 sentenas randmicas do tipo mostrado na fig. 4c. Nomes, verbos e advrbios so segregados dentro de diferentes domnios. Dentro de cada domnio um agrupamento adicional concorda com aspectos do significado como discernimento. Cada um desses domnios mais adiante subdividido por similaridade no nvel de semntica. Por instncia, nomes de pessoas e animais tendem a ser aglomerados em subdomnios em comum "domnio do substntivo", refletindo em co-ocorrncias diferentes com, e.g. verbos como "correr" e "telefonar". Advrbios com significado oposto tendem a ser particularmente fechados juntos, como o oposto deles significa assegurar a eles o uso mximo do espao comum. O agrupamento de verbos indicam diferenas nos caminhos, eles podem co-ocorrer com advrbios, pessoas, animais e objetos no animados como e.g. "comida". Figura 6 mostra o resultado de um outro experimento, baseado no mesmo vocabulrio e mesmo padro de sentena como antes. De qualquer forma, nesta simulao o contexto de uma palavra foi restrita apenas ao seu predecessor. (O contexto agora consiste de um vetor de 7-dim). Mesmo isto sendo muito limitado, provou como sendo suficiente para produzir um mapa com aproximadamente similar as propriedades como na fig 5. Isto mostra que as regularidades apresentadas so um tanto robustas para trocas nos detalhes da codificao to grande quanto o contexto capturar uma quantidade suficiente da estrutura lgica subjacente.
63
Figura 3.33.
Este mapa foi obtido pelo mesmo procedimento da fig 05, mas com um cotexto mais restrito que inclui apenas o predecessor imediato de cada palavra.
vende
Pode-se discutir que a estrutura resultante no mapa tinha sido artificialmente criada por uma escolha pre-planejada da sequncia de padres reservadas na entrada. De qualquer forma, isso facilmente verificado nos padres da fig. 4b quase que completamente at a exausto das possibilidade de combinao das palavras da fig 4a em uma semanticidade bem formada de sentenas de 3 palavras (um leitor astuto pode verificar alguns "casos de linha semnticas" no cobertas, como "dog eats cat"). Isto pode tornar isso claro que todos padres de sentenas selecionados estavam realmente determinados pelas restries inerentes na semanticidade correta usada pelas palavras, e no vice-versa. Alm
64
Aldo von Wangenheim
disso, uma porcentagem significativa das palavras vizinhas estendem-se atravs das bordas das sentenas randomicamente concatenadas. Nesta concatenao foi irrestrita, tais vizinhos foram largamente irrelacionados a estrutura semntica e gramatical das sentenas, e constituram um tipo de "rudo" no decorrer do processo. Isso importante observar que este rudo no disfara as regularidades se no forem apresentadas nas clusulas. De qualquer forma, o que importante observar est exatamente aqui. Alguma semntica realstica de mapas cerebrais, precisariam de um modelo hierrquico probabilstico muito mais complicado. A finalidade de um simples modelo artificial usado neste trabalho foi apenas demostrar o potencial de um processo auto organizacional par formar mapas abstratos. Em particular, os resultados da simulao, como est, no poderia ser usado como referncia para comparao topogrfica direta com reas do crebro. Como uma comparao entre a fig. 5 e fig.6 mostram, existem muitos caminhos quase equivalentes, nos quais um conjuntos de relacionamentos de similaridades podem ser apresentados no mapa. Consequentemente os mapas gerados pelo modelo no so nicos, a menos que restries adicionais, como e.g. condies limiares ou alguma ordem inicial grosseria for imposta. Estes podem ento inicialmente "polarizar" o sistema que ento converge a um outro nico mapa. 3.5.2.6. Discusso Um dos mecanismos biolgicos que atualmente tem sido mal compreendido, a habilidade do crebro de formar abstraes de experincias sensoriais primrias em gigantescos nveis de generalizaes. Isto j bem conhecido que em um baixo nvel percentual, informaes sensoriais primeiramente vm organizadas dentro de mapas sensoriais ordenados topograficamente, e isto tem tambm j sido demostrado teoricamente que cada mapa pode ser formado adaptativamente, refletindo uma mtrica mtua dos relacionamentos e estatsticas dos dados de entrada. Este mesmo princpio tem sido aplicado com sucesso considervel para exigir tecnicas padres de farefas de recognio como discurso recognitivo.
65
Neste trabalho ns temos agora mostrado que o princpio de mapas de auto organizao podem tambm ser extendidos para nveis mais altos de processamento, onde os relacionametos entre itens so mais sbitos e menos aparentes em suas caractersticas intrsecas, uma propriedade que caracterstica de expresses simblicas. Simbolos em geral, no contm componentes metricamente relatveis. Consequentemente, mapas de significncia topogrfica de smbolos no devem mostrar por muito tempo as caractersticas intrsecas, mas ao invs disso as similaridades lgicas das suas entradas. Isto voltar, entretanto que mapeamento organizados de dados simblicos podem seguir as mesmas leis bsicas de adaptao, fornecendo que os dados simblicos de entrada so apresentados juntos com uma quantidade suficiente de contexto, que ento definem os relacionamentos de similaridade entre eles. Se as descries simblicas deixam traos de memria nos mesmos neurnios dos quais os sinais contextuais convergem, os mesmos neurnios ento tornam-se tambm sensveis aos sinais simblicos em uma ordem espacial que tambm reflete sua lgica de similaridade. Smbolos tocam um regra particularmente importante em linguagens. Neste trabalho ns demos dois exemplos de simulao que demonstram a formao auto-organizada de mapas semnticos, no qual relacionamentos semnticos entre palavras tem sido codificadas em posies relativas espaciais de localizao de respostas. Nossos mapas artificiais so parcelados na hierarquiedade aninhado a domnios refletindo diferentes categorias de palavras. Este parcelamento emerge totalmente do co-ocorrente contexto sensorial e palavras. Em nossas simulaes o contexto sensorial foi restrito a um simples conjunto de atributos ou palavras adjacentes em sentenas. O tipo simples de clausulas utilizadas neste experimento ocorrem em todas as linguagens, suas primitivas uniformes. Isto consequentemente tambm do interesse para notar qual dado experimental (sect.2) indica organizaes similares as rea do crebro relacionadas a linguagem de processamento. Especialmente a debilidade da linguagem categoria-especfica discutidas na sect.2. (Warrington and McCarthy 1987) visto para refletir o mais similar em um nvel filosfico. Na primeira simulao ns usamos inicialmente atributos explicitos, deste modo assumindo que algum mecanismo neural j tinha geradoos. A filosofia subjacente do nosso trabalho que uma tendncia auto-
66
Aldo von Wangenheim
organizadora similar poderia existir em todos os nveis de processamento; ilustrando isto, de qualquer forma, apenas possvel se os sinais tem algum significado para ns. O termo "mapa semntico" usado neste trabalho, no ainda referido a "compreenso mais elevada da palavra"; palavras esto apenas sendo agrupadas conforme o seu contexto local. Devido a grande correlao entre contexto local e significado da palavra, entretanto isto aproxima a ordenao semntica encontrada na linguagem natural, o qual presumidamente no pode ainda ser generalizada em cada fase aprendida. Isto uma questo intrigante se algum estgio de processamento subsequente poder criar um ordenamento que reflete significados de um nvel mais elevado - dos quais poder facilitar totalmente o entendimento da significado das palavras - por algum tipo de interao do basico processo de auto-organizao. Nosso modelo enfatiza a regra do arranjo espacial de neurnios, um aspecto apenas considerado em muitas poucas abordagens modeladas. Entretanto ns no gostamos de dar a impresso que ns nos opomos a viso de redes neurais como sistemas distribudos. As interconeces massivas responsveis pela interao lateral to bem como os engramas relacionando para a memria associativa so certamente disseminado sobre uma grande rea da rede. Em outra mo, isto mostra-se inevitvel que alguma tarefa de processamento complexo precisa algum tipo de segregao de informao em partes separadas, e localizao do mais robusto e eficiente caminho para encontrar esta meta. Os mapas semnticos oferecem um mecanismo eficiente para gerar uma segregao significativa de informao simblica uniforme em um nvel razoavelmente alto de semnticas, e eles tem qualidade mais recente de ser o nico baseado em aprendizado no-supervisionado. Se ns ainda necessitarmos considerar um timing relativo de sinais. (cf. von der Malsburg and Bienenstock 1986) remanescem o mais recente objetivo do estudo. Existem outras novas razes no para negligenciar os arranjos espaciais das unidades de processamento. Por instncia, a anatomia dos conjuntos de circuitos neurais restringem a realizao da conectividade entre unidades. Mais a fundo, sinais cerebrais nos e apoiam unicamente em transmisso de sinais axonais emitidos em distncias selecionveis, mas
67
tambm emprega difuso de neurotransmissores e neuromoduladores, em todas semelhanas, estas restries poderiam limitar a implementao de muitos mecanismos computacionais, a menos que este obstculo esteja aliviada pela eficiente organizao espacial oferecida pelos mapas. De um ponto de vista hardware, se isto fosse esperado que a minimizao dos custos de conectividade poderia fortalecer este tipo de design de rede neural. Isto poderia dar um indcio porque uma organizao topogrfica to difundida no crebro. Outros argumentos para localizao so que a segregao espacial de representaes fazem ento mais lgica, pela reduo de etapas para a sua inferncia mtua, e logicamente de itens simbolicos similares, sendo espacialmente adjacentes, podem invocar um outro associativamente, como expressado nas leis clssicas de associao. Uma outra observao pode ser necessria. Nossas simulaes no podero ser pegas como uma sugesto que cada palavra representada por uma ento chamada "clula me" no crebro. Cada palavra um pedao complexo de informao provavelmente redundante codificada por uma populao neuronal inteira (e vrias vezes em separado "lexica", cf. 2.4). Tudo em um grande modelo idealizado usado em nossas simulaes, isto no um simples neurnio mas um subconjunto inteiro de clulas, cercar o mais responsvel deles, que pega o mais adequado a palavra (cf. fig 3). Estes subconjuntos podem ento ser engajados em novos processamentos, no capturado pelo modelo bsico. O nmero de clulas atribudas a cada subconjunto tambm depende da frequncia das ocorrncias das palavras. Isto anloga ao caso que a frequncia de ocorrncia de estmulos determina o fator local ampliado em um mapa sensorial (Kohonen op. Cit., Ritter and Schulten 1986). Similarmente palavras frequentes poderiam recrutar clulas de um grande territrio neural e ser mais redundantemente representado. Como consequncia, as mais frequentes palavras podero ser menos suscetveis aos danos locais. Esta complies com observaes empricas nos pacientes do curso, por meio do que as palavras familiares tem mais chances de sobreviver que as raras. Finalmente, ns gostaramos de apresentar um noo filosfica intrigante. Como indicado anteriormente, existem vria evidncias biol-
68
Aldo von Wangenheim
gicas e justificaes tericas para o funcionamento do crebro, requisitando representao de seus dados de entrada por significativas partes processadas em localizaes separadas espacialmente. A idia sobre categorias fundamentais postuladas para a interpretao e entendimento do mundo mais obviamente levanta da formao prioritria de cada representao no prprio mundo biolgico do crebro. 3.5.2.7. Variao da Funo de Vizinhana durante o Treinamento Kohonen e Ritter sugerem, em um anexo de seu artigo, que, para tornar o processo de aprendizado cada vez mais local, medida em que o processo de aprendizado avana, o tamanho da varincia definida para o sino de Gaussseja reduzido gradualmente. Isto tem como efeito que o treinamenento que o neurnio vencedor sofre afeta uma vizinhana cada vez menor. A idia por detrs deste procedimento simular o efetito de que primeiramente uma rede aprende conceitos de forma grosseira e global, achando um nico local para armazenar estes conceitos. medida que o tempo passa, porm, o aprendizado se torna mais local e nunces e ajustes finos para variedades de um conceito so realizadas numa pequena vizinhana. A tcnica de comear-se com uma vizinhana grande, que reduzida modificando-se a varincia da curva de Gauss tem esse efeito: primeiramente a rede aprende de maneira geral a organizar padres similares em grupos localizados em regies especficas da rede, depois a rede passa a refinar este mapeamento de maneira cada vez mais localizada. Na prtica, a frmula sugerida por Ritter e Kohonen a mostrada na Eq. 4 abaixo:
- ( t ) = i --- i
t------- f t ma x
( 4)
onde tmax representa o nmero total de pocas (1 poca = apresentao de todos os padres para a rede).
69
3.6.
O que aprende uma Rede de Kohonen ?

Vimos at agora que:
uma Rede de Kohonen inspirada na forma como se supe que redes

neurais naturais aprendem e
o modelo originou-se a partir das pesquisas anteriores de Teuvo

Kohonen em Anlise de Componentes Principais e Quantizao de Vetores. Para fundamentar uma aplicao na prtica de Redes de Kohonen como um mecanismo para o aprendizado auto-organizante de padres e seu posterior uso para classificao de padres, importante analisarmos a capacidade representacional e a forma de representao da informao em um Mapa Auto-Organizante. Na prtica, uma rede de Kohonen toma um conjunto de dados em um espao de dados V qualquer e os representa de forma discretizada atravs de um neurnio (e eventualmente sua vizinhana) no espao de um Mapa Auto-Organizante A. Esta transformao de um espao de representao para outro denominada mapeamento , podendo ser representada por: : V A, ( x V ) ( (x) A ) A condio para que este mapeamento seja uma boa representao do espao vetorial que:, . W ( x ) X = min W r X , r A onde W um vetor de pesos da rede A Este mapeamento est ilustrado na Figura 3.34.. O espao vetorial V um espao qualquer com a dimensionalidade do nmero de variveis de um padro X desse espao. O vetor de pesos ws do neurnio vencedor S pertencente a A representa uma aproximao da funo de mapeamento que associa pontos do espao vetorial V a neurnios em A. ws o erro dessa aproximao representado no espao vetorial V.
70
Aldo von Wangenheim
Figura 3.34.
Mapeamento V -> A.
Mapa Auto-Organizante A
Espao Vetorial V
s x
ws w s
Com isso, vimos como ocorre o mapeamento de entre o espao vetorial e o espao do Mapa Auto-Organizante da rede de Kohonen. Supondo agora, que os dados em V possuem uma distribuio d qualquer, como gerada a funo de mapeamento de forma a refletir esta distribuio ?
3.6.1.
Qualidades Matemticas do Modelo de Kohonen

Existem vrias interpretaes matemticas da forma como uma rede de Kohonen aprende e de como devemos interpretar o mapeamento gerado aps o aprendizado da rede. Helge Ritter em sua tese de doutorado (Univ. de Munique, 1988) analisou em detalhe ambos. Ns vamos reproduzir aqui, omitindo os detalhes matemticos, a sua interpretao da representao. O conceito bsico de representao em uma rede de Kohonen baseia-se na idia de Componentes Principais. A Anlise de Componentes Principais uma tcnica de anlise de distribuio de dados onde se procura encontrar vetores de referncia que representem de uma forma mais ou menos
71
adequada conjuntos de vetores de uma distribuio de dados. Possui utilidade em minerao de dados e para decifrar cdigos baseados em ndices. A Figura 3.35. d um exemplo de trs vetores de referncia mi encontrados para aproximar uma distribuio de dados dividida em grupos.
Figura 3.35.
Representao de agrupamentos de dados expressando uma funo x(t) em um espao n-dimensional qualquer atravs de vetores de referncia mi
(a)
Vetores de Referncia mi Vetores de Dados x(t)
(b)
O que uma rede de Kohonen representa aps o aprendizado pode ser considerado como uma generalizao dessa idia. Se ns observarmos uma distribuio de dados representando, por exemplo, todos os pares de valores de duas variveis x1 e x2 que pertenam categoria cj, poderemos ter um scatter plot como mostrado em (a) ou em (b) na Figura 3.36., dependendo de como os dados se distribuem Podemos representar a componente principal desta distribuio de dados atravs de um nico ponto w0 no espao vetorial, que representar exatamente o centro de massa da distribuio1, ou atravs de um
1. Se a distribuio conhecida, podemos calcular w0 usando exatamente o mtodo de clculo do centro de massa da Fsica, atribuindo uma massa qualquer, no nula, a cada um dos pontos do conjunto.
72
Aldo von Wangenheim
Figura 3.36.
Duas distribuies de dados e suas componentes principais
x2
w1
x2
w1
w0
w0
(a)
x1
(b)
x1
vetor w 1 que representa o eixo principal da distribuio 1, indicando a sua tendncia. Isto pode ser realizado atravs de vrias tcnicas estatticas, entre outras pela Anlise Fatorial, utilizada quando a nossa distribuio de dados representa vrias classes. O problema de uma representao deste tipo ocorre quando temos uma distribuio de dados como em (b). Numa situao como essa, o centro da distribuio um ponto em V que no pertence distribuio e o eixo principal da distribuio uma descrio muito pobre e falha do real comportamento desta. o caso de distribuies de dados com tendncias no-lineares, que ns j abordamos no captulo 1, quando falamos de Nearest Neighbour. Para representarmos adequadamente uma distribuio de dados como a representada em (b) necessitamos de uma representao no-linear da distribuio, dada por uma curva principal da distribuio, como mostrado na Figura 3.37.
1. Das mesma forma, se a distribuio conhecida, podemos utilizar o mtodo de clculo do eixo de massa principal da Fsica para obter w1.
73
Figura 3.37.
Curva Principal
x2
Diviso discreta, centrada em w0i Curva Principal w0i
x1
O clculo exato de uma curva principal, porm, pode ser um processo matemtico extremamente custoso, envolvendo interpolao polinomial ou outra tcnica. Quando discutimos Nearest Neighbour, no captulo 1, e algoritmos que o utilizam, como IBL, no captulo 2, vimos que existe a possibilidade de se aproximar um mapeamento de uma distribuio deste tipo atravs da diviso desta rea curva em pedaos discretos, representados atravs de um conjunto de prottipos w0i. Isto est muito bem exemplificado pela facilidade com que IBL representa o problem ada espiral exatamente implementando esta tcnica. Para gerarmos um conjunto de prottipos w0i deste tipo, porm, necessrio que a distribuio seja conhecida . Isto fcil, quando temos, de antemo, associada a cada padro, a sua categoria. Mas como proceder quando no conhecemos a distribuio dos dados nem quais classes existem ? aqui que a utilizao de Redes de Kohonen se torna interessante: Helge Ritter demonstrou que uma rede de Kohonen aprende exatamente uma representao no linear discretizada deste tipo, sem necessidade de que se fornea de antemo as classes a que pertence cada padro, realizando uma espcie de Anlise Fatorial No-Linear Discretizada. O resultado do processo de aprendizado, quando a convergncia ocorreu adequadamente, um mapeamento de subconjuntos da distribuio de dados a neurnios especficos da Rede A, que passam a fungir como
74
Aldo von Wangenheim
prottipos para esses subconjuntos. Regies vizinhas da distribuio so mapeadas para neurnios vizinhos no mapa de Kohonen A. O mecanismo de escolha do vencedor, similar a idia do Nearest Neighbour, o que garantre a no-linearidade da capacidade de representao da rede depois de treinada, agindo como uma funo limiar, intrinsecamente no-linear, que determina as fronteiras entre cada subrea (subvolume) da distribuio mapeada. Isto pode ser visto na figura abaixo, onde uma classe representada por um agrupamento (cluster) de nerunios em torno do vencedor S. O vencedor S representa com a maior aproximao o padro X apresentado rede..
Figura 3.38.
Representao discretizada de uma distribuio no-linear de padres aprendida por uma rede de Kohonen segundo Ritter.
Espao Vetorial V
x2
wi
x
ws
Mapa Auto-Organizante A
x1
75
3.7.
Explorando Dados Agrupados em Redes

Apropriedade estrutural das redes de Kohonen que vimos at agora coloca a pergunta: No podemos de alguma forma aproveitar o fato de as redes de Kohonen estruturarem e organizarem topologicamente a informao aprendida ? A resposta a essa pergunta sim. Ao contrrio das redes-BP, que necessariamente tm de ser encaradas como classificador de caixa-preta, as informaes (e as abstraes) aprendidas por uma rede de Kohonen podem ser exploradas aps o treinamento da rede e utilizadas das mais variadas formas. Para finalizar este captulo, vamos ver duas aplicaes de redes de Kohonen. A primeira delas se refere utilizao da informao contida em uma rede de Kohonen para guiar a busca de dados ainda desconhecidos que tenham a mais forte relao com um contexto atual de informao incompleta. Na verdade, trata-se da utilizao de uma rede de Kohonen treinada como uma mquina de inferncia neural que guia um processo de busca no sentido de se seguir pelo menor caminho na rvore de busca. Este trabalho foi realizado por ns no incio da dcada de 1990 e apresenta uma soluo para o problema de se explorar o espao de possveis solues de maneira eficiente utilizando-se redes neurais. A segunda uma aplicao de treinamento de um brao-rob desenvolvida por Helge Ritter em 1989, onde se utiliza uma terceira camada de sada para uma rede de Kohonen, que controla um brao-rob de forma a que se mova para um ponto visualizado fornecido como dado de entrada. Esta no propriamente uma aplicao de reconhecimento de padres pura, mas mostra como extender uma rede de Kohonen atravs de uma camada de sada, aspecto pouco comentado na literatura.
76
Aldo von Wangenheim
Utilizando Mapas Auto-Organizantes como Mquinas de Inferncia: KoDiag
3.8.

No incio da dcada de 1990 foi desenvolvido, pelo grupo de Sistemas Especialistas de Kaiserslautern, um sistema hbrido, denominado KoDiag [RW94, RW93, Wan93, RWW92, WR92], para diagnstico baseado em casos utilizando uma Rede Neural de Kohonen modificada para dinamicamente atribuir pesos a atributos em funo do contexto do problema e, assim, tambm realizar diagnstico por meio do levantamento dirigido de atributos para o novo caso. Para a implementao de KoDiag foi utilizado o princpio do mapeamento topolgico da rede neuronal de Kohonen para o armazenamento de casos: casos mais similares so armazenados em reas topologicamente prximas na rede. KoDiag utilizou pela primeira vez uma representao no simblica para a base de casos, que era aprendida pela rede e ficava armazenada na mesma de forma sinttica. KoDiag utiliza a base de casos de PATDEX [Wes91, Wes93] para o treinamento da rede neural. Os casos so codificados como padres especiais, e so representados de forma explcita: variveis, valores de variveis e diagnstico. Dessa forma, o padro de treinamento possui 3 partes: a primeira representa todas as variveis do sistema; a segunda, todos os possveis valores dessas variveis; e a terceira, todos os diagnsticos. Dessa forma, um caso a ser treinado representado com dois valores para cada varivel: um para indicar a existncia da mesma e outro para indicar seu valor. KoDiag podia realizar aquisio incremental dirigida de dados para diagnstico com a apresentao de dados incompletos da situao atual. Caso a informao no bastasse para o diagnstico, o agrupamento de neurnios ativado por esta apresentao era analisado e o valor da varivel ainda desconhecida mais fortemente correlacionada a este agrupamento era solicitado para ser levantado pelo usurio. Um exemplo de um padro em PATDEX pode ser visto abaixo: KoDiag considerado um sistema de Raciocnio Baseado em Casos, em contraste com outros sistemas que tambm utilizam a codificao de casos em redes neurais, por utilizar uma interpretao autnoma passo a
77
Figura 3.39.
KoDiag: no alto mostrado o padro de treinamento. No diagnstico, somente a primeira parte era utilizada. Abaixo, o agrupamento ativo aps apresentao do caso atual [RW94]
9DORUHV
'LFLRQiULR GH $WULEXWRV $WULEXWR $WULEXWR $WULEXWR 9DORU $ 9DORU % 9DORU & 9DORU ' 9DORU (
*UXSR GH QHXU{QLRV DWLYR $ UHGH p RUJDQL]DGD FRPR XP WRUyLGH DV -47/,8 80 :302
passo dos dados aprendidos na rede e guiar o usurio de forma inteligente no processo de levantamento de dados.
78
Aldo von Wangenheim
Figura 3.40.
Cdigo Smalltalk descrevendo um caso de defeito em uma mquina CNC utilizado por KoDiag
PortableCase newCase: #Toolarm10 withEnvironment: #(#(#IoStateIN32 #logical0) #(#Code #I41) #(#ToolarmPosition #back) #(#IoStateOUT30 #logical0) #(#IoStateOUT28 #logical1) #(#Valve21Y2 #switched) #(#IoStateIN37 #logical1) ) describes: #IoCardFaultAtIN32i59
3.8.1.
Qual o objetivo de KoDiag ?

O ponto de partida para o desenvolvimento de KoDiag (Diagnstico com Redes de Kohonen) foi a necessidade de se possibilitar o levantamento incremental de variveis de um problema em uma situao de diagnstico descrita como um padro composto por pares atributo-valor: em muitas situaes onde necessrio efetuar-se um diagnstico de um problema no se possui de antemo valores para todas as variveis do problema e tampouco todas as variveis so necessrias para se determinar o diagnstico correto para todas as situaes. Um exemplo o domnimo de aplicao-exemplo de KoDiag: Diagnstico de falhas em tornos de comando numrico:
O estado de um torno CNC pode ser descrito por uma quantidade bastante grande de variveis, como por exemplo a temperatura do leo em diversas partes hidrulicas, o estado de diversos fusveis, a mensagem de erro sinalizada no display de comando, o estado de desgaste da ferramenta de corte, etc.
Quando um torno deixa de funcionar, dependendo do erro, apenas algumas dessas variveeis tero relevncia para se obter um diagnstico correto da falha.
Levantar o valor para todas um processo desnecessrio e custoso, uma

vez que implica em tempo e, eventualmente, na necessidade de se desmonatr partes do torno ou de se realizar testes complexos para levantar o estado de uma pea ou parte mecnica.
79
Partindo-se de um conjunto de variveis iniciais, como por exemplo o

cdigo de erro mostrado pela mquina, importante guiar o processo de levantamento de valores para as outras variveis cujo valor ainda desconhecido de maneira a otimizar o processo de busca de um diagnstico. Para isso preciso encontrar um caminho mnimo no espao de pares varivel-valor de maneira e levantar apenas os valores da variveis relevantes ao contexto de falha atual e evitar levantar valores para variveis desnecessrias, como por exemplo o estado do fusvel da fonte de alimentao em uma situao onde o leo de um componente hidrulico superaqueceu. Esse procedimento fcil de realizar em um sistema especialista para diagnstico convencional baseado em regras ou em um sistema baseado em casos que utiliza uma matriz de relevncia para conjuntos de pares varivel-valor. Em muitas istuaes, porm, a relevncia de variveis para contexto desconhecida e precisamos de uma tcnica capaz de agrupar as informaes de forma a representar esses contextos. A rede de Kohonen ideal para isso pois possibilita a explorao da informao codificada na rede atravs da:
apresentao incremental de padres incompletos, que so considerados como o contexto atual ,
da explorao da informao da rede, tomando-se os neurnios ativados por este contexto e seguindo-se os pesos de volta para a camada de entrada e vendo-se com qual valor ainda desconhecido este contexto correlaciona masi fortemente.
3.8.2.
Como funciona KoDiag ?

KoDiag explora o fato de que uma rede de Kohonen mapeia valores de variveis a contextos representados por grupos de neurnios na rede ativados por um padro incompleto de forma a possibilitar o levantamento dirigido de novas informaes. A codificao de informao em KoDiag funciona da seguinte forma:
Cada padro constitudo de trs partes: diagnstico, variveis, valores de variveis.
Para cada diagnstico h um neurnio de entrada
80
Aldo von Wangenheim
Para cada varivel representando uma parte da mquina responsvel por

uma falha, h um neurnio de netrada.
Para cada valor que essa varivel pode assumir h tambm um neurnio
de entrada. Para variveis de domnios contnuos, discretiza-se o domnio em faixas de valores. A rede treinada com padres que contm valor 1 para dois neurnios de entrada de cada varivel que participa deste padro: um valor para indicar a participao desta varivel neste caso e outro para indicar qual valor que esta varivel assumiu neste caso particular. Variveis cujo valor irrelevante para a situao so representadas por 0. Dessa forma estamos associando a varivel, indeopendentemente de seu valor situao. O processo de diagnstico, depois de treinada a rede, funciona ento da seguinte maneira:
1.
2.
3.
4.
apresentado rede um padro incompleto inicial, contendo apenas os pares varivel-valor capazes de serem levantados de forma fcil, por exemplo: a mensagem de erro emitida pela mquina e fo fato de o leo em um mancal estar superaquecido. Este contexto inicial propagado pela rede e observa-se quais neurnios respondem a ele com uma ativao mnima. Este o conjunto dos ActiveNeurons. Propagamos a ativao destes neurnios de volta para a parte dos diagnsticos da camada de entrada usando os pesos das conexes existentes. Se h um neurnio de diagnstico que obteve ativao acima de um limiar mnimo e ao mesmo tempo diferente o suficiente dos outros, consideramos que o contexto foi suficiente para se chegar a um diagnstico inequvoco e paramos. Se isto no acontece, propagamos a ativao dos ActiveNeurons de volta para a parte das variveis da camada de entrada usando os pesos das conexes existentes. Buscamos o neurnio representando uma varivel cujo valor ainda desconhecido que tenha obtido a maior ativao. Este um neurnio que durante o treinamento foi associado ao contexto atual de forma forte.
81
5.
6.
7.
8.
Levantamos o valor da varivel representada este neurnio, detalhando o nosso contexto. Este par atributo-valor ento apresentado isoladamente rede. Determinamos o conjunto de nerurnios do mapa de Kohonen ativados por este par, que denominado ChosenNeurons. Estes so os neurnios do mapa associados a este contexto atributo-valor independentemente dos outros valores que o acompanham. Realizamos a interseco entre o conjunto anterior, ActiveNeurons e os ChosenNeurons, levando ao novo conjunto de ActiveNeurons, cujo tamanho bastante menor. Este procedimento de reduo progressiva do conjunto de neurnios do mapa considerados garante a convergncia do processo. Novamente propagamos a ativao dos ActiveNeurons para a parte de diagnstico da camada de entrada, retornando ao passo 3. O processo termina quando o teste do passo 3 for satisfeito ou os ActiveNeurons representarem um conjunto vazio.
O processo de KoDiag pode ser visto abaixo P ro b le m a le v a n ta m e n to d a in fo rm a o in ic ia l
Figura 3.41.
te n ta tiv a d e c la ssific a o c la ssific a o p o ssv e l o u a c e it v e l ? no m a is in fo rm a o d isp o n v e l? sim le v a n te m a is in fo rm a o D e sisto
S o lu o
82
Aldo von Wangenheim
Utilizando Redes de Kohonen para a coordenao visumotora de um brao de Rob
Figura 3.42.
Seleo de Neurnios
Nj
Nj
usurio lev anta valo r
w ji
a1 a trib u to s
an
w1 v a lo re s
wn
d1
dm
d ia g n stic o s
KoDiag foi testado com o mesmo conjunto de daods do sistema PATDEX, um sistem ade RBC estado-da-arte na poca e os resultados obtidos foram bastante similares, tanto em termos de levantamento de varivesi quanto de resultados de classificao em funo de perda de informao.
3.9.

Motivao: simulao das cartas motoras encontradas em crebros de mamferos utilizando uma rede de Kohonen tridmensional com uma camada extra de sada representando os comandos de movimento do brao-rob.
: V U de um espao Tcnica : Modelar uma projeo sensrial V em um espao de comandos motores U. a) criar uma projeo dos estmulos sensoriais V em uma carta tridimensional A
83
b) criar uma projeo da carta em um espao de comandos motores U.

Figura 3.43.
Desenho da simulao utilizada por Helge Ritter
O modelo geral da projeo gerada pode ser visto na prxima figura. O objetivo utilizar-se dois mapeamentos: um entre a camada de entrada e a de Kohonene outro entre camada de Kohonen e a de sada.
84
Aldo von Wangenheim
Figura 3.44.
Mapeamento esperado
espao de sada U camada de Kohonen A
u
espao de entrada V
wout s
out ws
v ws
in
ws
in
Algoritmo geral de treinamento:

1.Registre 2.
3.
a prxima ao de controle (v, u) Vencedor: calcule a posio na carta s := mapeamento do estmulo visual v na carta. Execute um passo de treinamento:
w( v)
que corresponde ao
wr
4.
( in )
= wr
( in )
+ h rs ( v w r
( in )
Execute um passo de treinamento:
wr
5.
( out )
= wr
( out )
( out ) out out ) h rs ( u w r
retorne a 1
85
Estrutura da simulao para os movimentos do brao do rob:
Posio do objeto dada por um vetor 4-dimensional (u 1,u 2)

Posio do brao do rob dada por um conjunto de 3 ngulos das juntas do brao.
Figura 3.45.
Estrutura da simulao para os movimentos do brao do rob
s As
Resultados do treinamento podem ser vistos na prxima figura: com o passar do tempo a rede vai aprendendo a configurao tridimensional do espao de movimentao do brao-rob e cada ponto do espao na rede tridimensional mapeado a um conjunto de ngulos das juntas do brao rob na camada de sada que movimenta o brao para aquela posio.
86
Aldo von Wangenheim
Figura 3.46.
Treinamento
Inicializao da carta 2000 iteraes
6000 iteraes
87
3.10.
Referncias
[Koho88] Kohonen,Teuvo: Self-Organization and Associative Memory, Springer, 1988 (2. edition) [KR89] Kohonen,T., Ritter, H.; Self-Organizing Semantic Maps, Biol. Cybern., 61, 241-254, (1989) J. Rahmel, A. von Wangenheim. The KoDiag System: Case-Based Diagnosis with Kohonen Networks. In Proceedings of the I International Workshop on Neural Networks Applications and Tools, Liverpool, IEEE Computer Society Press, 1993. J. Rahmel, A. von Wangenheim. KoDiag: A Connectionist Expert System. In Proceedings of the IEEE International Symposium on Integrating Knowledge and Neural Heuristics, Pensacola, Florida, 1994.
[RW93]
[RW94]
[RWW92] J. Rahmel, A. von Wangenheim, S. Wess. KODIAG: Fallbasierte Diagnose mit KOHONEN Netzen. In Proceedings of the GI Workshop Flle in hybriden Systemen, Germany, 1992. [Wan93] A. von Wangenheim. Fallbasierte Klassifikation mit Kohonen Netzen. In Proceedings of the Workshop "Flle in der Diagnostik", XPS-93, Germany, Februar 1993. S. Wess. PATDEX/2: Ein fallbasiertes System zur technischen Diagnostik. SEKI-Working Paper SWP91/01, Department of Computer Science, University of Kaiserslautern, Germany, 1991. S. Wess. PATDEX - Inkrementelle und wissensbasierte Verbesserung von Aehnlichkeitsurteilen in der fallbasierten Diagnostik. In Proceedings of the 2. German Workshop on Expertsystems, Germany, 1993. A. von Wangenheim, J. Rahmel. Fallklassifikation und Fehlerdiagnose mit Kohonen-Netzen. In Proceedings of the Workshop "hnlichkeit von Fllen", Universitt Kaiserslautern, Germany, 1992.
[Wes91]
[Wes93]
[WR92]
88
Aldo von Wangenheim

Subsimbolicas 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Subsimbolicas 1

Uploaded by

Copyright:

Available Formats

CAPTULO 3

Tcnicas Subsimblicas: Redes Neurais

Martin Buch, Universidade de Kaiserslautern

Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina

CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais

Aldo von Wangenheim

O Simulador SNNS - Stuttgarter Neural Network Simulator

O Simulador SNNS - Stuttgarter Neural Network Simulator

Interface de Usurio do SNNS Padro para Unix/Linux

Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina

CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais

Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres

Aldo von Wangenheim

Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres

Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina

CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais

Princpios Bsicos das Redes Backpropagation

Aldo von Wangenheim

Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres

Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina

CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais

movemo-nos no sentido contrrio e definimos a modificao dos pesos como: E - = w ik = --------- w ik

Aldo von Wangenheim

Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres

Aprendizado das Redes-BP

para que a rede possa aprender, necesrio que possamos calcular a

introduzir uma no linearidade sem no entanto alterar de forma radical a

Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina

CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais

possibilitar o clculo da derivada parcial do erro em relao aos pesos

Grfico da forma geral da funo de ativao quaselinear

Aldo von Wangenheim

Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres

Derivando, podemos agora reescrever a regra-delta: E - = w ik = --------- w ik

Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina

CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais

Rede feedforward tpica mostrando nomenclatura utilizada.

Depois que o vetor de entrada foi apresentado camada de

Aldo von Wangenheim

Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres

produzindo como sada a ativao de um neurnio interno:

o que faz com que um neurnio de sada possua a entrada:

e produz como sada da rede:

o que, por sua vez nos permite escrever a funo-custo da seguinte

Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina

CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais

com a regra da cadeia

Aldo von Wangenheim

Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres

g ( h j ) ( p O p ), para camada de sada = M = m, m+1 m + 1, , w rp r seno (m < M) g hp r

Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina

CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais

uma taxa de aprendizado um conjunto de treinamento contendo entradas e sadas.

para todo neurnio p da camada m - 1.

Aldo von Wangenheim

Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres

Determine a variao dos pesos para todas as camadas: w pq =

Retorne ao passo 2 e tome o prximo padro.

O que aprende uma Rede-BP ?

Reconhecimento de Padres - ine5376/5379 - Universidade Federal de Santa Catarina

CAPTULO 3.Tcnicas Subsimblicas: Redes Neurais

Aldo von Wangenheim

Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padres