Aprendizado

Treinamento de Redes Neurais
Joao Pedro Hallack Sansï¾ 12 o ∗
12 de Julho de 2008
Resumo
Este trabalho tem como objetivo descrever as principais abordagens para o treinamento
de redes neurais.
1 1
1 Introduï¾ 2 ï¾ 2 o
Dene-se para as redes neurais articiais (RNA) o processo de aprendizado, de acordo

com [?] como: "a forma de se atualizar a arquitetura os pesos da rede de forma que ela
possa executar uma tarefa de maneira eciente".
Os pesos das conexï¾ 12 es neuronais sï¾ 12 o aprendidos atravï¾ 12 s de padrï¾ 12 es de treina-
mento. Com o tempo, estes sï¾ 12 o atualizados, e por conseqï¾ 12 ï¾ 12 ncia a performance ï¾ 12
melhorada.
Esta caracterï¾ 12 stica difere as RNA dos sistemas especialistas normais, onde sï¾ 12 o
denidas as regras para a execuï¾ 21 ï¾ 12 o de uma determinada tarefa. As RNA aparente-
mente aprendem as regras implï¾ 12 citas atravï¾ 21 s dos exemplos.
1.1 Classicaï¾ 12 ï¾ 12 o Adotada
Um processo de aprendizado consiste em duas partes: um paradigma de aprendizado

e as regras de aprendizado em si.
O paradigma depende de quanta informaï¾ 21 ï¾ 12 o ï¾ 12 disponï¾ 12 vel a rede, isto ï¾ 12 ,
um modelo do ambiente em que a rede opera. Jï¾ 12 as regras de aprendizado controlam a
forma que pesos da rede serï¾ 21 o alterados. Um algoritmo de aprendizado corresponde a
um procedimento onde os pesos sï¾ 12 o alterados seguindo a estas regras.
A classicaï¾ 12 ï¾ 21 o adotada ï¾ 12 a dada em [?]. Existem trï¾ 12 s paradigmas de apren-
dizado: supervisionado, nï¾ 12 o supervisionado e o hï¾ 21 brido.
No caso supervisionado, para cada padrï¾ 12 o de entrada, ï¾ 12 fornecida a resposta cor-
reta (saï¾ 12 da), e treinamento consiste em ajustar os pesos de forma que o erro (diferenï¾ 12 a
da resposta da rede e da resposta correta fornecida) seja a menor possï¾ 21 vel. Uma vari-
ante deste paradigma ï¾ 12 a aprendizagem por reforï¾ 12 o, onde se fornece a rede apenas se
a resposta que esta retorna estï¾ 12 correta ou nï¾ 21 o, e nï¾ 12 o a resposta correta em si.
No caso nï¾ 12 o supervisionado, nï¾ 12 o se faz necessï¾ 12 rio fornecer a resposta correta
ou alguma informaï¾ 12 ï¾ 21 o externa, alï¾ 12 m dos padrï¾ 21 es de treinamento. A rede se
ocupa de explorar a estrutura implï¾ 12 cita dos dados, encontrando correlaï¾ 12 ï¾ 12 es entre
os padrï¾ 21 es nos dados e a partir destas correlaï¾ 12 ï¾ 12 es, organiza-os em categorias.
∗
Aluno de Mestrado do PPGEE, email: jsansao@cpdee.ufmg.br
1
Jï¾ 12 no caso hï¾ 12 brido, parte dos pesos ï¾ 21 encontrado atravï¾ 12 s de um aprendizado
supervisionado e outra parte por aprendizado nï¾ 12 o supervisionado.
Uma teoria de aprendizado deve lidar com trï¾ 12 s questï¾ 12 es: capacidade, complexi-
dade de amostras, complexidade computacional.
Capacidade ï¾ 12 a quantidade de padrï¾ 21 es que uma RNA pode armazenar e os re-
spectivos limiares de decisï¾ 12 o.
A complexidade de amostras que determina a quantidade de amostras necessï¾ 21 rias
para o treinamento que valide uma generalizaï¾ 12 ï¾ 12 o. Em decorrï¾ 12 ncia deste aspecto
que pode surgir o "over-tting", onde a rede estï¾ 21 bem treinada, mas como a amostra
ï¾ 12 muito pequena, pontos diferentes dos treinados apresentam respostas incoerentes.
A complexidade computacional corresponde ao tempo para se obter uma soluï¾ 12 ï¾ 12 o
considerando os padrï¾ 12 es de treinamento.
Quanto as regras de aprendizado, existem quatro tipos bï¾ 12 sicos: correï¾ 12 ï¾ 12 o de
erro, Boltzmann, Hebbiana, e de aprendizado competitivo. Estes serï¾ 21 o descritos na
seï¾ 12 ï¾ 21 o seguinte.
1 1
2 Descriï¾ 2 ï¾ 2 o dos algoritmos de aprendizado Super-
visionado
2.1 Correï¾ 12 ï¾ 12 o de Erro
Dentro do paradigma de aprendizado supervisionado, ï¾ 21 dada a rede uma saï¾ 12 da

para cada padrï¾ 21 o de entrada. Durante este processo, a saï¾ 21 da gerada y pode diferir
da saï¾ 12 da desejada d. Logo, atravï¾ 12 s do sinal de erro d − y modica-se gradualmente
o valor dos pesos para minimizar este valor.
Um dos algoritmos baseado neste tipo de regra ï¾ 12 o Perceptron. Ele ï¾ 12 uma rede
de apenas um neurï¾ 12 nio, que tem como entrada um vetor x, ponderado por um vetor
de pesos w, alï¾ 12 m de um limiar de decisï¾ 21 o u. Sendo ν = Σwj xj − u, a saï¾ 12 da serï¾ 12
y = 1 se ν > 0, y = 0 em caso contrï¾ 12 rio.
Segundo Rosenblatt, um algoritmo para o treinamento do perceptron ï¾ 12 :
1. Inicializar os pesos e o limiar de decisï¾ 12 o com valores aleatï¾ 12 rio, de pequena
magnitude;
2. Aplicar um vetor de testes e calcular o valor de saï¾ 12 da com a rede atual;
3. Atualizar os pesos de acordo com a expressï¾ 21 o: wj (t + 1) = wj (t) + η(d − y)xj ,
onde d ï¾ 12 o valor desejado, t a iteraï¾ 12 ï¾ 12 o e η ï¾ 12 um ganho, ou o valor do passo,
com valor 0 < η < 1.
Se o problema apresentar duas classes linearmente separï¾ 12 veis, o algoritmo convergirï¾ 12
em um nï¾ 21 mero nito de iteraï¾ 12 ï¾ 12 es.
O algoritmo de Back propagation tambï¾ 21 m pertence a esta classe, e permite uma
rede multicamadas. Ele consiste:
1. Inicializar os pesos com valores aleatï¾ 21 rio, de pequena magnitude;
2. Escolher aleatoriamente um padrï¾ 12 o de entrada xmu
3. Propagar um sinal adiante pela rede
4. Computar δiL na camada de saï¾ 12 da, (oi = yiL , com δiL = g 0 (hLi )[dui − yiL ], sendo h0i a
entrada da rede para a i-ï¾ 21 sima unidade na l-ï¾ 12 sima camada, e g 0 ï¾ 12 a derivada
da funï¾ 12 ï¾ 12 o de ativaï¾ 21 ï¾ 12 o g.
2
5. Calcular os deltas para as camadas precedentes, propagando o erro na direï¾ 21 ï¾ 12 o
contrï¾ 12 ria. δil = g 0 (hli ) j wij δl+1 , com l = L − 1...1.
P l+1 l+1
6. atualizar os pesos por ∆wji

0
= ηδil yjl−1
7. Voltar ao passo 2 e repetir para o prï¾ 21 ximo padrï¾ 12 o atï¾ 12 que o erro na camada
de saï¾ 21 da seja menor que um valor mï¾ 12 nimo ou que o nï¾ 12 mero mï¾ 12 ximo de
iteraï¾ 21 ï¾ 12 es seja atingido.
Alï¾ 21 m destes, podemos incluir no aprendizado supervisionado de acordo com [?], os
algoritmos de Adaline e Madaline. Adaline ï¾ 12 minimiza o erro quadrï¾ 21 tico mï¾ 21 dio, e
sua regra de aprendizado ï¾ 12 referida como LMS (least mean square ou Widrow-Ho).
Madaline ï¾ 21 uma conexï¾ 12 o de mais de um Adaline.
2.2 Boltzmann
Nesta regra, procura-se ajustar os pesos das conexï¾ 12 es de forma que os estados das
unidades visï¾ 12 veis satifaï¾ 12 am uma determinada distribuiï¾ 12 ï¾ 21 o de probabilidade. O
parï¾ 12 metros para o ajuste sï¾ 12 o estimados atravï¾ 21 s de mï¾ 12 todos de probabilï¾ 12 sticos,
tais como experimentos de Monte Carlo.
2.3 Regra de Hebb
Matematicamente, dene-se a regra de Hebb como: wij = wij (t) + ηyj (t)xi (t), com
xi e yj como os valores de saï¾ 21 da dos neurï¾ 12 nios i e j , respectivamente, conectados por
uma sinapse wij , η a taxa de aprendizado. xi ï¾ 21 entrada da sinapse.
Isto implica que se ambos neurï¾ 12 nios sï¾ 12 o disparados simultaneamente, o peso de
sua conexï¾ 12 o deve crescer.
2.4 Aprendizado Competitivo
Nesta regra, apenas uma unidade de saï¾ 21 da ï¾ 12 ativada por vez, e estas competem
pela ativaï¾ 12 ï¾ 12 o. Supondo uma rede com uma camada, para exemplo, o neurï¾ 12 nio com
maior entrada, tem seus pesos atualizados, enquanto as outras sï¾ 12 o mantidas.
Isto implica que este tipo de rede nunca interrompe o aprendizado, exceto quando a
taxa de aprendizado ï¾ 12 nula.

Aprendizado

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aprendizado

Uploaded by

Copyright:

Available Formats

Treinamento de Redes Neurais

Joao Pedro Hallack Sansï¾ 12 o ∗

Dene-se para as redes neurais articiais (RNA) o processo de aprendizado, de acordo

1.1 Classicaï¾ 12 ï¾ 12 o Adotada

Um processo de aprendizado consiste em duas partes: um paradigma de aprendizado

2.1 Correï¾ 12 ï¾ 12 o de Erro

Dentro do paradigma de aprendizado supervisionado, ï¾ 21 dada a rede uma saï¾ 12 da

6. atualizar os pesos por ∆wji

2.3 Regra de Hebb

2.4 Aprendizado Competitivo

You might also like

Aprendizado

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aprendizado

Uploaded by

Copyright:

Available Formats

Treinamento de Redes Neurais

Joao Pedro Hallack Sansï¾ 12 o ∗

Dene-se para as redes neurais articiais (RNA) o processo de aprendizado, de acordo

1.1 Classicaï¾ 12 ï¾ 12 o Adotada

Um processo de aprendizado consiste em duas partes: um paradigma de aprendizado

2.1 Correï¾ 12 ï¾ 12 o de Erro

Dentro do paradigma de aprendizado supervisionado, ï¾ 21 dada a rede uma saï¾ 12 da

6. atualizar os pesos por ∆wji

2.3 Regra de Hebb

2.4 Aprendizado Competitivo

You might also like

Dene-se para as redes neurais articiais (RNA) o processo de aprendizado, de acordo

1.1 Classicaï¾ 12 ï¾ 12 o Adotada