Redes Neurais

Universidade Federal do Tocantins
Redes Neurais Artificiais

Prof. Dr. Alexandre Rossini
arossini@uft.edu.br
Ementa
REDES NEURAIS ARTIFICIAIS
• Definição de modelos conexionistas.

Aprendizado em modelos conexionistas.
Arquiteturas básicas: Perceptron,
Perceptron MultiCamadas, RBF,
Memórias Associativas: Redes de
Hopfield, Rede de Kohonen. Aplicações
de redes neurais artificiais.
Introdução
• Os primeiros estudos de Redes Neurais

Artificiais foram desenvolvidos na década
de 1940.
• Antes do surgimento da IA!
• Consideradas como
a mais antiga das
técnicas atuais
de IA.
IA Simbolista
• Está relacionada com a forma que o ser

humano raciocina: a mente.
• Um sistema deste paradigma possui,
basicamente, 3 elementos
(CARVALHO, 2001):
1. Base de dados;
2. Regras de produção;
3. Sistema de controle.
CARVALHO, L. A. V. Datamining: a mineração de dados no marketing, medicina, economia, engenharia e
administração. São Paulo: Érica, 2001.
IA Simbolista
• Está relacionada com a forma que o ser

humano raciocina: a mente.
• Um sistema deste paradigma possuem
basicamente 3 elementos (CARVALHO,
2001):
1. Base de dados;
2. Regras de produção;
3. Sistema de controle.
IA Conexionista
• Baseia-se na simulação dos componentes

do cérebro: o neurônio.
• Entende que a estrutura física do cérebro é
fundamental para o entendimento da
mente (CARVALHO, 2001):
– os processos mentais emergem do
comportamento coletivo de uma população
muito grande de neurônios que se
conectam e trocam sinais de cooperação e
competição entre si.
IA Conexionista
• Baseia-se na simulação dos componentes

do cérebro: o neurônio.
• Entende que a estrutura física do cérebro é
fundamental para o entendimento da
mente (CARVALHO, 2001):
– os processos mentais emergem do
comportamento coletivo de uma população
muito grande de neurônios que se
conectam e trocam sinais de cooperação e
competição entre si.
REDES NEURAIS ARTIFICIAIS Prof. Dr. Alexandre Rossini
• Notícia
• http://g1.globo.com/tecnologia/noticia/2
011/09/computador-avalia-ondas-
cerebrais-e-reconstroi-imagens-de-
filmes.html
Paradigmas de aprendizado
• Em 1959, Arthur Samuel definiu

aprendizado de máquina como o
“campo de estudo que dá
aos computadores a
habilidade de aprender
sem serem explicitamente
programados”
(SAMUEL, 1959).
SAMUEL, A. L. Some Studies in Machine Learning Using the Game of Checkers. IBM J. Res.
Dev., vol. 3, no. 3, pp. 210–229, Jul. 1959.
• A capacidade de “aprender” associada a

uma rede neural é uma das mais
importantes qualidades destas
estruturas.
• Os algoritmos operam construindo um
modelo a partir de entradas amostrais
sendo guiadas pelos dados ao invés de
simplesmente seguindo inflexíveis e
estáticas instruções programadas.
• As tarefas de aprendizado de máquina

são tipicamente classificadas em três
categorias amplas, de acordo com a
natureza do “sinal” ou “feedback“
disponível:
– ;
– ;
– .
Neurônio
• O neurônio artificial tem como

inspiração, obviamente, o neurônio
biológico.
Neurônio
• Os dendritos recebem impulsos nervosos de

outros neurônios e os conduz ao corpo
celular, onde são processados e novos
impulsos transmitidos através
do axônio até os
dendritos dos
neurônios
seguintes.
Neurônio
• Sinapse é o ponto onde as extremidades

de neurônios vizinhos se encontram
(terminação axônica de um neurônio
com o dendrito
de outro.
Neurônio
• Sinapse é o ponto onde as extremidades

de neurônios vizinhos se encontram
(terminação axônica de um neurônio
com o dendrito
de outro.
Neurônio artificial
• O modelo de neurônio proposto por

McCulloch e Pitts (1943), também
conhecido como neurônio MCP, é uma
simplificação do
que se sabia na
época a respeito
do neurônio
biológico.
Warren McCulloch Walter Pitts
McCulloch, W. S., & Pitts, W. (1943). A Logical Calculus of the Ideas Immanent in Nervous Activity. The
Bulletin of Mathematical Biophysics, 5, 115-133.
• O neurônio artificial possui um ou mais

sinais de entrada (x1, x2, …, xn), que
representam os , e apenas um
sinal de saída y, que representa
o .
• As junções da saída de um neurônio

com a entradas de outro ( ) têm
pesos acoplados (w1, w2, …, wn). O efeito
de uma sinapse i no neurônio pós-
sináptico é dado
por: xi wi
• O é emulado pela soma

dos valores xi wi recebidos pelo neurônio
(soma ponderada) e “decide” se o neurônio é
ativado ou não (saída igual a 1 ou 0)
comparando a soma obtida
ao limiar (threshold)
do neurônio.
• O é emulado pela soma

dos valores xi wi recebidos pelo neurônio
(soma ponderada) e “decide” se o neurônio é
ativado ou não (saída igual a 1 ou 0)
comparando a soma obtida
ao limiar (threshold)
do neurônio.
• Na descrição original do modelo MCP a função

de ativação é dada pela função a seguir:
𝒏
𝒖= 𝒙𝒊 𝒘𝒊
𝒊=𝟏
𝟏 𝒔𝒆 𝒖 ≥ 𝜽
𝒚=
𝟎 𝒔𝒆 𝒖 < 𝜽
• Onde n é a quantidade de entradas do neurônio,

wi é o peso sináptico associado à entrada xi e θ é o
limiar (threshold) do neurônio.
• Neurônio MCP:
• McCulloch e Pitts simplificaram seu modelo

considerando que os neurônios artificiais em
cada entrada disparam sincronamente, isto é,
que todos os neurônios são avaliados ao
mesmo tempo.
• Em sistemas biológicos sabe-se que não existe
mecanismo para sincronizar as ações dos
neurônios.
• Exemplo: 𝒏
𝒖= 𝒙𝒊 𝒘𝒊 θ=0
1 0.2 𝒊=𝟏
-0.5
0 θ y
0.3
1
𝒖 = 𝟏 ∗ 𝟎. 𝟐 + 𝟎 ∗ −𝟎. 𝟓 + 𝟏 ∗ 𝟎. 𝟑
𝒖 = 𝟎. 𝟓
𝒚 = 𝟏. 𝟎
Funções de ativação
• A partir do modelo MCP foram
derivados vários outros modelos que
permitem a produção de uma saída
qualquer, não necessariamente 0 ou 1, e
com diferentes funções de ativação.
Funções de ativação
y
Linear
Sigmoidal
Degrau
Rede neural artificial

• Uma Rede Neural Artificial (RNA) é

composta por um conjunto de
neurônios artificiais com capacidade
de processamento local e independente
dos demais e uma topologia define
a forma como estes neurônios
estão conectados.
Arquiteturas de RNA
• Em geral, podemos identificar três

classes de arquiteturas de RNA
fundamentalmente diferentes:
1. Redes alimentadas adiante com camada
única
2. Redes alimentadas diretamente com
múltiplas camadas
3. Redes recorrentes
Aprendizado em RNA
“Aprendizagem é o processo pelo qual os parâmetros

de uma RNA são ajustados através de uma forma
continuada de estímulo pelo ambiente no qual a rede
está operando, sendo o tipo específico de
aprendizagem realizada definido pela maneira
particular como ocorrem os ajustes realizados nos
parâmetros”
(MENDEL e McLAREN, 1970)
MENDEL, J. M; McLAREN, R. W. Adaptive, Learning, and Pattern Recognition Systems; Theory and
Applications, chapter Reinforcement-learning control and pattern recognition systems, pages 287-318;
New York: Academic Press, 1970.
Postulado de Hebb
• A ideia de aprendizado em neurônios

artificiais veio a ser objeto de estudo somente
alguns anos depois do trabalho de McCulloch
e Pitts, proposto por Donald Hebb (1949).
HEBB, D. O. The Organization of Behavior. Wiley, 1949.

Postulado de Hebb
• Postulado de Hebb (1949):

“Quando um axônio da célula A está perto o
suficiente para excitar uma célula B e participa do
seu disparo repetida ou persistentemente, então
algum processo de crescimento ou modificação
metabólica acontece em uma das células ou em ambas,
de tal forma que a eficiência de A como uma das
células que dispara B é aumentada”

Postulado de Hebb
• Postulado de Hebb (1949):

“Quando um axônio da célula A está perto o
suficiente para excitar uma célula B e participa do
seu disparo repetida ou persistentemente, então
algum processo de crescimento ou modificação
metabólica acontece em uma das células ou em ambas,
de tal forma que a eficiência de A como uma das
células que dispara B é aumentada”

Aprendizado Hebbiano
• A regra de aprendizado de Hebb propõe que

o peso de uma conexão sináptica deve ser
ajustado se houver sincronismo entre os
“níveis de atividade” das entradas e saídas.
• Se o neurônio pré-sináptico tiver grande
influência na ativação do neurônio pós-
sináptico, a conexão entre eles deve ser
reforçada.
• Anos depois o postulado de Hebb foi
interpretado matematicamente.
Década de 1950
• 1956 Conferência
de Dathmouth
Perceptron
• Franck Rosenblatt (1958) apresentou

modelo que foi chamado .
• Variante matemática
do postulado de Hebb.
• Considerado o primeiro
modelo neural de
aprendizagem
supervisionado
ROSENBLATT, F. The perceptron: A probabilistic model for information storage and organization in the
brain. Psychol. Rev., 65:386-408, 1958.
Perceptron
• O Perceptron simples consiste de um

único neurônio com pesos sinápticos
ajustáveis e bias (ou viés), que é uma
entrada extra com valor 1 constante.
• É limitado a realizar classificação de
padrões com apenas duas classes.
Perceptron
• O Perceptron simples consiste de um

único neurônio com pesos sinápticos
ajustáveis e bias (ou viés), que é uma
entrada extra com valor 1 constante.
• É limitado a realizar classificação de
padrões com apenas duas classes.
Perceptron
1
x1 w1
x2 w2
 y
wn
xn
𝒏
+1 𝑠𝑒( 𝒊=𝟎 𝒙𝒊 𝒘𝒊 )+𝟏>0
y= −1 𝑠𝑒( 𝒏 𝒙 𝒘 )+𝟏≤0
𝒊=𝟎 𝒊 𝒊
Perceptron
1 BIAS
x1 w1
x2 w2
 y
wn
xn BIAS
𝒏
+1 𝑠𝑒( 𝒊=𝟎 𝒙𝒊 𝒘𝒊 )+𝟏>0
y= −1 𝑠𝑒( 𝒏 𝒙 𝒘 )+𝟏≤0
𝒊=𝟎 𝒊 𝒊
Perceptron
1
x1 w1
x2 w2
 y
wn
xn
𝒏
+1 𝑠𝑒( 𝒊=𝟎 𝒙𝒊 𝒘𝒊 )+𝟏>0
y= −1 𝑠𝑒( 𝒏 𝒙 𝒘 )+𝟏≤0
𝒊=𝟎 𝒊 𝒊
Perceptron
• O Perceptron somente é capaz de

classificar padrões que sejam
linearmente separáveis.
Perceptron
• Expandindo a camada de saída do

Perceptron para incluir mais de um
neurônio, podemos realizar classificação
com mais de duas classes.
• As unidades de saída possui
propriedades adaptativas e, por isto,
seus pesos sinápticos não são fixo e é
onde ocorre o aprendizado.
Perceptron
• As unidades intermediárias, embora

formadas por neurônios MCP, têm pesos
fixos, definidos antes do período do
treinamento.
• Inicialmente, a saída do Perceptron é
aleatória, mas, pelo ajuste gradual dos
pesos, o Perceptron é treinado para
fornecer saídas de acordo com os dados
do conjunto de treinamento.
Modelo de Widrow-Hoff
• Mais tarde, Widrow e Hoff (1960) sugeriram

uma regra de aprendizado, conhecida como
regra delta ou mínimo quadrático médio
(LMS), que ainda
hoje é bastante
utilizada.
• Também variante
matemática do
postulado de
Hebb. Bernard Widrow Marcian Hoff
WIDROW, B; HOFF, M. E. Adaptative switching circuits. Institute of Radio Engineers, Western Electronico
Show and Convention, 1960.
Regra delta
• A adaptação por correção de erros da

regra delta procura minimizar a
diferença entre a soma ponderada das
entradas pelos pesos (saída calculada
pela rede) e a saída desejada, ou seja, o
erro da resposta atual da rede.
Regra delta
1
x1 w1
 y +1
x2 w2 v
-1
wn -
xn + saída
erro desejada
Regra delta
1
x1 w1
 y +1
x2 w2 v
-1
wn -
xn + saída
erro desejada
Regra delta
• O erro e(t) por entrada é calculado por:

e(t) = d(t) – y(t)
onde d(t) é a saída desejada e y(t) é a
resposta calculada pela rede no tempo t.
• A adaptação dos pesos sinápticos por correção

de erros é:
wi(t+1) = wi(t) +  e(t) xi(t)
onde  é a taxa de aprendizado e xi(t) é a
entrada para o neurônio i no tempo t.
Regra delta

e(t) = d(t) – y(t)

de erros é:
wi(t+1) = wi(t) +  e(t) xi(t)
Δwi

Regra delta

e(t) = d(t) – y(t)

de erros é:
wi(t+1) = wi(t) +  e(t) xi(t)
Δwi

RNA Adaline
• A rede Adaline, inicialmente chamada

de ADAptive LINear Element, e
posteriormente de ADAptative Linear
Neuron foi apresentado também por
Widrow e Hoff (1960) e faz uso da regra
delta.
WIDROW, B; HOFF, M. E. Adaptative switching circuits. Institute of Radio Engineers, Western Electronico
Show and Convention, 1960.
RNA Adaline
• A rede Adaline surgiu na literatura

pouco depois do Perceptron e ambos
modelos são baseados na ideia de ter-se
elementos de processamento (neurônios
artificiais) executando operações de
soma ponderada e posterior
comparação com um valor de limiar.
RNA Adaline
• A rede Adaline surgiu na literatura

pouco depois do Perceptron e ambos
modelos são baseados na ideia de ter-se
elementos de processamento (neurônios
artificiais) executando operações de
soma ponderada e posterior
comparação com um valor de limiar.
RNA Adaline
• A rede Adaline possui saídas binárias

bipolares (y  [-1,+1]) e tem seus pesos
sinápticos adaptados em função do erro
de sua saída linear (y = 𝑖 𝑤𝑖 𝑥𝑖 ) antes da
aplicação da função de ativação.
1
x1 w1

x2 w2 y +1
v
-1
wn
-
xn
+
erro d
RNA Adaline
• Utiliza regra delta no treinamento

• Assim como no Perceptron, somente há
ajuste nos pesos quando:
e ≠ 0 → Δw ≠ 0
Δwi =  e(t) xi(t)

wi(t+1) = wi(t) + Δwi
RNA Perceptron
• Frank Rosenblatt (1962) demonstrou o

teorema de convergência do Perceptron,
que mostra que um neurônio MCP
treinado com o algoritmo
de aprendizado do
Perceptron sempre
converge caso a problema
seja linearmente separável.
ROSENBLATT, F. Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms. Spartan
Books, New York, 1962.
RNAs Adaline x Perceptron

• As regras de aprendizado para o

Perceptron e para o Adaline são
idênticas.
• Porém, a equação de ajuste para
o Adaline foi obtida para a saída linear
do neurônio, enquanto a equação de
ajuste do Perceptron foi obtida para a
saída do neurônio após aplicação da
função de ativação.
RNA Perceptron
1
x1 w1
 y
+1
x2 w2
-1
wn -
xn +
erro
saída
desejada
RNA Perceptron
• Exemplo
• Desejamos que a rede aprenda a
distinguir ídolos do esporte nacional.
Vamos treinar a rede para reconhecer
dois grandes jogadores de futebol (Pelé
e Ronaldo) e dois grandes pilotos de
automobilismo (Senna e Piquet).
RNA Perceptron
• Exemplo
• Desejamos que a rede aprenda a
distinguir ídolos do esporte nacional.
Vamos treinar a rede para reconhecer
dois grandes jogadores de futebol (Pelé
e Ronaldo) e dois grandes pilotos de
automobilismo (Senna e Piquet).
RNA Perceptron
• Exemplo
• Inicialmente necessitamos codificar
entradas e saídas, isto porque todos os
valores de uma rede neural Perceptron
devem assumir condições binárias,
0 ou 1. Uma proposta:
00 = Pelé 10 = Senna
01 = Ronaldo 11 = Piquet
0 = Futebol 1 = Automobilismo
RNA Perceptron
• Houve muito otimismo entre os

pesquisadores, pois, aparentemente,
parecia que os Perceptrons podiam
resolver vários tipos de problemas.
• Iniciou-se, então, intensa pesquisa sobre

RNAs.
Normalização de dados
• A normalização tem como objetivo

modificar um conjunto de dados em um
outro conjunto equivalente porém
menos redundante e mais estável.
• Consiste em ajustar a escala dos valores
de cada atributo de forma que os valores
fiquem em no intervalo [-1,+1] ou [0,+1].
• Normalização linear, também denominada de

normalização por interpolação linear, consiste
em considerar os valores mínimo e máximo de
cada atributo no ajuste da escala.
′
𝒙 − 𝒎𝒊𝒏
𝒙 =
𝒎𝒂𝒙 − 𝒎𝒊𝒏
• Onde x’ é o valor normalizado, x é o atributo a

ser normalizado, min e max são os valores
mínimo e máximo do atributo a ser
normalizado.
• Outras formas:
– Normalização por desvio padrão
– Normalização pela soma dos elementos
– Normalização pelo valor máximo dos
elementos
– Normalização por escala decimal
O fracasso do Perceptron
• O Perceptron não teve vida muito longa.

Marvin Misnky e Seymor Papert (1969)
provaram que a rede Perceptron não era
capaz de resolver
problemas
“interessantes”
do ponto de
vista
computacional.
MINSKY, M; PAPERT, S. Perceptrons: an introduction to computational geometry. MIR Press,
Massachussetts, 1969.
• O Perceptron, por exemplo, não pode resolver

o simples problema do XOR (ou exclusivo).
• O Perceptron foi criticado duramente e

as pesquisas em RNAs foi
desestimulada.
• Houve grande desinteresse
pela área durante os
anos 1970 e início
dos anos 1980.
Memórias matriciais
• São modelos que permitem, dado um

padrão na entrada, fornecer um padrão
correspondente na saída do modelo.
• Todos os elementos da camada de
entrada e todos os elementos da camada
de saída estão conectados através de
uma “Matriz de Pesos”.
• A memória é representada por uma

matriz de pesos:
• Modelo matricial linear (ANDERSON,

1968)
• Modelo de Willshaw (1971)
• Modelo OLAM (KOHONEN &
RUOHONEN, 1973)
ANDERSON, J. A. A memory model using spatial correlation functions. Kybernetik, 5:113-119, 1968.
WILLSHAW, D. J. Models of distributed associative memory. PhD thesis, University of Edinburgh, 1971.
KOHONEN, T., RUOHONEN, M. Representation of associated data by matrix operators. IEEE Transactions
on Computers, C-22:701-702, 1973.
Modelo de Willshaw
• Ideia proposta por Willshaw (1971) em

sua tese de doutorado.
• O mapeamento entre o
padrão de ativação
de entrada e o de saída
é feito através de uma
transformação matricial.
WILLSHAW, D. J. Models of Distributed Associative Memory. PhD thesis, University of Edinburgh, 1971.
Modelo de Willshaw
• O mapeamento entre o padrão de

ativação de entrada e o de saída é feito
por uma transformação matricial
acompanhada de uma operação não-
linear.
• A matriz do modelo de Willshaw é
obtida baseada no postulado de Hebb.
Modelo de Willshaw
• A memória matricial é uma matriz W,

obtida pelo par [𝑥 𝑘 , 𝑦 𝑘 ], onde 𝑥 𝑘
representa o vetor de entrada e 𝑦 𝑘 o vetor
de saída de um k-ésimo padrão.
𝒏
𝒘𝒊𝒋 = 𝒈 𝒚𝒌𝒊 𝒙𝒌𝒋

𝒌=𝟏
𝟏 𝒔𝒆 𝒙 ≥ 𝟏
𝒈 𝒙 =
𝟎 𝒔𝒆 𝒙 < 𝟏
• Onde n é a quantidade de pares [𝑥 𝑘 , 𝑦 𝑘 ]
Modelo de Willshaw
• Exemplo:
Considere os vetores indicados a seguir para
serem armazenados em uma memória de
Willshaw. As associações são 𝑥 1 , 𝑦1 e [𝑥 2 , 𝑦 2 ].
1 0 0 1
0 1 0 0
1 0 1 1
0 0 𝑥2 = 1 0
𝑥1 = 𝑦1 = 𝑦2 =
1 1 1 0
0 1 0 0
0 0 0 1
0 0 0 0
Modelo de Willshaw
• Exemplo:
1 0 0 1
0 1 0 0
1 0 1 1
0 0 𝑥2 = 1 0
𝑥1 = 𝑦1 = 𝑦2 =
1 1 1 0
0 1 0 0
0 0 0 1
0 0 0 0
𝑤11 = (𝑦11 ∗ 𝑥11 ) + (𝑦12 ∗ 𝑥12 ) = (0 ∗ 1) + (1 ∗ 0) = 0
𝑤12 = (𝑦11 ∗ 𝑥21 ) + (𝑦12 ∗ 𝑥22 ) = (0 ∗ 0) + (1 ∗ 0) = 0
𝑤13 = (𝑦11 ∗ 𝑥31 ) + (𝑦12 ∗ 𝑥32 ) = (0 ∗ 1) + (1 ∗ 1) = 1
𝑤14 = (𝑦11 ∗ 𝑥41 ) + (𝑦12 ∗ 𝑥42 ) = (0 ∗ 0) + (1 ∗ 1) = 1
𝑤15 = (𝑦11 ∗ 𝑥51 ) + (𝑦12 ∗ 𝑥52 ) = (0 ∗ 1) + (1 ∗ 1) = 1
𝑤16 = (𝑦11 ∗ 𝑥61 ) + (𝑦12 ∗ 𝑥62 ) = (0 ∗ 0) + (1 ∗ 0) = 0
𝑤17 = (𝑦11 ∗ 𝑥71 ) + (𝑦12 ∗ 𝑥72 ) = (0 ∗ 0) + (1 ∗ 0) = 0
𝑤18 = (𝑦11 ∗ 𝑥81 ) + (𝑦12 ∗ 𝑥82 ) = (0 ∗ 0) + (1 ∗ 0) = 0
Modelo de Willshaw
• Exemplo:
A matriz W obtida aplicando-se as equações é:
0 0 1 1 1 0 0 0
1 0 1 0 1 0 0 0
0 0 1 1 1 0 0 0
W=
0 0 0 0 0 0 0 0
1 0 1 0 1 0 0 0
1 0 1 0 1 0 0 0
0 0 1 1 1 0 0 0
0 0 0 0 0 0 0 0
Modelo de Willshaw
• Dados o vetor de entrada 𝑥 𝑘 e a matriz W,

𝑦 𝑘 é recuperado por meio de uma função
de limiar:
(𝒚𝒌 )′ = 𝜱( 𝑾𝒙𝒌 )
• O limiar da função Φ(𝑥) deve ser igual ao

número de elementos ativos, ou seja, de
pares 𝑥 𝑘 , 𝑦 𝑘 :
𝟏 𝒔𝒆 𝒙 > 𝒏
𝜱 𝒙 =
𝟎 𝒔𝒆 𝒙 ≤ 𝒏
Modelo de Willshaw
• Exemplo:
Suponha que agora se deseja recuperar a
associação [𝑥 2 , 𝑦 2 ], ou seja, dado o vetor 𝑥 2
espera-se obter o vetor 𝑦 2 . Isso resulta em W𝑥 2 .
0 0 1 1 1 0 0 0 0
1 0 1 0 1 0 0 0 0
0 0 1 1 1 0 0 0 1
0 0 0 0 0 0 0 0 ∗ 1
1 0 1 0 1 0 0 0 1
1 0 1 0 1 0 0 0 0
0 0 1 1 1 0 0 0 0
0 0 0 0 0 0 0 0 0
Modelo de Willshaw
• Exemplo:
0 0 1 1 1 0 0 0 0 3
1 0 1 0 1 0 0 0 0 2
0 0 1 1 1 0 0 0 1 3
0 0 0 0 0 0 0 0 ∗ 1 0
1 0 1 0 1 0 0 0 1 =
2
1 0 1 0 1 0 0 0 0 2
0 0 1 1 1 0 0 0 0 3
0 0 0 0 0 0 0 0 0 0
Modelo de Willshaw
• Exemplo:
0 0 1 1 1 0 0 0 0 3 1
1 0 1 0 1 0 0 0 0 2 0
0 0 1 1 1 0 0 0 1 3 1
0 0 0 0 0 0 0 0 1 0 0
1 0 1 0 1 0 0 0
∗
1 =
2 (𝑦 2 )′ =
0
1 0 1 0 1 0 0 0 0 2 0
0 0 1 1 1 0 0 0 0 3 1
0 0 0 0 0 0 0 0 0 0 0
Modelo de Willshaw
• Exemplo:
0 0 1 1 1 0 0 0 0 3 1
1 0 1 0 1 0 0 0 0 2 0
0 0 1 1 1 0 0 0 1 3 1
0 0 0 0 0 0 0 0 1 0 0
1 0 1 0 1 0 0 0
∗
1 =
2 (𝑦 2 )′ =
0
1 0 1 0 1 0 0 0 0 2 0
0 0 1 1 1 0 0 0 0 3 1
0 0 0 0 0 0 0 0 0 0 0
Modelo de Willshaw
• Exemplo:
Se adicionarmos o par [𝑥 3 , 𝑦 3 ], onde:
1 1
1 1
1 1
𝑥3 = 1 𝑦3 = 1
1 1
1 1
1 1
1 1
W passa a ter todos seus elementos em 1 e a
rede perde a sua capacidade de recuperar as
associações.
Rede Hopfield
• John Hopfield (1982) introduziu uma

nova arquitetura de rede neural
artificial.
• A Rede Hopfield constitui
um grande avanço nos
estudos de RNAs e deu
passo inicial para o
ressurgimento da área.
HOPFIELD, J. J. Neural networks and physical systems with emergent collective properties. Proceedings
of the National Academy of Sciences, 79:2554-2558, 1982.
Rede Hopfield
• As redes neurais de Hopfield são

formadas por neurônios de McCulloch-
Pitts.
• O modelo descrito por Hopfield nada
mais é do que um modelo matricial não-
linear recorrente, ou seja, é basicamente a
ideia desenvolvida por Willshaw só que
de maneira recorrente, as saídas estão
ligadas às entradas por um atraso de
tempo.
Rede Hopfield
• Arquitetura:
Rede Hopfield
• Arquitetura:
RNA MLP
• A rede MLP (Multi-Layer Perceptron) se

tornou realidade com o backpropagation
(RUMELHART, HINTON, WILLIAMS,
1986).
David Rumelhart Geoffrey Hinton Ronald Williams
RUMELHART, D. E., HINTON, G. E., WILLIAMS, R. J. Learning representations by back-propagation errors.

Nature, 323:533-536, 1986.
RNA MLP
• O algoritmo backpropagation permitiu o

treinamento das camadas intermediárias
de uma rede Perceptron com múltiplas
camadas.
• O problema da rede Perceptron era
tratar apenas problemas linearmente
separáveis, a rede MLP passou a tratar
os problemas não-linearmente
separáveis.
RNA MLP
• Arquitetura:
Camada Camadas Camada

de entrada intermediárias de saída
RNA MLP
• Treinamento em duas etapas:

Fase forward
Fase backward
RNA MLP
• Treinamento:
1. Inicializa pesos sinápticos
2. Repete, para cada padrão de
treinamento, até treinar:
i. Fase forward: calcula a saída da rede
ii. Fase backward: retropropaga os erros
ajustando os pesos sinápticos
RNA MLP
• Fase forward:
𝒏
𝒗𝒊 = (𝒙𝒋 𝒘𝒊𝒋 ) + 𝒃
𝒋=𝟏
onde n é a quantidade de pesos

sinápticos de entrada do neurônio i, 𝑤𝑖𝑗
𝑝
é o peso da conexão entre a entrada 𝑥𝑗 e
o neurônio i e b é o bias.
RNA MLP
• Fase forward:
– Após calcular 𝑦𝑗 , ele é enviado para a
função de ativação do neurônio.
– Geralmente a função de ativação dos
neurônios de uma rede MLP é uma
função sigmoidal.
– A função de ativação sigmoidal mais
utilizada é a tangente hiperbólica
(tanh).
RNA MLP
• Fase forward:
– Tangente hiperbólica:
𝑒 𝒗𝒊 − 𝑒 −𝒗𝒊
𝑦𝑖 = tanh 𝒗𝒊 = 𝒗
𝑒 𝒊 + 𝑒 −𝒗𝒊
Onde, e é o número neperiano ou

número de Euler.
– Assim, a função de ativação produz a
saída do neurônio.
RNA MLP
• Fase backward:
– Para cada camada:
• Calcula-se o erro dos neurônios
• Ajusta-se os pesos sinápticos que ligam o
neurônio da camada às suas entradas
RNA MLP
• Fase backward:
– Para a camada de saída, o erro de um
neurônio i é calculado como na regra delta:
𝒆𝒊 = 𝒅𝒊 − 𝒚𝒊
– Onde 𝑑𝑖 é a saída desejada para o neurônio
i e 𝑦𝑖 é a resposta calculada pela rede para o
neurônio i.
– Contudo, esse erro é para neurônio com
função de ativação linear.
RNA MLP
• Fase backward:
– Se foi utilizada função de ativação
sigmoidal, precisamos calcular o inverso da
tangente hiperbólica, expresso abaixo:
𝒆𝒊 𝒔𝒆
se 𝒏𝒆𝒖𝒓ô𝒏𝒊𝒐 𝒍𝒊𝒏𝒆𝒂𝒓
neurônio linear
𝜹𝒊 =
𝟏 − 𝒚𝟐𝒊 ∗ 𝒆𝒊 𝒔𝒆 𝒏ã𝒐 − 𝒍𝒊𝒏𝒆𝒂𝒓
se neurônio não-linear
– Para a camada de saída, os pesos sinápticos

são ajustados conforme regra delta:
𝒘𝒊𝒋 𝒕 + 𝟏 = 𝒘𝒊𝒋 𝒕 + 𝜶𝜹𝒊 (𝒕)𝒙𝒋 (𝒕)
RNA MLP
• Fase backward:
– Para calcular o erro 𝑒 de um neurônio i de
uma camada intermediária é preciso
retropropagar o somatório dos erros 𝛿 de
cada neurônio j da camada de saída
multiplicados por seus respectivos pesos
sinápticos:
𝒏
𝒆𝒊 = (𝜹𝒋 ∗ 𝒘𝒋𝒊 )
𝒋=𝟏
RNA MLP
• Fase backward:
– Lembre-se que se foi utilizada função de
ativação sigmoidal, precisamos calcular o
inverso da tangente hiperbólica (vale para
todas as camadas!):
𝒆𝒊 𝒔𝒆 𝒏𝒆𝒖𝒓ô𝒏𝒊𝒐 𝒍𝒊𝒏𝒆𝒂𝒓
𝜹𝒊 =
𝟏 − 𝒚𝟐𝒊 ∗ 𝒆𝒊 𝒔𝒆 𝒏ã𝒐 − 𝒍𝒊𝒏𝒆𝒂𝒓
– Por fim, os pesos sinápticos são ajustados

conforme regra delta:
𝒘𝒊𝒋 𝒕 + 𝟏 = 𝒘𝒊𝒋 𝒕 + 𝜶𝜹𝒊 (𝒕)𝒙𝒋 (𝒕)
RNA RBF
• A rede RBF (Radial Basis Function) foi

proposta por Michael
Powell (1987).
• Uma variação da
rede MLP
• Aprendizado
supervisionado
POWELL, M.J.D. Radial basis function approximations to polynomials. Numerical Analysis 1987
Proceedings, pp.223-241, Dundee, UK, 1987.
RNA RBF
• A função de ativação aplicada a cada

neurônio da maioria das RNAs
multicamadas utiliza como argumento o
produto escalar do vetor de entrada com
o vetor de pesos associado a este
neurônio.
• Existem, porém, redes multicamadas em
que a ativação pode ser função da
distância entre seus vetores de entrada e
pesos, caso da RBF.
RNA RBF
• Funções radiais representam uma classe

especial de funções cujo valor diminuir
ou aumenta em relação à distância de um
ponto central.
RNA RBF
• Diferentes funções de base radiais têm sido

utilizadas em redes RBF. As mais comuns são:
𝒗𝟐
– Gaussiana: 𝒇 𝒖 = 𝐞𝐱𝐩(− 𝟐 )
𝟐𝝈
– Multiquadrática: 𝒇 𝒖 = (𝒗𝟐 + 𝝈𝟐 )
– Thin-plate-spline: 𝒇 𝒖 = 𝒗𝟐 𝐥𝐨𝐠 𝒗
onde 𝑣 = 𝑥 − 𝜇 , que é dado geralmente

pela distância euclidiana, x é o vetor de
entrada e 𝜇 e 𝜎 representam o centro e a
largura da função radial, respectivamente.
RNA RBF
• Basicamente é uma rede MLP com

neurônios das camadas intermediárias
com funções de base radial.
RNA RBF
• Basicamente é uma rede MLP com

neurônios das camadas intermediárias
com funções de base sigmoidais.
RNA RBF
• A camada de neurônios com funções de

base radial agrupa os dados de entrada em
clusters a fim de transformá-los em um
conjunto de padrões de entrada que seja
linearmente separável.
• A camada de saída classifica os clusters.
• Depois do artigo de Broomehead e Lowe
(1988), associa-se redes RBF como tendo
apenas uma camada interna.
BROOMEHEAD, D. S., LOWE, D. Multivariable function interpolation and adaptive networks. Complex
systems, 2:321-355, 1988.
RNA RBF
• Comparação entre MLP e RBF:

RNA RBF
• O treinamento é dividido em duas

etapas:
1. Determinar os centros dos clusters,
o método mais utilizado é o algoritmo
K-means (MACQUEEN, 1967);
2. Ajuste de pesos na camada de saída,
que pode ser feito pela regra delta.
MACQUEEN, J. Some methods for classification and analysis of multivariante observations. In: 5th
Berkeley Symposium on Mathematical Statistics and Probability, pp.281-297, 1967.
RNA RBF
MLP RBF
Uma ou mais camadas Geralmente apenas uma camada
intermediárias intermediária
Neurônios das camadas Neurônios das camadas
intermediárias e de saída têm intermediárias têm funções
funções semelhantes diferentes dos da saída
Entrada da função de ativação é o Entrada da função de ativação é a
produto interno dos vetores de distância euclidiana entre os vetores
entrada e de peso de entrada e de peso
Separa padrões de entrada com Separa padrões de entrada com
hiperplanos hiperelipsóides
Melhor em problemas complexos Para problemas bem-definidos
Constrói aproximadores globais Constrói aproximadores locais para
para mapeamento entrada-saída mapeamento entrada-saída
RNA SOM
• As redes SOM (Self-organization Maps)

foram propostas por Teuvo
Kohonen (1989).
• Tem forte inspiração
neurofisiológica, baseada
na mapa topológico do
córtex cerebral.
• Aprendizado
não-supervisional.
KOHONEN, T. Self-organization and associative memory. Springer-Verlag, Berlin, 3 edition, 1989.
RNA SOM
• As redes SOM (Self-organization Maps)

foram propostas por Teuvo Kohonen
(1989).
• Tem forte inspiração
neurofisiológica, baseada
na mapa topológico do
córtex cerebral.
• Aprendizado
não-supervisional.
KOHONEN, T. Self-organization and associative memory. Springer-Verlag, Berlin, 3 edition, 1989.
RNA SOM
• Os neurônios estão amplamente

conectados com as entradas, isto quer
todas as entradas se conectam a todos os
neurônios da camada de saída.
• Cada neurônio representa uma saída da
rede.
RNA SOM
• Arquitetura:
𝑁𝑒𝑢𝑟ô𝑛𝑖𝑜𝑠 (𝑠𝑎í𝑑𝑎)
𝐶𝑜𝑛𝑒𝑥ã𝑜 𝑐𝑜𝑚 𝑡𝑜𝑑𝑜𝑠 𝑜𝑠 𝑛𝑒𝑢𝑟ô𝑛𝑖𝑜𝑠
𝐸𝑛𝑡𝑟𝑎𝑑𝑎𝑘
RNA SOM
• Topologia: se refere às diferentes composições

estruturais possíveis com diferentes
quantidades de neurônios nas camadas de
entrada, intermediária e de saída da rede.
𝐻𝑒𝑥𝑎𝑔𝑜𝑛𝑎𝑙 𝑅𝑒𝑡𝑎𝑛𝑔𝑢𝑙𝑎𝑟
RNA SOM
• O cálculo da distância euclidiana d do

neurônio i é:
𝒏
𝒅𝒊 𝒕 = (𝒙𝒋 𝒕 − 𝒘𝒊𝒋 )𝟐
𝒋=𝟏
• Onde n é a quantidade de entradas, xj é
a j-ésima entrada e wij é o peso do
neurônio i sobre a entrada j-ésima
entrada.
RNA SOM
• O neurônio vencedor, com menor

distância euclidiana da entrada, terá
seus pesos sinápticos ajustados:
𝒘𝒊𝒋 𝒕 + 𝟏 = 𝒘𝒊𝒋 𝒕 +  [𝒘𝒋 𝒕 − 𝒘𝒊𝒋 (𝒕)]

RNA SOM
• Porém, os neurônios próximos ao

vencedor também respondem
similarmente.
• Desse modo, a rede SOM se auto-
organiza, como o próprio nome indica:
𝑤𝑖𝑗 𝑡 +  𝑤𝑗 𝑡 − 𝑤𝑖𝑗 𝑡 𝑠𝑒 𝑣𝑖𝑧𝑖𝑛ℎ𝑜

𝑤𝑖𝑗 𝑡+1 =
𝑤𝑖𝑗 𝑡 𝑠𝑒 𝑛ã𝑜 𝑣𝑖𝑧𝑖𝑛ℎ𝑜
RNA SOM
• Ajuste de pesos de acordo com a

vizinhança:
RNA SOM
• Ajuste de pesos de acordo com a

vizinhança:
RNA SOM
• Exemplo:
Considere uma rede com 4 neurônios,
topologia quadrada (2x2) e 2 iterações.
Haverá apenas 2 entradas. Fixamos a
taxa de aprendizado =0.9. A
vizinhança, devido ao tamanho
reduzido do exemplo, será apenas o
próprio neurônio.
RNA SOM
• Exemplo:
00 01
2 2 3 2
Entrada 1
{0,3}
x1 x2
Entrada 2
2 1 1 3
{7,2} 10 11
Características das RNAs

• Busca paralela
• Aprendizado por experiência
• Generalização
• Degradação gradual
Aplicações das RNAs

• Descoberta de associações
• Descoberta de sequências
• Classificação
• Clustering
• Previsão de séries temporais
• Suporte à decisão
• Mineração de dados
Repositórios de dados
• UCI Machine Learning Repository

https://archive.ics.uci.edu/ml/
• Kaggle
https://www.kaggle.com/datasets
• Elite data science

https://elitedatascience.com/datasets
• Google public data explorer

https:///www.google.com/publicdata/

Redes Neurais

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Redes Neurais

Uploaded by

Copyright:

Available Formats

Universidade Federal do Tocantins

Redes Neurais Artificiais

• Definição de modelos conexionistas.

• Os primeiros estudos de Redes Neurais

• Está relacionada com a forma que o ser

• Está relacionada com a forma que o ser

• Baseia-se na simulação dos componentes

• Baseia-se na simulação dos componentes

• Em 1959, Arthur Samuel definiu

• A capacidade de “aprender” associada a

• As tarefas de aprendizado de máquina

• O neurônio artificial tem como

• Os dendritos recebem impulsos nervosos de

• Sinapse é o ponto onde as extremidades

• Sinapse é o ponto onde as extremidades

• O modelo de neurônio proposto por

• O neurônio artificial possui um ou mais

• As junções da saída de um neurônio

• O é emulado pela soma

• O é emulado pela soma

• Na descrição original do modelo MCP a função

• Onde n é a quantidade de entradas do neurônio,

• McCulloch e Pitts simplificaram seu modelo

Rede neural artificial

• Uma Rede Neural Artificial (RNA) é

• Em geral, podemos identificar três

“Aprendizagem é o processo pelo qual os parâmetros

• A ideia de aprendizado em neurônios

HEBB, D. O. The Organization of Behavior. Wiley, 1949.

• Postulado de Hebb (1949):

HEBB, D. O. The Organization of Behavior. Wiley, 1949.

• Postulado de Hebb (1949):

HEBB, D. O. The Organization of Behavior. Wiley, 1949.

• A regra de aprendizado de Hebb propõe que

• Franck Rosenblatt (1958) apresentou

• O Perceptron simples consiste de um

• O Perceptron simples consiste de um

• O Perceptron somente é capaz de

• Expandindo a camada de saída do

• As unidades intermediárias, embora

• Mais tarde, Widrow e Hoff (1960) sugeriram

• A adaptação por correção de erros da

• O erro e(t) por entrada é calculado por:

• A adaptação dos pesos sinápticos por correção

• O erro e(t) por entrada é calculado por:

• A adaptação dos pesos sinápticos por correção

onde  é a taxa de aprendizado e xi(t) é a

• O erro e(t) por entrada é calculado por:

• A adaptação dos pesos sinápticos por correção

onde  é a taxa de aprendizado e xi(t) é a

• A rede Adaline, inicialmente chamada

• A rede Adaline surgiu na literatura

• A rede Adaline surgiu na literatura

• A rede Adaline possui saídas binárias

• Utiliza regra delta no treinamento

Δwi =  e(t) xi(t)

• Frank Rosenblatt (1962) demonstrou o

RNAs Adaline x Perceptron

• As regras de aprendizado para o

• Houve muito otimismo entre os

• Iniciou-se, então, intensa pesquisa sobre

• A normalização tem como objetivo

• Normalização linear, também denominada de

• Onde x’ é o valor normalizado, x é o atributo a