Professional Documents
Culture Documents
Curso de Pós-Graduação
Mecânica Fina
__________________________
Orientador: Prof. Dr. Mario César Ricci
realização deste trabalho e principalmente aos colegas de sala que mantiveram estímulos nos
momentos mais árduos desta jornada. Agradeço aos colegas Prof. Fiorani, Prof. Bonassi e
contribuíram para realizar mudanças e enriquecer os meus sábados. Ao meu amigo Ricardo,
Ao Prof. Dr. Ricci, meu orientador, e ao Prof. Fiorani, por acreditarem que eu teria
Ao amigo Paulo Pereira da National Instruments, por gentilmente ter cedido uma
Isaac Newton
RESUMO
The researchers in artificial intelligence purposed ten decades ago a robots soccer
tournament with the goal of create a collaborative environment between several research
center around the world, in order to increase the practical results in robotics, artificial
intelligence and all associate areas. The purpose of this work is design and implement a set of
mecatronic device that will emulate the function of a goalkeeper in a saloon game board. The
set will be based on three main domains, a mechanical system that will move the goalkeeper
along the goal extension region, a set of electric motor that will supply the entire dynamic to
the mechanical system and an artificial vision system that will send to electric motor, all
predict coordinate of the ball. The robot soccer game domain has been used in several
research of Artificial Intelligence due to the enormous dynamic, complexity, unpredictability
and a variation of strategies, giving a large field for research and implementation in
autonomous system.
LISTA DE FIGURAS............................................................................................IX
LISTA DE TABELAS...........................................................................................XI
1 INTRODUÇÃO................................................................................................ 12
4 IMPLEMENTAÇÃO
4.1 A mesa
4.2 O software
novos problemas apresentados neste novo domínio. Até há pouco tempo atrás, as pesquisas
tabuleiro, mas com a criação do Deep Blue, que venceu Gary Kasparov, a soberania humana
pareçam impossíveis, elas têm sido o motor do desenvolvimento. Um desses grandes desafios
foi proposto pelo presidente americano John F. Kennedy, quando mostrou a necessidade dos
PROCEDURE, 2005]. O novo desafio que foi lançado é o de construir um time de robôs
humanóides que possa jogar, e se possível vencer o time da seleção campeã mundial da
A escolha da pesquisa sobre futebol de robôs foi proposta porque o domínio do futebol
são muitas vezes incompletas, gerando situações ainda não solucionáveis, e exigindo muita
Na área mecânica, têm sido importante as pesquisas em novos materiais, que sejam
mais leves e resistentes, que reduzam atritos; na área eletrônica a busca pela construção de
computadores cada vez mais potentes e rápidos, que consumam menos energia e sejam mais
resistentes, na área de robótica, que integra todas as grandes áreas, busca-se construir robôs
14
colaborativo, é a base das pesquisas. Somente com a junção de todas áreas do conhecimento
Um outro marco que se deseja atingir é a capacitação dos sistemas de visão artificial,
cromáticas, o qual não seria possível com nenhum outro sensor isoladamente. Existem
inúmeros problemas associados à visão artificial que não foram resolvidos, e que serão muito
úteis no futuro.
Finalmente, o futebol de robôs é apenas o meio pela qual tenta-se criar uma
Apenas para se ter a dimensão dos trabalhos nesta área, o proposta feita pela
em Nagoya.
pequenos robôs e médios robôs. A partir daquele ano, torneios anuais foram propostos ao
Este trabalho não tem a pretensão de criar um time de robôs, mas apenas tentar
identificar e prever as possíveis trajetórias da bola e enviá-las ao motor que controla o goleiro
meta das pesquisas no campo da robótica, porque une áreas que eram extremamente distintas
no passado, e que com a união, podem propor soluções realmente inovadoras e úteis em um
presença de um objeto móvel, que nesta aplicação será uma bola branca com diâmetro de
30mm. O movimento da bola será rastreado e sua trajetória no plano acompanhado até que
mecatrônico, onde todo o controle será executado por um microcontrolador 8031, porém este
coordenadas serão enviadas através de uma porta serial por um microcomputador PC. O PC se
encarregará de coletar e analisar a imagem, e fazer o rastreio da bola ao longo dos quadros
capturados.
16
O projeto foi dividido então em duas partes, sendo uma, o projeto e construção do
1.2 Conteúdo
Este trabalho estará assim dividido, o capitulo 2 discorrerá sobre uma revisão
bibliográfica, mostrando os caminhos percorridos para que fosse possível unir todos os
conjuntos deste trabalho. No capitulo 3 veremos o sistema completo, onde será possível
1.3 Metodologia
Foi projetado e construído um conjunto mecatrônico, conforme descrito na introdução,
uma mesa, de dimensão 1.0mt x 0.8mt, que servirá de plataforma de apoio e aplicação do
projeto. O software de controle será dividido em duas partes distintas, a primeira executará
excitação do circuito de ponte transistorizada que alimentará o motor de passo. Este módulo
receberá as coordenadas de posição através de uma entrada serial, cujo protocolo será
definido em modo ASCII e será detalhado mais a diante. O outro módulo de software será
do motor, enviando-as em seguida para a interface de controle via canal serial. O software de
6.1 juntamente com o aplicativo Imaq Vision, para aquisição e tratamento da imagem. O
Veremos no próximo capítulo, um breve histórico sobre a área da visão artificial e suas
aplicações.
2 Histórico dos sistemas de visão artificial
relativamente novo sob o ponto de vista prático, mas em teoria já existe desde a década de 20.
Bartlane de transmissão de imagens via cabo submarino entre Londres e Nova York. Um
RANGER do Jet Propulsion Laboratory (JPL Pasadena, Califórnia - EUA), onde era
necessário transmitir imagens da Lua, com a qual pretendia-se mapear a superfície lunar e
últimas obtiveram sucesso transmitindo um total de 17439 fotos da superfície lunar. Todas as
fotos eram processadas para corrigir distorções introduzidas pelas câmeras de TV acopladas
Desde então diversos estudos foram desenvolvidos para tentar emular o mais
podemos citar os trabalhos na área médica que possibilitam melhorar as imagens obtidas por
equipamentos de diagnose não invasiva (Tomografia, Raio X), na área biológica para
Dotar os robôs com um sistema de visão artificial também tem sido objeto de intenso
estudo, visto o enorme avanço que este tipo de automação pode trazer para as indústrias. Na
percepção visual é um item indispensável, abre um campo vasto de aplicação para a visão
artificial. Em serviços postais, o sistema de visão artificial tem sido aplicado para reconhecer
caracteres e assim fazer a triagem automática dos envelopes postados. Uma quantidade
enorme de aplicações podem ser beneficiadas com a aplicação desta tecnologia que está
sobre o que seria a visão artificial. Segundo Bianchi [BIANCHI, 2001], Marr acreditava que
qualquer sistema de visão artificial deveria ser composto de uma estrutura na qual uma
imagem passaria por três processos distintos e seqüenciais, conforme é mostrado na figura 1.
problemática é como a informação vinda dos sensores pode ser representada de forma que
seja útil para o usuário da imagem. E finalmente na teoria computacional teríamos o que Marr
define como o objetivo da visão, sobre a qual devem existir teorias sobre como utilizar as
representações para se atingir os objetivos desejados. É justamente sobre este enfoque que
20
Marr define que “a visão é uma representação do mundo sobre os aspectos que são
separação em três grandes categorias, nas quais as pesquisas são divididas. Esta separação
Tabela 1
PROCESSAMENTO DE IMAGENS ENTRA IMAGEM E SAI IMAGEM
COMPLEXA DA IMAGEM
Uma separação moderna sobre a área de visão artificial. Adaptado de [YOUNG et al. 1995].
Observa-se pela tabela 1 que a visão artificial continua sendo um sistema composto
por três abordagens, tais como definido por Marr, mas que permite estudar cada abordagem
de uma maneira bem distinta, sem que necessariamente elas estejam interligadas.
como sistemas de visão artificial. Percebe-se que o grau de complexidade aumenta no avanço
de cada processo e que existe uma ligação da abordagem mais complexa para a menos, e que
não necessariamente o inverso é verdadeiro. Veremos nos próximos tópicos essa divisão e
perceberemos que as abordagens podem atingir uma complexidade dependente apenas do tipo
Embora um sistema de visão artificial seja um processo integrado, este pode ser
Aquisição
Pré processamento
Segmentação
Descrição e
Reconhecimento
um sinal elétrico que possa ser tratado por um equipamento eletrônico. Na fase de pré-
um conjunto de informações digitais e eventualmente o sinal pode ainda sofrer algum tipo de
semelhantes e então se passa à fase de interpretação que definirá se ele é ou não o objeto de
interesse.
22
ou informação visual para um sinal digital ou analógico. Esta conversão se dá por meio de
sinais elétricos. Estes sinais podem estar em diferentes espectros eletromagnéticos, tais como,
sensor específico.
imagem com qualidade. Os dispositivos mais utilizados são as câmeras eletrônicas, que ainda
podem ser analógicas ou digitais. A aplicação de cada tipo de câmera depende do tipo de
aplicação e dos custos envolvidos. Será descrito apenas como se faz a aquisição e
uma imagem obtida através de uma câmera eletrônica em uma matriz de pontos alocados em
memória. A conversão mais comum é aquela obtida por células CCDs (Charge Coupled
Devices) na qual cada ponto da célula representa um ponto de imagem projetada sobre ela.
As CCD´s são células eletrônicas sensíveis à luz visível ou infravermelho e são caracterizadas
por seu tamanho e resolução. Basicamente são construídas em silício e são formadas por uma
matriz que armazena uma carga elétrica toda as vezes que uma célula é bombardeada por
fótons. As câmeras com CCD’s ainda são caracterizadas pelo tamanho do sensor que é
medido pela sua diagonal, definindo tamanho tais como representado na figura 3.
23
Como são construídas como uma matriz, a forma mais fácil de se obter informações
sobre cada célula é varrer a matriz na forma de linhas e colunas. Na verdade, cada linha da
matriz é lida de uma vez e o valor de cada célula é armazenado em um registrador paralelo, e
então os dados deste registrador são enviados serialmente, como pode ser visto na figura 4.
Figura 4. Representação de uma matriz de célula CCD. Adaptado de [FORSYTH & PONCE,
2003].
número de células que formam a matriz da CCD. Esta representação é feita multiplicando-se o
células é feita mantendo a representação do produto da lateral maior pela lateral menor, por
24
exemplo, uma CCD de 640 por 480 significa um matriz de 640 colunas por 480 linhas e
contém 307000 células.As células de uma matriz CCD são mais conhecidas como pixel que é
a abreviatura de picture element em inglês. A partir de então, uma câmera com CCD passa a
se comportar como uma câmera fotográfica comum, onde a luz incidente sobre a CCD passa
por um conjunto de lentes que convergem a luz vinda do objeto de interesse e a distribui sobre
armazenam uma energia elétrica proporcional à intensidade luminosa que atinge cada pixel.
discretizada da cena que foi captura em um determinado instante t. Ou seja, cada célula da
matriz z (m×n) da CCD denominado de z(x, y), com x = 0,1,2...m e y = 0,1,2....n, representa a
p(x,y,t,λ)
câmeras com profundidade de 8 bits), e cujo significado é a intensidade luminosa (λ) daquele
Isto faz com que a imagem capturada esteja completa na memória somente após
duas varreduras completas da matriz. Este processo é ainda derivado do antigo sistema de
captura e transmissão de imagens das câmeras analógicas. Após as duas varreduras, a matriz
de CCD é limpa para que possa ser excitada novamente por um novo quadro de imagem.
impedir que ocorra uma sobre exposição da imagem, uma vez que o efeito do obturador é
totalmente eletrônico.
Assim como no olho humano, a área sensível à radiação é fixa, portanto o sistema
de visão artificial deve também se ajustar a diferentes distâncias focais, e isto é conseguido
fotografia, onde a imagem a ser capturada dever ser capaz de preencher no máximo a área do
Figura 6. A figura mostra a incidência de um feixe luz passando por uma lente e sendo
projetado em um filme ou uma matriz CCD, onde d é o diâmetro do sensor, f é a distância
focal do sensor ou filme. Adaptado de [FORSYTH & PONCE, 2003].
26
Nos processos com câmeras eletrônicas, as técnicas são semelhantes aos da fotografia,
utilizando inclusive, em muitos casos, os mesmos tipos de lentes. A figura 7 mostra uma
configuração com uso de uma lente com ajuste manual de foco, onde mecanicamente se
Figura 7 mostra o ajuste manual da distância focal, variando-se a distância das lentes interna e
a abertura da iris. Adaptado de www.edmundoptics.com, 2005.
digitais. Nas câmeras analógicas, o sinal do CCD lido de cada pixel é devidamente convertido
em sinal de formato padronizado. Para as câmeras monocromáticas este sinal varia de 0.5V a
2.0V representando a luminosidade de cada pixel. O sinal é montado de cima para baixo e da
matriz CCD e também o período de apagamento horizontal para o retorno da varredura para a
reduzida (ou ampliado) para as dimensões de uma CCD através de um conjunto de lentes,
cuja função principal (não considerando fenômenos ópticos como interferência, difração, etc)
o ajuste do tamanho da cena a ser capturado, com o tamanho da CCD [FORSYT & PONCE
2003].
cada pixel representa a intensidade de luz naquele ponto, portanto cada linha é formada por
um conjunto de pontos que podem ou não ter diferentes intensidades luminosas e como
sinal elétrico, será necessário converter este sinal em um padrão manipulável numericamente
ou mesmo armazenáveis. É neste ponto que começa a diferença entre as câmeras CCD´s
vídeo composto, que necessita ser convertida em um sinal digital, a câmera digital entrega
este mesmo sinal já convertido em binário. Quando temos somente a informação da imagem
no formato analógico é necessária uma conversão desse sinal para o formato digital, para que
28
Figura 9. Representação da ligação de uma câmera com uma placa de aquisição de imagem.
conhecidas também como Frame Grabber ou placa capturadora de vídeo. Estas placas têm a
função de converter, montar e armazenar uma imagem vinda de uma câmera analógica ou
digital para dentro de uma banco de memória RAM. A imagem então estará representada por
255 o ponto mais claro, como mostrado na figura 10. Esta capacidade de representação da
profundidade dos tons de cinza está apenas limitado ao tipo de câmera utilizado. Modelos
Figura 10: Representação de como uma imagem (A) é convertida em escala de cinza (B) e
então armazenada em memória (C). Adaptado de [ORTH, 2001]
Nas câmeras digitais, não é dispensável o uso da placa Frame Grabber, porém o
modelo da placa a ser utilizado é diferente do modelo analógico, pelo fato da câmera
analógica não possuir um conversor A/D. Na realidade, a própria câmera digital faz a
A câmera progressive scan captura cada linha da matriz e envia linha inteira e
que requerem captura da imagem em movimento, mas são incompatíveis com os formatos de
vídeo padrão e, portanto, somente é possível aplicar esta câmera com as placas de aquisição
de imagem. Para que uma imagem possa ser projetada sobre uma célula CCD, é necessário
que o objeto a ser filmado seja iluminado corretamente. E esta é uma das maiores dificuldades
possui iluminação homogênea, os objetos nem sempre são estáticos e as superfícies muitas
que deseja captar, e a iluminação dependerá muito do ambiente e dos objetos que se deseja
captar. Como foi dito anteriormente, existem superfícies que são especulares, Lambertianas e
30
totalmente absorvente, logo, o estudo prévio da superfície é necessário para se definir o tipo
a grande influência provocada por ela, principalmente em imagens obtidas por câmeras únicas
e ortogonais.
Figura 11. Fotos de uma mesma pessoa e mesma pose, mas com diferentes intensidades de luz
e direção. Adaptado de [BELHUMEUR, 1997].
problema ser solucionado. As linhas vermelhas representam a fonte de luz, e as linhas azuis a
AAAAA
Figura 12. Diferentes modelos de iluminação, a partir do primeiro do alto à esquerda e indo
em direção à direita temos: iluminação direta e unilateral, angular, axial ou perpendicular,
axial difusa, frontal difusa, iluminação de fundo, iluminação difusa uniforme. Adaptado de
http://www.edmundoptics.com/, 2005.
saída deste sistema, imagens temporais do mundo em R3 para um plano R2. A partir desta fase
dados. Neste último tópico observa-se que qualquer matriz com 64×64 pontos representa 4096
apresentam uma matriz mínima de 640×480, isto representa um conjunto de 307.200 pontos.
são relevantes para este trabalho. O leitor interessado em conhecer outras abordagens pode
3.2.1 Histograma
histograma é uma técnica estatística que determina a distribuição de uma determinada amostra
distribuída ao longo das classes, que neste caso é a escala de gradação dos tons de cinza. Isto
33
ƒ(λ) será 0 ≤ ƒ(λ) ≤ 255 para uma imagem com profundidade de 8 bits. Assim poderemos
Figura14. Imagem com alto contraste, onde podemos observar a distribuição uniforme de
pixels ao longo das classes. Adaptado de [GONZALEZ & WOODS, 2002].
Figura 15. Imagem com baixo contraste, onde observa-se a concentração de pixels na região
central. Adaptado de [GONZALEZ & WOODS, 2002].
34
tons de cinza e como isto afeta a qualidade da imagem. A idéia principal por traz desta técnica
principalmente quais são os limites de separação entre o objeto de interesse e a cena de fundo.
Este interesse reside, como foi dito por Marr, justamente em extrair da imagem
entre os objetos das cenas. Se a imagem não apresenta um bom contraste, todos os pixels
segunda imagem I’, derivada da primeira. Estas transformações podem ser lineares ou não
histograma da imagem. Como observado no tópico anterior, uma imagem com uma densidade
de distribuição não uniforme produz imagens com baixo contraste. Portanto, equalizar
significa fazer uma distribuição uniforme ao longo das classes de intensidade. Para tanto
aplica-se uma função de transformação de que deve ser monotonicamente crescente que
+∞
b) Que a função T(r) seja também normalizado no intervalo de [0,1], ou seja ∫ −∞
T (r )dr = 1
acumulada, que para uma dada variável x, com domínio em R, têm a imagem entre os
intervalos [0,1].
b
P( x) = ∫a f ( x)dx Eq. 3
k nk
Pk = ∑ Eq. 4
0 n
onde k varia de 0,1,2..... L-1 , n é o número total de pixels da imagem, nk é número de pixels
com intensidade k e L é o número de classes. Desta forma, tem-se um vetor Pa com valores
I k = nk .Pk Eq. 5
Figura 16. Vemos uma imagem de baixo contraste e depois de transformada por uma
equalização de histograma. Adaptado de [GONZALEZ & WOODS, 2002].
3.3 Segmetação
Segmentar uma imagem significa separar os diferentes objetos que compões a imagem
e separá-las do fundo da imagem. A segmentação é uma das fases mais difíceis de serem
também com o fundo da imagem. Imagem com texturas complexas, múltiplos objetos ou
Figura 17. Aqui vemos duas imagens que apresentam alta complexidade de segmentação,
dado às características de textura (no caso da imagem à esquerda) e de contraste, na imagem
da direita. Adaptado de [FORSYTH & PONCE, 2003] a figura da esquerda e [GONZALEZ
& WOODS, 2002] a figura da direita.
37
então por técnicas de limiarização. Neste trabalho veremos apenas a limiarização como
pelo leitor em [GONZALEZ & WOODS, 2002] e técnicas avançadas em [PARKER, 1997].
Limiarização é uma técnica que busca separar fronteiras entres regiões da imagem
interesse do fundo da imagem. Existem técnicas que podem separar mais de duas regiões, tais
como o multilevel thresholding, e o local adaptative thresholding, mas não serão abordadas
neste trabalho. O leitor interessado poderá encontrar uma vasta informação em [GONZALEZ
somente nos níveis de cinza da imagem, e a função mais simples é a binarização baseada no
histograma. Esta função cria uma nova imagem I’ que apresenta somente dois níveis de cores
e que normalmente conhecida como imagens binarizadas. A idéia desta transformação é fazer
mostra com seria esta transformação. A variável T é um valor de limiar que depende da
imagem e do histograma, de modo que o seu valor seja um limite entre duas regiões.
0 ⇔ g ( x, y ) ≤ T
I ' = g ( x, y ) = Eq. 6
1 ⇔ g ( x, y ) > T
38
Figura 18. O gráfico da esquerda mostra um histograma de uma imagem que apresenta duas
regiões separáveis, enquanto o histograma da direita mostra três regiões. Adaptado de
[GONZALEZ & WOODS, 2002].
bem definidas, permitindo uma separação fácil. O valor de T, portanto dependerá da análise
cores que compõem a imagem binarizada (preto e vermelho) foram escolhidas apenas para dar
destaque. Uma imagem binarizada pode ser composta de quaisquer duas cores do conjunto de
Figura 19. À esquerda uma imagem original e à direita a binarização baseada na limiarização
do histograma. Adaptado do aplicativo LabView com o módulo Imaq Vision.
39
serem binárias, ou seja, de somente existirem pixels com dois níveis de cor, permite um
Além das transformações, ainda é possível obter dados geométricos da imagem e uma
topologias e ainda quantificar e qualificar os objetos da imagem. No caso da figura 18, pode-
se, por exemplo, determinar o número de objetos com área menor que Apixels.
se no principio de que durante a binarização, podem ser transformados alguns ruídos, que
apresentam um nível de cinza maior que T. Porém não necessariamente estas partículas
modo a eliminar agrupamentos de pixels que têm o mesmo tamanho do elemento estruturante
e também para separar dois agrupamentos que eventualmente possam estar conectados por
poucos pixels. A operação de erosão é, portanto, um operador matemático dado por [PRATT,
1991]:
40
G ( j , k ) = I I Tl , c {F ( j , k )} Eq.7
onde G(j,k) é a imagem resultante da erosão de F(j,k) por uma matriz quadrada H(j,k). Ou
índices das linhas e colunas de H, cujos elementos de H sejam logicamente verdadeiros (1).
Partítcula
Elemento estruturante
que poderão pequenos “furos” e regiões completamente fechadas. Essas ilhas são então
Figura 21. A imagem A mostra uma partícula com uma ilha central e a imagem B após a
operação de preenchimento. Adaptado de [IMAQ, 1999]
41
por ruídos. Mas ainda assim, restam elementos que não necessariamente pertencem ao
conjunto de interesse, mas que conseguiram passar pelos filtros anteriores. As operações
morfológicas são muito mais vastas, e o leitor interessado em conhecer outras ferramentas
Nesta etapa temos uma matriz de pontos transformada em relação à imagem original,
modelos geométricos, onde podemos ver na estrutura da imagem uma determinada forma
geométrica ou até mesmo a uma combinação delas. Com este modelamento geométrico,
programa a diferença entre uma bola e uma laranja, caso eles tenham o mesmo tamanho e cor,
pode ser uma tarefa muito complicada. Não é claro ainda, como o cérebro humano representa
42
os objetos que nós vemos, principalmente, considerando-se que as crianças vêm ao mundo se
nenhuma noção geométrica, mas elas são capazes de diferenciar objetos complexos.
que em inglês são denominados blobs, tentando determinar parâmetros que possam separar os
da área em pixels que os diferentes agrupamentos nas imagens ocupam. A área da imagem é
em relação a seus vizinhos, que podem ser 8 conectados. Tomando-se um pixel central, todos
os seus vizinhos são aqueles pixels que o tocam em todas as direções, no caso de um pixel 8
questão principal aqui é se quando dois agrupamentos se tocam, os pixels das fronteiras são
Figura 22. Mostra um pixel central que é 8 conectado, pois têm vizinhos em todas as
direções. Adaptado de [IMAQ, 1999]
vizinhos que estão nas direções ortogonais ao seu centro, não considerando os pixels que
estão nas diagonais. Portanto, o calculo da área de uma partícula leva em consideração se o
agrupamento é 4 ou 8 conectados.
visão artificial apresentado na figura 2, utilizando o software LabView 7. Veremos como cada
primeira ficou a cargo do aluno de pós-graduação desta instituição [ARAUJO, 2005] cujo
parte, que ficou a cargo do autor desta monografia, e consistiu na construção do módulo de
controle e rastreio via sistema de visão artificial, bem como a interligação deste sistema com o
juntamente com o módulo de visão Imaq Vision. Estas ferramentas facilitam muito o processo
de criação de um software, uma vez que muitas rotinas comuns, tais como interfaces GUI
(General User Interface) já estarem prontas. Assim, não se consome tempo na produção
A idéia básica foi criar um sistema de visão que pudesse rastrear e interceptar uma
bola de pebolim que seria arremessada manualmente em direção a um gol. Posicionado neste
gol, estaria então um pequeno boneco de pebolim movido por um motor de passo, e cuja
interceptação seriam capturadas por um sistema de visão, utilizando-se uma câmera de vídeo
composto, e sendo então capturada por uma placa Frame Grabber, que converte este sinal de
4.1 A mesa
totalmente fechada nas laterais. No fundo encontra-se o mecanismo do robô, e no lado oposto
um usuário fica posicionado para lançar a bola. Na figura 22 temos duas fotos que mostram
Figura 23 Duas fotos mostrando a montagem do conjunto mecânico sobre a mesa. O ponto
branco é uma pequena bola de pebolim.
facilitou muito a conclusão deste trabalho. O leitor interessado em maiores detalhes sobre o
Para o ensaio, foi utilizada uma câmera doméstica da Sony, modelo NV-S100,
adaptado verticalmente sobre a mesa através de um tripé para câmeras fotográficas. A figura
A vista obtida pela câmera não foi muito ampla, devido a pequena altura disponível
pelo tripé. Portanto optamos pela observação parcial da área da mesa, e esta visão parcial
situava-se próximo da pequena área do gol. A iluminação utilizada foi aquela já existente no
recinto do teste, e consistia de uma lâmpada de PL de 27W. Deste modo, pudemos testar a
robustez do sistema de visão em capturar a imagem e pré processá-la ante de determinar a real
posição da bola.
4.2 O Software
baseada no modelo de equalização do histograma. Isto permite uma que pequenas variações
na iluminação do ambiente possam ser igualmente distribuídas por toda a imagem, tornando o
processamento da imagem mais robusto. Na tela de ajustes do software foram criados áreas
permitir pequenos ajustes conforme as condições de iluminação ambiental, que estão fora do
47
com entrada para sinais de vídeo composto no padrão NTSC, e é fabricado pela National
Na figura 25 temos uma amostra da tela do software de visão que controla a posição
câmera de vídeo, enquanto que na parte inferior vemos uma imagem já pré-processada e
binarizada. O rastreio da bola é feito pela busca em toda a imagem de um objeto que tenha as
dimensões da bola, e isto é feito utilizando-se um filtro de área de elimina toda as partículas
ajuste linear de seu valor (relação entre milímetro/pixel) e este valor é enviado para a porta
Durante os ensaios, uma pequena bola de pebolim era arremessada em direção ao gol,
em relação ao goleiro eram mais facilmente interceptadas do que aquelas arremessadas com
um ângulo, em relação ao goleiro. Isto se deve ao fato que o rastreio da bola é feito pela
esta trajetória, o goleiro seguia na direção da primeira projeção detectada pela câmera. Mas a
bola continuava seguindo na direção oposta, pois o conjunto mecatrônico não tinha sido
implementado para alterar a direção, caso fosse enviando um novo comando de posição.
Na figura 27, temos o código do programa que faz a copia da imagem vinda da Frame
Grabber/ A leitura deve ser feita da esquerda para a direita, como se fosse o fluxo de um
circuito eletrônico. Observa-se que é feita uma cópia da imagem, analisado o histograma e
partículas e faz o preenchimento dos blobs. Depois a imagem processada passa por dois filtros
50
de partículas que fazem remoção por área de pixels ocupados. Filtrando somente o blobs com
e no eixo Y. O valor de X é enviado para o módulo de comunicação serial que pode ser visto
na figura 28.
ajustado e com uma função linear, de modo a adequar a relação métrica entre a imagem do
campo e o campo real. A caixa “Serial Comm” faz a comunicação com o conjunto
mecatrônico.
5 Conclusão
visão artificial em um dispositivo simples, mas que apresentou uma série de desafios. E a
motivação maior foi aguardar o momento em que o sistema pudesse rastrear e interceptar
foi de adquirir conhecimento em uma área incipiente, como é a visão artificial. Muitos
Esperamos que com este trabalho, outros pós graduandos se motivem e continuem o
trabalho de pesquisa na área de visão artificial, visto que esta é uma área com muitos
problema sem solução ainda. Novas tecnologias tornam o custo da pesquisa muito menor,
permitindo-se que as instituições de ensino possam investir nessa área. Câmeras com do tipo
Webcam via porta USB estão relativamente baratas, e cada geração tornam-se mais rápidas e
nesta área. A globalização têm demonstrado que a produção industrial já não é uma
mecanismo eficiente de se aumentar a renda e obter lucros. Países como China já produzem e
52
reproduzem tecnologia com custos que assustam os outros. Face a este novo cenário, pode-se
quebra de paradigmas. Inventar e descobrir novos meios de criação são as moedas atuais, pois
Como sugestão para futuros trabalhos e assim permitir uma melhoria no projeto,
sugerimos:
1 – Substituir o motor de passo por um servomotor, de modo obter uma dinâmica maior,
obtendo-se taxas de aceleração e velocidades que permitam interceptar a bola com maior
rapidez.
2 – Substituir o sistema de câmera e placa de captura de imagem, por uma câmera Webcam e
esta implementação.
1993][COSTA, 2000].
5 Referências
BELHUMEUR, Peter N.; Eigenfaces vs. Fisherfaces: Recognition Using Class Specific
Linear Projection, IEEE Transaction on Pattern Analysis and Machine Intelligence vol. 19
no. 7, Julho 1997.
BIANCHI, Reinaldo A. C., Visão computacional aplicado ao controle de micro robôs. FEI
São Bernardo do Campo: Relatório do projeto de trabalho OS.N5886, 2001.
COSTA, Anna Helena Reali, PEGORARO, Renê, “Construindo Robôs Autônomos para
Partidas de Futebol: O Time Guaraná”, SP, SBA Controle e Automação, vol 3 pag 143 a
149, Dezembro de 2000.
FORSYTH, David A., PONCE, Jean. “Computer Vision A Modern Approach”, New
Jersey, Prentice Hall, 2003.
GONZALEZ, Rafael and WOODS, Richard. Digital Image Processing , 2.ed., India:
Pearson Education Asia, 2002.
KITANO, Hiroaki, et al. “RoboCup: The Robot World Cup Initiative” 1993. disponivel em
www.robocup.org, acessado em 14/04/2005.
LabView Machine Vision and Image Processing , Hands-On-Course Version 1.0 May 1998
National Instruments
LI, Bo; SMITH, Eduard; et al.; A Real Time Visual Tracking System in the Robot Soccer
Domain; Proceedings of EUREL Robotics 2000, Salford, UK; Abril 2000.
MORAVEC, Hans, “Robots, After All”, Communications Of the ACM, vol 46 pag. 90 a 97
Outubro de 2003.
PARKER, J.R. Algorithms for Image Processing and Computer Vision, Canada: Wiley
Computer Publishing , 1997.
PRATT, Willian K. “Digital Image Processing”; John Wiley & Sons Inc. USA, 1991.
ROBOCUP PROCEDURES, disponível em www.robocup.org, e acessado em 10/04/2005.
VELOSO, Manuela; et al.; The CMUnited 97 Small Robot Tean, Report of Computer Science
Departament at Carnegie Mellon University.
VELOSO, Manuela, Entrevista para Hasse, Rita F., ”Festival de Robôs Portugueses”
TECNOTEMA ROBÓTICA 2003, Revista, PT, pag. 42 a 47, Junho de 2003
YOUNG, Ian T. et al, Fundamental of Image Processing , Version 2.2, Netherlands: Delft
University of Tecnology, 1998.