Reconhecimento de Gestos Baseado em Registro de Movimento Utilizando Técnicas de Visão Computacional e Modelagem Geométrica

UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMATICA
EM CIENCIA
PROGRAMA DE POS-GRADUAC
AO
DA COMPUTAC
AO
RECONHECIMENTO DE GESTOS BASEADO

EM REGISTRO DE MOVIMENTO
UTILIZANDO TECNICAS
DE VISAO
COMPUTACIONAL E MODELAGEM
GEOMETRICA
Alan dos Santos Soares
DE MESTRADO
QUALIFICAC
AO
Salvador
11 de setembro de 2015
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMATICA
Alan dos Santos Soares

RECONHECIMENTO DE GESTOS BASEADO EM REGISTRO DE
MOVIMENTO UTILIZANDO TECNICAS

DE VISAO
COMPUTACIONAL E MODELAGEM GEOMETRICA
Trabalho
apresentado
ao
PROGRAMA
DE
POS-
EM CIENCIA
do INSGRADUAC
AO
DA COMPUTAC
AO
TITUTO DE MATEMATICA
da UNIVERSIDADE FEDERAL DA BAHIA como requisito parcial para obten
c
ao do
grau de Mestre em CIENCIA

DA COMPUTAC
AO.
Orientador: Prof. Dr. Antonio Lopes Apolinario Jr.
Salvador
11 de setembro de 2015
RESUMO
O desenvolvimento de sistemas capazes de reconhecer gestos ou sinais tem crescido consideravelmente. Estes sistemas permitem usuarios interagirem intuitivamente com dispositivos usando Natural User Interface (NUI) sem a necessidade de utilizacao de equipamentos, como cabos e/ou luvas. A Interacao Humano-Computador (IHC) e realizada
atraves do reconhecimento e transformacao do gesto em um comando, que por sua vez executa alguma acao ou evento. O reconhecimento depende da representacao geometrica do
gesto/sinal, do sensor e dos metodos para deteccao, rastreamento e reconhecimento. Assim, este projeto tem como objetivo desenvolver um sistema para reconhecimento de um
conjunto finito de gestos usando um sensor RGB-D para captar a informacao geometrica
3D da cena. O gesto sera modelado como uma curva no espaco parametrico, sendo esta
definida por uma representacao baseada em curvas polinomiais. Esta curva sera obtida
atraves do acompanhamento da mao no espaco 3D, desconsiderando outras partes do
corpo, como expressoes faciais ou o deslocamento do torso.
Palavras-chave: Reconhecimento de Gestos; Modelagem Geometrica de Curvas; Sensor RGB-D; Lngua de Sinais; 3D.
iii
ABSTRACT
The development of systems capable of recognizing gestures or signs has grown considerably. These systems allow users to intuitively interact with devices using Natural
User Interfaces (NUI) without the need to use equipment such as cables or gloves. The
Human-Computer Interaction (HCI) is performed by recognizing and transformation of
the gesture in a command, which in turn performs some action or event. Recognition
depends on the geometric representation of the gesture / sign, sensor and methods for
detection, tracking and recognition. Thus, this project aims to develop a system for recognition of a finite set of gestures using an RGB-D sensor to capture the 3D geometric
information of the scene. The gesture will be modeled as a curve in the parameter space,
which is defined by a representation based on polinomial curves. This curve is obtained
through hand tracking in 3D space, ignoring other body parts, such as facial expressions
or torso displacement.
Keywords: Gesture Recognition; Geometric Modeling Curves; RGB-D Sensor; Signal
Language; 3D.

SUMARIO
Captulo 1Introduc
ao
Captulo 2Fundamentac
ao Te
orica
2.1
2.2
2.3
2.4
2.5
2.6
Gestos . . . . . . . . . . . . . . . . . .
Representacao Geometrica de Gestos .
Curvas . . . . . . . . . . . . . . . . . .
2.3.1 Curva de Bezier . . . . . . . . .
2.3.2 Curva Spline . . . . . . . . . .
2.3.3 Curva B-Spline . . . . . . . . .
Sistemas de Reconhecimento de Gestos
2.4.1 Sensores RGB-D . . . . . . . .
2.4.2 Deteccao . . . . . . . . . . . . .
2.4.3 Rastreamento . . . . . . . . . .
2.4.4 Reconhecimento . . . . . . . . .
2.4.5 Tecnicas Baseadas em Contato
2.4.6 Tecnicas Baseadas em Visao . .
Algoritmos e Metodos para Sistemas de
Conclusao . . . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
Reconhecimento
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Captulo 3Trabalhos Relacionados

3.1
3.2
3.3
27
Rastreamento da Mao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Reconhecimento de Gestos . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Captulo 4Metodologia
4.1
4.2
5
7
8
11
13
14
15
16
18
19
20
21
21
23
25
27
29
32
33
Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Captulo 5Conclus
ao
37
38
39
vii
LISTA DE FIGURAS
2.1
2.2
Categorias dos gestos. (HASAN; KAREEM, 2012) . . . . . . . . . . . . .

6
A figura 2.2a de Schroder et al. (2012) mostra uma luva colorida e a 2.2b
de Oikonomidis, Kyriazis e Argyros (2011) um modelo 3D da mao usado
para rastrear os movimentos da mao. Ambas as abordagens sao usadas
para representar gestos usando modelos 3D e aparencia, respectivamente.
7
2.3 Curva de Bezier c
ubica. . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.4 Curva de Bezier aproximada por uma sequencia de interpolacoes. . . . .
12
2.5 Spline c
ubica construda com sete segmentos polinomiais. . . . . . . . . .
13
2.6 Sensor RGB-D composto de um emissor infravermelho, sensor de cor, sensor de profundidade do infravermelho, motor de ajuste e microfones.(MICROSOFT,
2015) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.7 Gesto composto por uma sequencia de 6 quadros. Cada quadro representa
a deteccao da posicao pi em um dado momento ti .(IBANEZ et al., 2014)
19
2.8 Gestos da Lingua Brasileira de Sinais capturados utilizando o sensor Kinect
e um codigo do OpenNI modificado. . . . . . . . . . . . . . . . . . . . . .
20
2.9 Luva utilizada para captar a posicao e orientacao da mao. (LIN; VILLALBA, 2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.10 Caso linear, onde um conjunto de amostras e separada no lado esquerdo e
direito, e o fundo representa a linha de separacao. (BURGES, 1998a) . .
24
4.1
Arquitetura de um sistema de reconhecimento de gesto. Inicialmente o

sensor RGB-D capta uma nuvem de pontos para detectar a posicao da
mao. Em seguida, uma sequencia de posicoes e armazenada, representando
a trajetoria do gesto. Apos a obtencao da trajetoria, ela e normalizada
e escalada para obter invariancia do gesto em relacao ao posicionamento.
Por fim, um metodo e aplicada para treinamento do classificador utilizando
o conjunto de gestos. A classificacao e realizada comparando o valor de
referencia dos testes com os obtidos no treinamento. . . . . . . . . . . . .
ix
35
LISTA DE TABELAS
2.1
2.2
2.3
Desvantagens das representacoes implcita, explcita e parametrica.(FORREST,

1971) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Vantagens das representacoes implcitas, explcitas e parametricas.(FORREST,
1971) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Comparativo entre duas representacoes de curva: Bezier e Spline. (FOLEY
et al., 1994) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
xi
LISTA DE ABREVIATURAS E SIGLAS

LS Linguagem de Sinais
LIBRAS Lngua Brasileira de Sinais
LAS Lngua Americana de Sinais
NUI Natural User Interface
IHC Interface Humano-Computador
RGB Red-Green-Blue
RGB-D Red-Green-Blue-Deep
3D Tridimensional ou tres dimensoes
2D Bidimensional ou duas dimensoes
VC Visao Computacional
SDK Software Development Kit
API Application Programming Interface
ROI Region of Interest
HMM Hidden Markov Model
FSM Finite State Machine
DTW Dynamic Time Warpping
ICP Iterative Closest Point
SVM Support Vector Machine
PNN Probabilistic Neural Network
PCA Principal Component Analyses
LBS Linear Blend Skinning
PSO Particle Swarm Optimization
xiii
xiv
GMM Gaussian Mixture Model
DEC Discriminative Exemplar Coding
DLLE Distributed Locally Linear Embedding
ROC Receiver Operating Characteristic
LISTA DE ABREVIATURAS E SIGLAS
Captulo
1
Este captulo tem como objetivo fazer uma contextualizac
ao do projeto e descrever a motivac
ao e alguns
desafios da
area de reconhecimento de gestos e suas aplicac
oes.
INTRODUC
AO
A comunicacao entre humanos pode ser realizada utilizando linguagem verbal ou nao
verbal. A linguagem verbal e caracterizada pelo uso da escrita ou da fala como meio de
comunicacao. Ja a linguagem nao verbal e caracterizada pela transmissao da informacao
atraves de imagens, figuras, desenhos, smbolos, danca, tom de voz, postura corporal,
pintura, m
usica, mmica ou gestos. O gesto pode ser considerado o meio de comunicacao
mais utilizado pelos humanos dentre estas formas nao verbais. Isto porque normalmente
a fala vem acompanhada de gestos que auxiliam no processo de comunicacao.
Os gestos podem ser classificados em conscientes ou inconscientes (HASAN; KAREEM, 2012). Os conscientes possuem representacao semantica e sao realizados intencionalmente durante a comunicacao. Ja os gestos inconscientes sao realizados de forma
nao intencional.
A Linguagem de Sinais (LS) (LEWIS; SIMONS; FENNIG, 2014) e formada pelo
conjunto de gestos conscientes e tem como base a utilizacao de gestos, sinais, expressoes
faciais e/ou corporais para que pessoas surdas ou com problemas de audicao possam se
comunicar. Assim como o idioma, a LS tambem e especfica de cada pas, sendo a do
Brasil a Lngua Brasileira de Sinais (LIBRAS).
Os sinais sao diferentes dos gestos. Enquanto o sinal tem seu significado representado atraves de smbolos, sem movimentacao de partes do corpo, os gestos consideram o
aspecto temporal, sendo assim representados atraves de movimentos de partes do corpo.
Assim, um u
nico gesto e composto de uma sequencia de sinais (poses) durante um intervalo de tempo. Estes sinais e gestos podem ser usados para desenvolver sistemas capazes
de reconhecer um movimento ou pose e traduzir este em um comando que executa alguma
acao.
A utilizacao de gestos na construcao de sistemas computacionais tem crescido consideravelmente. Para desenvolver tais sistemas e necessario inicialmente entender as caractersticas dos gestos, suas limitacoes e como eles podem ser representados. Estes sistemas
1
INTRODUC
AO
permitem usuarios interagirem intuitivamente com dispositivos computacionais atraves

de Natural User Interfaces (NUIs) usando gestos ou sinais.
O desenvolvimento de NUIs a partir de gestos possuem muitos desafios, como por
exemplo, a diversidade cultural. Uma vez que o significado semantico de cada gesto
depende da cultura de cada pas ou regiao, entao um u
nico gesto pode ter diferentes
significados. Um outro desafio da utilizacao de gestos para desenvolver NUIs e a complexidade de representar um gesto que considera varias partes do corpo, como mao e a
face. Alem disso, existem outros desafios relacionados ao reconhecimento de gestos, como
a quantidade existente de gestos/sinais, complexidade de rastreamento do movimento de
todos os dedos da mao, oclusoes ou mudancas de iluminacao.
O reconhecimento de gestos possui diversas aplicacoes. Por exemplo, medicos podem realizar cirurgias remotamente atraves da manipulacao de equipamentos que sao
controlados por interfaces baseadas em gestos (WACHS et al., 2008). Os fisioterapeutas
tambem podem acompanhar o tratamento de pacientes que sofreram alguma lesao muscular ou perda de movimento atraves do acompanhamento e avaliacao de movimentos
(BRAGAGLIA; MONTE; MELLO, 2014). No entanto, uma das maiores preocupacoes
nestas aplicacoes e garantir a confiabilidade da correta execucao dos comandos realizados atraves do reconhecimento dos gestos ou sinais. Uma outra aplicacao permite que
usuarios possam interagir em tempo real com Jogos utilizando interfaces que transformam comandos de acordo com os gestos realizados pelo usuario (ZHU; YUAN, 2014),
sem que este tenha que utilizar nenhum dispositivo.
Novas pesquisas surgiram nas areas da Visao Computacional (VC) em virtude do
surgimento de sensores RGB-D que captam tanto a informacao visual, quanto geometrica.
O processo de aquisicao do sensor consiste em obter uma imagem colorida (RGB) e
realizar uma medida de profundidade (D) com uma tecnica de luz estruturada. O sensor
de profundidade (D) permite obter informacoes geometricas da cena atraves de nuvens de
pontos. Cada nuvem de pontos e adquirida atraves da distancia de cada sensor (mapeado
em um pixel do mapa de profundidade) ate o objeto mais proximo da cena que reflete a luz
infravermelho. A maior vantagem destes dispositivos e que sao invariantes a mudancas de
iluminacao. Tanto as informacoes geometricas ou de cor podem ser usadas separadamente
ou em conjunto no processo de reconhecimento dos gestos.
Considerando os aspectos mencionados, o projeto proposto tem como objetivo principal reconhecer gestos dinamicos e conscientes produzidos pelos membros superiores (sem
deslocamento do torso), cujo acompanhamento sera apenas a mao, utilizando sensores
RGB-D, que captam o movimento do ponto de vista geometrico no espaco 3D. O objetivo e lidar somente com a posicao absoluta das maos no espaco 3D, desprezando por
exemplo, expressoes faciais e/ou dedos. Estas sao ignoradas em funcao da complexidade
de identificar um gesto que utiliza m
ultiplas partes do corpo em paralelo, como a mao
e a face, ou rastrear o movimento da mao completa, sendo que ela possui mais de 20
graus de liberdade e o rastreamento destes e um problema de difcil resolucao. Assim, na
impossibilidade de tratar este problema durante o projeto, limitou-se somente a posicao
absoluta da mao.
A ideia base do projeto e definir um descritor para representar a trajetoria do movimento realizado pelo gesto. A trajetoria do movimento sera modelada como uma curva

INTRODUC
AO
no espaco geometrico 3D. O objetivo e tornar esta curva invariante à posicao e orientacao
do usuario no ambiente. Esta invariancia e fundamental nos sistemas de reconhecimento
de gestos, uma vez que os fatores fsicos do usuario, bem como da realizacao do gesto
podem influenciar no resultado da classificacao.
Este projeto foi proposto considerando as recentes pesquisas em sistemas de reconhecimento de gestos e a diversidade de areas onde podem ser aplicados, como Medica,
Entretenimento ou ate mesmo em Casas Inteligentes. O projeto visa fortalecer a pesquisa na area de VC, bem como incentivar o desenvolvimento de projetos cientficos para
utilizacao nas areas de sa
ude, educacao e comunicacao.
Este trabalho esta dividido em cinco captulos. O captulo 1 descreve o contexto do
projeto, motivacao e desafios, bem como uma breve descricao do projeto proposto. O
captulo 2 mostra os principais conceitos envolvidos no projeto, descrevendo aspectos
tecnicos e teoricos que ajudarao no processo de desenvolvimento do projeto. Uma revisao
de abordagens para reconhecimento de gestos e descrita no captulo 3, mostrando os algoritmos mais utilizados e os aspectos positivos e negativos de cada metodo. A metodologia
para desenvolvimento do projeto e apresentada no captulo 4, demonstrando uma arquitetura de um sistema de reconhecimento de gesto e todas as etapas que serao necessarias
para desenvolver e concluir o projeto no prazo estabelecido. Por fim, o captulo 5 conclui o trabalho fazendo uma revisao do que foi apresentado e as consideracoes finais em
relacao ao projeto proposto.
Captulo
2
Este captulo tem como objetivo descrever conceitos e informac
oes que ser
ao utilizadas como base para
entendimento e desenvolvimento do projeto.
TEORICA
FUNDAMENTAC
AO
O problema de reconhecimento de gestos requer o entendimento de aspectos basicos sobre
gestos e suas categorias, dos conceitos relacionados a uma arquitetura basica de sistema
de reconhecimento e sua complexidade de desenvolvimento. Alem disso, e necessario
conhecer formas de representar um gesto e os aspectos positivos e negativos de cada
representacao.
necessario tambem entender como os sensores RGB-D funcionam e como eles poE
preciso conhecer algumas
dem ser usados nos sistemas de reconhecimento de gestos. E
vantagens e desvantagens da utilizacao de cameras RGB e de sensores de profundidade,
bem como algumas das principais diferencas entre as tecnicas baseadas em contato e
visao, que sao usadas para desenvolver tais sistemas.
Uma vez que o projeto lida com a modelagem geometrica dos gestos usando curvas,
entao e necessario entender conceitos relacionados a curvas e algumas de suas propriedades. Alem disso, e preciso conhecer como funcionam metodos para deteccao, rastreamento
da mao e reconhecimento de gestos.
Assim, todos os assuntos mencionados acima sao abordados neste captulo. O objetivo
e ter uma base solida dos conceitos e definicoes que serao utilizados para entender e
desenvolver o projeto proposto.
2.1
GESTOS
Um gesto ou sinal e considerado um movimento e/ou configuracao de uma ou mais partes

do corpo, que podem representar um comando, emocao ou intencao (BERMAN; STERN,
2012). O significado dos gestos ou sinais leva em conta uma sequencia de parametros, tais
como a localizacao da mao em relacao ao corpo, a expressao facial ou a movimentacao
que se faz para produzir o gesto.
Segundo Hasan e Kareem (2012), os gestos sao classificados em duas categorias principais: estaticos e dinamicos. Os gestos estaticos (sinais) sao definidos em funcao de uma
5
TEORICA
FUNDAMENTAC
AO
pose que se mantem na mesma posicao e orientacao, sem movimentacao por um perodo
de tempo (HASAN; KAREEM, 2012). Ja os gestos dinamicos sao definidos por uma
sequencia contnua de poses estaticas em um intervalo de tempo (HASAN; KAREEM,
2012). Cada pose pi e associada a um instante ti neste intervalo.
P = {p(t1 ), p(t2 ), ..., p(tn )}
Os gestos dinamicos sao classificados como conscientes ou inconscientes (HASAN;
KAREEM, 2012), onde o primeiro indica a transmissao da informacao de forma proposital, enquanto o segundo e a realizacao de gestos de forma espontanea (categorizados
como adaptadores). Podemos ainda classificar os gestos conscientes em emblematicos,
que sao traducoes diretas de comunicacoes verbais curtas (por exemplo, o acenar a mao),
reguladores que sao usados na interacao por gestos, ilustradores que sao usados para
enfatizar pontos-chaves em um dialogo, e os emocionais que representam declaracoes de
afeto (HASAN; KAREEM, 2012).
A figura adaptada de Hasan e Kareem (2012) mostra uma visao geral da categorizacao
dos gestos logo abaixo.
Figura 2.1: Categorias dos gestos. (HASAN; KAREEM, 2012)

Dentre os gestos e sinais conscientes, existe um conjunto que compoe a Lngua Brasileira de Sinais ou LIBRAS, que e utilizada por pessoas surdas ou com problemas auditivos
no processo de comunicacao. Estas linguagens nao sao universais, sendo particulares de
cada pas em sua estrutura, podendo ainda se diversificar de acordo com a regiao.
A utilizacao de gestos na interacao com computadores e um novo paradigma. Comparada com outras partes do corpo, a mao e o membro mais adequado para interagir
GEOMETRICA
2.2 REPRESENTAC
AO
DE GESTOS
com computadores de forma intuitiva (HASAN; KAREEM, 2012). Para realizar esta
interacao, e necessario definir como os gestos podem ser representados pelo movimento
da mao.
2.2
GEOMETRICA
REPRESENTAC
AO
DE GESTOS
A representacao de um gesto pode ser definida como uma abstracao dos movimentos
das partes do corpo humano (HASAN; KAREEM, 2012). Neste sentido, a escolha da
melhor representacao do gesto deve ser levada em consideracao no desenvolvimento de
uma abordagem para reconhecimento de gestos. Segundo Suarez e Murphy (2012) e
Hasan e Kareem (2012), as representacoes baseadas em aparencia e em modelos 3D sao
consideradas as principais categorias de representacao de gestos. As figuras 2.2a e 2.2b
mostram exemplos destas categorias.
(a)
(b)
Figura 2.2: A figura 2.2a de Schroder et al. (2012) mostra uma luva colorida e a 2.2b de
Oikonomidis, Kyriazis e Argyros (2011) um modelo 3D da mao usado para rastrear os
movimentos da mao. Ambas as abordagens sao usadas para representar gestos usando
modelos 3D e aparencia, respectivamente.
Os modelos baseados em aparencia tem como principal premissa captar informacoes
de cor e de movimento (ZABULIS; BALTZAKIS; ARGYROS, 2009). Segundo Zabulis, Baltzakis e Argyros (2009), as duas principais categorias de metodos usados para
representar gestos baseados em aparencia sao: modelos estaticos 2D e movimento. Os
modelos estaticos 2D normalmente se baseiam na analise de cor, silhueta e movimento.
A analise de cor utiliza marcadores para rastrear o movimento, como a luva ilustrada na
figura 2.2a. Ja a analise de silhueta avalia as propriedades geometricas da silhueta, tais
como permetro, superfcie, retangularidade, orientacao e centroide. Por fim, a analise de
movimento avalia o deslocamento dos objetos em sequencias de imagens.
Ao contrario das abordagens baseadas em aparencia, que lidam com informacao vi-
TEORICA
FUNDAMENTAC
AO
sual, as abordagens baseadas em modelos 3D lidam com informacoes geometricas da cena

(SUAREZ; MURPHY, 2012). Estas abordagens definem uma descricao espacial 3D da
mao, onde parametros sao calculados para mapear o modelo em relacao à mao de acordo
com seu movimento (OIKONOMIDIS; KYRIAZIS; ARGYROS, 2011). O custo computacional esta fortemente relacionado à complexidade do modelo geometrico utilizado
(EROL et al., 2007). Isto porque o calculo sobre a quantidade de vertices usados requer
muito processamento, sendo assim mais adequados os modelos que utilizam combinacoes
de formas geometricas mais simples (por exemplo, combinacao de esferas) (EROL et al.,
2007).
A principal vantagem das abordagens baseadas em modelos 3D, que sao capturadas
com algum sensor de profundidade, e que sao invariantes a mudancas de iluminacao (HASAN; KAREEM, 2012), caracterstica fundamental que os modelos baseados em aparencia
nao lidam de forma eficiente (HASAN; KAREEM, 2012). Alem disso, as oclusoes e deteccoes incorretas de objetos em cenas que possuem distribuicoes de cores semelhantes
tornam as abordagens baseadas em aparencia pouco robustas ou escalaveis (EROL et al.,
2007).
As abordagens que mapeiam somente a trajetoria do movimento no espaco 3D (FRATI;
PRATTICHIZZO, 2011)(KIM et al., 2012a), mais conhecidas por rastreamento da mao,
podem utilizar tanto abordagens baseadas em aparencia, quanto modelos 3D. O rastreamento foca na descricao espacial e temporal do movimento realizado pela mao (SCHRoDER;
BOTSCH, 2014). Este movimento pode ser representado atraves de curvas, onde estas
devem representar da melhor forma possvel os gestos realizados, mantendo assim propriedades e caractersticas do movimento, como pontos de inflexao, curvatura da curva ou
quantidade de pontos de controle. Assim, e necessario conhecer as principais formas de
representar as curvas, alem das propriedades e caractersticas que devem ser levadas em
consideracao quando utilizadas em sistemas de reconhecimento de gestos.
2.3
CURVAS
Uma curva pode ser representada atraves de tres formas fundamentais: explcita, implcita
ou parametrica. A forma explcita e definida por funcoes de variaveis y e z, que sao
dependentes de x (para 3D), sendo representadas por duas equacoes:
f (x) = y
(.)
g(x) = z
(.)
Esta representacao explcita nao e considerada adequada para as curvas fechadas, pois
so existe um u
nico valor de y para cada valor de x (o mesmo vale para z). Alem disso,
representar uma curva rotacionada requer a divisao da mesma em varios segmentos, sendo
assim uma representacao pouco utilizada.
Ja as representacoes implcitas modelam curvas como solucoes de equacoes seguindo a
forma da equacao .. Esta representacao implcita de curvas possui algumas limitacoes,
especialmente quando queremos saber se a direcao das tangentes dos segmentos estao
2.3 CURVAS
corretas nos pontos de encontro. A tabela 2.1 mostra algumas das desvantagens desta
representacao.
f (x, y, z) = 0
(.)
Uma vez que os elementos dependem dos eixos, e necessario definir um sistema de
coordenadas que garanta as propriedades das representacoes implcitas e explcitas. Estas
representacoes possuem a vantagem de detectar eficientemente se um ponto pertence a
uma dada curva, ou ate mesmo verificar em que lado da curva um ponto esta localizado
(HUGHES et al., 2013). No entanto, estas representacoes nao sao adequadas para o nosso
problema, uma vez que queremos encontrar uma forma eficiente de representar uma curva
com base nos pontos obtidos pelo rastreamento da mao, sendo assim pouco interessante
utilizar representacoes implcitas ou explcitas.
Ja a representacao parametrica expressa o valor das variaveis x, y e z em funcao
de uma variavel independente t, que e comumente chamada de parametro. Esta representacao e independente do sistema de coordenadas e possui 3 funcoes explcitas em um
sistema 3D:
x = x(t), y = y(t), z = z(t)
(.)
Cada ponto da curva p(t) = [x(t), y(t), z(t)] pode ser representado como uma funcao
vetorial em funcao da variacao do parametro t entre 0 e 1. De forma geral, dados dois
pontos p1 e p2 , uma interpolacao linear e definida por uma funcao:
p(t) = (1 t)p1 + tp2
(.)
com t R e 0 t 1. Esta interpolacao sobre o conjunto de pontos fornece uma

representacao aproximada de uma curva. Uma das melhores vantagens da representacao
parametrica e que a forma aproximada da curva passa a ser definida como uma curva
polinomial, o que, para efeitos de computacao grafica, pode melhorar a visualizacao de
curvas mais complexas ou suavizar contornos (HUGHES et al., 2013). As tabelas 2.2 e
2.1 mostram algumas das vantagens e desvantagens das tres representacoes mencionadas
acima (implcita, explcita e parametrica).
TEORICA
FUNDAMENTAC
AO
10
Desvantagens
Explcita
Implcita
Infinitos declives sao Difceis de juntar e
impossveis se f (x) e manipular formas liuma polinomial
vremente
Eixos
dependentes
(difcil de transformar)
Curvas fechadas e
multi-valoradas
sao
difceis de representar
Tabela 2.1:
Desvantagens
rametrica.(FORREST, 1971)
Explcita
Facil de acompanhar
Param
etrica
Alta
flexibilidade
complica interseccoes
e classificacao de
pontos
Eixos dependentes
Acompanhamento dos
pontos da curva complexo
das
representacoes
implcita,
Vantagens
Implcita
Curvas
fechadas,
multi-valoradas e infinitos declives podem
ser representados
Classificacao
de
pontos
(modelando
solidos, checagem de
interferencia) menos
complexa
Interseccoes e deslocamentos podem ser representados
Tabela 2.2:
Vantagens das
rametricas.(FORREST, 1971)
representacoes
explcita
pa-
pa-
Param
etrica
Curvas
fechadas,
multi-valoradas e infinitos declives podem
ser representados
Eixos independentes
(facil de transformar)
Menor complexidade
de composicao de curvas
Facil de rastrear
Facil de juntar e manipular formas livremente
implcitas,
explcitas
Um outro ponto importante e que um segmento de curva parametrica e por si so

contnuo em qualquer ponto. Nas representacoes parametricas, quando duas curvas se
interceptam em determinado ponto, dizemos que a curva tem continuidade parametrica
C 0 naquele ponto. Ja a continuidade C 1 so e garantida quando os dois vetores tangentes
tem a mesma direcao e mesma magnitude. A continuidade C n pode ser estendida para
11
2.3 CURVAS
a derivada de grau n da curva, ou seja, se a direcao e a magnitude da derivada de grau

n de dois segmentos de curva forem iguais num determinado ponto de interseccao, entao
diz-se que a curva apresenta continuidade parametrica C n neste ponto.
A representacao parametrica foi escolhida para ser utilizada neste projeto porque e
a mais adequada para resolver nosso problema (obter uma representacao aproximada
de uma curva no espaco com base nas posicoes da mao). Ela e mais adequada porque
permite que uma curva seja construda a partir da interpolacao dos pontos (posicoes da
mao) de forma eficiente e sem muita complexidade.
Nos sistemas de reconhecimento de gestos e necessario definir um modelo representativo de curva da forma mais simples possvel, sem perder informacoes importantes. Esta
etapa e realizada apos a obtencao da trajetoria da mao, que e composta de uma sequencia
contnua de pontos. Neste processo, a velocidade do movimento, calculada a partir da
primeira derivada, implica na quantidade de pontos amostrados, ou seja, a quantidade de
pontos e inversalmente proporcional a velocidade do movimento. Esta velocidade permite
inferir uma caracterstica importante dos gestos, que e o aspecto emocional. No entanto,
esta caracterstica nao e levada em consideracao neste projeto.
No processo de construcao de uma curva, uma curvatura 3D nao pode ser representada
usando apenas um u
nico angulo , assim e necessario definir dois angulos, 1 e 2 . Para
isso, uma projecao nos planos XZ e Y Z pode ser realizada afim de obter os angulos
necessarios para representar cada ponto da curvatura 3D.
Dentre as representacoes parametricas de curvas, as mais utilizadas em sistemas de
reconhecimento de gestos sao as curvas B-Spline e Bezier (WANG; WANG; ZHOU,
2014)(SHIN; TSAP; GOLDGOF, 2004). Estas curvas possuem propriedades importantes que facilitam a manipulacao e extracao de caractersticas que podem ser usadas no
processo de treinamento e classificacao dos gestos. As proximas subsecoes descrevem as
definicoes e propriedades destas curvas.
2.3.1
Curva de B
ezier
A curva de Bezier e uma representacao parametrica da forma:

(x + y)n =
n
X
n
k=0
xnk y k x
(.)
com x = t e y = (1 t), onde t e um valor de parametrizacao para percorrer a curva

no intervalo de 0 a 1, e n e o grau do polinomio. Estes polinomios sao conhecidos como
polinomios de Bernstein (Caglar; Akansu, 1993) e segue a forma:

n i
n
Bi (x) =
x (1 x)ni
(.)
i
O conjunto {Bin }ni=0 forma uma base para os polinomios de grau ate n. Isto e, se P (x)
e um polinomio de grau menor ou igual a n, entao pode ser escrito na forma:
P (x) =
n
X
i=0

n i
i
x (1 x)ni
i
(.)
12
TEORICA
FUNDAMENTAC
AO
A figura 2.3 ilustra uma curva de Bezier c

ubica, aproximada por 4 pontos de controle
P4 = {p0 , p1 , p2 , p3 }, sendo 2 pontos conhecidos como pontos finais, p0 e p3 , e os outros 2
como pontos de controle, p1 e p2 , que definem a forma da curva. Ja a figura 2.4 mostra
um outro exemplo, ilustrando a sequencia de interpolacoes variando o parametro t de 0
a 1 para construir uma curva quadratica.
Figura 2.3: Curva de Bezier c

ubica.
Figura 2.4: Curva de Bezier aproximada por uma sequencia de interpolacoes.

As curvas mais utilizadas sao as lineares, quadraticas e c
ubicas, representadas respectivamente pelas equacoes ., . e ., onde P representa o ponto de controle e t a
parametrizacao definida no intervalo de 0 a 1. Estas, alem de simplificar a construcao de
formas geometricas complexas atraves da juncao de curvas de graus menores, sao mais
flexveis e melhoram o desempenho das aplicacoes.
P(t) = (1 t)P0 + tP1 , t [0, 1].
(.)
P(t) = (1 t)2 P0 + 2t(1 t)P1 + t2 P2 , t [0, 1].
(.)
P(t) = (1 t)3 P0 + 3t(1 t)2 P1 + 3t2 (1 t)P2 + t3 P3 , t [0, 1].
(.)
Quanto maior for o grau da curva de Bezier, maior sera o custo de avaliacao. Esta
proporcionalidade pode ser revertida atraves da composicao de curvas de Bezier mais
simples, fazendo com que o u
ltimo ponto de um segmento coincida com o primeiro ponto
de outro segmento. Assim, uma vez que o primeiro e u
ltimo ponto de uma curva de Bezier
sao interpolados (uma de suas propriedades), o resultado e a continuidade em C 0 , que
2.3 CURVAS
13
pode ser suavizada atraves da analise de seus pontos vizinhos, ou seja, dos posteriores e
anteriores aos pontos de juncao.
Logo abaixo sao descritas algumas propriedades importantes das curvas de Bezier que
devem ser levadas em consideracao no processo de escolha da melhor representacao de
curva a ser usada.
Invari
ancia sobre transformaco
es afins no espaco param
etrico - propriedade
que define que a transicao do intervalo [0, 1] para o intervalo [a, b] e um mapeamento
afim.
Envolt
oria Convexa (convex hull) - define que todos os pontos gerados pelas
interpolacoes estao dentro da poligonal de controle, ou seja para quaisquer dois
pontos contidos no conjunto, a linha reta que conecta eles tambem esta contida no
conjunto.
Simetria - construir a curva iniciando em ambos os pontos finais geram o mesmo
resultado.
Interpolac
ao dos pontos finais - garante que a curva sempre passara pelos pontos
finais.
2.3.2
Curva Spline
Uma Spline e uma generalizacao das curvas de Bezier. Ela e definida por partes de uma
funcao polinomial que possui suavidade nos nos que conectam os segmentos, chamados
knots. Em virtude da simplicidade e facilidade de avaliacao, as Splines sao mais usadas em
computacao grafica, uma vez que possuem a capacidade de aproximar formas complexas
atraves do ajuste da curva. A figura 2.5 mostra um exemplo de curva Spline de ordem
c
ubica, construda atraves da interpolacao de sete segmentos.
Figura 2.5: Spline c

ubica construda com sete segmentos polinomiais.
Uma Spline e uma curva definida por um conjunto Cn de pontos de controle, onde o
n
umero de pontos define o grau da curva. Estas curvas sao contnuas nos nos (pontos de
controle) e sao mais u
teis com graus mais baixos, pois reduzem o tempo de processamento
e a instabilidade dos calculos. Os pontos que sao gerados pela interpolacao definem a
tangente a` curva em seus respectivos nos.
TEORICA
FUNDAMENTAC
AO
14
As Splines podem ser divididas em duas categorias: Splines de interpolacao e Splines

de aproximacao. Estas categorias diferem na forma como a curva e construda, pois
enquanto uma passa por todos os pontos de controle, a outra passa proximo a eles.
Quando os segmentos que compoem a curva possuem o mesmo comprimento no espaco,
dizemos que a curva e uniforme, caso contrario e nao-uniforme. Uma curva nao-uniforme
pode ser transformada em uma curva uniforme atraves da reamostragem dos pontos.
Este processo de reamostragem pode ser realizado atraves da interpolacao dos pontos de
controle. Nos sistemas de reconhecimento de gestos, a captura dos pontos da trajetoria
e nao-uniforme, pois os intervalos dependem da velocidade do movimento da mao no
espaco 3D.
A tabela 2.3 apresenta um comparativo entre as curvas parametricas c
ubicas de Bezier
e Spline (FOLEY et al., 1994).
Convex hull definido pelos pontos de controle

Interpola alguns pontos de controle
Interpola todos os pontos de controle
Facilidade de divisao
Continuidades inerentes na representacao
Continuidades facilmente alcancadas
N
umero de parametros controlando a curva
Bezier Spline
Sim
Sim
Sim
Sim
Nao
Nao
Melhor Media
C 0 G0 C 2 G2
C 0 G0 C 2 G2
4
4
Tabela 2.3: Comparativo entre duas representacoes de curva: Bezier e Spline. (FOLEY
et al., 1994)
2.3.3
Curva B-Spline
As curvas B-spline sao constitudas de segmentos, sendo mais flexveis que as curvas de
Bezier. Uma curva B-Spline pode ser definida por:
o grau n de cada intervalo,
a sequencia de knots u1 , ..., uk , consistindo de K + 1 knots ui ui+1 ,
o polgono de controle d0 , ..., dL , com L = K n + 1.
Um ponto em uma curva B-Spline e denotado por d(u), com u [un1 , uKn+1 ].
Assim, dados m valores reais ti , chamados knots, com:
t0 t1 tm1
uma curva B-Spline de grau n e uma curva parametrica tal que:
S : [t0 , tm1 ] R2
e composta de uma combinacao linear de B-Splines basicas bi,n de grau n:
2.4 SISTEMAS DE RECONHECIMENTO DE GESTOS
S(t) =
mn2
X
Pi bi,n (t) , t [tn1 , tmn ].
15
(.)
i=0
onde Pi sao os pontos de controle ou pontos de Boor(BOOR, 1978). Assim, existem

m (n + 1) pontos de controle que formam uma curvatura convexa.
As m (n + 1) B-Splines basicas de grau n podem ser definidas atraves da formula
de recursao Cox-de Boor (BOOR, 1978):

1 si tj t < tj+1
bj,0 (t) :=
(.)
0
resto
bj,n (t) :=
tj+n+1 t
t tj
bj,n1 (t) +
bj+1,n1 (t).
tj+n tj
tj+n+1 tj+1
(.)
Quando os knots sao equidistantes, a B-Spline e dita uniforme, caso contrario naouniforme. Se dois knots tj sao identicos, quaisquer formas indeterminadas 00 se considera
0. Alem disso, j + n + 1 nao pode exceder m 1, o que limita tanto j quanto n.
Quando lidamos com uma curva B-Spline, e conveniente considerar o conjunto de
segmentos da curva como uma u
nica curva. A maioria das propriedades das curvas BSpline podem ser entendidas considerando apenas um u
nico segmento. No entanto, um
segmento nao e descrito somente por um conjunto de pontos de controle. Isto aumenta
a complexidade de comparacao das trajetorias em sistemas de reconhecimento gestos,
uma vez que e necessario levar em consideracao outras informacoes alem dos pontos de
controle.
Alem de herdar todas as propriedades das curvas de Bezier, as curvas B-Spline possuem outras propriedades que as fazem ser uma representacao robusta na construcao de
sistemas de reconhecimento de gesto. Uma delas, chamada de controle pseudo-local, mostra que uma mudanca em um ponto de controle afeta apenas a regiao ao redor daquele
ponto. Alem desta, as curvas B-Spline possuem suavidade e continuidade, o que permite
que qualquer curva seja construda a partir da concatenacao de segmentos de curva, onde
cada segmento pode ser tratado como uma so unidade.
Uma outra propriedade importante das curvas B-Spline descreve que as coordenadas X e Y sao independentes, ou seja, cada uma tem suas representacoes parametricas
tratadas independentemente. Esta propriedade tambem se aplica a`s curvas de Bezier e
Spline.
2.4
SISTEMAS DE RECONHECIMENTO DE GESTOS
Um sistema de reconhecimento tem como objetivo classificar um objeto de acordo com

suas caractersticas. Um problema de classificacao consiste em separar o espaco de entrada
em classes de acordo com algum criterio de classificacao. Estes sistemas podem ser
aplicados para reconhecer faces, pedestres, carros, gestos ou qualquer outro tipo de objeto
que tenha algum significado. Este reconhecimento consiste em atribuir um rotulo ou classe
para o objeto de tal maneira que ele seja consistente com os dados disponveis sobre o
problema. Uma vez que o problema a ser tratado neste projeto e o reconhecimento de
TEORICA
FUNDAMENTAC
AO
16
gestos no espaco 3D, o objeto de interesse e a trajetoria descrita pelo acompanhamento

da mao.
Um sistema de reconhecimento de gesto e composto da representacao do objeto de
interesse (o gesto), do dispositivo de captura do gesto (sensor), do algoritmo de rastreamento do movimento, da extracao de caractersticas, do algoritmo de classificacao e
algum tipo de entidade externa que tem seu estado alterado atraves do gesto (BERMAN;
STERN, 2012). Existem muitos desafios relacionados ao desenvolvimento destes sistemas
como lidar com oclusoes, segmentacao da regiao de interesse a partir de uma nuvem de
pontos ou imagem, alem da complexidade de rastrear o movimento da mao por conta da
quantidade de graus de liberdade.
Existem abordagens para reconhecimento de gestos estaticos e dinamicos da mao,
porem de acordo com um levantamento realizado, nao foi encontrada nenhuma abordagem
para reconhecer gestos da Lngua Brasileira de Sinais usando as maos (com os dedos) e
expressoes faciais em conjunto. Este fato decorre da complexidade de representar um
gesto utilizando mais de uma parte do corpo, onde muitos graus de liberdade sao levados
em consideracao. Em funcao dessa complexidade, o foco do projeto e dado somente ao
acompanhamento da mao no espaco 3D, desprezando as outras partes do corpo, como
expressoes faciais e os dedos das maos.
O pre-processamento pode ser considerada a etapa inicial de um sistema de reconhecimento de gesto. Esta etapa envolve tanto o processo de calibracao do sensor RGB-D,
nesta fase que
quanto o tratamento das informacoes que sao obtidas atraves do sensor. E
os dados de entrada (posicoes das maos, nuvem de pontos, etc) sao preparados para posterior utilizacao. Por exemplo, o rudo dos sensores pode ser reduzido ou a trajetoria do
nesta etapa que metodos sao aplicados para obter,
movimento pode ser normalizada. E
por exemplo, invariancia de posicao ou orientacao, sendo assim uma etapa fundamental
dos sistemas de reconhecimento de gestos.
Portanto, e fundamental escolher um sensor que possua os requisitos necessarios para
desenvolver uma abordagem eficiente para reconhecimento de gesto. Neste sentido, os
sensores RGB-D serao avaliados no contexto deste projeto.
2.4.1
Sensores RGB-D
Um sensor e um dispositivo que responde a um estmulo fsico/qumico de maneira especfica e mensuravel. Os sensores RGB-D captam de uma cena tanto informacao visual
(RGB), quanto geometrica (D). A informacao visual e obtida atraves de uma camera que
capta estmulos oticos (Photons) e converte estas quantidades fsicas em informacoes que
podem ser lidas por um dispositivo. Ja a informacao geometrica e obtida atraves de um
emissor de luz infravermelho que projeta uma matriz densa nao uniforme de pontos sobre
uma cena e capta estes pontos atraves de uma camera. Uma vez que o espacamento entre
os pontos e diferente e o padrao e conhecido, os processadores da camera comparam o
espacamento medido na imagem do infravermelho em relacao aos valores de referencia
conhecidos e entao calcula a distancia de cada pixel na cena. O resultado e uma nuvem
de pontos que representa um mapa com as distancias dos objetos da cena ao sensor. A
figura 2.6 mostra um exemplo de um sensor RGB-D e seus componentes.
17
Figura 2.6: Sensor RGB-D composto de um emissor infravermelho, sensor de cor, sensor
de profundidade do infravermelho, motor de ajuste e microfones.(MICROSOFT, 2015)
Estes sensores sao efetivos em ambientes com mudancas de iluminacao, pois estas
mudancas a priori nao afetam o resultado obtido (SHAO et al., 2013). No entanto, alguns
sensores possuem algumas limitacoes em relacao a obtencao da informacao geometrica
(por exemplo, o alcance efetivo do sensor Kinect e de aproximadamente 4 metros). Alem
disso, quando a luz solar e intensa, o sensor pode nao funcionar adequadamente, pois
o excesso de luz abafa o padrao de pontos projetados pelo infravermelho (BERMAN;
STERN, 2012).
Ao contrario dos sensores de profundidade, que sao considerados invariantes a mudancas de iluminacao, os sensores RGB nao lidam muito bem com estas mudancas (HASAN; KAREEM, 2012). Isto porque os sensores oticos dependem diretamente da informacao luminosa, e obter informacao de ambientes que possuem um baixo nvel de
iluminacao e uma tarefa difcil.
Existem ainda outros tipos de sensores, como as cameras estereos e sensores de escaneamento (BERMAN; STERN, 2012). Os sensores estereos captam a informacao visual
utilizando duas cameras ou uma u
nica camera com duas lentes. Apesar deste tipo de
sensor poder ser usado para obter informacao 3D de uma cena, ele nao lida de forma
eficiente a oclusoes e padroes repetitivos (ZHU et al., 2011). Ja os baseados em escaneamento utilizam o Tempo de Voo (Time of Flight - ToF do ingles) de um sinal emitido
para obter um mapa de profundidade. Estes sensores baseados em escaneamento sao
caros e limitados a velocidade de escaneamento e resolucao (BERMAN; STERN, 2012).
Berman e Stern (2012) fizeram uma analise da taxonomia dos sensores focando no
contexto de uso, plataforma operacional e estmulos. O estudo teve como objetivo identificar os requisitos dos sensores e fornecer subsdios para o desenvolvimento de sensores
mais sofisticados e inteligentes. A ideia e facilitar o desenvolvimento de sistemas de reconhecimento de gestos atraves da resolucao de problemas comuns, como monitoramento
3D, prevencao de oclusao, padroes repetitivos, baixa resolucao e mudancas de iluminacao.
Neste contexto, os sensores de profundidade sao os mais indicados por serem invariantes
a mudancas de iluminacao.
O Kinect e o PrimeSense3D sao sensores RGB-D que podem ser utilizados na cons-
TEORICA
FUNDAMENTAC
AO
18
trucao de sistemas de reconhecimento de gestos. Um dos mais utilizados e o Kinect, que

foi desenvolvido para a area de Jogos utilizando as tecnologias da empresa Prime Sense1 ,
que por sua vez desenvolveu seu proprio sensor, o PrimeSense3D. Existem varios Software Development Kits (SDKs) que podem ser usados com o Kinect. Tais SDKs como
o Microsoft Kinect SDK 2 , OpenNI 3 e OpenKinect 4 fornecem Application Programming
Interfaces (APIs) que permitem obter dados do sensor em tempo real.
O sensor que sera utilizado neste projeto e o RGB-D. Este sensor foi escolhido em
funcao do baixo custo e do desempenho, sendo um dispositivo amplamente utilizado
pela comunidade academica que trabalha com Visao Computacional. O objetivo e utilizar a informacao geometrica da cena para obter a trajetoria do movimento do gesto
e classifica-lo de acordo com suas caractersticas. Para isso, e necessario desenvolver as
principais etapas de um sistema de reconhecimento de gesto: deteccao, rastreamento e
reconhecimento.
2.4.2
Detecc
ao
A deteccao e a fase inicial de um sistema de reconhecimento de gesto, sendo responsavel

por detectar a localizacao das maos e segmentar a regiao de interesse. Este processo de
deteccao deve ser robusto a mudancas de iluminacao e oclusoes, pois e a partir da regiao
segmentada que as caractersticas sao extradas para rastrear o movimento das maos e
reconhecer o gesto realizado.
A deteccao pode ser realizada atraves de cor (XU et al., 2012), explorando as caractersticas de similaridade entre os pixels e a probabilidade de que o conjunto de pixels
de uma regiao pertencem a uma mao. Esta abordagem nao e robusta, pois depende do
espaco de cor utilizado e de ambientes com poucas mudancas de iluminacao, alem da
possibilidade de tornar confusa a deteccao de objetos que possuem a mesma distribuicao
de cor que o background da cena.
Ja as abordagens baseadas em forma (KIM et al., 2012b) tem como objetivo avaliar
a forma geometrica descrita pelo contorno da mao. Quando o contorno de uma mao e
detectado corretamente, a forma se torna independente do ponto de visao, cor da mao e
iluminacao (ZABULIS; BALTZAKIS; ARGYROS, 2009). No entanto, a quantidade de
bordas detectadas incorretamente e as oclusoes ocasionadas pelas formas 2D tornam esta
abordagem ineficiente (HASAN; KAREEM, 2012).
As abordagens baseadas em movimento (YUAN; SCLAROFF; ATHITSOS, 2005)
consideram que apenas a mao esta se deslocando na imagem, sendo assim pouco usadas
na fase de deteccao. Ja as abordagens baseadas em valores de pixels (BARKHODA; TAB;
SHAHRYARI, 2009) avaliam a aparencia e textura da imagem. Estas abordagens baseadas em valores de pixel normalmente tem como base utilizar um conjunto de imagens de
objetos da mesma classe (por exemplo, da mao) para treinar um classificador atraves das
caractersticas extradas dos valores dos pixels (FREUND; SCHAPIRE, 1997) e utilizar
1
http://www.primesense.com
http://www.microsoft.com/en-us/kinectforwindows/
3
http://www.openni.org/.
4
http://openkinect.org/.
2
19
o modelo gerado pelo treinamento para detectar a presenca de um objeto (por exemplo,
a mao) em uma imagem.
Existem ainda as abordagens que usam modelos 3D para detectar e segmentar a mao
(SHARP et al., 2015)(KILIBOZ; GUDUKBAY, 2015)(SCHRODER et al., 2014)(OIKONOMIDIS; KYRIAZIS; ARGYROS, 2011)(STENGER et al., 2006). Estas abordagens
podem detectar a presenca da mao independente do ponto de visao (ZABULIS; BALTZAKIS; ARGYROS, 2009). Os modelos 3D usados para detectar as maos devem ter graus
de liberdade suficientes para se adaptar a`s dimensoes das maos (ZABULIS; BALTZAKIS;
ARGYROS, 2009).
A deteccao nao se limita somente a estas abordagens, no entanto apenas algumas
foram destacadas neste projeto. O artigo proposto por Zabulis, Baltzakis e Argyros (2009)
faz uma analise mais detalhada de metodos para deteccao e segmentacao de regioes de
interesse.
2.4.3
Rastreamento
A fase de rastreamento e responsavel por obter a trajetoria do movimento realizado pela

mao. Essa trajetoria e capturada atraves da deteccao de uma sequencia de posicoes
da mao, dependendo entao da eficiencia do metodo de deteccao. A figura 2.7 ilustra o
processo de rastreamento de um gesto no espaco geometrico 3D, atraves da deteccao de
uma sequencia de posicoes pi em instantes ti .
Figura 2.7: Gesto composto por uma sequencia de 6 quadros. Cada quadro representa a
deteccao da posicao pi em um dado momento ti .(IBANEZ et al., 2014)
Este tipo de rastreamento ilustrado acima normalmente e realizado usando um sensor
de profundidade, que capta uma nuvem de pontos representando o ambiente em 3D.
No entanto, e possvel rastrear o movimento da mao considerando apenas sequencias de
imagens 2D (YUAN; SCLAROFF; ATHITSOS, 2005), porem neste caso os gestos sao
limitados a uma representacao espacial no plano 2D.
As figuras 2.8a e 2.8b sao exemplos de gestos que foram capturados atraves da
adaptacao do algoritmo (FALAHATI, 2013) que e disponibilizado com o OpenNI5 . O
algoritmo detecta a posicao da mao do usuario atraves da realizacao de um gesto basico
(oscilacao da mao), e a partir dele rastreia o deslocamento da mao salvando as posicoes
em cada quadro.
5
http://www.openni.org/.
TEORICA
FUNDAMENTAC
AO
20
(a) Bem-Vindo
(b) Cancelar
Figura 2.8: Gestos da Lingua Brasileira de Sinais capturados utilizando o sensor Kinect
e um codigo do OpenNI modificado.
Assim, o rastreamento de um gesto da mao tem como dependencia um metodo de

deteccao que seja eficiente no sentido de lidar com oclusoes, mudancas de iluminacao e
que obtenha a posicao no espaco 3D.
2.4.4
Reconhecimento
O reconhecimento ou classificacao e a fase final de um sistema de reconhecimento de

o processo de classificacao do gesto de acordo com a posicao, orientacao e/ou
gesto. E
trajetoria descrita pela mao, sendo assim a fase de interpretacao semantica do gesto,
que pode ser estatico ou dinamico. Nesta fase, e necessario definir uma estrategia que
identifique quando um gesto comeca e quando ele termina.
Nos sistemas de reconhecimento de gestos, normalmente se utiliza comandos que informam ao sistema quando um gesto sera realizado ou finalizado (EICKELER; KOSMALA;
RIGOLL, 1998). Este processo nao e muito agradavel e acaba gerando uma dependencia
funcional, pois necessita de comandos do usuario para inicializar ou finalizar o reconhecimento. Algumas hipoteses podem ser consideradas na resolucao deste problema, como
por exemplo definir um intervalo de tempo entre o incio e fim de dois gestos, ou ate
mesmo calcular a soma das distancias entre as n posicoes anteriores e verificar se a media
das distancias e menor ou igual a um limiar. Caso seja menor ou igual, entao a mao pode
ser dita parada, caso contrario, em movimento.
Uma vez que as proximas secoes e no proximo captulo mostram metodos para rastreamento e reconhecimento de gestos da mao, esta secao limitou-se somente a descrever
o conceito das fases de um sistema de reconhecimento de gesto.
2.4.5
21
T
ecnicas Baseadas em Contato
Existem diversas abordagens que utilizam tecnicas baseadas em contato (KIM et al.,
2012a). Estas tecnicas utilizam dispositivos para captar as informacoes do ambiente
atraves do contato com algum dispositivo (por exemplo, luva). A figura 2.9 mostra um
exemplo de um dispositivo utilizado para reconhecer gestos utilizando tecnica baseada em
contato, onde o usuario utiliza uma luva com sensores para captar a posicao e orientacao
da mao (LIN; VILLALBA, 2014).
Figura 2.9: Luva utilizada para captar a posicao e orientacao da mao. (LIN; VILLALBA,
2014)
Uma das principais vantagens das tecnicas baseadas em contato e que captam a informacao do ambiente sem interferencia externa, diminuindo a inclusao de rudo nos
dados de entrada (KIM et al., 2012a). O problema da insercao de rudo do ambiente
nas informacoes que sao usadas no desenvolvimento dos sistemas de reconhecimento de
gestos podem aumentar a quantidade de falsos positivos (classificacao incorreta de um
gesto) em virtude da inconsistencia dos dados (RAUTARAY; AGRAWAL, 2012). Alem
disso, o rudo tambem aumenta a complexidade de desenvolvimento, uma vez que torna
necessaria a adicao de etapas de pre-processamento mais complexas e sofisticadas para
melhorar a qualidade dos dados de entrada (RAUTARAY; AGRAWAL, 2012).
Estas abordagens baseadas em contato nao sao consideradas adequadas aos sistemas
de reconhecimento de gestos intuitivos, uma vez que necessitam que os usuarios tenham
uma certa familiaridade com a sua utilizacao (HASAN; KAREEM, 2012). Alem disso, o
usuario pode ficar dependente de dispositivos, como bateria ou fios, o que e inadequado
a estes sistemas.
2.4.6
T
ecnicas Baseadas em Vis
ao
O reconhecimento de gesto usando tecnicas de visao computacional utilizam cameras

para obter a informacao visual da cena. Este processo de obtencao da informacao visual
normalmente se inicia com a etapa de calibracao.
A calibracao consiste em calcular os parametros intrnsecos e extrnsecos da camera.
Os intrnsecos relacionam coordenadas de pontos da imagem com coordenadas do sistema
22
TEORICA
FUNDAMENTAC
AO
de referencia da camera atraves de transformacoes em 2D. Ja os parametros extrnsecos

correspondem ao posicionamento e orientacao da camera no espaco 3D, que e realizado
atraves de uma transformacao de rotacao e uma de translacao, ambas em 3D. Estes
parametros intrnsecos e extrnsecos permitem, por exemplo, obter medidas de posicao e
tamanho de objetos no ambiente ou determinar o que um pixel corresponde em alguma
medida, na cena, com base em alguma medida de escala.
Quando mais de uma camera e usada para captar as informacoes do ambiente (SRIDHAR;
OULASVIRTA; THEOBALT, 2013), uma das principais dificuldades e a sincronizacao
das informacoes. Esta etapa de calibracao normalmente e complexa, e quando implementada de forma incorreta pode tornar o sistema de reconhecimento de gesto impreciso.
Apos a calibracao da camera, a proxima etapa e identificar e segmentar a Regiao
de Interesse (Region of Interest - ROI do ingles) para obter a localizacao do objeto na
imagem. Em seguida, as caractersticas da ROI sao extradas. A extracao consiste em
obter um conjunto de informacoes que melhor representam o objeto de interesse (por
exemplo, o gesto). Estas caractersticas sao usadas para treinar um classificador (no caso
de abordagens supervisionadas) ou usadas para classificar os objetos presentes na imagem
com base em um agrupamento por similaridade.
Existem dois tipos de abordagens que sao usadas para classificacao: supervisionada
e nao-supervisionada. A abordagem supervisionada (aprendizagem de maquina) utiliza
um dataset contendo um conjunto de imagens ou vdeos do objeto de interesse, mais
comumente chamado de conjunto positivo, e outro conjunto de objetos que nao pertencem
a classe de objetos de interesse, que e chamado de conjunto negativo. Estes conjuntos
sao usados para treinar o classificador usando as caractersticas extradas (HAND, 2009).
O conjunto positivo representa o objeto que queremos detectar. Por exemplo, se
quisermos identificar pessoas em uma cena, entao o nosso conjunto positivo devera ter
somente imagens de pessoas. Ja o conjunto negativo devera ter qualquer outro tipo de
objeto na cena, exceto pessoas. Este conjunto negativo tem como objetivo classificar
verdadeiros negativos em uma imagem, ou seja, que um dado objeto de fato nao e uma
pessoa.
Por exemplo, a abordagem proposta por Schroder et al. (2012) utiliza uma luva colorida para distinguir as regioes da mao afim de detectar a orientacao comparando uma
pose em um dado momento com um conjunto de poses armazenadas previamente. Este
tipo de abordagem supervisionada, que utiliza luva, e diferente da baseada em contato,
pois aqui, informacoes de cor sao usadas para obter a posicao e orientacao, enquanto
a baseada em contato obtem a posicao e orientacao diretamente atraves dos sensores
embutidos na propria luva.
Ao contrario das abordagens supervisionadas, as nao-supervisionadas nao necessitam
de treinamento. Este tipo de abordagem tem como base o agrupamento por similaridade
com base nas caractersticas dos objetos. Normalmente esta abordagem e utilizada para
reconhecer as classes presentes em uma imagem utilizando algum algoritmo de agrupamento, como por exemplo o K-means (MACQUEEN, 1967).
Assim, as abordagens baseadas em visao sao mais adequadas pois permitem capturar
os movimentos em um ambiente real sem a necessidade de utilizacao de dispositivos de
contato. No entanto, e necessario escolher as tecnicas e metodos que resolvam o problema

2.5 ALGORITMOS E METODOS
PARA SISTEMAS DE RECONHECIMENTO
23
de deteccao e classificacao de forma eficiente. A proxima secao mostra alguns algoritmos

e metodos que podem ser usados para deteccao e classificacao.
2.5
ALGORITMOS E METODOS
PARA SISTEMAS DE RECONHECIMENTO
Um dos principais requisitos usados para reconhecer gestos e a trajetoria descrita pelo
acompanhamento da mao. Este acompanhamento fornece uma representacao espacial
geometrica 3D do gesto. Assim, e necessario escolher um ou mais metodos para reconhecer
o gesto de acordo com as caractersticas da trajetoria.
Os metodos baseados em template sao usados para encontrar pequenas partes de uma
imagem que correspondem a uma outra (CAMGoZ; KINDIROGLU; AKARUN, 2015).
Esta abordagem pode ser utilizada quando se tem muita informacao (por exemplo, alta
resolucao da imagem). Ela reduz o espaco de busca e lida com variacao de iluminacao,
uma vez que foca na busca das melhores regioes para realizar as operacoes de correspondencia.
Um dos metodos mais utilizados para reconhecimento de gestos e o Hidden Markov
Model - (HMM) (RABINER, 1990). HMM e um modelo estatstico de Markov para
modelagem de processos com estados nao observaveis (escondidos). O termo escondido
se refere a sequencia de estados En = {e1 , e2 , e3 , ..., en1 } atraves do qual o modelo passa.
A escolha do proximo estado de transicao En+1 se baseia na distribuicao de probabilidade
dos possveis estados. Este metodo e muito utilizado em aplicacoes de reconhecimento de
padroes temporal, principalmente reconhecimento de gestos, onde a trajetoria e modelada
como uma sequencia de estados (GHARASUIE; SEYEDARABI, 2013).
Ao contrario do HMM, o Finite State Machine (FSM) (BRAND; ZAFIROPULO,
1983) e um modelo representado por um conjunto finito de estados. Estes estados sao
conhecidos e a transicao entre eles e realizada de acordo com condicoes ou eventos que
sao disparados por algum processo. Essencialmente, o FSM representa uma maquina
de estados e pode ser facilmente implementada, possuindo predicao eficiente com baixa
sobrecarga do processador. Este metodo pode ser aplicado para representar o gesto como
uma sequencia de estados (posicoes da mao), onde a transicao dos estados seria realizada
atraves da movimentacao da mao (evento).
O algoritmo Dynamic Time Warping (DTW) (KEOGH; RATANAMAHATANA, 2005)
e utilizado para alinhar e comparar duas sequencias que variam de acordo com o tempo,
sendo bastante utilizado para reconhecer gestos. Uma serie temporal e uma sequencia
ordenada de valores medidos em intervalos de espacos iguais (posicoes da mao). Este
algoritmo possui a vantagem de ser invariante sobre o n
umero de amostragens. Por
exemplo, um gesto realizado por uma pessoa pode ser comparado a um outro gesto que
foi realizado mais rapidamente por outra pessoa. Neste caso, a sequencia a ser alinhada e
comparada seria as posicoes da mao detectadas durante o intervalo de tempo. Qualquer
dado que possa ser transformado em uma sequencia linear pode ser analisado pelo DTW
(BODIROZA; DOISY; HAFNER, 2013).
Um outro algoritmo de alinhamento e comparacao de gestos e o Iterative Closest Point
(ICP) (RUSINKIEWICZ; LEVOY, 2001a). Ele tem como objetivo principal minimizar a
diferenca entre duas nuvens de pontos, fixando uma nuvem enquanto a outra e deslocada
24
TEORICA
FUNDAMENTAC
AO
ate minimizar a diferenca entra as duas. As transformacoes (rotacao e translacao) sao

aplicadas a cada ponto da nuvem flutuante atraves de uma funcao que minimiza o erro
quadratico. Normalmente este metodo e utilizado para reconstruir superfcies 2D ou 3D a
partir de diferentes escaneamentos (RUSINKIEWICZ; LEVOY, 2001b). Uma das principais desvantagens deste metodo e a convergencia para mnimos locais (RUSINKIEWICZ;
LEVOY, 2001b). No entanto, existem adaptacoes do algoritmo que lidam com oclusoes,
valores extremos e aparencias (QIAN et al., 2014).
O Support Vector Machine (SVM) (BURGES, 1998b) prediz para cada entrada dada,
qual classe ela pertence. Formalmente, o SVM e um classificador discriminativo que
separa a entrada em um hiperplano, ilustrado na figura 2.10. Este algoritmo e robusto no
processo de treinamento de exemplos e possui uma alta taxa na predicao. No entanto, o
SVM necessita de muito tempo para treinamento e a funcao de aprendizagem e complexa,
pois o desempenho depende dentre outros fatores, da aplicacao dos pesos pela funcao de
aprendizagem (BURGES, 1998b).
Figura 2.10: Caso linear, onde um conjunto de amostras e separada no lado esquerdo e
direito, e o fundo representa a linha de separacao. (BURGES, 1998a)
Uma rede neural tpica e uma Rede de Retropropagacao que aprendeajustando as
interconexoes entre as camadas (HASAN; ABDUL-KAREEM, 2014). O resultado da
rede e iterativamente comparado para ajustar os pesos com o objetivo de aumentar a
quantidade de respostas corretas. Uma Probabilistic Neural Network (PNN) (SPECHT,
1990) e em essencia uma rede neural formada por uma camada de entrada, um conjunto
de camadas escondidas, e uma camada de sada. A camada de entrada recebe valores com
pesos aplicados e repassam para a camada escondida, que e composta de um conjunto
de neuronios. As camadas escondidas calculam um vetor de probabilidades a partir de
funcoes que propagam o resultado de um neuronio para outro (mais conhecidas por funcao
de ativacao). A entrada e avaliada na u
ltima camada da rede a partir da classificacao
positiva ou negativa, baseando-se nas probabilidades maximas calculadas nas camadas
escondidas. Normalmente se utiliza uma camada escondida, uma vez que quantidades
maiores nao melhoram a taxa de acerto (SPECHT, 1990).
Filtros de Partculas (MORAL, 1996) sao usados para estimar os estados internos
em sistemas dinamicos, quando observacoes parciais sao feitas. O conjunto de partculas
(tambem chamadas de amostras) sao usadas para representar a distribuicao posterior
de processos estocasticos dados alguns rudos e/ou observacoes parciais. Cada partcula

2.6 CONCLUSAO
25
possui um peso de vizinhanca que representa a probabilidade de que a partcula seja

reamostrada pela funcao de probabilidade de densidade. Uma de suas caractersticas
positivas e a nao limitacao a natureza unimodal de densidades Gaussianas (ARULAMPALAM et al., 2002). No entanto, estes metodos nao sao recomendados quando o sistema
e muito complexo, pois neste caso o n
umero de partculas para representar o modelo pode
ser muito alto, diminuindo o desempenho da aplicacao (ARULAMPALAM et al., 2002).
O Principal Component Analyses (PCA) (JOLLIFFE, 2002) e um algoritmo estatstico
que usa transformacoes ortogonais para converter um conjunto de observacoes de possveis
variaveis correlacionadas em um conjunto de valores de variaveis linearmente nao relacionadas, chamados de Componentes Principais. O n
umero de Componentes e menor
ou igual ao n
umero de variaveis original, ou seja, o metodo e aplicado para reduzir o
espaco dimensional. Esta transformacao e definida de tal maneira que o primeiro componente principal tem a maior variancia possvel, (isto e, possui a maior variabilidade
possvel nos dados), e cada componente posterior tem a maior variancia possvel sobre a
restricao de que e ortogonal para o componente imediatamente anterior. Os componentes
sao ortogonais devido serem vetores caractersticos da matriz de covariancia, na qual e
simetrica.
O CamShift (SALHI; JAMMAOUSSI, 2012) e uma adaptacao do algoritmo MeanShift
(KUNNATH; LEE, 2015) . Este tem como objetivo encontrar a regiao que melhor representa a funcao objetivo, como por exemplo encontrar a regiao que possui o maior n
umero
de pontos em um espaco com um conjunto de pontos amostrados. O algoritmo iterativamente faz uma analise das regioes proximas ate encontrar a desejada. O algoritmo
CamShift realiza a busca de forma adaptativa atraves de transformacoes geometricas da
forma usada para encontrar a regiao de interesse. Apesar deste algoritmo ser facil de
implementar e possuir baixo custo computacional, ele falha na mudanca de escala da
janela da pista com objetivos que se movem na direcao ou para longe da camera (SALHI;
JAMMAOUSSI, 2012).
Todos estes algoritmos e metodos apresentados sao comumente utilizados na construcao de sistemas baseados em Visao Computacional. Alguns sao usados com sensores
RGB e outros com sensores de profundidade, ou ate mesmo uma combinacao de ambos.
Existem outros metodos que poderiam ser aplicados na construcao de sistemas de reconhecimento de gestos, no entanto foram descritos aqui somente os considerados mais
usados, segundo o estudo realizado.
2.6
CONCLUSAO
Neste captulo foram apresentados os principais conceitos envolvidos no projeto, tais

como gestos, representacao de gestos, sensores, sistemas de reconhecimento de gestos,
curvas e alguns metodos usados em reconhecimento e comparacao de objetos. Alguns
assuntos foram abordados superficialmente neste captulo. No entanto, espera-se realizar
um estudo mais detalhado e nao se limitar a definicoes superficiais.
O principal objetivo do captulo foi fazer uma contextualizacao geral para melhor entendimento do projeto proposto. O proximo captulo descreve uma revisao de abordagens
propostas para reconhecimento de gestos e sinais da mao, focando nos aspectos positivos
26
TEORICA
FUNDAMENTAC
AO
e negativos de cada abordagem. Estas sao importantes para entender quais as vantagens
e desvantagens de cada metodo e como eles podem ser combinados para melhorar os
resultados do reconhecimento dos gestos.
Captulo
3
Este captulo tem como objetivo descrever abordagens para rastreamento e reconhecimento de gestos da
m
ao.
TRABALHOS RELACIONADOS
Existem muitas abordagens para reconhecimento de gesto e rastreamento da mao, tanto
em 2D, quanto 3D. Enquanto as abordagens de rastreamento normalmente sao baseadas
em modelos 3D, o reconhecimento de gesto tem como base a representacao do movimento
descrito pela mao no espaco 3D.
Considerando a ampla diversidade de abordagens propostas, este captulo tem como
objetivo mostrar alguns modelos propostos tanto para rastreamento, quanto para reconhecimento de gestos da mao. Na secao 3.1 sao descritas algumas abordagens focando nos
metodos aplicados para rastrear a mao. Ja na secao 3.2, um conjunto de artigos sao apresentados com suas respectivas abordagens propostas para reconhecer gestos. Finalmente,
na secao 3.3 sao abordadas as consideracoes do captulo.
3.1
RASTREAMENTO DA MAO
O rastreamento da mao e uma etapa importante no reconhecimento de gestos, uma

vez que e nesta etapa que a mao e localizada na sequencia de imagens e segmentada do
background para reconhecimento do gesto. Nesta etapa, e essencial escolher um algoritmo
que seja robusto a variacoes de iluminacao e que possa identificar a mao em ambientes
complexos (que mudam o tempo todo e aumentam as chances de oclusao).
Em uma abordagem proposta por Shan et al. (2004), o rastreamento e realizado
atraves da combinacao de um Filtro de Partculas e do algoritmo MeanShift com um modelo 3D colorido da mao. A combinacao dos metodos tem como objetivo obter eficiencia
reduzindo a quantidade de amostras usadas. O modelo e adaptado quadro-a-quadro para
contornar o problema da variacao de iluminacao do ambiente. As regioes movimentadas
de um quadro sao obtidas atraves da diferenca dos pixels, onde valores maiores que um
limiar sao considerados pixels que foram deslocados. O metodo foi avaliado atraves da
aplicacao de um algoritmo de reconhecimento de gesto baseado em histograma. Apesar
da abordagem ser eficiente em alguns casos, ela nao lida muito bem com variacoes de
iluminacao, sendo assim ineficiente na maioria dos casos.
27
28
Yuan, Sclaroff e Athitsos (2005) propuseram um framework de filtro temporal para

rastreamento da mao que pode inicializar e reinicializar sem intervencao humana. O
metodo explora caractersticas simples sobre os quadros, como cor e resduos de movimento para localizar m
ultiplos candidatos da localizacao da mao. Em seguida o filtro
temporal utiliza o algoritmo de Viterbi (RYAN; NUDD, 1993) para selecionar os candidatos de quadro em quadro. A probabilidade de transicao e estimada utilizando caractersticas baseadas na localizacao e velocidade da mao e correlacao cruzada normalizada
de duas regioes da mao. Quando nao existe um candidato otimo em um quadro, o sistema
para a trajetoria atual e tenta iniciar uma nova. A abordagem foi avaliada atraves da
comparacao com o metodo proposto em (ISARD; BLAKE, 1998) utilizando um conjunto
de linguagem de sinais sequencial. O sistema proposto obteve uma melhora de 50% em
relacao ao metodo comparado, tendo como principal contribuicao a definicao do resduo
do movimento como uma nova caracterstica.
Algumas abordagens utilizam modelos 3D para rastrear o movimento das maos. Por
exemplo, (SCHRODER
et al., 2013) propos um metodo onde a articulacao e estimada
encontrando a pose e os parametros de postura que minimizam o erro entre o espaco de
pontos e a superfcie do modelo usando cinematica inversa. O metodo busca a deformacao
do modelo da mao que mais se aproxima do estado observado da mao do usuario. A mao
e representada por uma malha de triangulos deformada de acordo com a articulacao das
juntas definidas no modelo cinematico. A deformacao e realizada utilizando o metodo
Linear Blend Skinning (LBS), que gera uma deformacao suave da malha poligonal calculando as deformacoes dos vertices como uma soma de transformacoes das m
ultiplas
juntas.
Schroder e Botsch (2014) desenvolveram uma abordagem que utiliza um modelo cinematico da mao que e controlado por 20 angulos. O modelo e composto de segmentos
em forma de capsulas, que sao deformados de acordo com as articulacoes das juntas. O
alinhamento do modelo a` mao e realizado utilizando o metodo ICP com um algoritmo
de cinematica inversa. Para lidar com o rastreamento de todos os graus de liberdade, o
espaco de possveis posturas e reduzido utilizando um PCA adaptativo que e automaticamente modificado para considerar posturas observadas que nao podem ser representadas
dentro do subespaco inicial do PCA. Este PCA adaptativo permite realizar refinamentos
locais na postura sem perder a coerencia temporal. Alem disso, ele tambem pode ser
utilizado para gerar um modelo sinergico a partir do zero.
Uma outra abordagem para rastreamento das articulacoes da mao baseada em modelo
3D utiliza uma variacao do algoritmo Particle Swarm Optimization (PSO) para encontrar
os melhores parametros que minimizam o erro da diferenca da pose real e do modelo 3D
(OIKONOMIDIS; KYRIAZIS; ARGYROS, 2011). A abordagem utiliza um Kinect para
obter a informacao visual da cena. Ao contrario da abordagem citada anteriormente, esta
utiliza formas geometricas coloridas e simples (esferas, cones) para compor o modelo 3D
da mao. A abordagem foi avaliada considerando tanto a variacao dos parametros do PSO
(n
umero de geracoes e partculas por geracoes), quanto o efeito da variacao da distancia
do modelo ate o sensor. O metodo se mostrou robusto em ambos os casos, conseguindo
obter resultados positivos a uma distancia media de 2.5m.
Qian et al. (2014) propos uma abordagem que utiliza um modelo 3D composto de 48
3.2 RECONHECIMENTO DE GESTOS
29
esferas. O modelo e alinhado a` mao utilizando o metodo Iterated Closest Point (ICP)
em conjunto com o metodo Particle Swarm Optimization (PSO). A abordagem ICP-PSO
consegue lidar com a grande quantidade de mnimos locais que sao gerados em funcao da
amostragem esparsa da nuvem de pontos. A otimizacao ICP-PSO e um modelo hbrido
que explora a busca rapida de locais otimos (ICP) e de parametros efetivos (PSO). A ideia
fundamental e que cada partcula tem um ICP adicional antes do movimento aleatorio das
partculas em cada geracao PSO. Deste modo, cada partcula se move mais rapidamente,
minimizando o custo de forma mais eficaz como no ICP.
Alem das abordagens citadas, existem outras que podem ser usadas para rastreamento
da mao e que sao baseadas em sensores de profundidade (KESKIN et al., 2011)(SHOTTON et al., 2013)(STENGER et al., 2006). Dentre estas, existem algumas que utilizam
luvas coloridas e que sao baseadas em padroes de cores obtidos atraves de cameras RGB
(WANG; POPOVIc, 2009)(SCHRODER et al., 2012). Assim, e fundamental desenvolver
ou utilizar um modelo que seja invariante a iluminacao e que possa ser executado em
tempo real. A escolha deve levar em consideracao diversos fatores como desempenho,
invariancia, robustez a oclusoes, e ate mesmo o desempenho do proprio sensor.
3.2
RECONHECIMENTO DE GESTOS
Muitas abordagens foram propostas para reconhecimento de gestos (MITRA; ACHARYA,

2007)(SCHLoMER et al., 2008)(LEE; KIM, 1999)(MURAKAMI; TAGUCHI, 1991) (BARALDI et al., 2015)(KILIBOZ; GUDUKBAY, 2015)(DITTMAR; KRULL; HORTON,
2015). Por exemplo, Miranda et al. (2012) propos um metodo que usa o Kinect para extrair um fluxo baseado nas componentes do esqueleto (uma pose em um dado momento).
As poses chaves sao identificadas atraves de um classificador multi-classe derivado de
uma Maquina de Vetores de Suporte (SVM). Uma arvore de decisao e construda a partir
das poses chaves identificadas. Esta arvore e definida por uma sequencia de estados nos
nos, que por sua vez define uma regra de transicao entre um estado e outro. O gesto e
reconhecido encontrando a sequencia de estados (poses chaves) que melhor representam
o movimento realizado.
Um outro metodo se baseia no princpio da cinematica inversa para estimar uma pose
com base no movimento da cabeca e da mao (TRAN; MEMBER; TRIVEDI, 2012). As
posicoes sao obtidas utilizando um conjunto de cameras, onde cada uma delas capta
o movimento individualmente e entao um algoritmo e aplicado para sincronizar estas
informacoes com o objetivo de melhorar a estimacao da pose. O gesto e reconhecido
utilizando um algoritmo que calcula a similaridade entre os angulos das juntas de gestos
que foram previamente obtidos. Seus experimentos mostraram boa taxa de classificacao,
acima de 90%, em media, em seis gestos realizados na validacao da abordagem.
O trabalho de Yao, Gool e Kohli (2014) propoe um metodo para reconhecer gestos
dinamicos baseados em um portfolio de classificadores. O problema que o artigo propoe
resolver e a individualidade de realizacao do mesmo gesto por diversas pessoas, como o
gesto de escrever, onde cada indivduo possui sua forma de escrita. Este artigo demonstra
a complexidade do reconhecimento de gestos, uma vez que um u
nico gesto pode ser
realizado de n formas, alem de depender do ponto de visao, do ambiente e dos aspectos
30
fsicos do usuario que realiza o gesto.

A abordagem proposta por Shin, Tsap e Goldgof (2004) utiliza um metodo geometrico
baseado na curva de Bezier para analisar a trajetoria e classificar os gestos usando a
curvatura da curva do movimento realizado. Foi utilizada uma representacao quadratica
da curva de Bezier e o metodo de aproximacao da curva de Piegl e Tiller (1997). O gesto
e considerado invalido se a trajetoria e menor do que 20cm, se e irregularmente obtido,
ou se contem menos do que 6 pontos. Esta abordagem nao e muito eficiente, uma vez
que define um conjunto de restricoes ao modelo proposto.
Song et al. (2013) desenvolveu um sistema de reconhecimento de gesto que utiliza
Gaussian Mixture Model(GMM) e Hidden Markov Model(HMM) para modelar o gesto
de todo o corpo. O modelo proposto utiliza um Kinect para obter a posicao 3D das
juntas do corpo (esqueleto). O sistema e dividido em duas fases: aprendizagem do gesto
e reconhecimento do gesto. Na primeira fase, aprendizagem de gesto, caractersticas sao
extradas da informacao do esqueleto e uma Analise de Componente Principal (PCA)
e aplicada para reduzir o espaco dimensional. Apos a reducao, o modelo GMHMM e
utilizado no treinamento para obter os parametros otimos para reconhecer os gestos. A
experimentacao do modelo demonstrou resultados positivos no reconhecimento de gestos,
uma taxa aproximada de 94.36% de acerto. No entanto, o modelo nao consegue reconhecer
gestos realizados por diferentes pessoas em funcao das caractersticas fsicas.
Eickeler, Kosmala e Rigoll (1998) apresentam melhorias realizadas na abordagem
proposta por Rigoll e Kosmala (1997) e Rigoll, Kosmala e Eickeler (1998). Nestas abordagens o reconhecimento de gesto e realizado usando caractersticas globais, que sao
obtidas pela diferenca entre as imagens atraves de um classificador estatstico. O metodo
HMM e usado para classificar o gesto usando os vetores de caractersticas extradas na
etapa anterior. As melhorias propostas por Eickeler, Kosmala e Rigoll (1998) incluem
reconhecimento independente da posicao, rejeicao de gestos desconhecidos e contnuo
reconhecimento de gestos espontaneos. Segundo os autores, o sistema proposto e 6 vezes mais rapido, alem de ser independente do plano de fundo. O sistema consiste do
pre-processamento, extracao de caractersticas e modulo de classificacao. Para realizar o
reconhecimento do gesto, os autores propuseram um novo metodo de extracao de caractersticas que foi integrado a um sistema de reconhecimento de gesto baseado em HMM.
A utilizacao de HMM em vez de Rede Neural reduziu significativamente os erros de
reconhecimento dos gestos.
Biswas e Basu (2011) utilizam um sensor Kinect para extrair a informacao geometrica
da cena. Inicialmente o usuario e isolado da cena utilizando o metodo proposto por Ridler
e Calvard (1978) atraves da subtracao da imagem de profundidade a partir do histograma.
O metodo de equalizacao de histograma e utilizado para melhorar a qualidade da imagem.
Apos a deteccao, a regiao de interesse e criada utilizando uma matriz de fundo. Em
seguida o gesto e parametrizado usando a variacao de profundidade e o conte
udo da
informacao do movimento de cada celula da matriz. O sistema foi treinado utilizando
Maquinas de Vetores de Suporte (SVM).
Bodiroza, Doisy e Hafner (2013) implementaram um sistema de reconhecimento de
gesto para interacao natural com robos moveis. O modelo e baseado em Dynamic Time
Warping (DTW) e tem como dados de entrada informacao geometrica obtida atraves
3.2 RECONHECIMENTO DE GESTOS
31
do sensor Kinect. O modelo reconhece o gesto independentemente da posicao em que o

usuario se encontra em relacao ao campo de visao do sensor. De acordo com o artigo, o
modelo possui vantagens em relacao a`s abordagens iniciais propostas por Holt, Reinders
e Hendriks (2007) e Corradini (2001) no sentido de que o gesto pode ser realizado sem
que o usuario se mantenha na mesma posicao. Alem disso, o sensor pode se deslocar
enquanto reconhece o gesto realizado pelo usuario. Essa caracterstica e fundamental para
robos moveis que realizam o reconhecimento de gestos. Porem, a abordagem proposta e
dependente da realizacao correta do gesto durante a etapa de treinamento.
Sun et al. (2013) propos uma abordagem que utiliza Discriminative Exemplar Coding
(DEC) para o reconhecimento de sinais usando um sensor Kinect. Eles capturam um conjunto de amostras (vdeos) para treinamento considerando a discriminacao. Com base na
similaridade entre as amostras, os classificadores sao usados para medir as similaridades
e reconhecer os sinais da Lngua de Sinais Americana (LSA).
Ge, Yang e Lee (2006) desenvolveram um algoritmo de aprendizado nao supervisionado, Distributed Locally Linear Embedding (DLLE), que tenta encontrar a estrutura
intrnseca dos dados, tais como relacoes de vizinhanca e distribuicoes globais. O metodo
Probabilistic Neural Network (PNN) e usado para classificar do gesto estatico atraves da
semelhanca entre sequencias de imagens reconstrudas de acordo com o banco de dados
de movimentos correspondentes.
O modelo proposto por Ibanez et al. (2014) suporta duas tecnicas para reconhecimento do gesto: Dynamic Time Warping (DTW) e Hidden Markov Models (HMM).
Inicialmente um Kinect e utilizado para obter as trajetorias do movimento e normalizalas. Em seguida o algoritmo DTW e usado para encontrar a similaridade entre duas
series temporais alinhando-as. Uma serie temporal e uma sequencia ordenada de valores
medidos em intervalos de espacos iguais. Neste modelo as trajetorias sao modeladas como
uma Maquina de Estados Finita (FSM), onde cada estado e a posicao da mao durante
a realizacao do gesto. Com os estados definidos, o metodo HMM e usado para descobrir se a sequencia de estados correspondentes e um possvel estado de transicao, por
exemplo e aceito pelo modelo. O algoritmo K-means e aplicado aos pontos da trajetoria
e o resultado representa os estados do HMM que sao treinados usando o algoritmo de
Baum-Welch (VALLEJO; TROYANO; ORTEGA, 2010). Assim, este modelo e invariante a posicao do usuario e invariante a mudancas de iluminacao, duas caractersticas
importantes no processo de reconhecimento de gestos. Os resultados demonstraram uma
taxa aproximada de 95% de reconhecimento dos gestos utilizando ambas as tecnicas de
DTW e HMM.
Na abordagem proposta por Bandera et al. (2009), as trajetorias sao projetadas tanto
nos planos XZ e Y Z para obter os dois angulos para representar a curvatura 3D, pois
uma curvatura 3D nao pode ser representada usando apenas um angulo. Para representar o gesto, duas caractersticas globais sao usadas, sendo a primeira calculada como a
diferenca entre os maximos e mnimos valores de X, Y e Z, que foram gerados por cada
trajetoria, enquanto a segunda e o movimento relativo entre diferentes trajetorias de um
certo gesto. Enquanto a primeira caracterstica global e relacionada a trajetorias individuais, a segunda considera a relacao entre diferentes trajetorias do movimento. Apesar
de serem caractersticas importantes que podem ser levadas em consideracao na classi-
32
ficacao do gesto, somente estas nao garantem que o gesto seja corretamente classificado,
uma vez que detalhes mais finos podem passar despercebidos. Como distancias Euclidianas necessitam que as trajetorias a serem comparadas tenham o mesmo comprimento,
a menor trajetoria e reamostrada para igualar a` outra. Uma das vantagens da utilizacao
de DTW e que duas trajetorias podem ser comparadas mesmo que seus comprimentos
sejam diferentes. Assim, o gesto e classificado atraves do calculo da similaridade do gesto
baseado em um limiar.
3.3
CONCLUSAO
Gestos similares podem ser realizados por diferentes pessoas em diferentes localizacoes
e/ou orientacoes, dependendo da posicao global da pessoa. A normalizacao das trajetorias
comparadas nao melhora significativamente a taxa de sucesso, uma vez que elas produzem
uma alta quantidade de falsos positivos. A distancia Euclidiana e um metodo rapido em
qualquer caso, mas ela nao e robusta sobre rudo. O uso de uma funcao de curvatura
adaptativa para extrair os pontos chaves reduzem o rudo e melhorando a performance
de todas as funcoes de distancia, mais especialmente de distancia Euclidiana e DTW, que
sao mais sensveis.
Como demonstrado neste captulo, existem muitas abordagens para reconhecimento
de gestos e rastreamento da mao. As abordagens de rastreamento normalmente se diferenciam em funcao do modelo (forma geometrica da mao) utilizado e do metodo para
deformar o modelo de acordo com os parametros calculados em cada quadro. Ja as abordagens para reconhecimento de gestos se diferenciam no metodo aplicado para treinamento e classificacao, alem da forma como o gesto e representado. Este captulo mostrou
apenas algumas abordagens propostas que tratam dos problemas de oclusao, invariancia
de posicao e de aspectos fsicos, bem como do reconhecimento contnuo de gestos. Mais
detalhes podem ser encontrados nas referencias citadas.
Os metodos HMM e DTW sao amplamente utilizados em conjunto com FSM. Assim,
o objetivo deste projeto e tambem utilizar estes metodos no processo de treinamento e
classificacao dos gestos, fazendo uma analise comparativa do desempenho do HMM e
DTW, alem de outros usados na literatura para avaliar o reconhecimento com o descritor
de movimento que sera desenvolvido.
O proximo captulo descreve a proposta metodologica do projeto, descrevendo em
mais detalhes como o projeto sera desenvolvido e quais tecnologias serao utilizadas.
Captulo
4
Este captulo tem como objetivo descrever a metodologia que ser
a seguida para desenvolver o projeto
proposto.
METODOLOGIA
Este projeto foi dividido em etapas para garantir que a pesquisa e desenvolvimento sejam
realizados da melhor forma possvel. Assim, ele foi dividido em:
Revisao bibliografica da area de reconhecimento de gestos, abrangendo descritores
de curvas, representacoes geometricas, sensores RGB-D e classificacao supervisionada.
Levantamento de um dataset com gestos capturados com um sensor RGB-D.
Analise e definicao do descritor de curva para o gesto.
Avaliacao de metodos para deteccao, rastreamento e reconhecimento de gestos.
Analise e definicao de tecnologias para reconhecimento de gestos.
Desenvolvimento e validacao dos modulos de deteccao, rastreamento e reconhecimento.
Integracao dos modulos e avaliacao do projeto.
Divulgacao dos resultados obtidos.
Inicialmente foi realizado um estudo teorico dos conte
udos abordados no captulo 2
e 3, nao limitando-se a eles, mais buscando novas abordagens e conceitos relacionados
ao reconhecimento de gestos da mao usando sensores RGB-D. O levantamento serviu
de base para compreender as principais caractersticas dos gestos, suas representacoes
geometricas e como eles podem ser reconhecidos por sistemas computacionais, mesmo
em ambientes desconhecidos, com pouca iluminacao ou com o gesto sendo realizado por
pessoas diferentes em localizacoes aleatorias.
33
34
METODOLOGIA
A primeira etapa de estudo foi vencida neste primeiro semestre, resultando no aprendizado que servira de base para o desenvolvimento do projeto. Em seguida sera necessario
selecionar um dataset que contenha gestos da Lingua Brasileira de Sinais capturados com
um sensor RGB-D. Caso nao exista nenhuma base disponvel, sera necessario criar uma
novo com gestos realizados por pessoas com aspectos fsicos diferentes, em posicoes e orientacoes diferentes, bem como em ambientes diversos. O objetivo e obter gestos dinamicos
e conscientes produzidos pelos membros superiores (sem deslocamento do torso), cujo
acompanhamento sera apenas a mao.
A proxima etapa sera a analise e definicao do descritor de curva que sera utilizado para
representar o gesto. Esta etapa e muito importante, pois a partir dela sera possvel obter
uma representacao que possa ser utilizada para comparar gestos de forma eficiente, alem
de garantir que gestos parecidos nao sejam confundidos por algum metodo de classificacao
que venha a ser utilizado. Esta etapa permitira descrever o gesto com uma representacao
geometrica no espaco tridimensional com suas principais caractersticas.
Uma vez que o descritor de curva foi definido, sera necessario realizar uma analise
dos metodos mais utilizados para deteccao, rastreamento e reconhecimento de gestos,
bem como para pre-processamento e extracao de caractersticas do movimento. A figura
4.1 ilustra uma arquitetura de um sistema de reconhecimento de gesto. O objetivo e
analisar e definir os melhores metodos para aplicar o descritor de curva definido e avaliar
o comportamento e taxa de reconhecimento dos gestos com base na arquitetura abaixo.
Esta avaliacao permitira saber se o descritor e robusto, mesmo utilizando um metodo
considerado simples para reconhecimento de gestos. No entanto, antes de desenvolver
e testar a abordagem, sera necessario definir as tecnologias que serao utilizadas para
desenvolver o projeto.
O estudo e analise para definir todo o ferramental necessario que sera utilizado no
desenvolvimento deste projeto tem como premissa utilizar dispositivos, softwares, frameworks e Software Development Kits (SDKs) que sejam de facil acesso aos estudantes e
pesquisadores. A ideia e possibilitar que o estudo possa ser continuado ou refeito por qualquer pessoa, sem que haja impeditivos. Ao final desta etapa, espera-se ter as tecnologias
definidas e o maximo de informacoes para iniciar a implementacao dos modulos.
A etapa seguinte sera a implementacao dos modulos de deteccao, rastreamento e
reconhecimento. Estes modulos serao desenvolvidos separadamente com o objetivo de
manter um fraco acoplamento entre os mesmos. A ideia e que os modulos possam ser
utilizados de forma independente na construcao de outros sistemas sem a necessidade de
modificacoes que afetem a estrutura ja definida.
Apos o desenvolvimento e validacao dos modulos, sera necessario realizar a integracao
destes. Nesta etapa, os modulos serao integrados e o projeto sera avaliado. A avaliacao
do modelo proposto sera realizada utilizando o dataset contendo o conjunto de gestos
que foram inicialmente obtidos e com um conjunto de pessoas selecionadas para testar e
avaliar o modelo atraves da realizacao de gestos em tempo real.
O modelo sera avaliado atraves da realizacao de gestos que foram treinados usando o
dataset criado/obtido. A avaliacao consistira na execucao de n testes que serao realizados
por pessoas selecionadas, em posicoes e orientacoes pre-definidas. A ideia e avaliar o
modelo proposto com base em diferentes metodos de treinamento e classificacao de gestos.
METODOLOGIA
35
Figura 4.1: Arquitetura de um sistema de reconhecimento de gesto. Inicialmente o sensor

RGB-D capta uma nuvem de pontos para detectar a posicao da mao. Em seguida,
uma sequencia de posicoes e armazenada, representando a trajetoria do gesto. Apos
a obtencao da trajetoria, ela e normalizada e escalada para obter invariancia do gesto
em relacao ao posicionamento. Por fim, um metodo e aplicada para treinamento do
classificador utilizando o conjunto de gestos. A classificacao e realizada comparando o
valor de referencia dos testes com os obtidos no treinamento.
Dentre os metodos que poderao ser avaliados, o Hidden Markov Model (HMM) e Dynamic
Time Warping (DTW) ja foram definidos durante os estudos iniciais do projeto.
Os resultados serao avaliados utilizando as metricas Precision, Reccall, Accurracy,
matriz de confusao e Receiver Operating Characteristic (ROC). A principal meta com o
desenvolvimento do projeto e ter um modelo que reconheca gestos em tempo real com uma
taxa acima de 90% de sucesso. Alem disso, espera-se obter um modelo flexvel que possa
ser utilizado no desenvolvimento de novas abordagens. Uma outra contribuicao esperada
com o desenvolvimento deste projeto, e a definicao de um novo descritor e modelo para
reconhecimento de gestos usando sensores de profundidade.
A etapa final do projeto sera a escrita dos artigos cientficos para divulgar os resultados
obtidos em congressos e revistas especializadas nas areas de Visao Computacional, IHC
e outros meios de divulgacao relacionados, demonstrando a eficacia do modelo proposto
e o potencial cientfico dos pesquisadores brasileiros da Bahia. Alem disso, a monografia
36
METODOLOGIA
tambem sera escrita utilizando todos os documentos gerados no processo de desenvolvimento do projeto. O foco sera dado aos resultados obtidos na etapa de experimentacao e
validacao do modelo proposto, bem como dos estudos realizados, permitindo uma analise
detalhada dos fatores que influenciaram os resultados do reconhecimento dos gestos.
4.1
CRONOGRAMA
Atividade
1 2
Analise e levantamento do dataset com gestos capturados com um sensor RGB-D X X
Analisar e definir o descritor da curva do gesto
X X
Avaliar metodos para deteccao, rastreamento e reconhecimento dos gestos
X X
Publicar resultados da avaliacao
Desenvolver e validar modulos de deteccao, rastreamento e reconhecimento
Integrar modulos e realizar experimentos
Avaliar resultados usando diferentes classificadores
Publicar resultados
Escrever e apresentar monografia
3 4
M
es
6 7 8 9
10
11 12
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
38
4.2
METODOLOGIA
CONCLUSAO
Neste captulo foi apresentada a metodologia para desenvolvimento do projeto. Esta

foi definida com base nos resultados obtidos ate o presente momento e no planejamento
realizado para cumprir as metas estabelecidas. A objetivo e seguir o cronograma definido
para concluir o projeto no prazo estipulado e obter os resultados esperados.
Uma vez que surgem constantemente resultados de pesquisas sobre reconhecimento
de gestos, novas definicoes poderao ser includas ao escopo do projeto. Assim, espera-se
sempre lidar com abordagens no estado da arte de reconhecimento de gestos, sempre
mantendo o foco no projeto e nas pesquisas realizadas.
Captulo
5
Este captulo tem como objetivo fazer um resumo dos principais pontos apresentados no projeto e descrever as considerac
oes finais.
CONCLUSAO
Neste projeto foram apresentados os conceitos considerados mais importantes para desenvolvimento do projeto, englobando aspectos sobre gestos, curvas, representacoes de
gestos, sensores RGB-D e os metodos mais aplicados para rastreamento da mao e reconhecimento de gestos. O objetivo foi fazer um levantamento que servira de base para
melhor entendimento da area de reconhecimento de gestos e de outras relacionadas, alem
de definir como o projeto sera desenvolvido.
O projeto consiste em realizar um estudo para definir um descritor que sera usado
para representar a trajetoria do movimento realizado pelo gesto e desenvolver um sistema
capaz de reconhecer um conjunto finito de gestos da Lngua Brasileira de Sinais (LIBRAS)
produzidos pelos membros superiores (sem deslocamento do torso), cujo acompanhamento
sera apenas a mao. O objetivo e modelar a trajetoria do movimento como uma curva no
espaco geometrico 3D e torna-la invariante a` posicao e orientacao do usuario no ambiente.
Esta invariancia e fundamental nos sistemas de reconhecimento de gestos, uma vez que os
fatores fsicos do usuario, bem como da realizacao do gesto podem influenciar no resultado
da classificacao.
Este projeto lida somente com gestos dinamicos e conscientes, que sao aqueles que
consideram o aspecto temporal e possuem significados semanticos, respectivamente. Foi
definido que o projeto esta limitado a reconhecer uma quantidade finita de gestos. Alem
disso, outras partes do corpo sao ignoradas em funcao da complexidade de identificar um
gesto que utiliza m
ultiplas partes do corpo em paralelo e do limite de tempo disponvel
para realizacao do projeto. Logo, o objetivo deste projeto e focar somente na posicao
absoluta das maos no espaco 3D, desprezando por exemplo, expressoes faciais ou dedos.
A ideia e utilizar um sensor RGB-D para captar a informacao do ambiente. Este
sensor foi escolhido em funcao de suas caractersticas, como invariancia a iluminacao e
facilidade de obtencao da informacao geometrica 3D do ambiente, alem da combinacao de
informacoes visuais e geometricas. Caso nao exista nenhum dataset disponvel com gestos
de LIBRAS capturadas com um sensor de profundidade, entao sera necessario fazer um
39
40
CONCLUSAO
levantamento do mesmo. Este permitira realizar o treinamento e avaliacao do modelo

proposto considerando diferentes metodos de classificacao, sendo que o Dynamic Time
Warping (DTW) e Hidden Markov Model (HMM) ja foram definidos inicialmente.
A avaliacao do modelo proposto consistira da analise dos resultados considerando
diferentes metricas, que foram mencionadas no captulo de proposta metodologica. Por
fim, os resultados serao publicados e a monografia sera desenvolvida e apresentada.
REFERENCIAS
BIBLIOGRAFICAS
ARULAMPALAM, M. et al. A tutorial on particle filters for online nonlinear/nongaussian bayesian tracking. Signal Processing, IEEE Transactions on, v. 50, n. 2, p.
174188, Feb 2002. ISSN 1053-587X.
BANDERA, J. et al. Fast gesture recognition based on a two-level representation. Pattern
Recognition Letters, v. 30, n. 13, p. 1181 1189, 2009. ISSN 0167-8655. Disponvel em:
hhttp://www.sciencedirect.com/science/article/pii/S0167865509001378i.
BARALDI, L. et al. Gesture recognition using wearable vision sensors to enhance visitors;
museum experiences. Sensors Journal, IEEE, v. 15, n. 5, p. 27052714, May 2015. ISSN
1530-437X.
BARKHODA, W.; TAB, F.; SHAHRYARI, O.-K. Fuzzy edge detection based on pixels
gradient and standard deviation values. In: Computer Science and Information Technology, 2009. IMCSIT 09. International Multiconference on. [S.l.: s.n.], 2009. p. 710.
BERMAN, S.; STERN, H. Sensors for Gesture Recognition Systems. IEEE Transactions
on Systems, Man, and Cybernetics, Part C (Applications and Reviews), v. 42, n. 3, p.
277290, may 2012. ISSN 1094-6977. Disponvel em: hhttp://ieeexplore.ieee.org/lpdocs/
epic03/wrapper.htm?arnumber=5976477i.
BISWAS, K.; BASU, S. Gesture recognition using microsoft kinect. In: Automation,
Robotics and Applications (ICARA), 2011 5th International Conference on. [S.l.: s.n.],
2011. p. 100103.
BODIROZA, S.; DOISY, G.; HAFNER, V. Position-invariant, real-time gesture recognition based on dynamic time warping. In: Human-Robot Interaction (HRI), 2013 8th
ACM/IEEE International Conference on. [S.l.: s.n.], 2013. p. 8788. ISSN 2167-2121.
BOOR, C. D. A Practical Guide to Splines. Springer-Verlag, 1978. (Applied Mathematical
Sciences, v. 27). ISBN 9783540903567. Disponvel em: hhttps://books.google.com.br/
books?id=mZMQAQAAIAAJi.
BRAGAGLIA, S.; MONTE, S. D.; MELLO, P. A distributed system using ms kinect
and event calculus for adaptive physiotherapist rehabilitation. In: Complex, Intelligent
and Software Intensive Systems (CISIS), 2014 Eighth International Conference on. [S.l.:
s.n.], 2014. p. 531538.
BRAND, D.; ZAFIROPULO, P. On communicating finite-state machines. J. ACM, ACM,
New York, NY, USA, v. 30, n. 2, p. 323342, apr 1983. ISSN 0004-5411. Disponvel em:
hhttp://doi.acm.org/10.1145/322374.322380i.
41
42
REFERENCIAS
BIBLIOGRAFICAS
BURGES, C. A tutorial on support vector machines for pattern recognition. Data Mining
and Knowledge Discovery, Kluwer Academic Publishers, v. 2, n. 2, p. 121167, 1998. ISSN
1384-5810. Disponvel em: hhttp://dx.doi.org/10.1023/A\%3A1009715923555i.
BURGES, C. J. C. A tutorial on support vector machines for pattern recognition. Data
Min. Knowl. Discov., Kluwer Academic Publishers, Hingham, MA, USA, v. 2, n. 2,
p. 121167, jun 1998. ISSN 1384-5810. Disponvel em: hhttp://dx.doi.org/10.1023/A:
1009715923555i.
Caglar, H.; Akansu, A. N. A generalized parametric PR-QMF design technique based on
Bernstein polynomial approximation. IEEE Trans. Signal Process., Institute of Electrical
and Electronics Engineers (IEEE), New York, NY, v. 41, n. 7, p. 23142321, 1993. ISSN
1053-587X.
CAMGoZ, N.; KINDIROGLU, A.; AKARUN, L. Gesture recognition using template
based random forest classifiers. In: AGAPITO, L.; BRONSTEIN, M. M.; ROTHER,
C. (Ed.). Computer Vision - ECCV 2014 Workshops. Springer International Publishing,
2015, (Lecture Notes in Computer Science, v. 8925). p. 579594. ISBN 978-3-319-16177-8.
Disponvel em: hhttp://dx.doi.org/10.1007/978-3-319-16178-5\ 41i.
CORRADINI, A. Dynamic time warping for off-line recognition of a small gesture vocabulary. In: Recognition, Analysis, and Tracking of Faces and Gestures in Real-Time
Systems, 2001. Proceedings. IEEE ICCV Workshop on. [S.l.: s.n.], 2001. p. 8289. ISSN
1530-1044.
DITTMAR, T.; KRULL, C.; HORTON, G. A new approach for touch gesture recognition: Conversive hidden non-markovian models. Journal of Computational Science,
2015. ISSN 1877-7503. Disponvel em: hhttp://www.sciencedirect.com/science/article/
pii/S1877750315000290i.
EICKELER, S.; KOSMALA, A.; RIGOLL, G. Hidden markov model based continuous
online gesture recognition. In: Pattern Recognition, 1998. Proceedings. Fourteenth International Conference on. [S.l.: s.n.], 1998. v. 2, p. 12061208 vol.2. ISSN 1051-4651.
EROL, A. et al. Vision-based hand pose estimation: A review. Computer Vision and
Image Understanding, v. 108, n. 1-2, p. 5273, oct 2007. ISSN 10773142. Disponvel em:
hhttp://linkinghub.elsevier.com/retrieve/pii/S1077314206002281i.
FALAHATI, S. OpenNI Cookbook. [S.l.]: Packt Publishing, 2013. ISBN 1849518467,
9781849518468.
FOLEY, J. D. et al. Introduction to Computer Graphics. Boston, MA, USA: AddisonWesley Longman Publishing Co., Inc., 1994. ISBN 0201609215.
FORREST, A. Computational Geometry. [s.n.], 1971. Disponvel em: hhttps://books.
google.com.br/books?id=bEJMmwEACAAJi.
REFERENCIAS
BIBLIOGRAFICAS
43
FRATI, V.; PRATTICHIZZO, D. Using kinect for hand tracking and rendering in wearable haptics. In: World Haptics Conference (WHC), 2011 IEEE. [S.l.: s.n.], 2011. p.
317321.
FREUND, Y.; SCHAPIRE, R. E. A decision-theoretic generalization of on-line learning
and an application to boosting. Journal of Computer and System Sciences, v. 55, n. 1,
p. 119 139, 1997. ISSN 0022-0000. Disponvel em: hhttp://www.sciencedirect.com/
science/article/pii/S002200009791504Xi.
GE, S. S.; YANG, Y.; LEE, T. H. Hand Gesture Recognition and Tracking based on
Distributed Locally Linear Embedding. n. ii, 2006.
GHARASUIE, M. M.; SEYEDARABI, H. Real-time dynamic hand gesture recognition
using hidden Markov models. 2013 8th Iranian Conference on Machine Vision and Image
Processing (MVIP), Ieee, p. 194199, sep 2013. Disponvel em: hhttp://ieeexplore.ieee.
org/lpdocs/epic03/wrapper.htm?arnumber=6779977i.
HAND, D. J. Measuring classifier performance: A coherent alternative to the area under
the roc curve. Mach. Learn., Kluwer Academic Publishers, Hingham, MA, USA, v. 77,
n. 1, p. 103123, out. 2009. ISSN 0885-6125. Disponvel em: hhttp://dx.doi.org/10.1007/
s10994-009-5119-5i.
HASAN, H.; ABDUL-KAREEM, S. Static hand gesture recognition using neural
networks. Artificial Intelligence Review, Springer Netherlands, v. 41, n. 2, p. 147181,
2014. ISSN 0269-2821. Disponvel em: hhttp://dx.doi.org/10.1007/s10462-011-9303-1i.
HASAN, H. S.; KAREEM, S. A. Human Computer Interaction for Vision Based Hand
Gesture Recognition: A Survey. 2012 International Conference on Advanced Computer
Science Applications and Technologies (ACSAT), Ieee, p. 5560, nov 2012. Disponvel
em: hhttp://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=6516326i.
HOLT, G. T.; REINDERS, M.; HENDRIKS, E. Multi-dimensional dynamic time warping
for gesture recognition. In: Thirteenth annual conference of the Advanced School for
Computing and Imaging. [S.l.: s.n.], 2007. v. 300.
HUGHES, J. et al. Computer Graphics: Principles and Practice. Addison-Wesley, 2013.
(The systems programming series). ISBN 9780321399526. Disponvel em: hhttps://books.
google.com.br/books?id=OVpsAQAAQBAJi.
IBANEZ, R. et al. Easy gesture recognition for kinect. Advances in Engineering Software,
v. 76, n. 0, p. 171 180, 2014. ISSN 0965-9978. Disponvel em: hhttp://www.sciencedirect.
com/science/article/pii/S0965997814001161i.
ISARD, M.; BLAKE, A. Condensation - conditional density propagation for visual tracking. International Journal of Computer Vision, v. 29, p. 528, 1998.
44
REFERENCIAS
BIBLIOGRAFICAS
JOLLIFFE, I. Principal Component Analysis. Springer, 2002. (Springer Series in Statistics). ISBN 9780387954424. Disponvel em: hhttps://books.google.com.br/books?id=\\
olByCrhjwICi.
KEOGH, E.; RATANAMAHATANA, C. A. Exact indexing of dynamic time warping.
Knowl. Inf. Syst., Springer-Verlag New York, Inc., New York, NY, USA, v. 7, n. 3,
p. 358386, mar 2005. ISSN 0219-1377. Disponvel em: hhttp://dx.doi.org/10.1007/
s10115-004-0154-9i.
KESKIN, C. et al. Real time hand pose estimation using depth sensors. In: Computer
Vision Workshops (ICCV Workshops), 2011 IEEE International Conference on. [S.l.:
s.n.], 2011. p. 12281234.
KILIBOZ, N. C.; GUDUKBAY, U. A hand gesture recognition technique for humancomputer interaction. Journal of Visual Communication and Image Representation,
v. 28, p. 97104, 2015. ISSN 1047-3203. Disponvel em: hhttp://www.sciencedirect.com/
science/article/pii/S104732031500022Xi.
KIM, D. et al. Digits: Freehand 3d interactions anywhere using a wrist-worn gloveless
sensor. In: Proceedings of the 25th Annual ACM Symposium on User Interface Software
and Technology. New York, NY, USA: ACM, 2012. (UIST 12), p. 167176. ISBN 978-14503-1580-7. Disponvel em: hhttp://doi.acm.org/10.1145/2380116.2380139i.
KIM, S. et al. Color and shape feature-based detection of speed sign in real-time. In:
Systems, Man, and Cybernetics (SMC), 2012 IEEE International Conference on. [S.l.:
s.n.], 2012. p. 663666.
KUNNATH, N.; LEE, S.-H. Meanshift segmentation guided spatially adaptive histogram equalization. In: PARK, J. J. J. H. et al. (Ed.). Computer Science and its Applications. Springer Berlin Heidelberg, 2015, (Lecture Notes in Electrical Engineering,
v. 330). p. 713718. ISBN 978-3-662-45401-5. Disponvel em: hhttp://dx.doi.org/10.1007/
978-3-662-45402-2\ 100i.
LEE, H.-K.; KIM, J. An hmm-based threshold model approach for gesture recognition.
Pattern Analysis and Machine Intelligence, IEEE Transactions on, v. 21, n. 10, p. 961
973, Oct 1999. ISSN 0162-8828.
LEWIS, M. P.; SIMONS, G. F.; FENNIG, C. D. Ethnologue: Languages of the World.
17th edition. [S.l.]: SIL International, 2014.
LIN, M.; VILLALBA, R. Sign language glove. 2014. Disponvel em: hhttp://people.ece.
cornell.edu/land/courses/ece4760/FinalProjects/f2014/rdv28\ mjl256/webpage/i.
MACQUEEN, J. Some methods for classification and analysis of multivariate observations. In: Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and
Probability, Volume 1: Statistics. Berkeley, California.: University of California Press,
1967. p. 281297. Disponvel em: hhttp://projecteuclid.org/euclid.bsmsp/1200512992i.
REFERENCIAS
BIBLIOGRAFICAS
45
MICROSOFT. Kinect for Windows Sensor Components and Specifications. 2015. hhttps:
//msdn.microsoft.com/en-us/library/jj131033.aspxi. Accessed: 2015-05-25.
MIRANDA, L. et al. Real-Time Gesture Recognition from Depth Data through Key
Poses Learning and Decision Forests. 2012 25th SIBGRAPI Conference on Graphics,
Patterns and Images, Ieee, p. 268275, aug 2012. Disponvel em: hhttp://ieeexplore.ieee.
org/lpdocs/epic03/wrapper.htm?arnumber=6382766i.
MITRA, S.; ACHARYA, T. Gesture recognition: A survey. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, v. 37, n. 3, p. 311324,
May 2007. ISSN 1094-6977.
MORAL, P. D. Nonlinear Filtering: Interacting Particle Resolution. 1996.
MURAKAMI, K.; TAGUCHI, H. Gesture recognition using recurrent neural networks. In:
Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New
York, NY, USA: ACM, 1991. (CHI 91), p. 237242. ISBN 0-89791-383-3. Disponvel em:
hhttp://doi.acm.org/10.1145/108844.108900i.
OIKONOMIDIS, I.; KYRIAZIS, N.; ARGYROS, A. A. Efficient model-based 3d tracking
of hand articulations using kinect. BMVC, v. 1, n. 2, p. 3, 2011.
PIEGL, L.; TILLER, W. The NURBS Book. U.S. Government Printing Office, 1997.
(Monographs in Visual Communication). ISBN 9783540615453. Disponvel em: hhttps:
//books.google.de/books?id=7dqY5dyAwWkCi.
QIAN, C. et al. Realtime and robust hand tracking from depth. In: Computer Vision and
Pattern Recognition (CVPR), 2014 IEEE Conference on. [S.l.: s.n.], 2014. p. 11061113.
RABINER, L. R. Readings in speech recognition. In: WAIBEL, A.; LEE, K.-F. (Ed.). San
Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1990. cap. A Tutorial on Hidden
Markov Models and Selected Applications in Speech Recognition, p. 267296. ISBN 155860-124-4. Disponvel em: hhttp://dl.acm.org/citation.cfm?id=108235.108253i.
RAUTARAY, S. S.; AGRAWAL, A. Vision based hand gesture recognition for human
computer interaction: a survey. Artificial Intelligence Review, nov 2012. ISSN 0269-2821.
Disponvel em: hhttp://link.springer.com/10.1007/s10462-012-9356-9i.
RIDLER, T.; CALVARD, E. Picture thresholding using an iterative selection method.
Systems, Man and Cybernetics, IEEE Transactions on, v. 8, n. 8, p. 630632, Aug 1978.
ISSN 0018-9472.
RIGOLL, G.; KOSMALA, A. New improved feature extraction methods for real-time high
performance image sequence recognition. In: Acoustics, Speech, and Signal Processing,
1997. ICASSP-97., 1997 IEEE International Conference on. [S.l.: s.n.], 1997. v. 4, p.
29012904 vol.4. ISSN 1520-6149.
46
REFERENCIAS
BIBLIOGRAFICAS
RIGOLL, G.; KOSMALA, A.; EICKELER, S. High performance real-time gesture recognition using hidden markov models. In: In Proc. Gesture Workshop. [S.l.]: Springer,
1998. p. 6980.
RUSINKIEWICZ, S.; LEVOY, M. Efficient variants of the ICP algorithm. In: Third
International Conference on 3D Digital Imaging and Modeling (3DIM). [S.l.: s.n.], 2001.
RUSINKIEWICZ, S.; LEVOY, M. Efficient variants of the icp algorithm. In: IEEE. 3-D
Digital Imaging and Modeling. [S.l.], 2001. p. 145152.
RYAN, M. S.; NUDD, G. R. The Viterbi Algorithm. Coventry, UK, UK, 1993.
SALHI, A.; JAMMAOUSSI, A. Y. World Academy of Science, Engineering and Technology, v. 6, n. 4, p. 598 603, 2012. ISSN 1307-6892. Disponvel em: hhttp:
//waset.org/Publications?p=64i.
SCHLoMER, T. et al. Gesture recognition with a wii controller. In: Proceedings of the
2Nd International Conference on Tangible and Embedded Interaction. New York, NY,
USA: ACM, 2008. (TEI 08), p. 1114. ISBN 978-1-60558-004-3. Disponvel em: hhttp:
//doi.acm.org/10.1145/1347390.1347395i.
SCHRODER, M. et al. Real-time hand tracking with a color glove for the actuation of
anthropomorphic robot hands. In: Humanoid Robots (Humanoids), 2012 12th IEEE-RAS
International Conference on. [S.l.: s.n.], 2012. p. 262269. ISSN 2164-0572.
SCHRODER,
M. et al. Analysis of hand synergies for inverse kinematics hand tracking.
In: . [S.l.: s.n.], 2013. (Proceedings of ICRA Workshop on Hand synergies - how to tame
the complexity of grasping), p. 2631.
SCHRODER, M. et al. Real-time hand tracking using synergistic inverse kinematics. In:
Robotics and Automation (ICRA), 2014 IEEE International Conference on. [S.l.: s.n.],
2014. p. 54475454.
SCHRoDER, M.; BOTSCH, M. Online Adaptive PCA for Inverse Kinematics Hand Tracking. In: BENDER, J. et al. (Ed.). Vision, Modeling & Visualization. [S.l.]: The Eurographics Association, 2014. ISBN 978-3-905674-74-3.
SHAN, C. et al. Real time hand tracking by combining particle filtering and mean shift. In:
Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE International
Conference on. [S.l.: s.n.], 2004. p. 669674.
SHAO, L. et al. Computer vision for rgb-d sensors: Kinect and its applications [special
issue intro.]. Cybernetics, IEEE Transactions on, v. 43, n. 5, p. 13141317, Oct 2013.
ISSN 2168-2267.
SHARP, T. et al. Accurate, robust, and flexible real-time hand tracking. In: . CHI, 2015.
Disponvel em: hhttp://research.microsoft.com/apps/pubs/default.aspx?id=238453i.
REFERENCIAS
BIBLIOGRAFICAS
47
SHIN, M. C.; TSAP, L. V.; GOLDGOF, D. B. Gesture recognition using Bezier curves
for visualization navigation from registered 3-D data. Pattern Recognition, v. 37, n. 5, p.
10111024, may 2004. ISSN 00313203. Disponvel em: hhttp://linkinghub.elsevier.com/
retrieve/pii/S0031320303003960i.
SHOTTON, J. et al. Real-time human pose recognition in parts from single depth images.
Commun. ACM, ACM, New York, NY, USA, v. 56, n. 1, p. 116124, jan 2013. ISSN 00010782. Disponvel em: hhttp://doi.acm.org/10.1145/2398356.2398381i.
SONG, Y. et al. A kinect based gesture recognition algorithm using gmm and hmm. In:
Biomedical Engineering and Informatics (BMEI), 2013 6th International Conference on.
[S.l.: s.n.], 2013. p. 750754.
SPECHT, D. F. Probabilistic neural networks. Neural Netw., Elsevier Science Ltd.,
Oxford, UK, UK, v. 3, n. 1, p. 109118, jan 1990. ISSN 0893-6080. Disponvel em:
hhttp://dx.doi.org/10.1016/0893-6080(90)90049-Qi.
SRIDHAR, S.; OULASVIRTA, A.; THEOBALT, C. Interactive markerless articulated
hand motion tracking using rgb and depth data. In: IEEE. Computer Vision (ICCV),
2013 IEEE International Conference on. [S.l.], 2013. p. 24562463.
STENGER, B. et al. Model-based hand tracking using a hierarchical bayesian filter.
Pattern Analysis and Machine Intelligence, IEEE Transactions on, v. 28, n. 9, p. 1372
1384, Sept 2006. ISSN 0162-8828.
SUAREZ, J.; MURPHY, R. Hand gesture recognition with depth images: A review. In:
RO-MAN, 2012 IEEE. [S.l.: s.n.], 2012. p. 411417. ISSN 1944-9445.
SUN, C. et al. Discriminative exemplar coding for sign language recognition with kinect.
v. 43, n. 5, p. 14181428, 2013. Disponvel em: hhttp://ieeexplore.ieee.org/xpls/abs\\ all.
jsp?arnumber=6544211i.
TRAN, C.; MEMBER, S.; TRIVEDI, M. M. 3-D Posture and Gesture Recognition for
Interactivity in Smart Spaces. v. 8, n. 1, p. 178187, 2012.
VALLEJO, C. G.; TROYANO, J. A.; ORTEGA, F. J. Instancerank: Bringing order to
datasets. Pattern Recogn. Lett., Elsevier Science Inc., New York, NY, USA, v. 31, n. 2, p.
133142, jan 2010. ISSN 0167-8655. Disponvel em: hhttp://dx.doi.org/10.1016/j.patrec.
2009.09.022i.
WACHS, J. P. et al. A gesture-based tool for sterile browsing of radiology images. Journal
of the American Medical Informatics Association, The Oxford University Press, v. 15,
n. 3, p. 321323, 2008.
WANG, R. Y.; POPOVIc, J. Real-time hand-tracking with a color glove. In: ACM SIGGRAPH 2009 Papers. New York, NY, USA: ACM, 2009. (SIGGRAPH 09), p. 63:163:8.
ISBN 978-1-60558-726-4. Disponvel em: hhttp://doi.acm.org/10.1145/1576246.1531369i.
48
REFERENCIAS
BIBLIOGRAFICAS
WANG, X.; WANG, R.; ZHOU, F. Fingertips detection and hand tracking based on
curve fitting. In: Image and Signal Processing (CISP), 2014 7th International Congress
on. [S.l.: s.n.], 2014. p. 99103.
XU, D. et al. Real-time dynamic gesture recognition system based on depth perception
for robot navigation. 2012 IEEE International Conference on Robotics and Biomimetics
(ROBIO), Ieee, p. 689694, dec 2012. Disponvel em: hhttp://ieeexplore.ieee.org/lpdocs/
epic03/wrapper.htm?arnumber=6491047i.
YAO, A.; GOOL, L. V.; KOHLI, P. Gesture Recognition Portfolios for Personalization.
2014 IEEE Conference on Computer Vision and Pattern Recognition, Ieee, p. 1923
1930, jun 2014. Disponvel em: hhttp://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?
arnumber=6909644i.
YUAN, Q.; SCLAROFF, S.; ATHITSOS, V. Automatic 2d hand tracking in video sequences. In: Application of Computer Vision, 2005. WACV/MOTIONS 05 Volume 1.
Seventh IEEE Workshops on. [S.l.: s.n.], 2005. v. 1, p. 250256.
ZABULIS, X.; BALTZAKIS, H.; ARGYROS, A. Vision-based hand gesture recognition for human-computer interaction. The Universal Access Handbook. . . . , p. 1
56, 2009. Disponvel em: hhttps://www.ics.forth.gr/\\ publications/2009\\ 06\\ book\
\ hci\\ gestures.pdfi.
ZHU, J. et al. Reliability fusion of time-of-flight depth and stereo geometry for high
quality depth maps. Pattern Analysis and Machine Intelligence, IEEE Transactions on,
v. 33, n. 7, p. 14001414, July 2011. ISSN 0162-8828.
ZHU, Y.; YUAN, B. Real-time hand gesture recognition with kinect for playing racing
video games. In: Neural Networks (IJCNN), 2014 International Joint Conference on.
[S.l.: s.n.], 2014. p. 32403246.

Reconhecimento de Gestos Baseado em Registro de Movimento Utilizando Técnicas de Visão Computacional e Modelagem Geométrica

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Reconhecimento de Gestos Baseado em Registro de Movimento Utilizando Técnicas de Visão Computacional e Modelagem Geométrica

Uploaded by

Copyright:

Available Formats

UNIVERSIDADE FEDERAL DA BAHIA

RECONHECIMENTO DE GESTOS BASEADO

UNIVERSIDADE FEDERAL DA BAHIA

Alan dos Santos Soares

MOVIMENTO UTILIZANDO TECNICAS

COMPUTACIONAL E MODELAGEM GEOMETRICA

grau de Mestre em CIENCIA

Orientador: Prof. Dr. Antonio Lopes Apolinario Jr.

Captulo 3Trabalhos Relacionados

Categorias dos gestos. (HASAN; KAREEM, 2012) . . . . . . . . . . . . .

Arquitetura de um sistema de reconhecimento de gesto. Inicialmente o

Desvantagens das representacoes implcita, explcita e parametrica.(FORREST,

LISTA DE ABREVIATURAS E SIGLAS

LISTA DE ABREVIATURAS E SIGLAS

permitem usuarios interagirem intuitivamente com dispositivos computacionais atraves

Um gesto ou sinal e considerado um movimento e/ou configuracao de uma ou mais partes

Figura 2.1: Categorias dos gestos. (HASAN; KAREEM, 2012)

sual, as abordagens baseadas em modelos 3D lidam com informacoes geometricas da cena

x = x(t), y = y(t), z = z(t)

p(t) = (1 t)p1 + tp2

com t R e 0 t 1. Esta interpolacao sobre o conjunto de pontos fornece uma

Um outro ponto importante e que um segmento de curva parametrica e por si so

a derivada de grau n da curva, ou seja, se a direcao e a magnitude da derivada de grau

A curva de Bezier e uma representacao parametrica da forma:

com x = t e y = (1 t), onde t e um valor de parametrizacao para percorrer a curva

A figura 2.3 ilustra uma curva de Bezier c

Figura 2.3: Curva de Bezier c

Figura 2.4: Curva de Bezier aproximada por uma sequencia de interpolacoes.

P(t) = (1 t)2 P0 + 2t(1 t)P1 + t2 P2 , t [0, 1].

P(t) = (1 t)3 P0 + 3t(1 t)2 P1 + 3t2 (1 t)P2 + t3 P3 , t [0, 1].

Figura 2.5: Spline c

As Splines podem ser divididas em duas categorias: Splines de interpolacao e Splines

Convex hull definido pelos pontos de controle

2.4 SISTEMAS DE RECONHECIMENTO DE GESTOS

Pi bi,n (t) , t [tn1 , tmn ].

onde Pi sao os pontos de controle ou pontos de Boor(BOOR, 1978). Assim, existem

SISTEMAS DE RECONHECIMENTO DE GESTOS

Um sistema de reconhecimento tem como objetivo classificar um objeto de acordo com

gestos no espaco 3D, o objeto de interesse e a trajetoria descrita pelo acompanhamento

2.4 SISTEMAS DE RECONHECIMENTO DE GESTOS

trucao de sistemas de reconhecimento de gestos. Um dos mais utilizados e o Kinect, que

A deteccao e a fase inicial de um sistema de reconhecimento de gesto, sendo responsavel

2.4 SISTEMAS DE RECONHECIMENTO DE GESTOS

A fase de rastreamento e responsavel por obter a trajetoria do movimento realizado pela

Assim, o rastreamento de um gesto da mao tem como dependencia um metodo de

O reconhecimento ou classificacao e a fase final de um sistema de reconhecimento de

2.4 SISTEMAS DE RECONHECIMENTO DE GESTOS

O reconhecimento de gesto usando tecnicas de visao computacional utilizam cameras

de referencia da camera atraves de transformacoes em 2D. Ja os parametros extrnsecos

de deteccao e classificacao de forma eficiente. A proxima secao mostra alguns algoritmos

ate minimizar a diferenca entra as duas. As transformacoes (rotacao e translacao) sao

possui um peso de vizinhanca que representa a probabilidade de que a partcula seja

Neste captulo foram apresentados os principais conceitos envolvidos no projeto, tais

O rastreamento da mao e uma etapa importante no reconhecimento de gestos, uma

Yuan, Sclaroff e Athitsos (2005) propuseram um framework de filtro temporal para

3.2 RECONHECIMENTO DE GESTOS

Muitas abordagens foram propostas para reconhecimento de gestos (MITRA; ACHARYA,

fsicos do usuario que realiza o gesto.

3.2 RECONHECIMENTO DE GESTOS

do sensor Kinect. O modelo reconhece o gesto independentemente da posicao em que o

Figura 4.1: Arquitetura de um sistema de reconhecimento de gesto. Inicialmente o sensor

Neste captulo foi apresentada a metodologia para desenvolvimento do projeto. Esta

levantamento do mesmo. Este permitira realizar o treinamento e avaliacao do modelo