Professional Documents
Culture Documents
INSTITUTO DE MATEMATICA
EM CIENCIA
PROGRAMA DE POS-GRADUAC
AO
DA COMPUTAC
AO
UTILIZANDO TECNICAS
DE VISAO
COMPUTACIONAL E MODELAGEM
GEOMETRICA
Alan dos Santos Soares
DE MESTRADO
QUALIFICAC
AO
Salvador
11 de setembro de 2015
INSTITUTO DE MATEMATICA
Trabalho
apresentado
ao
PROGRAMA
DE
POS-
EM CIENCIA
do INSGRADUAC
AO
DA COMPUTAC
AO
TITUTO DE MATEMATICA
da UNIVERSIDADE FEDERAL DA BAHIA como requisito parcial para obten
c
ao do
Salvador
11 de setembro de 2015
RESUMO
O desenvolvimento de sistemas capazes de reconhecer gestos ou sinais tem crescido consideravelmente. Estes sistemas permitem usuarios interagirem intuitivamente com dispositivos usando Natural User Interface (NUI) sem a necessidade de utilizacao de equipamentos, como cabos e/ou luvas. A Interacao Humano-Computador (IHC) e realizada
atraves do reconhecimento e transformacao do gesto em um comando, que por sua vez executa alguma acao ou evento. O reconhecimento depende da representacao geometrica do
gesto/sinal, do sensor e dos metodos para deteccao, rastreamento e reconhecimento. Assim, este projeto tem como objetivo desenvolver um sistema para reconhecimento de um
conjunto finito de gestos usando um sensor RGB-D para captar a informacao geometrica
3D da cena. O gesto sera modelado como uma curva no espaco parametrico, sendo esta
definida por uma representacao baseada em curvas polinomiais. Esta curva sera obtida
atraves do acompanhamento da mao no espaco 3D, desconsiderando outras partes do
corpo, como expressoes faciais ou o deslocamento do torso.
Palavras-chave: Reconhecimento de Gestos; Modelagem Geometrica de Curvas; Sensor RGB-D; Lngua de Sinais; 3D.
iii
ABSTRACT
The development of systems capable of recognizing gestures or signs has grown considerably. These systems allow users to intuitively interact with devices using Natural
User Interfaces (NUI) without the need to use equipment such as cables or gloves. The
Human-Computer Interaction (HCI) is performed by recognizing and transformation of
the gesture in a command, which in turn performs some action or event. Recognition
depends on the geometric representation of the gesture / sign, sensor and methods for
detection, tracking and recognition. Thus, this project aims to develop a system for recognition of a finite set of gestures using an RGB-D sensor to capture the 3D geometric
information of the scene. The gesture will be modeled as a curve in the parameter space,
which is defined by a representation based on polinomial curves. This curve is obtained
through hand tracking in 3D space, ignoring other body parts, such as facial expressions
or torso displacement.
Keywords: Gesture Recognition; Geometric Modeling Curves; RGB-D Sensor; Signal
Language; 3D.
SUMARIO
Captulo 1Introduc
ao
Captulo 2Fundamentac
ao Te
orica
2.1
2.2
2.3
2.4
2.5
2.6
Gestos . . . . . . . . . . . . . . . . . .
Representacao Geometrica de Gestos .
Curvas . . . . . . . . . . . . . . . . . .
2.3.1 Curva de Bezier . . . . . . . . .
2.3.2 Curva Spline . . . . . . . . . .
2.3.3 Curva B-Spline . . . . . . . . .
Sistemas de Reconhecimento de Gestos
2.4.1 Sensores RGB-D . . . . . . . .
2.4.2 Deteccao . . . . . . . . . . . . .
2.4.3 Rastreamento . . . . . . . . . .
2.4.4 Reconhecimento . . . . . . . . .
2.4.5 Tecnicas Baseadas em Contato
2.4.6 Tecnicas Baseadas em Visao . .
Algoritmos e Metodos para Sistemas de
Conclusao . . . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
Reconhecimento
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
Rastreamento da Mao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Reconhecimento de Gestos . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Captulo 4Metodologia
4.1
4.2
5
7
8
11
13
14
15
16
18
19
20
21
21
23
25
27
29
32
33
Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Captulo 5Conclus
ao
37
38
39
vii
LISTA DE FIGURAS
2.1
2.2
ix
35
LISTA DE TABELAS
2.1
2.2
2.3
xi
xiv
GMM Gaussian Mixture Model
DEC Discriminative Exemplar Coding
DLLE Distributed Locally Linear Embedding
ROC Receiver Operating Characteristic
Captulo
1
Este captulo tem como objetivo fazer uma contextualizac
ao do projeto e descrever a motivac
ao e alguns
desafios da
area de reconhecimento de gestos e suas aplicac
oes.
INTRODUC
AO
A comunicacao entre humanos pode ser realizada utilizando linguagem verbal ou nao
verbal. A linguagem verbal e caracterizada pelo uso da escrita ou da fala como meio de
comunicacao. Ja a linguagem nao verbal e caracterizada pela transmissao da informacao
atraves de imagens, figuras, desenhos, smbolos, danca, tom de voz, postura corporal,
pintura, m
usica, mmica ou gestos. O gesto pode ser considerado o meio de comunicacao
mais utilizado pelos humanos dentre estas formas nao verbais. Isto porque normalmente
a fala vem acompanhada de gestos que auxiliam no processo de comunicacao.
Os gestos podem ser classificados em conscientes ou inconscientes (HASAN; KAREEM, 2012). Os conscientes possuem representacao semantica e sao realizados intencionalmente durante a comunicacao. Ja os gestos inconscientes sao realizados de forma
nao intencional.
A Linguagem de Sinais (LS) (LEWIS; SIMONS; FENNIG, 2014) e formada pelo
conjunto de gestos conscientes e tem como base a utilizacao de gestos, sinais, expressoes
faciais e/ou corporais para que pessoas surdas ou com problemas de audicao possam se
comunicar. Assim como o idioma, a LS tambem e especfica de cada pas, sendo a do
Brasil a Lngua Brasileira de Sinais (LIBRAS).
Os sinais sao diferentes dos gestos. Enquanto o sinal tem seu significado representado atraves de smbolos, sem movimentacao de partes do corpo, os gestos consideram o
aspecto temporal, sendo assim representados atraves de movimentos de partes do corpo.
Assim, um u
nico gesto e composto de uma sequencia de sinais (poses) durante um intervalo de tempo. Estes sinais e gestos podem ser usados para desenvolver sistemas capazes
de reconhecer um movimento ou pose e traduzir este em um comando que executa alguma
acao.
A utilizacao de gestos na construcao de sistemas computacionais tem crescido consideravelmente. Para desenvolver tais sistemas e necessario inicialmente entender as caractersticas dos gestos, suas limitacoes e como eles podem ser representados. Estes sistemas
1
INTRODUC
AO
INTRODUC
AO
no espaco geometrico 3D. O objetivo e tornar esta curva invariante `a posicao e orientacao
do usuario no ambiente. Esta invariancia e fundamental nos sistemas de reconhecimento
de gestos, uma vez que os fatores fsicos do usuario, bem como da realizacao do gesto
podem influenciar no resultado da classificacao.
Este projeto foi proposto considerando as recentes pesquisas em sistemas de reconhecimento de gestos e a diversidade de areas onde podem ser aplicados, como Medica,
Entretenimento ou ate mesmo em Casas Inteligentes. O projeto visa fortalecer a pesquisa na area de VC, bem como incentivar o desenvolvimento de projetos cientficos para
utilizacao nas areas de sa
ude, educacao e comunicacao.
Este trabalho esta dividido em cinco captulos. O captulo 1 descreve o contexto do
projeto, motivacao e desafios, bem como uma breve descricao do projeto proposto. O
captulo 2 mostra os principais conceitos envolvidos no projeto, descrevendo aspectos
tecnicos e teoricos que ajudarao no processo de desenvolvimento do projeto. Uma revisao
de abordagens para reconhecimento de gestos e descrita no captulo 3, mostrando os algoritmos mais utilizados e os aspectos positivos e negativos de cada metodo. A metodologia
para desenvolvimento do projeto e apresentada no captulo 4, demonstrando uma arquitetura de um sistema de reconhecimento de gesto e todas as etapas que serao necessarias
para desenvolver e concluir o projeto no prazo estabelecido. Por fim, o captulo 5 conclui o trabalho fazendo uma revisao do que foi apresentado e as consideracoes finais em
relacao ao projeto proposto.
Captulo
2
Este captulo tem como objetivo descrever conceitos e informac
oes que ser
ao utilizadas como base para
entendimento e desenvolvimento do projeto.
TEORICA
FUNDAMENTAC
AO
O problema de reconhecimento de gestos requer o entendimento de aspectos basicos sobre
gestos e suas categorias, dos conceitos relacionados a uma arquitetura basica de sistema
de reconhecimento e sua complexidade de desenvolvimento. Alem disso, e necessario
conhecer formas de representar um gesto e os aspectos positivos e negativos de cada
representacao.
necessario tambem entender como os sensores RGB-D funcionam e como eles poE
preciso conhecer algumas
dem ser usados nos sistemas de reconhecimento de gestos. E
vantagens e desvantagens da utilizacao de cameras RGB e de sensores de profundidade,
bem como algumas das principais diferencas entre as tecnicas baseadas em contato e
visao, que sao usadas para desenvolver tais sistemas.
Uma vez que o projeto lida com a modelagem geometrica dos gestos usando curvas,
entao e necessario entender conceitos relacionados a curvas e algumas de suas propriedades. Alem disso, e preciso conhecer como funcionam metodos para deteccao, rastreamento
da mao e reconhecimento de gestos.
Assim, todos os assuntos mencionados acima sao abordados neste captulo. O objetivo
e ter uma base solida dos conceitos e definicoes que serao utilizados para entender e
desenvolver o projeto proposto.
2.1
GESTOS
TEORICA
FUNDAMENTAC
AO
pose que se mantem na mesma posicao e orientacao, sem movimentacao por um perodo
de tempo (HASAN; KAREEM, 2012). Ja os gestos dinamicos sao definidos por uma
sequencia contnua de poses estaticas em um intervalo de tempo (HASAN; KAREEM,
2012). Cada pose pi e associada a um instante ti neste intervalo.
P = {p(t1 ), p(t2 ), ..., p(tn )}
Os gestos dinamicos sao classificados como conscientes ou inconscientes (HASAN;
KAREEM, 2012), onde o primeiro indica a transmissao da informacao de forma proposital, enquanto o segundo e a realizacao de gestos de forma espontanea (categorizados
como adaptadores). Podemos ainda classificar os gestos conscientes em emblematicos,
que sao traducoes diretas de comunicacoes verbais curtas (por exemplo, o acenar a mao),
reguladores que sao usados na interacao por gestos, ilustradores que sao usados para
enfatizar pontos-chaves em um dialogo, e os emocionais que representam declaracoes de
afeto (HASAN; KAREEM, 2012).
A figura adaptada de Hasan e Kareem (2012) mostra uma visao geral da categorizacao
dos gestos logo abaixo.
GEOMETRICA
2.2 REPRESENTAC
AO
DE GESTOS
com computadores de forma intuitiva (HASAN; KAREEM, 2012). Para realizar esta
interacao, e necessario definir como os gestos podem ser representados pelo movimento
da mao.
2.2
GEOMETRICA
REPRESENTAC
AO
DE GESTOS
A representacao de um gesto pode ser definida como uma abstracao dos movimentos
das partes do corpo humano (HASAN; KAREEM, 2012). Neste sentido, a escolha da
melhor representacao do gesto deve ser levada em consideracao no desenvolvimento de
uma abordagem para reconhecimento de gestos. Segundo Suarez e Murphy (2012) e
Hasan e Kareem (2012), as representacoes baseadas em aparencia e em modelos 3D sao
consideradas as principais categorias de representacao de gestos. As figuras 2.2a e 2.2b
mostram exemplos destas categorias.
(a)
(b)
Figura 2.2: A figura 2.2a de Schroder et al. (2012) mostra uma luva colorida e a 2.2b de
Oikonomidis, Kyriazis e Argyros (2011) um modelo 3D da mao usado para rastrear os
movimentos da mao. Ambas as abordagens sao usadas para representar gestos usando
modelos 3D e aparencia, respectivamente.
Os modelos baseados em aparencia tem como principal premissa captar informacoes
de cor e de movimento (ZABULIS; BALTZAKIS; ARGYROS, 2009). Segundo Zabulis, Baltzakis e Argyros (2009), as duas principais categorias de metodos usados para
representar gestos baseados em aparencia sao: modelos estaticos 2D e movimento. Os
modelos estaticos 2D normalmente se baseiam na analise de cor, silhueta e movimento.
A analise de cor utiliza marcadores para rastrear o movimento, como a luva ilustrada na
figura 2.2a. Ja a analise de silhueta avalia as propriedades geometricas da silhueta, tais
como permetro, superfcie, retangularidade, orientacao e centroide. Por fim, a analise de
movimento avalia o deslocamento dos objetos em sequencias de imagens.
Ao contrario das abordagens baseadas em aparencia, que lidam com informacao vi-
TEORICA
FUNDAMENTAC
AO
CURVAS
Uma curva pode ser representada atraves de tres formas fundamentais: explcita, implcita
ou parametrica. A forma explcita e definida por funcoes de variaveis y e z, que sao
dependentes de x (para 3D), sendo representadas por duas equacoes:
f (x) = y
(.)
g(x) = z
(.)
Esta representacao explcita nao e considerada adequada para as curvas fechadas, pois
so existe um u
nico valor de y para cada valor de x (o mesmo vale para z). Alem disso,
representar uma curva rotacionada requer a divisao da mesma em varios segmentos, sendo
assim uma representacao pouco utilizada.
Ja as representacoes implcitas modelam curvas como solucoes de equacoes seguindo a
forma da equacao .. Esta representacao implcita de curvas possui algumas limitacoes,
especialmente quando queremos saber se a direcao das tangentes dos segmentos estao
2.3 CURVAS
corretas nos pontos de encontro. A tabela 2.1 mostra algumas das desvantagens desta
representacao.
f (x, y, z) = 0
(.)
Uma vez que os elementos dependem dos eixos, e necessario definir um sistema de
coordenadas que garanta as propriedades das representacoes implcitas e explcitas. Estas
representacoes possuem a vantagem de detectar eficientemente se um ponto pertence a
uma dada curva, ou ate mesmo verificar em que lado da curva um ponto esta localizado
(HUGHES et al., 2013). No entanto, estas representacoes nao sao adequadas para o nosso
problema, uma vez que queremos encontrar uma forma eficiente de representar uma curva
com base nos pontos obtidos pelo rastreamento da mao, sendo assim pouco interessante
utilizar representacoes implcitas ou explcitas.
Ja a representacao parametrica expressa o valor das variaveis x, y e z em funcao
de uma variavel independente t, que e comumente chamada de parametro. Esta representacao e independente do sistema de coordenadas e possui 3 funcoes explcitas em um
sistema 3D:
(.)
Cada ponto da curva p(t) = [x(t), y(t), z(t)] pode ser representado como uma funcao
vetorial em funcao da variacao do parametro t entre 0 e 1. De forma geral, dados dois
pontos p1 e p2 , uma interpolacao linear e definida por uma funcao:
(.)
TEORICA
FUNDAMENTAC
AO
10
Desvantagens
Explcita
Implcita
Infinitos declives sao Difceis de juntar e
impossveis se f (x) e manipular formas liuma polinomial
vremente
Eixos
dependentes
(difcil de transformar)
Curvas fechadas e
multi-valoradas
sao
difceis de representar
Tabela 2.1:
Desvantagens
rametrica.(FORREST, 1971)
Explcita
Facil de acompanhar
Param
etrica
Alta
flexibilidade
complica interseccoes
e classificacao de
pontos
Eixos dependentes
Acompanhamento dos
pontos da curva complexo
das
representacoes
implcita,
Vantagens
Implcita
Curvas
fechadas,
multi-valoradas e infinitos declives podem
ser representados
Classificacao
de
pontos
(modelando
solidos, checagem de
interferencia) menos
complexa
Interseccoes e deslocamentos podem ser representados
Tabela 2.2:
Vantagens das
rametricas.(FORREST, 1971)
representacoes
explcita
pa-
pa-
Param
etrica
Curvas
fechadas,
multi-valoradas e infinitos declives podem
ser representados
Eixos independentes
(facil de transformar)
Menor complexidade
de composicao de curvas
Facil de rastrear
Facil de juntar e manipular formas livremente
implcitas,
explcitas
11
2.3 CURVAS
Curva de B
ezier
n
X
n
k=0
xnk y k x
(.)
n
X
i=0
n i
i
x (1 x)ni
i
(.)
12
TEORICA
FUNDAMENTAC
AO
(.)
(.)
(.)
Quanto maior for o grau da curva de Bezier, maior sera o custo de avaliacao. Esta
proporcionalidade pode ser revertida atraves da composicao de curvas de Bezier mais
simples, fazendo com que o u
ltimo ponto de um segmento coincida com o primeiro ponto
de outro segmento. Assim, uma vez que o primeiro e u
ltimo ponto de uma curva de Bezier
sao interpolados (uma de suas propriedades), o resultado e a continuidade em C 0 , que
2.3 CURVAS
13
pode ser suavizada atraves da analise de seus pontos vizinhos, ou seja, dos posteriores e
anteriores aos pontos de juncao.
Logo abaixo sao descritas algumas propriedades importantes das curvas de Bezier que
devem ser levadas em consideracao no processo de escolha da melhor representacao de
curva a ser usada.
Invari
ancia sobre transformaco
es afins no espaco param
etrico - propriedade
que define que a transicao do intervalo [0, 1] para o intervalo [a, b] e um mapeamento
afim.
Envolt
oria Convexa (convex hull) - define que todos os pontos gerados pelas
interpolacoes estao dentro da poligonal de controle, ou seja para quaisquer dois
pontos contidos no conjunto, a linha reta que conecta eles tambem esta contida no
conjunto.
Simetria - construir a curva iniciando em ambos os pontos finais geram o mesmo
resultado.
Interpolac
ao dos pontos finais - garante que a curva sempre passara pelos pontos
finais.
2.3.2
Curva Spline
Uma Spline e uma generalizacao das curvas de Bezier. Ela e definida por partes de uma
funcao polinomial que possui suavidade nos nos que conectam os segmentos, chamados
knots. Em virtude da simplicidade e facilidade de avaliacao, as Splines sao mais usadas em
computacao grafica, uma vez que possuem a capacidade de aproximar formas complexas
atraves do ajuste da curva. A figura 2.5 mostra um exemplo de curva Spline de ordem
c
ubica, construda atraves da interpolacao de sete segmentos.
TEORICA
FUNDAMENTAC
AO
14
Bezier Spline
Sim
Sim
Sim
Sim
Nao
Nao
Melhor Media
C 0 G0 C 2 G2
C 0 G0 C 2 G2
4
4
Tabela 2.3: Comparativo entre duas representacoes de curva: Bezier e Spline. (FOLEY
et al., 1994)
2.3.3
Curva B-Spline
As curvas B-spline sao constitudas de segmentos, sendo mais flexveis que as curvas de
Bezier. Uma curva B-Spline pode ser definida por:
o grau n de cada intervalo,
a sequencia de knots u1 , ..., uk , consistindo de K + 1 knots ui ui+1 ,
o polgono de controle d0 , ..., dL , com L = K n + 1.
Um ponto em uma curva B-Spline e denotado por d(u), com u [un1 , uKn+1 ].
Assim, dados m valores reais ti , chamados knots, com:
t0 t1 tm1
uma curva B-Spline de grau n e uma curva parametrica tal que:
S : [t0 , tm1 ] R2
e composta de uma combinacao linear de B-Splines basicas bi,n de grau n:
S(t) =
mn2
X
15
(.)
i=0
tj+n+1 t
t tj
bj,n1 (t) +
bj+1,n1 (t).
tj+n tj
tj+n+1 tj+1
(.)
Quando os knots sao equidistantes, a B-Spline e dita uniforme, caso contrario naouniforme. Se dois knots tj sao identicos, quaisquer formas indeterminadas 00 se considera
0. Alem disso, j + n + 1 nao pode exceder m 1, o que limita tanto j quanto n.
Quando lidamos com uma curva B-Spline, e conveniente considerar o conjunto de
segmentos da curva como uma u
nica curva. A maioria das propriedades das curvas BSpline podem ser entendidas considerando apenas um u
nico segmento. No entanto, um
segmento nao e descrito somente por um conjunto de pontos de controle. Isto aumenta
a complexidade de comparacao das trajetorias em sistemas de reconhecimento gestos,
uma vez que e necessario levar em consideracao outras informacoes alem dos pontos de
controle.
Alem de herdar todas as propriedades das curvas de Bezier, as curvas B-Spline possuem outras propriedades que as fazem ser uma representacao robusta na construcao de
sistemas de reconhecimento de gesto. Uma delas, chamada de controle pseudo-local, mostra que uma mudanca em um ponto de controle afeta apenas a regiao ao redor daquele
ponto. Alem desta, as curvas B-Spline possuem suavidade e continuidade, o que permite
que qualquer curva seja construda a partir da concatenacao de segmentos de curva, onde
cada segmento pode ser tratado como uma so unidade.
Uma outra propriedade importante das curvas B-Spline descreve que as coordenadas X e Y sao independentes, ou seja, cada uma tem suas representacoes parametricas
tratadas independentemente. Esta propriedade tambem se aplica a`s curvas de Bezier e
Spline.
2.4
TEORICA
FUNDAMENTAC
AO
16
Sensores RGB-D
Um sensor e um dispositivo que responde a um estmulo fsico/qumico de maneira especfica e mensuravel. Os sensores RGB-D captam de uma cena tanto informacao visual
(RGB), quanto geometrica (D). A informacao visual e obtida atraves de uma camera que
capta estmulos oticos (Photons) e converte estas quantidades fsicas em informacoes que
podem ser lidas por um dispositivo. Ja a informacao geometrica e obtida atraves de um
emissor de luz infravermelho que projeta uma matriz densa nao uniforme de pontos sobre
uma cena e capta estes pontos atraves de uma camera. Uma vez que o espacamento entre
os pontos e diferente e o padrao e conhecido, os processadores da camera comparam o
espacamento medido na imagem do infravermelho em relacao aos valores de referencia
conhecidos e entao calcula a distancia de cada pixel na cena. O resultado e uma nuvem
de pontos que representa um mapa com as distancias dos objetos da cena ao sensor. A
figura 2.6 mostra um exemplo de um sensor RGB-D e seus componentes.
17
Figura 2.6: Sensor RGB-D composto de um emissor infravermelho, sensor de cor, sensor
de profundidade do infravermelho, motor de ajuste e microfones.(MICROSOFT, 2015)
Estes sensores sao efetivos em ambientes com mudancas de iluminacao, pois estas
mudancas a priori nao afetam o resultado obtido (SHAO et al., 2013). No entanto, alguns
sensores possuem algumas limitacoes em relacao a obtencao da informacao geometrica
(por exemplo, o alcance efetivo do sensor Kinect e de aproximadamente 4 metros). Alem
disso, quando a luz solar e intensa, o sensor pode nao funcionar adequadamente, pois
o excesso de luz abafa o padrao de pontos projetados pelo infravermelho (BERMAN;
STERN, 2012).
Ao contrario dos sensores de profundidade, que sao considerados invariantes a mudancas de iluminacao, os sensores RGB nao lidam muito bem com estas mudancas (HASAN; KAREEM, 2012). Isto porque os sensores oticos dependem diretamente da informacao luminosa, e obter informacao de ambientes que possuem um baixo nvel de
iluminacao e uma tarefa difcil.
Existem ainda outros tipos de sensores, como as cameras estereos e sensores de escaneamento (BERMAN; STERN, 2012). Os sensores estereos captam a informacao visual
utilizando duas cameras ou uma u
nica camera com duas lentes. Apesar deste tipo de
sensor poder ser usado para obter informacao 3D de uma cena, ele nao lida de forma
eficiente a oclusoes e padroes repetitivos (ZHU et al., 2011). Ja os baseados em escaneamento utilizam o Tempo de Voo (Time of Flight - ToF do ingles) de um sinal emitido
para obter um mapa de profundidade. Estes sensores baseados em escaneamento sao
caros e limitados a velocidade de escaneamento e resolucao (BERMAN; STERN, 2012).
Berman e Stern (2012) fizeram uma analise da taxonomia dos sensores focando no
contexto de uso, plataforma operacional e estmulos. O estudo teve como objetivo identificar os requisitos dos sensores e fornecer subsdios para o desenvolvimento de sensores
mais sofisticados e inteligentes. A ideia e facilitar o desenvolvimento de sistemas de reconhecimento de gestos atraves da resolucao de problemas comuns, como monitoramento
3D, prevencao de oclusao, padroes repetitivos, baixa resolucao e mudancas de iluminacao.
Neste contexto, os sensores de profundidade sao os mais indicados por serem invariantes
a mudancas de iluminacao.
O Kinect e o PrimeSense3D sao sensores RGB-D que podem ser utilizados na cons-
TEORICA
FUNDAMENTAC
AO
18
Detecc
ao
http://www.primesense.com
http://www.microsoft.com/en-us/kinectforwindows/
3
http://www.openni.org/.
4
http://openkinect.org/.
2
19
o modelo gerado pelo treinamento para detectar a presenca de um objeto (por exemplo,
a mao) em uma imagem.
Existem ainda as abordagens que usam modelos 3D para detectar e segmentar a mao
(SHARP et al., 2015)(KILIBOZ; GUDUKBAY, 2015)(SCHRODER et al., 2014)(OIKONOMIDIS; KYRIAZIS; ARGYROS, 2011)(STENGER et al., 2006). Estas abordagens
podem detectar a presenca da mao independente do ponto de visao (ZABULIS; BALTZAKIS; ARGYROS, 2009). Os modelos 3D usados para detectar as maos devem ter graus
de liberdade suficientes para se adaptar a`s dimensoes das maos (ZABULIS; BALTZAKIS;
ARGYROS, 2009).
A deteccao nao se limita somente a estas abordagens, no entanto apenas algumas
foram destacadas neste projeto. O artigo proposto por Zabulis, Baltzakis e Argyros (2009)
faz uma analise mais detalhada de metodos para deteccao e segmentacao de regioes de
interesse.
2.4.3
Rastreamento
Figura 2.7: Gesto composto por uma sequencia de 6 quadros. Cada quadro representa a
deteccao da posicao pi em um dado momento ti .(IBANEZ et al., 2014)
Este tipo de rastreamento ilustrado acima normalmente e realizado usando um sensor
de profundidade, que capta uma nuvem de pontos representando o ambiente em 3D.
No entanto, e possvel rastrear o movimento da mao considerando apenas sequencias de
imagens 2D (YUAN; SCLAROFF; ATHITSOS, 2005), porem neste caso os gestos sao
limitados a uma representacao espacial no plano 2D.
As figuras 2.8a e 2.8b sao exemplos de gestos que foram capturados atraves da
adaptacao do algoritmo (FALAHATI, 2013) que e disponibilizado com o OpenNI5 . O
algoritmo detecta a posicao da mao do usuario atraves da realizacao de um gesto basico
(oscilacao da mao), e a partir dele rastreia o deslocamento da mao salvando as posicoes
em cada quadro.
5
http://www.openni.org/.
TEORICA
FUNDAMENTAC
AO
20
(a) Bem-Vindo
(b) Cancelar
Figura 2.8: Gestos da Lingua Brasileira de Sinais capturados utilizando o sensor Kinect
e um codigo do OpenNI modificado.
Reconhecimento
2.4.5
21
T
ecnicas Baseadas em Contato
Existem diversas abordagens que utilizam tecnicas baseadas em contato (KIM et al.,
2012a). Estas tecnicas utilizam dispositivos para captar as informacoes do ambiente
atraves do contato com algum dispositivo (por exemplo, luva). A figura 2.9 mostra um
exemplo de um dispositivo utilizado para reconhecer gestos utilizando tecnica baseada em
contato, onde o usuario utiliza uma luva com sensores para captar a posicao e orientacao
da mao (LIN; VILLALBA, 2014).
Figura 2.9: Luva utilizada para captar a posicao e orientacao da mao. (LIN; VILLALBA,
2014)
Uma das principais vantagens das tecnicas baseadas em contato e que captam a informacao do ambiente sem interferencia externa, diminuindo a inclusao de rudo nos
dados de entrada (KIM et al., 2012a). O problema da insercao de rudo do ambiente
nas informacoes que sao usadas no desenvolvimento dos sistemas de reconhecimento de
gestos podem aumentar a quantidade de falsos positivos (classificacao incorreta de um
gesto) em virtude da inconsistencia dos dados (RAUTARAY; AGRAWAL, 2012). Alem
disso, o rudo tambem aumenta a complexidade de desenvolvimento, uma vez que torna
necessaria a adicao de etapas de pre-processamento mais complexas e sofisticadas para
melhorar a qualidade dos dados de entrada (RAUTARAY; AGRAWAL, 2012).
Estas abordagens baseadas em contato nao sao consideradas adequadas aos sistemas
de reconhecimento de gestos intuitivos, uma vez que necessitam que os usuarios tenham
uma certa familiaridade com a sua utilizacao (HASAN; KAREEM, 2012). Alem disso, o
usuario pode ficar dependente de dispositivos, como bateria ou fios, o que e inadequado
a estes sistemas.
2.4.6
T
ecnicas Baseadas em Vis
ao
22
TEORICA
FUNDAMENTAC
AO
2.5 ALGORITMOS E METODOS
PARA SISTEMAS DE RECONHECIMENTO
23
ALGORITMOS E METODOS
PARA SISTEMAS DE RECONHECIMENTO
Um dos principais requisitos usados para reconhecer gestos e a trajetoria descrita pelo
acompanhamento da mao. Este acompanhamento fornece uma representacao espacial
geometrica 3D do gesto. Assim, e necessario escolher um ou mais metodos para reconhecer
o gesto de acordo com as caractersticas da trajetoria.
Os metodos baseados em template sao usados para encontrar pequenas partes de uma
imagem que correspondem a uma outra (CAMGoZ; KINDIROGLU; AKARUN, 2015).
Esta abordagem pode ser utilizada quando se tem muita informacao (por exemplo, alta
resolucao da imagem). Ela reduz o espaco de busca e lida com variacao de iluminacao,
uma vez que foca na busca das melhores regioes para realizar as operacoes de correspondencia.
Um dos metodos mais utilizados para reconhecimento de gestos e o Hidden Markov
Model - (HMM) (RABINER, 1990). HMM e um modelo estatstico de Markov para
modelagem de processos com estados nao observaveis (escondidos). O termo escondido
se refere a sequencia de estados En = {e1 , e2 , e3 , ..., en1 } atraves do qual o modelo passa.
A escolha do proximo estado de transicao En+1 se baseia na distribuicao de probabilidade
dos possveis estados. Este metodo e muito utilizado em aplicacoes de reconhecimento de
padroes temporal, principalmente reconhecimento de gestos, onde a trajetoria e modelada
como uma sequencia de estados (GHARASUIE; SEYEDARABI, 2013).
Ao contrario do HMM, o Finite State Machine (FSM) (BRAND; ZAFIROPULO,
1983) e um modelo representado por um conjunto finito de estados. Estes estados sao
conhecidos e a transicao entre eles e realizada de acordo com condicoes ou eventos que
sao disparados por algum processo. Essencialmente, o FSM representa uma maquina
de estados e pode ser facilmente implementada, possuindo predicao eficiente com baixa
sobrecarga do processador. Este metodo pode ser aplicado para representar o gesto como
uma sequencia de estados (posicoes da mao), onde a transicao dos estados seria realizada
atraves da movimentacao da mao (evento).
O algoritmo Dynamic Time Warping (DTW) (KEOGH; RATANAMAHATANA, 2005)
e utilizado para alinhar e comparar duas sequencias que variam de acordo com o tempo,
sendo bastante utilizado para reconhecer gestos. Uma serie temporal e uma sequencia
ordenada de valores medidos em intervalos de espacos iguais (posicoes da mao). Este
algoritmo possui a vantagem de ser invariante sobre o n
umero de amostragens. Por
exemplo, um gesto realizado por uma pessoa pode ser comparado a um outro gesto que
foi realizado mais rapidamente por outra pessoa. Neste caso, a sequencia a ser alinhada e
comparada seria as posicoes da mao detectadas durante o intervalo de tempo. Qualquer
dado que possa ser transformado em uma sequencia linear pode ser analisado pelo DTW
(BODIROZA; DOISY; HAFNER, 2013).
Um outro algoritmo de alinhamento e comparacao de gestos e o Iterative Closest Point
(ICP) (RUSINKIEWICZ; LEVOY, 2001a). Ele tem como objetivo principal minimizar a
diferenca entre duas nuvens de pontos, fixando uma nuvem enquanto a outra e deslocada
24
TEORICA
FUNDAMENTAC
AO
Figura 2.10: Caso linear, onde um conjunto de amostras e separada no lado esquerdo e
direito, e o fundo representa a linha de separacao. (BURGES, 1998a)
Uma rede neural tpica e uma Rede de Retropropagacao que aprendeajustando as
interconexoes entre as camadas (HASAN; ABDUL-KAREEM, 2014). O resultado da
rede e iterativamente comparado para ajustar os pesos com o objetivo de aumentar a
quantidade de respostas corretas. Uma Probabilistic Neural Network (PNN) (SPECHT,
1990) e em essencia uma rede neural formada por uma camada de entrada, um conjunto
de camadas escondidas, e uma camada de sada. A camada de entrada recebe valores com
pesos aplicados e repassam para a camada escondida, que e composta de um conjunto
de neuronios. As camadas escondidas calculam um vetor de probabilidades a partir de
funcoes que propagam o resultado de um neuronio para outro (mais conhecidas por funcao
de ativacao). A entrada e avaliada na u
ltima camada da rede a partir da classificacao
positiva ou negativa, baseando-se nas probabilidades maximas calculadas nas camadas
escondidas. Normalmente se utiliza uma camada escondida, uma vez que quantidades
maiores nao melhoram a taxa de acerto (SPECHT, 1990).
Filtros de Partculas (MORAL, 1996) sao usados para estimar os estados internos
em sistemas dinamicos, quando observacoes parciais sao feitas. O conjunto de partculas
(tambem chamadas de amostras) sao usadas para representar a distribuicao posterior
de processos estocasticos dados alguns rudos e/ou observacoes parciais. Cada partcula
2.6 CONCLUSAO
25
CONCLUSAO
26
TEORICA
FUNDAMENTAC
AO
e negativos de cada abordagem. Estas sao importantes para entender quais as vantagens
e desvantagens de cada metodo e como eles podem ser combinados para melhorar os
resultados do reconhecimento dos gestos.
Captulo
3
Este captulo tem como objetivo descrever abordagens para rastreamento e reconhecimento de gestos da
m
ao.
TRABALHOS RELACIONADOS
Existem muitas abordagens para reconhecimento de gesto e rastreamento da mao, tanto
em 2D, quanto 3D. Enquanto as abordagens de rastreamento normalmente sao baseadas
em modelos 3D, o reconhecimento de gesto tem como base a representacao do movimento
descrito pela mao no espaco 3D.
Considerando a ampla diversidade de abordagens propostas, este captulo tem como
objetivo mostrar alguns modelos propostos tanto para rastreamento, quanto para reconhecimento de gestos da mao. Na secao 3.1 sao descritas algumas abordagens focando nos
metodos aplicados para rastrear a mao. Ja na secao 3.2, um conjunto de artigos sao apresentados com suas respectivas abordagens propostas para reconhecer gestos. Finalmente,
na secao 3.3 sao abordadas as consideracoes do captulo.
3.1
RASTREAMENTO DA MAO
28
TRABALHOS RELACIONADOS
exemplo, (SCHRODER
et al., 2013) propos um metodo onde a articulacao e estimada
encontrando a pose e os parametros de postura que minimizam o erro entre o espaco de
pontos e a superfcie do modelo usando cinematica inversa. O metodo busca a deformacao
do modelo da mao que mais se aproxima do estado observado da mao do usuario. A mao
e representada por uma malha de triangulos deformada de acordo com a articulacao das
juntas definidas no modelo cinematico. A deformacao e realizada utilizando o metodo
Linear Blend Skinning (LBS), que gera uma deformacao suave da malha poligonal calculando as deformacoes dos vertices como uma soma de transformacoes das m
ultiplas
juntas.
Schroder e Botsch (2014) desenvolveram uma abordagem que utiliza um modelo cinematico da mao que e controlado por 20 angulos. O modelo e composto de segmentos
em forma de capsulas, que sao deformados de acordo com as articulacoes das juntas. O
alinhamento do modelo a` mao e realizado utilizando o metodo ICP com um algoritmo
de cinematica inversa. Para lidar com o rastreamento de todos os graus de liberdade, o
espaco de possveis posturas e reduzido utilizando um PCA adaptativo que e automaticamente modificado para considerar posturas observadas que nao podem ser representadas
dentro do subespaco inicial do PCA. Este PCA adaptativo permite realizar refinamentos
locais na postura sem perder a coerencia temporal. Alem disso, ele tambem pode ser
utilizado para gerar um modelo sinergico a partir do zero.
Uma outra abordagem para rastreamento das articulacoes da mao baseada em modelo
3D utiliza uma variacao do algoritmo Particle Swarm Optimization (PSO) para encontrar
os melhores parametros que minimizam o erro da diferenca da pose real e do modelo 3D
(OIKONOMIDIS; KYRIAZIS; ARGYROS, 2011). A abordagem utiliza um Kinect para
obter a informacao visual da cena. Ao contrario da abordagem citada anteriormente, esta
utiliza formas geometricas coloridas e simples (esferas, cones) para compor o modelo 3D
da mao. A abordagem foi avaliada considerando tanto a variacao dos parametros do PSO
(n
umero de geracoes e partculas por geracoes), quanto o efeito da variacao da distancia
do modelo ate o sensor. O metodo se mostrou robusto em ambos os casos, conseguindo
obter resultados positivos a uma distancia media de 2.5m.
Qian et al. (2014) propos uma abordagem que utiliza um modelo 3D composto de 48
29
esferas. O modelo e alinhado a` mao utilizando o metodo Iterated Closest Point (ICP)
em conjunto com o metodo Particle Swarm Optimization (PSO). A abordagem ICP-PSO
consegue lidar com a grande quantidade de mnimos locais que sao gerados em funcao da
amostragem esparsa da nuvem de pontos. A otimizacao ICP-PSO e um modelo hbrido
que explora a busca rapida de locais otimos (ICP) e de parametros efetivos (PSO). A ideia
fundamental e que cada partcula tem um ICP adicional antes do movimento aleatorio das
partculas em cada geracao PSO. Deste modo, cada partcula se move mais rapidamente,
minimizando o custo de forma mais eficaz como no ICP.
Alem das abordagens citadas, existem outras que podem ser usadas para rastreamento
da mao e que sao baseadas em sensores de profundidade (KESKIN et al., 2011)(SHOTTON et al., 2013)(STENGER et al., 2006). Dentre estas, existem algumas que utilizam
luvas coloridas e que sao baseadas em padroes de cores obtidos atraves de cameras RGB
(WANG; POPOVIc, 2009)(SCHRODER et al., 2012). Assim, e fundamental desenvolver
ou utilizar um modelo que seja invariante a iluminacao e que possa ser executado em
tempo real. A escolha deve levar em consideracao diversos fatores como desempenho,
invariancia, robustez a oclusoes, e ate mesmo o desempenho do proprio sensor.
3.2
RECONHECIMENTO DE GESTOS
30
TRABALHOS RELACIONADOS
31
32
TRABALHOS RELACIONADOS
ficacao do gesto, somente estas nao garantem que o gesto seja corretamente classificado,
uma vez que detalhes mais finos podem passar despercebidos. Como distancias Euclidianas necessitam que as trajetorias a serem comparadas tenham o mesmo comprimento,
a menor trajetoria e reamostrada para igualar a` outra. Uma das vantagens da utilizacao
de DTW e que duas trajetorias podem ser comparadas mesmo que seus comprimentos
sejam diferentes. Assim, o gesto e classificado atraves do calculo da similaridade do gesto
baseado em um limiar.
3.3
CONCLUSAO
Gestos similares podem ser realizados por diferentes pessoas em diferentes localizacoes
e/ou orientacoes, dependendo da posicao global da pessoa. A normalizacao das trajetorias
comparadas nao melhora significativamente a taxa de sucesso, uma vez que elas produzem
uma alta quantidade de falsos positivos. A distancia Euclidiana e um metodo rapido em
qualquer caso, mas ela nao e robusta sobre rudo. O uso de uma funcao de curvatura
adaptativa para extrair os pontos chaves reduzem o rudo e melhorando a performance
de todas as funcoes de distancia, mais especialmente de distancia Euclidiana e DTW, que
sao mais sensveis.
Como demonstrado neste captulo, existem muitas abordagens para reconhecimento
de gestos e rastreamento da mao. As abordagens de rastreamento normalmente se diferenciam em funcao do modelo (forma geometrica da mao) utilizado e do metodo para
deformar o modelo de acordo com os parametros calculados em cada quadro. Ja as abordagens para reconhecimento de gestos se diferenciam no metodo aplicado para treinamento e classificacao, alem da forma como o gesto e representado. Este captulo mostrou
apenas algumas abordagens propostas que tratam dos problemas de oclusao, invariancia
de posicao e de aspectos fsicos, bem como do reconhecimento contnuo de gestos. Mais
detalhes podem ser encontrados nas referencias citadas.
Os metodos HMM e DTW sao amplamente utilizados em conjunto com FSM. Assim,
o objetivo deste projeto e tambem utilizar estes metodos no processo de treinamento e
classificacao dos gestos, fazendo uma analise comparativa do desempenho do HMM e
DTW, alem de outros usados na literatura para avaliar o reconhecimento com o descritor
de movimento que sera desenvolvido.
O proximo captulo descreve a proposta metodologica do projeto, descrevendo em
mais detalhes como o projeto sera desenvolvido e quais tecnologias serao utilizadas.
Captulo
4
Este captulo tem como objetivo descrever a metodologia que ser
a seguida para desenvolver o projeto
proposto.
METODOLOGIA
Este projeto foi dividido em etapas para garantir que a pesquisa e desenvolvimento sejam
realizados da melhor forma possvel. Assim, ele foi dividido em:
Revisao bibliografica da area de reconhecimento de gestos, abrangendo descritores
de curvas, representacoes geometricas, sensores RGB-D e classificacao supervisionada.
Levantamento de um dataset com gestos capturados com um sensor RGB-D.
Analise e definicao do descritor de curva para o gesto.
Avaliacao de metodos para deteccao, rastreamento e reconhecimento de gestos.
Analise e definicao de tecnologias para reconhecimento de gestos.
Desenvolvimento e validacao dos modulos de deteccao, rastreamento e reconhecimento.
Integracao dos modulos e avaliacao do projeto.
Divulgacao dos resultados obtidos.
Inicialmente foi realizado um estudo teorico dos conte
udos abordados no captulo 2
e 3, nao limitando-se a eles, mais buscando novas abordagens e conceitos relacionados
ao reconhecimento de gestos da mao usando sensores RGB-D. O levantamento serviu
de base para compreender as principais caractersticas dos gestos, suas representacoes
geometricas e como eles podem ser reconhecidos por sistemas computacionais, mesmo
em ambientes desconhecidos, com pouca iluminacao ou com o gesto sendo realizado por
pessoas diferentes em localizacoes aleatorias.
33
34
METODOLOGIA
A primeira etapa de estudo foi vencida neste primeiro semestre, resultando no aprendizado que servira de base para o desenvolvimento do projeto. Em seguida sera necessario
selecionar um dataset que contenha gestos da Lingua Brasileira de Sinais capturados com
um sensor RGB-D. Caso nao exista nenhuma base disponvel, sera necessario criar uma
novo com gestos realizados por pessoas com aspectos fsicos diferentes, em posicoes e orientacoes diferentes, bem como em ambientes diversos. O objetivo e obter gestos dinamicos
e conscientes produzidos pelos membros superiores (sem deslocamento do torso), cujo
acompanhamento sera apenas a mao.
A proxima etapa sera a analise e definicao do descritor de curva que sera utilizado para
representar o gesto. Esta etapa e muito importante, pois a partir dela sera possvel obter
uma representacao que possa ser utilizada para comparar gestos de forma eficiente, alem
de garantir que gestos parecidos nao sejam confundidos por algum metodo de classificacao
que venha a ser utilizado. Esta etapa permitira descrever o gesto com uma representacao
geometrica no espaco tridimensional com suas principais caractersticas.
Uma vez que o descritor de curva foi definido, sera necessario realizar uma analise
dos metodos mais utilizados para deteccao, rastreamento e reconhecimento de gestos,
bem como para pre-processamento e extracao de caractersticas do movimento. A figura
4.1 ilustra uma arquitetura de um sistema de reconhecimento de gesto. O objetivo e
analisar e definir os melhores metodos para aplicar o descritor de curva definido e avaliar
o comportamento e taxa de reconhecimento dos gestos com base na arquitetura abaixo.
Esta avaliacao permitira saber se o descritor e robusto, mesmo utilizando um metodo
considerado simples para reconhecimento de gestos. No entanto, antes de desenvolver
e testar a abordagem, sera necessario definir as tecnologias que serao utilizadas para
desenvolver o projeto.
O estudo e analise para definir todo o ferramental necessario que sera utilizado no
desenvolvimento deste projeto tem como premissa utilizar dispositivos, softwares, frameworks e Software Development Kits (SDKs) que sejam de facil acesso aos estudantes e
pesquisadores. A ideia e possibilitar que o estudo possa ser continuado ou refeito por qualquer pessoa, sem que haja impeditivos. Ao final desta etapa, espera-se ter as tecnologias
definidas e o maximo de informacoes para iniciar a implementacao dos modulos.
A etapa seguinte sera a implementacao dos modulos de deteccao, rastreamento e
reconhecimento. Estes modulos serao desenvolvidos separadamente com o objetivo de
manter um fraco acoplamento entre os mesmos. A ideia e que os modulos possam ser
utilizados de forma independente na construcao de outros sistemas sem a necessidade de
modificacoes que afetem a estrutura ja definida.
Apos o desenvolvimento e validacao dos modulos, sera necessario realizar a integracao
destes. Nesta etapa, os modulos serao integrados e o projeto sera avaliado. A avaliacao
do modelo proposto sera realizada utilizando o dataset contendo o conjunto de gestos
que foram inicialmente obtidos e com um conjunto de pessoas selecionadas para testar e
avaliar o modelo atraves da realizacao de gestos em tempo real.
O modelo sera avaliado atraves da realizacao de gestos que foram treinados usando o
dataset criado/obtido. A avaliacao consistira na execucao de n testes que serao realizados
por pessoas selecionadas, em posicoes e orientacoes pre-definidas. A ideia e avaliar o
modelo proposto com base em diferentes metodos de treinamento e classificacao de gestos.
METODOLOGIA
35
Dentre os metodos que poderao ser avaliados, o Hidden Markov Model (HMM) e Dynamic
Time Warping (DTW) ja foram definidos durante os estudos iniciais do projeto.
Os resultados serao avaliados utilizando as metricas Precision, Reccall, Accurracy,
matriz de confusao e Receiver Operating Characteristic (ROC). A principal meta com o
desenvolvimento do projeto e ter um modelo que reconheca gestos em tempo real com uma
taxa acima de 90% de sucesso. Alem disso, espera-se obter um modelo flexvel que possa
ser utilizado no desenvolvimento de novas abordagens. Uma outra contribuicao esperada
com o desenvolvimento deste projeto, e a definicao de um novo descritor e modelo para
reconhecimento de gestos usando sensores de profundidade.
A etapa final do projeto sera a escrita dos artigos cientficos para divulgar os resultados
obtidos em congressos e revistas especializadas nas areas de Visao Computacional, IHC
e outros meios de divulgacao relacionados, demonstrando a eficacia do modelo proposto
e o potencial cientfico dos pesquisadores brasileiros da Bahia. Alem disso, a monografia
36
METODOLOGIA
tambem sera escrita utilizando todos os documentos gerados no processo de desenvolvimento do projeto. O foco sera dado aos resultados obtidos na etapa de experimentacao e
validacao do modelo proposto, bem como dos estudos realizados, permitindo uma analise
detalhada dos fatores que influenciaram os resultados do reconhecimento dos gestos.
4.1
CRONOGRAMA
Atividade
1 2
Analise e levantamento do dataset com gestos capturados com um sensor RGB-D X X
Analisar e definir o descritor da curva do gesto
X X
Avaliar metodos para deteccao, rastreamento e reconhecimento dos gestos
X X
Publicar resultados da avaliacao
Desenvolver e validar modulos de deteccao, rastreamento e reconhecimento
Integrar modulos e realizar experimentos
Avaliar resultados usando diferentes classificadores
Publicar resultados
Escrever e apresentar monografia
3 4
M
es
6 7 8 9
10
11 12
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
38
4.2
METODOLOGIA
CONCLUSAO
Captulo
5
Este captulo tem como objetivo fazer um resumo dos principais pontos apresentados no projeto e descrever as considerac
oes finais.
CONCLUSAO
Neste projeto foram apresentados os conceitos considerados mais importantes para desenvolvimento do projeto, englobando aspectos sobre gestos, curvas, representacoes de
gestos, sensores RGB-D e os metodos mais aplicados para rastreamento da mao e reconhecimento de gestos. O objetivo foi fazer um levantamento que servira de base para
melhor entendimento da area de reconhecimento de gestos e de outras relacionadas, alem
de definir como o projeto sera desenvolvido.
O projeto consiste em realizar um estudo para definir um descritor que sera usado
para representar a trajetoria do movimento realizado pelo gesto e desenvolver um sistema
capaz de reconhecer um conjunto finito de gestos da Lngua Brasileira de Sinais (LIBRAS)
produzidos pelos membros superiores (sem deslocamento do torso), cujo acompanhamento
sera apenas a mao. O objetivo e modelar a trajetoria do movimento como uma curva no
espaco geometrico 3D e torna-la invariante a` posicao e orientacao do usuario no ambiente.
Esta invariancia e fundamental nos sistemas de reconhecimento de gestos, uma vez que os
fatores fsicos do usuario, bem como da realizacao do gesto podem influenciar no resultado
da classificacao.
Este projeto lida somente com gestos dinamicos e conscientes, que sao aqueles que
consideram o aspecto temporal e possuem significados semanticos, respectivamente. Foi
definido que o projeto esta limitado a reconhecer uma quantidade finita de gestos. Alem
disso, outras partes do corpo sao ignoradas em funcao da complexidade de identificar um
gesto que utiliza m
ultiplas partes do corpo em paralelo e do limite de tempo disponvel
para realizacao do projeto. Logo, o objetivo deste projeto e focar somente na posicao
absoluta das maos no espaco 3D, desprezando por exemplo, expressoes faciais ou dedos.
A ideia e utilizar um sensor RGB-D para captar a informacao do ambiente. Este
sensor foi escolhido em funcao de suas caractersticas, como invariancia a iluminacao e
facilidade de obtencao da informacao geometrica 3D do ambiente, alem da combinacao de
informacoes visuais e geometricas. Caso nao exista nenhum dataset disponvel com gestos
de LIBRAS capturadas com um sensor de profundidade, entao sera necessario fazer um
39
40
CONCLUSAO
REFERENCIAS
BIBLIOGRAFICAS
ARULAMPALAM, M. et al. A tutorial on particle filters for online nonlinear/nongaussian bayesian tracking. Signal Processing, IEEE Transactions on, v. 50, n. 2, p.
174188, Feb 2002. ISSN 1053-587X.
BANDERA, J. et al. Fast gesture recognition based on a two-level representation. Pattern
Recognition Letters, v. 30, n. 13, p. 1181 1189, 2009. ISSN 0167-8655. Disponvel em:
hhttp://www.sciencedirect.com/science/article/pii/S0167865509001378i.
BARALDI, L. et al. Gesture recognition using wearable vision sensors to enhance visitors;
museum experiences. Sensors Journal, IEEE, v. 15, n. 5, p. 27052714, May 2015. ISSN
1530-437X.
BARKHODA, W.; TAB, F.; SHAHRYARI, O.-K. Fuzzy edge detection based on pixels
gradient and standard deviation values. In: Computer Science and Information Technology, 2009. IMCSIT 09. International Multiconference on. [S.l.: s.n.], 2009. p. 710.
BERMAN, S.; STERN, H. Sensors for Gesture Recognition Systems. IEEE Transactions
on Systems, Man, and Cybernetics, Part C (Applications and Reviews), v. 42, n. 3, p.
277290, may 2012. ISSN 1094-6977. Disponvel em: hhttp://ieeexplore.ieee.org/lpdocs/
epic03/wrapper.htm?arnumber=5976477i.
BISWAS, K.; BASU, S. Gesture recognition using microsoft kinect. In: Automation,
Robotics and Applications (ICARA), 2011 5th International Conference on. [S.l.: s.n.],
2011. p. 100103.
BODIROZA, S.; DOISY, G.; HAFNER, V. Position-invariant, real-time gesture recognition based on dynamic time warping. In: Human-Robot Interaction (HRI), 2013 8th
ACM/IEEE International Conference on. [S.l.: s.n.], 2013. p. 8788. ISSN 2167-2121.
BOOR, C. D. A Practical Guide to Splines. Springer-Verlag, 1978. (Applied Mathematical
Sciences, v. 27). ISBN 9783540903567. Disponvel em: hhttps://books.google.com.br/
books?id=mZMQAQAAIAAJi.
BRAGAGLIA, S.; MONTE, S. D.; MELLO, P. A distributed system using ms kinect
and event calculus for adaptive physiotherapist rehabilitation. In: Complex, Intelligent
and Software Intensive Systems (CISIS), 2014 Eighth International Conference on. [S.l.:
s.n.], 2014. p. 531538.
BRAND, D.; ZAFIROPULO, P. On communicating finite-state machines. J. ACM, ACM,
New York, NY, USA, v. 30, n. 2, p. 323342, apr 1983. ISSN 0004-5411. Disponvel em:
hhttp://doi.acm.org/10.1145/322374.322380i.
41
42
REFERENCIAS
BIBLIOGRAFICAS
BURGES, C. A tutorial on support vector machines for pattern recognition. Data Mining
and Knowledge Discovery, Kluwer Academic Publishers, v. 2, n. 2, p. 121167, 1998. ISSN
1384-5810. Disponvel em: hhttp://dx.doi.org/10.1023/A\%3A1009715923555i.
BURGES, C. J. C. A tutorial on support vector machines for pattern recognition. Data
Min. Knowl. Discov., Kluwer Academic Publishers, Hingham, MA, USA, v. 2, n. 2,
p. 121167, jun 1998. ISSN 1384-5810. Disponvel em: hhttp://dx.doi.org/10.1023/A:
1009715923555i.
Caglar, H.; Akansu, A. N. A generalized parametric PR-QMF design technique based on
Bernstein polynomial approximation. IEEE Trans. Signal Process., Institute of Electrical
and Electronics Engineers (IEEE), New York, NY, v. 41, n. 7, p. 23142321, 1993. ISSN
1053-587X.
CAMGoZ, N.; KINDIROGLU, A.; AKARUN, L. Gesture recognition using template
based random forest classifiers. In: AGAPITO, L.; BRONSTEIN, M. M.; ROTHER,
C. (Ed.). Computer Vision - ECCV 2014 Workshops. Springer International Publishing,
2015, (Lecture Notes in Computer Science, v. 8925). p. 579594. ISBN 978-3-319-16177-8.
Disponvel em: hhttp://dx.doi.org/10.1007/978-3-319-16178-5\ 41i.
CORRADINI, A. Dynamic time warping for off-line recognition of a small gesture vocabulary. In: Recognition, Analysis, and Tracking of Faces and Gestures in Real-Time
Systems, 2001. Proceedings. IEEE ICCV Workshop on. [S.l.: s.n.], 2001. p. 8289. ISSN
1530-1044.
DITTMAR, T.; KRULL, C.; HORTON, G. A new approach for touch gesture recognition: Conversive hidden non-markovian models. Journal of Computational Science,
2015. ISSN 1877-7503. Disponvel em: hhttp://www.sciencedirect.com/science/article/
pii/S1877750315000290i.
EICKELER, S.; KOSMALA, A.; RIGOLL, G. Hidden markov model based continuous
online gesture recognition. In: Pattern Recognition, 1998. Proceedings. Fourteenth International Conference on. [S.l.: s.n.], 1998. v. 2, p. 12061208 vol.2. ISSN 1051-4651.
EROL, A. et al. Vision-based hand pose estimation: A review. Computer Vision and
Image Understanding, v. 108, n. 1-2, p. 5273, oct 2007. ISSN 10773142. Disponvel em:
hhttp://linkinghub.elsevier.com/retrieve/pii/S1077314206002281i.
FALAHATI, S. OpenNI Cookbook. [S.l.]: Packt Publishing, 2013. ISBN 1849518467,
9781849518468.
FOLEY, J. D. et al. Introduction to Computer Graphics. Boston, MA, USA: AddisonWesley Longman Publishing Co., Inc., 1994. ISBN 0201609215.
FORREST, A. Computational Geometry. [s.n.], 1971. Disponvel em: hhttps://books.
google.com.br/books?id=bEJMmwEACAAJi.
REFERENCIAS
BIBLIOGRAFICAS
43
FRATI, V.; PRATTICHIZZO, D. Using kinect for hand tracking and rendering in wearable haptics. In: World Haptics Conference (WHC), 2011 IEEE. [S.l.: s.n.], 2011. p.
317321.
FREUND, Y.; SCHAPIRE, R. E. A decision-theoretic generalization of on-line learning
and an application to boosting. Journal of Computer and System Sciences, v. 55, n. 1,
p. 119 139, 1997. ISSN 0022-0000. Disponvel em: hhttp://www.sciencedirect.com/
science/article/pii/S002200009791504Xi.
GE, S. S.; YANG, Y.; LEE, T. H. Hand Gesture Recognition and Tracking based on
Distributed Locally Linear Embedding. n. ii, 2006.
GHARASUIE, M. M.; SEYEDARABI, H. Real-time dynamic hand gesture recognition
using hidden Markov models. 2013 8th Iranian Conference on Machine Vision and Image
Processing (MVIP), Ieee, p. 194199, sep 2013. Disponvel em: hhttp://ieeexplore.ieee.
org/lpdocs/epic03/wrapper.htm?arnumber=6779977i.
HAND, D. J. Measuring classifier performance: A coherent alternative to the area under
the roc curve. Mach. Learn., Kluwer Academic Publishers, Hingham, MA, USA, v. 77,
n. 1, p. 103123, out. 2009. ISSN 0885-6125. Disponvel em: hhttp://dx.doi.org/10.1007/
s10994-009-5119-5i.
HASAN, H.; ABDUL-KAREEM, S. Static hand gesture recognition using neural
networks. Artificial Intelligence Review, Springer Netherlands, v. 41, n. 2, p. 147181,
2014. ISSN 0269-2821. Disponvel em: hhttp://dx.doi.org/10.1007/s10462-011-9303-1i.
HASAN, H. S.; KAREEM, S. A. Human Computer Interaction for Vision Based Hand
Gesture Recognition: A Survey. 2012 International Conference on Advanced Computer
Science Applications and Technologies (ACSAT), Ieee, p. 5560, nov 2012. Disponvel
em: hhttp://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=6516326i.
HOLT, G. T.; REINDERS, M.; HENDRIKS, E. Multi-dimensional dynamic time warping
for gesture recognition. In: Thirteenth annual conference of the Advanced School for
Computing and Imaging. [S.l.: s.n.], 2007. v. 300.
HUGHES, J. et al. Computer Graphics: Principles and Practice. Addison-Wesley, 2013.
(The systems programming series). ISBN 9780321399526. Disponvel em: hhttps://books.
google.com.br/books?id=OVpsAQAAQBAJi.
IBANEZ, R. et al. Easy gesture recognition for kinect. Advances in Engineering Software,
v. 76, n. 0, p. 171 180, 2014. ISSN 0965-9978. Disponvel em: hhttp://www.sciencedirect.
com/science/article/pii/S0965997814001161i.
ISARD, M.; BLAKE, A. Condensation - conditional density propagation for visual tracking. International Journal of Computer Vision, v. 29, p. 528, 1998.
44
REFERENCIAS
BIBLIOGRAFICAS
JOLLIFFE, I. Principal Component Analysis. Springer, 2002. (Springer Series in Statistics). ISBN 9780387954424. Disponvel em: hhttps://books.google.com.br/books?id=\\
olByCrhjwICi.
KEOGH, E.; RATANAMAHATANA, C. A. Exact indexing of dynamic time warping.
Knowl. Inf. Syst., Springer-Verlag New York, Inc., New York, NY, USA, v. 7, n. 3,
p. 358386, mar 2005. ISSN 0219-1377. Disponvel em: hhttp://dx.doi.org/10.1007/
s10115-004-0154-9i.
KESKIN, C. et al. Real time hand pose estimation using depth sensors. In: Computer
Vision Workshops (ICCV Workshops), 2011 IEEE International Conference on. [S.l.:
s.n.], 2011. p. 12281234.
KILIBOZ, N. C.; GUDUKBAY, U. A hand gesture recognition technique for humancomputer interaction. Journal of Visual Communication and Image Representation,
v. 28, p. 97104, 2015. ISSN 1047-3203. Disponvel em: hhttp://www.sciencedirect.com/
science/article/pii/S104732031500022Xi.
KIM, D. et al. Digits: Freehand 3d interactions anywhere using a wrist-worn gloveless
sensor. In: Proceedings of the 25th Annual ACM Symposium on User Interface Software
and Technology. New York, NY, USA: ACM, 2012. (UIST 12), p. 167176. ISBN 978-14503-1580-7. Disponvel em: hhttp://doi.acm.org/10.1145/2380116.2380139i.
KIM, S. et al. Color and shape feature-based detection of speed sign in real-time. In:
Systems, Man, and Cybernetics (SMC), 2012 IEEE International Conference on. [S.l.:
s.n.], 2012. p. 663666.
KUNNATH, N.; LEE, S.-H. Meanshift segmentation guided spatially adaptive histogram equalization. In: PARK, J. J. J. H. et al. (Ed.). Computer Science and its Applications. Springer Berlin Heidelberg, 2015, (Lecture Notes in Electrical Engineering,
v. 330). p. 713718. ISBN 978-3-662-45401-5. Disponvel em: hhttp://dx.doi.org/10.1007/
978-3-662-45402-2\ 100i.
LEE, H.-K.; KIM, J. An hmm-based threshold model approach for gesture recognition.
Pattern Analysis and Machine Intelligence, IEEE Transactions on, v. 21, n. 10, p. 961
973, Oct 1999. ISSN 0162-8828.
LEWIS, M. P.; SIMONS, G. F.; FENNIG, C. D. Ethnologue: Languages of the World.
17th edition. [S.l.]: SIL International, 2014.
LIN, M.; VILLALBA, R. Sign language glove. 2014. Disponvel em: hhttp://people.ece.
cornell.edu/land/courses/ece4760/FinalProjects/f2014/rdv28\ mjl256/webpage/i.
MACQUEEN, J. Some methods for classification and analysis of multivariate observations. In: Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and
Probability, Volume 1: Statistics. Berkeley, California.: University of California Press,
1967. p. 281297. Disponvel em: hhttp://projecteuclid.org/euclid.bsmsp/1200512992i.
REFERENCIAS
BIBLIOGRAFICAS
45
MICROSOFT. Kinect for Windows Sensor Components and Specifications. 2015. hhttps:
//msdn.microsoft.com/en-us/library/jj131033.aspxi. Accessed: 2015-05-25.
MIRANDA, L. et al. Real-Time Gesture Recognition from Depth Data through Key
Poses Learning and Decision Forests. 2012 25th SIBGRAPI Conference on Graphics,
Patterns and Images, Ieee, p. 268275, aug 2012. Disponvel em: hhttp://ieeexplore.ieee.
org/lpdocs/epic03/wrapper.htm?arnumber=6382766i.
MITRA, S.; ACHARYA, T. Gesture recognition: A survey. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, v. 37, n. 3, p. 311324,
May 2007. ISSN 1094-6977.
MORAL, P. D. Nonlinear Filtering: Interacting Particle Resolution. 1996.
MURAKAMI, K.; TAGUCHI, H. Gesture recognition using recurrent neural networks. In:
Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New
York, NY, USA: ACM, 1991. (CHI 91), p. 237242. ISBN 0-89791-383-3. Disponvel em:
hhttp://doi.acm.org/10.1145/108844.108900i.
OIKONOMIDIS, I.; KYRIAZIS, N.; ARGYROS, A. A. Efficient model-based 3d tracking
of hand articulations using kinect. BMVC, v. 1, n. 2, p. 3, 2011.
PIEGL, L.; TILLER, W. The NURBS Book. U.S. Government Printing Office, 1997.
(Monographs in Visual Communication). ISBN 9783540615453. Disponvel em: hhttps:
//books.google.de/books?id=7dqY5dyAwWkCi.
QIAN, C. et al. Realtime and robust hand tracking from depth. In: Computer Vision and
Pattern Recognition (CVPR), 2014 IEEE Conference on. [S.l.: s.n.], 2014. p. 11061113.
RABINER, L. R. Readings in speech recognition. In: WAIBEL, A.; LEE, K.-F. (Ed.). San
Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1990. cap. A Tutorial on Hidden
Markov Models and Selected Applications in Speech Recognition, p. 267296. ISBN 155860-124-4. Disponvel em: hhttp://dl.acm.org/citation.cfm?id=108235.108253i.
RAUTARAY, S. S.; AGRAWAL, A. Vision based hand gesture recognition for human
computer interaction: a survey. Artificial Intelligence Review, nov 2012. ISSN 0269-2821.
Disponvel em: hhttp://link.springer.com/10.1007/s10462-012-9356-9i.
RIDLER, T.; CALVARD, E. Picture thresholding using an iterative selection method.
Systems, Man and Cybernetics, IEEE Transactions on, v. 8, n. 8, p. 630632, Aug 1978.
ISSN 0018-9472.
RIGOLL, G.; KOSMALA, A. New improved feature extraction methods for real-time high
performance image sequence recognition. In: Acoustics, Speech, and Signal Processing,
1997. ICASSP-97., 1997 IEEE International Conference on. [S.l.: s.n.], 1997. v. 4, p.
29012904 vol.4. ISSN 1520-6149.
46
REFERENCIAS
BIBLIOGRAFICAS
RIGOLL, G.; KOSMALA, A.; EICKELER, S. High performance real-time gesture recognition using hidden markov models. In: In Proc. Gesture Workshop. [S.l.]: Springer,
1998. p. 6980.
RUSINKIEWICZ, S.; LEVOY, M. Efficient variants of the ICP algorithm. In: Third
International Conference on 3D Digital Imaging and Modeling (3DIM). [S.l.: s.n.], 2001.
RUSINKIEWICZ, S.; LEVOY, M. Efficient variants of the icp algorithm. In: IEEE. 3-D
Digital Imaging and Modeling. [S.l.], 2001. p. 145152.
RYAN, M. S.; NUDD, G. R. The Viterbi Algorithm. Coventry, UK, UK, 1993.
SALHI, A.; JAMMAOUSSI, A. Y. World Academy of Science, Engineering and Technology, v. 6, n. 4, p. 598 603, 2012. ISSN 1307-6892. Disponvel em: hhttp:
//waset.org/Publications?p=64i.
SCHLoMER, T. et al. Gesture recognition with a wii controller. In: Proceedings of the
2Nd International Conference on Tangible and Embedded Interaction. New York, NY,
USA: ACM, 2008. (TEI 08), p. 1114. ISBN 978-1-60558-004-3. Disponvel em: hhttp:
//doi.acm.org/10.1145/1347390.1347395i.
SCHRODER, M. et al. Real-time hand tracking with a color glove for the actuation of
anthropomorphic robot hands. In: Humanoid Robots (Humanoids), 2012 12th IEEE-RAS
International Conference on. [S.l.: s.n.], 2012. p. 262269. ISSN 2164-0572.
SCHRODER,
M. et al. Analysis of hand synergies for inverse kinematics hand tracking.
In: . [S.l.: s.n.], 2013. (Proceedings of ICRA Workshop on Hand synergies - how to tame
the complexity of grasping), p. 2631.
SCHRODER, M. et al. Real-time hand tracking using synergistic inverse kinematics. In:
Robotics and Automation (ICRA), 2014 IEEE International Conference on. [S.l.: s.n.],
2014. p. 54475454.
SCHRoDER, M.; BOTSCH, M. Online Adaptive PCA for Inverse Kinematics Hand Tracking. In: BENDER, J. et al. (Ed.). Vision, Modeling & Visualization. [S.l.]: The Eurographics Association, 2014. ISBN 978-3-905674-74-3.
SHAN, C. et al. Real time hand tracking by combining particle filtering and mean shift. In:
Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE International
Conference on. [S.l.: s.n.], 2004. p. 669674.
SHAO, L. et al. Computer vision for rgb-d sensors: Kinect and its applications [special
issue intro.]. Cybernetics, IEEE Transactions on, v. 43, n. 5, p. 13141317, Oct 2013.
ISSN 2168-2267.
SHARP, T. et al. Accurate, robust, and flexible real-time hand tracking. In: . CHI, 2015.
Disponvel em: hhttp://research.microsoft.com/apps/pubs/default.aspx?id=238453i.
REFERENCIAS
BIBLIOGRAFICAS
47
SHIN, M. C.; TSAP, L. V.; GOLDGOF, D. B. Gesture recognition using Bezier curves
for visualization navigation from registered 3-D data. Pattern Recognition, v. 37, n. 5, p.
10111024, may 2004. ISSN 00313203. Disponvel em: hhttp://linkinghub.elsevier.com/
retrieve/pii/S0031320303003960i.
SHOTTON, J. et al. Real-time human pose recognition in parts from single depth images.
Commun. ACM, ACM, New York, NY, USA, v. 56, n. 1, p. 116124, jan 2013. ISSN 00010782. Disponvel em: hhttp://doi.acm.org/10.1145/2398356.2398381i.
SONG, Y. et al. A kinect based gesture recognition algorithm using gmm and hmm. In:
Biomedical Engineering and Informatics (BMEI), 2013 6th International Conference on.
[S.l.: s.n.], 2013. p. 750754.
SPECHT, D. F. Probabilistic neural networks. Neural Netw., Elsevier Science Ltd.,
Oxford, UK, UK, v. 3, n. 1, p. 109118, jan 1990. ISSN 0893-6080. Disponvel em:
hhttp://dx.doi.org/10.1016/0893-6080(90)90049-Qi.
SRIDHAR, S.; OULASVIRTA, A.; THEOBALT, C. Interactive markerless articulated
hand motion tracking using rgb and depth data. In: IEEE. Computer Vision (ICCV),
2013 IEEE International Conference on. [S.l.], 2013. p. 24562463.
STENGER, B. et al. Model-based hand tracking using a hierarchical bayesian filter.
Pattern Analysis and Machine Intelligence, IEEE Transactions on, v. 28, n. 9, p. 1372
1384, Sept 2006. ISSN 0162-8828.
SUAREZ, J.; MURPHY, R. Hand gesture recognition with depth images: A review. In:
RO-MAN, 2012 IEEE. [S.l.: s.n.], 2012. p. 411417. ISSN 1944-9445.
SUN, C. et al. Discriminative exemplar coding for sign language recognition with kinect.
v. 43, n. 5, p. 14181428, 2013. Disponvel em: hhttp://ieeexplore.ieee.org/xpls/abs\\ all.
jsp?arnumber=6544211i.
TRAN, C.; MEMBER, S.; TRIVEDI, M. M. 3-D Posture and Gesture Recognition for
Interactivity in Smart Spaces. v. 8, n. 1, p. 178187, 2012.
VALLEJO, C. G.; TROYANO, J. A.; ORTEGA, F. J. Instancerank: Bringing order to
datasets. Pattern Recogn. Lett., Elsevier Science Inc., New York, NY, USA, v. 31, n. 2, p.
133142, jan 2010. ISSN 0167-8655. Disponvel em: hhttp://dx.doi.org/10.1016/j.patrec.
2009.09.022i.
WACHS, J. P. et al. A gesture-based tool for sterile browsing of radiology images. Journal
of the American Medical Informatics Association, The Oxford University Press, v. 15,
n. 3, p. 321323, 2008.
WANG, R. Y.; POPOVIc, J. Real-time hand-tracking with a color glove. In: ACM SIGGRAPH 2009 Papers. New York, NY, USA: ACM, 2009. (SIGGRAPH 09), p. 63:163:8.
ISBN 978-1-60558-726-4. Disponvel em: hhttp://doi.acm.org/10.1145/1576246.1531369i.
48
REFERENCIAS
BIBLIOGRAFICAS
WANG, X.; WANG, R.; ZHOU, F. Fingertips detection and hand tracking based on
curve fitting. In: Image and Signal Processing (CISP), 2014 7th International Congress
on. [S.l.: s.n.], 2014. p. 99103.
XU, D. et al. Real-time dynamic gesture recognition system based on depth perception
for robot navigation. 2012 IEEE International Conference on Robotics and Biomimetics
(ROBIO), Ieee, p. 689694, dec 2012. Disponvel em: hhttp://ieeexplore.ieee.org/lpdocs/
epic03/wrapper.htm?arnumber=6491047i.
YAO, A.; GOOL, L. V.; KOHLI, P. Gesture Recognition Portfolios for Personalization.
2014 IEEE Conference on Computer Vision and Pattern Recognition, Ieee, p. 1923
1930, jun 2014. Disponvel em: hhttp://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?
arnumber=6909644i.
YUAN, Q.; SCLAROFF, S.; ATHITSOS, V. Automatic 2d hand tracking in video sequences. In: Application of Computer Vision, 2005. WACV/MOTIONS 05 Volume 1.
Seventh IEEE Workshops on. [S.l.: s.n.], 2005. v. 1, p. 250256.
ZABULIS, X.; BALTZAKIS, H.; ARGYROS, A. Vision-based hand gesture recognition for human-computer interaction. The Universal Access Handbook. . . . , p. 1
56, 2009. Disponvel em: hhttps://www.ics.forth.gr/\\ publications/2009\\ 06\\ book\
\ hci\\ gestures.pdfi.
ZHU, J. et al. Reliability fusion of time-of-flight depth and stereo geometry for high
quality depth maps. Pattern Analysis and Machine Intelligence, IEEE Transactions on,
v. 33, n. 7, p. 14001414, July 2011. ISSN 0162-8828.
ZHU, Y.; YUAN, B. Real-time hand gesture recognition with kinect for playing racing
video games. In: Neural Networks (IJCNN), 2014 International Joint Conference on.
[S.l.: s.n.], 2014. p. 32403246.