Professional Documents
Culture Documents
DE
DECISO
AUTOMTICO
PARA
CONVERSO
DE
UDIO
EM
TEXTO
NA
GERAO
DE
LEGENDA
OCULTA
Luiz Fausto
Agenda
Introduo
Legenda
Oculta
Reconhecimento
Autom;co
de
Voz
(RAV)
Gerao
de
Legenda
Oculta
com
RAV
no
mundo
Avaliao
de
Desempenho
Concluso
e
Trabalhos
Futuros
INTRODUO
Tema
Obje>vo
LEGENDA
OCULTA
(CLOSED
CAPTION)
Acessibilidade
Decientes
audi;vos:
quase
10
milhes
Legislao
NBR
15290:2005
Norma
Complementar
N
001/2006
Uso
obrigatrio
de
Legenda
Oculta
(Closed
Cap*on)
pelas
emissoras,
conforme
cronograma
estabelecido:
Junho
/
2011
08
horas
/
dia
Junho
/
2012
12
horas
/
dia
Abril
/
2014
16
horas
/
dia
Abril
/
2015
20
horas
/
dia
Junho
/
2017
24
horas
/
dia
Esteno>pia
Digitao
em
tempo
real
u;lizando
smbolos
fon;cos
em
teclado
especial
(esten;po)
Os
smbolos
so
conver;dos
em
palavras
de
acordo
com
um
dicionrio
Mo-de-obra
escassa
e
cara,
treinamento
demorado
Erros:
digitao,
palavras
fora
do
dicionrio
Relocuo
Sistema
adaptado
a
uma
voz,
sem
precisar
considerar
a
variabilidade
fon;ca
entre
pessoas
Melhor
relao
sinal/
rudo
Correo
da
disuncia
oral
Custo
operacional
mais
baixo
que
esteno;pia
IBM
ViaVoice
Sistema
no
o>mizado
para
a
aplicao
na
gerao
de
legenda
oculta
Produto
descon>nuado
h
quase
10
anos,
sem
subs;tuto
comercial
para
o
Portugus
do
Brasil
Ausncia
de
suporte
corre;vo
e
evolu;vo
Potenciais
problemas
para
manter
o
sistema
funcionando
a
longo
prazo
A
quan>dade
de
licenas
existentes
limitada
Soaware
Livre
CMUSphinx
iATROS
FalaBrasil
SRILM
Funcionamento
Dicionrio
abafa
abafada
abafadas
abafado
abafados
abafamento
ee t
abafando
aa d
abafar
xm
abafou
s
s
u
Modelo Acs>co
Modelo
de
Linguagem
-1.9060
-3.6396
-2.7161
-3.6396
-3.6396
-3.6396
-2.3215
-1.7412
-1.9408
-2.7161
-0.7528
-3.0395
-3.0395
-3.0395
a
a
a
a
a
a
a
a
a
a
a
a
a
a
informao
informao
informao
informao
informao
informao
informao
informao
informao
informao
informao
informao
informao
informao
consta
constava
contida
contradiz
contraria
contm
correta
da
dada
das
de
desde
desejada
deve
Decodicao
GERAO
DE
LEGENDA
OCULTA
COM
RAV
NO
MUNDO
AVALIAO
DE
DESEMPENHO
Material da Avaliao
CMUSphinx
FalaBrasil
Programas
(50%
das
sentenas
u;lizadas
para
treinamento;
50%
u;lizadas
para
teste)
Blocos
Durao
Palavras
52m50s
7.903
BEM ESTAR
38m55s
6.333
DOMINGO
DO
FAUSTO
01h45m02s
14.686
TOTAL
11
03h16m47s
28.922
Palavras
Vocabulrio
Globo.com
(ViaVoice)
100.954
1.707.869
53.633
Globo.com
+
FalaBrasil
(CMUSphinx
-
Uso
Geral)
1.593.389
24.746.658
210.446
82
4.011
1.333
BEM ESTAR
76
3.056
939
DOMINGO
DO
FAUSTO
341
7.690
1.569
Corpus
Sentenas
Maior
Palavras
Vocabulrio
Durao
Vozes Ambiente
1.238
68.575
5.305
08h50m12s
Controlado
Vozes
Masculinas
-
LapsBenchMark1.4
(FalaBrasil)
500
5.166
2.102
38m10s
25
No
controlado
Vozes
Masculinas
-
VoxForge
1.828
9.173
584
01h51m24s
78
No
controlado
Vozes
Femininas
-
LapsBenchMark1.4
(FalaBrasil)
200
2.062
1.064
15m51s
10
No
controlado
Vozes
Femininas
-
VoxForge
180
855
351
09m30s
No
controlado
Sentenas
Palavras
Vocabulrio
Durao
IBM ViaVoice
1.027
6.622
1.953
53m50s
Relocuo
499
14.757
2.889
98m23s
Resultados
Taxa
de
palavras
fora
do
dicionrio*
Perplexidade
Dicionrio
de
uso
geral
Dicionrio
especco
do
programa
Modelo
de
linguagem
de
uso
geral
Modelo
de
linguagem
especco
do
programa
BOM
DIA
BRASIL
0,57%
0,47%
266,22
246,74
BEM ESTAR
1,34%
1,27%
666,42
589,79
DOMINGO
DO
FAUSTO
2,30%
1,37%
773,50
536,94
Resultados
Relocuo
Esteno>pia
CMU
Sphinx
c/
Corpus
Reduzido
CMU
Sphinx
c/
Corpus
Intermedirio
CMU
Sphinx
c/
Corpus
Maior
SUBTOTAL
BOM
DIA
BRASIL
99,11%
84,90%
83,91%
81,02%
82,44%
81,82%
Acertos:
0,48%
6,96%
12,82%
14,09%
13,23%
13,34%
Subs>tuies:
1,10%
0,40%
17,97%
8,14%
20,93%
4,53%
21,57%
4,89%
20,43%
4,33%
20,56%
4,84%
Erros:
Omisses:
0,22%
2,87%
3,58%
2,59%
2,87%
2,38%
Inseres:
98,90%
82,03%
79,07%
78,43%
79,57%
79,44%
Acurcia:
SUBTOTAL
BEM
ESTAR
95,42%
66,95%
71,49%
68,90%
69,93%
71,20%
Acertos:
3,32%
13,33%
22,60%
22,93%
22,43%
22,46%
Subs>tuies:
Erros:
Omisses: 5,01% 1,26% 36,52% 19,72% 32,18% 5,91% 33,46% 8,17% 33,30% 7,64% 32,03% 6,34%
0,43%
3,47%
3,67%
2,36%
3,23%
3,23%
Inseres:
94,99%
63,48%
67,82%
66,54%
66,70%
67,97%
Acurcia:
SUBTOTAL
DOMINGO
DO
FAUSTO
94,69%
60,83%
64,87%
68,88%
70,75%
70,75%
Acertos:
3,14%
9,02%
27,36%
22,83%
20,99%
21,33%
Subs>tuies:
Erros:
Omisses: 7,20% 2,17% 40,29% 30,15% 38,36% 7,77% 33,81% 8,29% 32,03% 8,26% 31,94% 7,92%
1,89%
1,12%
3,23%
2,69%
2,78%
2,69%
Inseres:
92,80%
59,71%
61,64%
66,19%
67,97%
68,06%
Acurcia:
TOTAL GERAL
96,06%
68,75%
71,52%
72,23%
73,78%
73,90%
Acertos:
2,45%
9,40%
22,34%
20,44%
19,18%
19,39%
Subs>tuies:
Erros:
Omisses: 5,05% 1,49% 33,37% 21,85% 32,24% 6,48% 30,36% 7,33% 29,13% 7,04% 28,83% 6,71%
1,11%
2,12%
3,42%
2,59%
2,91%
2,73%
Inseres:
Acurcia:
94,95%
66,63%
67,76%
69,64%
70,87%
71,17%
Resultados
Sistema
Latncia
CPU *
RAM
Relocuo
1,059 s
N/A
N/A
Esteno>pia
4,034 s
N/A
N/A
IBM ViaVoice
2,098 s
< 70 MB
CMU Sphinx
0,652 s
~ 300 MB
CONCLUSES
E
TRABALHOS
FUTUROS
Concluses
Demanda
por
sistemas
de
RAV
em
Portugus
do
Brasil
Sistemas
de
RAV
testados
apresentaram
acurcia
mais
alta
e
latncia
mais
baixa
que
a
esteno;pia
Sistema
baseado
em
so,ware
livre
apresentou
melhor
desempenho
Possibilidades
de
melhorias
futuras
Taxa
de
acerto
mnima
especicada
pela
ABNT
NBR
15290
no
pde
ser
ob;da
por
RAV
nem
por
esteno;pia
Trabalhos
Futuros
Desenvolver
corpus
de
voz
sucientemente
grande
e
diversicado
Desenvolver
mecanismos
autom;cos
para
gerar
corpus
de
texto
a
par;r
da
Internet
Experimentar
smbolos
fon;cos
diferentes
para
vogais
tnicas
O;mizar
o
tempo
de
treinamento
do
sistema
Avaliar
outros
so,wares
de
RAV
Trabalhos
Futuros
Atualizao
autom;ca
dos
dicionrios,
modelos
de
linguagem
e
modelos
acs;cos
Desenvolver
interface
operacional
Ferramentas
de
correo
da
transcrio
Gerao
de
relatrios
de
desempenho
Integrao
com
ferramentas
de
codicao
de
closed
cap*on
Integrao
da
soluo
completa
em
uma
ferramenta
simples
de
usar
Realizar
avaliao
qualita;va
do
desempenho,
com
a
par;cipao
de
decientes
audi;vos
PERGUNTAS?
OBRIGADO!