You are on page 1of 35

SISTEMA

DE DECISO AUTOMTICO
PARA CONVERSO DE UDIO EM TEXTO
NA GERAO DE LEGENDA OCULTA

Luiz Fausto

Agenda

Introduo
Legenda Oculta
Reconhecimento Autom;co de Voz (RAV)
Gerao de Legenda Oculta com RAV no mundo
Avaliao de Desempenho
Concluso e Trabalhos Futuros

INTRODUO

Tema

Desenvolvimento de um sistema de RAV para


gerao de closed cap*on a par;r de
so,ware livre e de bases de dados
disponveis publicamente

Obje>vo

Treinar e avaliar um sistema de RAV na


gerao de closed cap*on para programas de
televiso ao vivo com fala espontnea em
Portugus do Brasil u;lizando relocuo

LEGENDA OCULTA
(CLOSED CAPTION)

Acessibilidade

Decientes audi;vos:
quase 10 milhes

Legislao
NBR 15290:2005
Norma Complementar N 001/2006
Uso obrigatrio de Legenda Oculta
(Closed Cap*on) pelas emissoras,
conforme cronograma estabelecido:
Junho / 2011 08 horas / dia
Junho / 2012 12 horas / dia
Abril / 2014 16 horas / dia
Abril / 2015 20 horas / dia
Junho / 2017 24 horas / dia

Diretrizes para a legenda oculta


Acertos:
no sistema CC ao vivo, o
texto das legendas deve
ter no mnimo 98% de
acerto
Sincronia:
no sistema CC ao vivo
pode ser tolerado um
atraso mximo de quatro
segundos

Esteno>pia
Digitao em tempo real u;lizando smbolos
fon;cos em teclado especial (esten;po)
Os smbolos so conver;dos em palavras de
acordo com um dicionrio
Mo-de-obra escassa e cara, treinamento
demorado
Erros: digitao, palavras fora do dicionrio

RECONHECIMENTO AUTOMTICO DE VOZ


(RAV)

Relocuo
Sistema adaptado a uma
voz, sem precisar
considerar a variabilidade
fon;ca entre pessoas
Melhor relao sinal/
rudo
Correo da disuncia
oral
Custo operacional mais
baixo que esteno;pia

IBM ViaVoice
Sistema no o>mizado para a
aplicao na gerao de legenda
oculta
Produto descon>nuado h quase 10
anos, sem subs;tuto comercial para
o Portugus do Brasil
Ausncia de suporte corre;vo e
evolu;vo
Potenciais problemas para manter o
sistema funcionando a longo prazo
A quan>dade de licenas existentes
limitada

Soaware Livre
CMUSphinx
iATROS

FalaBrasil
SRILM

Funcionamento

Dicionrio
abafa

abafada

abafadas

abafado

abafados

abafamento

ee t

abafando

aa d

abafar

xm

abafou

s
s
u

Processamento Digital de Sinais


Sinal de Entrada
Reamostragem
Pr-nfase
Janelamento
Espectro de Potncia
Banco de Filtros (Escala Mel)
Log
DCT
MFCC

Modelo Acs>co

Modelo de Linguagem
-1.9060
-3.6396
-2.7161
-3.6396
-3.6396
-3.6396
-2.3215
-1.7412
-1.9408
-2.7161
-0.7528
-3.0395
-3.0395
-3.0395

a
a
a
a
a
a
a
a
a
a
a
a
a
a

informao
informao
informao
informao
informao
informao
informao
informao
informao
informao
informao
informao
informao
informao

consta
constava
contida
contradiz
contraria
contm
correta
da
dada
das
de
desde
desejada
deve

Decodicao

GERAO DE
LEGENDA OCULTA
COM RAV NO
MUNDO

AVALIAO DE
DESEMPENHO

Material da Avaliao

CMUSphinx
FalaBrasil

Programas

(50% das sentenas u;lizadas para treinamento; 50% u;lizadas para teste)
Blocos

Durao

Palavras

BOM DIA BRASIL

52m50s

7.903

BEM ESTAR

38m55s

6.333

DOMINGO DO
FAUSTO

01h45m02s

14.686

TOTAL

11

03h16m47s

28.922

Material de Treinamento - Corpora de Texto


Sentenas

Palavras

Vocabulrio

Globo.com
(ViaVoice)

100.954

1.707.869

53.633

Globo.com +
FalaBrasil
(CMUSphinx -
Uso Geral)

1.593.389

24.746.658

210.446

BOM DIA BRASIL

82

4.011

1.333

BEM ESTAR

76

3.056

939

DOMINGO DO
FAUSTO

341

7.690

1.569

Material de Treinamento - Corpora de Voz


Corpus
Corpus
Reduzido Intermedirio
Voz Masculina -
Cons>tuio1.0
(FalaBrasil)

Corpus
Sentenas
Maior

Palavras

Vocabulrio

Durao

Vozes Ambiente

1.238

68.575

5.305

08h50m12s

Controlado

Vozes Masculinas -
LapsBenchMark1.4
(FalaBrasil)

500

5.166

2.102

38m10s

25

No
controlado

Vozes Masculinas -
VoxForge

1.828

9.173

584

01h51m24s

78

No
controlado

Vozes Femininas -
LapsBenchMark1.4
(FalaBrasil)

200

2.062

1.064

15m51s

10

No
controlado

Vozes Femininas -
VoxForge

180

855

351

09m30s

No
controlado

Material de Adaptao de Locutor

Sentenas

Palavras

Vocabulrio

Durao

IBM ViaVoice

1.027

6.622

1.953

53m50s

Relocuo

499

14.757

2.889

98m23s

Resultados
Taxa de palavras fora do
dicionrio*

Perplexidade

Dicionrio de
uso geral

Dicionrio
especco do
programa

Modelo de
linguagem de
uso geral

Modelo de
linguagem
especco do
programa

BOM DIA
BRASIL

0,57%

0,47%

266,22

246,74

BEM ESTAR

1,34%

1,27%

666,42

589,79

DOMINGO DO
FAUSTO

2,30%

1,37%

773,50

536,94

* Dicionrios com as 65.535 palavras


mais frequentes do corpus

Resultados
Relocuo

Esteno>pia

IBM Via Voice

CMU Sphinx c/
Corpus Reduzido

CMU Sphinx c/
Corpus
Intermedirio

CMU Sphinx c/
Corpus Maior

SUBTOTAL
BOM DIA BRASIL

99,11%
84,90%
83,91%
81,02%
82,44%
81,82%
Acertos:
0,48%
6,96%
12,82%
14,09%
13,23%
13,34%
Subs>tuies:
1,10%
0,40%
17,97%
8,14%
20,93%
4,53%
21,57%
4,89%
20,43%
4,33%
20,56%
4,84%
Erros:
Omisses:
0,22%
2,87%
3,58%
2,59%
2,87%
2,38%
Inseres:
98,90%
82,03%
79,07%
78,43%
79,57%
79,44%
Acurcia:

SUBTOTAL
BEM ESTAR

95,42%
66,95%
71,49%
68,90%
69,93%
71,20%
Acertos:
3,32%
13,33%
22,60%
22,93%
22,43%
22,46%
Subs>tuies:
Erros:
Omisses: 5,01% 1,26% 36,52% 19,72% 32,18% 5,91% 33,46% 8,17% 33,30% 7,64% 32,03% 6,34%
0,43%
3,47%
3,67%
2,36%
3,23%
3,23%
Inseres:
94,99%
63,48%
67,82%
66,54%
66,70%
67,97%
Acurcia:

SUBTOTAL
DOMINGO DO
FAUSTO

94,69%
60,83%
64,87%
68,88%
70,75%
70,75%
Acertos:
3,14%
9,02%
27,36%
22,83%
20,99%
21,33%
Subs>tuies:
Erros:
Omisses: 7,20% 2,17% 40,29% 30,15% 38,36% 7,77% 33,81% 8,29% 32,03% 8,26% 31,94% 7,92%
1,89%
1,12%
3,23%
2,69%
2,78%
2,69%
Inseres:
92,80%
59,71%
61,64%
66,19%
67,97%
68,06%
Acurcia:

TOTAL GERAL

96,06%
68,75%
71,52%
72,23%
73,78%
73,90%
Acertos:
2,45%
9,40%
22,34%
20,44%
19,18%
19,39%
Subs>tuies:
Erros:
Omisses: 5,05% 1,49% 33,37% 21,85% 32,24% 6,48% 30,36% 7,33% 29,13% 7,04% 28,83% 6,71%
1,11%
2,12%
3,42%
2,59%
2,91%
2,73%
Inseres:
Acurcia:

94,95%

66,63%

67,76%

69,64%

70,87%

71,17%

Resultados
Sistema

Latncia

CPU *

RAM

Relocuo

1,059 s

N/A

N/A

Esteno>pia

4,034 s

N/A

N/A

IBM ViaVoice

2,098 s

< 20% (de 1 core)

< 70 MB

CMU Sphinx

0,652 s

~ 20% (de 4 cores)

~ 300 MB

* Intel Core i5 de 2,4 GHz

CONCLUSES E
TRABALHOS
FUTUROS

Concluses
Demanda por sistemas de RAV em Portugus do Brasil
Sistemas de RAV testados apresentaram acurcia mais alta e latncia
mais baixa que a esteno;pia
Sistema baseado em so,ware livre apresentou melhor desempenho
Possibilidades de melhorias futuras
Taxa de acerto mnima especicada pela ABNT NBR 15290 no pde ser
ob;da por RAV nem por esteno;pia

Trabalhos Futuros
Desenvolver corpus de voz sucientemente grande e diversicado
Desenvolver mecanismos autom;cos para gerar corpus de texto a par;r
da Internet
Experimentar smbolos fon;cos diferentes para vogais tnicas
O;mizar o tempo de treinamento do sistema
Avaliar outros so,wares de RAV

Trabalhos Futuros
Atualizao autom;ca dos dicionrios, modelos de linguagem e
modelos acs;cos
Desenvolver interface operacional
Ferramentas de correo da transcrio
Gerao de relatrios de desempenho
Integrao com ferramentas de codicao de closed cap*on
Integrao da soluo completa em uma ferramenta simples de usar
Realizar avaliao qualita;va do desempenho, com a par;cipao de
decientes audi;vos

PERGUNTAS?

OBRIGADO!

You might also like