Sistema de Decisão Automático para Conversão de Áudio em Texto Na Geração de Legenda Oculta

UNIVERSIDADE ESTADUAL DO CEAR
CENTRO DE CINCIAS E TECNOLOGIA

MESTRADO PROFISSIONAL EM COMPUTAO APLICADA
LUIZ FAUSTO DE SOUZA BRITO
SISTEMA DE DECISO AUTOMTICO PARA

CONVERSO DE UDIO EM TEXTO NA GERAO DE LEGENDA OCULTA
RIO DE JANEIRO RIO DE JANEIRO

2015

CONVERSO DE UDIO EM TEXTO NA GERAO DE LEGENDA OCULTA
Dissertao apresentada ao Curso de Mestrado

Profissional em Computao Aplicada do
Centro de Cincias e Tecnologia da
Universidade Estadual do Cear, como
requisito parcial obteno do ttulo de mestre
em Computao Aplicada. rea de
Concentrao: Computao Aplicada.
Orientador: Prof. Dr. Flvio Luis de Mello.
RIO DE JANEIRO RIO DE JANEIRO

2015
Dados Internacionais de Catalogao na Publicao

Universidade Estadual do Cear
Sistema de Bibliotecas
Brito, Luiz Fausto de Souza.
Sistema de Deciso Automtico para Converso de udio em Texto na
Gerao de Legenda Oculta [recurso eletrnico] / Luiz Fausto de Souza
Brito 2015.
1 CD-ROM: il. ; 4 pol.
CD-ROM contendo o arquivo no formato PDF do trabalho acadmico
com 106 folhas, acondicionado em caixa de DVD Slim (19 x 14 cm x 7
mm).
Dissertao (mestrado profissional) Universidade Estadual do Cear,
Centro de Cincias e Tecnologia, Mestrado Profissional em Computao
Aplicada, Rio de Janeiro, 2015.
rea de Concentrao: Computao Aplicada.
Orientao: Prof. Dr. Flvio Luis de Mello.
1. Computao. 2. Sistemas de Apoio Deciso. 3. Legenda Oculta. 4.
Reconhecimento Automtico de Voz. I. Ttulo.
CONVERSO DE AUDIO EM TEXTO NA GERAO DE LEGENDA OCULTA
Dissertao apresentada ao Curso de Mestrado

Profissional em Computao Aplicada do
Centro de Cincias e Tecnologia da
Universidade
Estadual
do
Cear,
como
requisito parcial obteno do ttulo de mestre

em
Computao Aplicada. rea de
Concentrao: Computao Aplicada.
Aprovada em: 27 de abril de 2015.
BANCA _EXAMINADORA
'
Prof. Dr. Flvio Luis de Mello (Orientador)

/
Universidade Federal do Rio de Janeiro UFRJ

-
Prof. Dr Marcos Jo
'
Negr iros Gomes
Universi ade Estadual do Cear UECE

-
Prof. Dr. Francisco Henrique de Freitas Viana

Centro Federal de
Educao Tecnolgica do Rio de Janeiro CEFET/RJ

-
Prof. Dr. Luiz Wagner Pereira Biscainho

Universidade Federal do Rio de Janeiro UFRJ
-
memria do meu pai, meu maior mestre

nessa vida. minha me, fonte de serenidade.
minha esposa, meu apoio incondicional.
Aos meus filhos, minha eterna alegria. Ao meu
Deus, fonte da perseverana.
AGRADECIMENTOS
A Deus, verdadeira fonte de toda sabedoria. minha esposa, por todo suporte que me d. Aos
meus filhos, por inspirarem e alegrarem os meus dias. Aos meus pais, pela educao que me
deram. Aos professores Flvio Mello e Edilberto Strauss, pela pacincia, compreenso e
apoio. A todos que, de alguma forma, me ajudaram a chegar at aqui, o meu muito obrigado.
Assim tambm vs: se vossa lngua s

profere
palavras
ininteligveis,
como
se
compreender o que dizeis? Sereis como quem

fala ao vento.
(1Cor 14, 9)
RESUMO
Este trabalho se prope a analisar uma soluo computacional para o problema de gerao de
legenda oculta em programas de televiso produzidos ao vivo e que contenham fala
espontnea, decidindo automaticamente a melhor transcrio de um sinal de udio em
Portugus do Brasil para o texto correspondente. Trata-se, portanto, do estudo de sistemas de
Reconhecimento Automtico de Voz em Portugus do Brasil, tendo em vista a otimizao da
acurcia. A busca de tal soluo se torna crtica pela falta de opes satisfatrias no mercado,
pela necessidade de garantir a acessibilidade do contedo televisivo para as pessoas com
deficincia auditiva e tambm para o cumprimento de legislao especfica. A anlise dos
resultados obtidos demonstra que possvel desenvolver um sistema a partir de software livre
e de bases de dados disponveis publicamente que obtenha um desempenho superior
estenotipia e aos sistemas comerciais de Reconhecimento Automtico de Voz em Portugus
do Brasil atualmente disponveis.
Palavras-Chave:
Computao.
Sistemas
Reconhecimento Automtico de Voz.
de
Apoio
Deciso.
Legenda
Oculta.
ABSTRACT
This study aims to analyze a computational solution to the problem of generating closed
captions on live television programs containing spontaneous speech. The system may
automatically decide the best transcription of an audio signal in Brazilian Portuguese to the
corresponding text. To that end, it investigates Brazilian Portuguese Automatic Speech
Recognition systems in order to optimize their accuracy. The search for such a solution
becomes critical due to the lack of satisfactory options in the market, the need to provide
television content accessibility for hearing impaired people and also the compulsory
fulfillment of specific legislation. The analysis of the results that have been achieved shows
that it is possible to develop a system based on free software and publicly available databases
that gets a superior performance compared to stenotyping and currently available commercial
Brazilian Portuguese Automatic Speech Recognition systems.
Keywords: Computing. Decision Support Systems. Closed Caption. Automatic Speech
Recognition.
LISTA DE ILUSTRAES
Figura 1 ! Reconhecimento Automtico de Voz ................................................................ 24!
Figura 2 ! Processamento Digital de Sinais empregado no RAV .................................... 28!
Figura 3 ! Representao Esquemtica da Preparao do Material de Teste ............... 47!
Figura 4 ! Extrao de arquivo VRO do Disco Rgido ..................................................... 48!
Figura 5 ! Extrao de closed caption de arquivo VRO ................................................... 50!
Figura 6 ! Extrao de udio em formato WAV a partir de arquivo MPEG ................ 55!
Figura 7 ! Exemplo de marcao de tempo de fim de frase no udio do programa
e no texto extrado do closed caption ................................................................ 56!
Figura 8 ! Formatos de arquivos e softwares utilizados na relocuo ............................ 57!
Figura 9 ! Ambiente de execuo do IBM ViaVoice ......................................................... 61!
Figura 10 !Extrao dos textos da globo.com .................................................................... 63!
Figura 11 !Fluxo do sinal de udio utilizado na adaptao de locutor do IBM
ViaVoice .............................................................................................................. 64!
Figura 12 !Formatos de arquivos e softwares utilizados na avaliao da latncia
do IBM ViaVoice................................................................................................ 68!
Figura 13 !Trecho do corpus de texto ................................................................................. 70!
Figura 14 !Segmentao automtica do udio ................................................................... 70!
Figura 15 !Variao da perplexidade do modelo de linguagem do programa Bom
Dia Brasil com o nmero de repeties da transcrio de parte do
programa no corpus de texto............................................................................. 71!
Figura 16 !Variao da perplexidade do modelo de linguagem do programa Bem
Estar com o nmero de repeties da transcrio de parte do
programa no corpus de texto............................................................................. 72!
Figura 17 !Variao da perplexidade do modelo de linguagem do programa
Domingo do Fausto com o nmero de repeties da transcrio de
parte do programa no corpus de texto ............................................................. 73!
Figura 18 !Ferramentas utilizadas para criao dos dicionrios e dos modelos de
linguagem............................................................................................................ 74!
Figura 19 !Lista dos smbolos fonticos utilizados............................................................. 75!
Figura 20 !Trecho do dicionrio.......................................................................................... 76!
Figura 21 !Representao esquemtica do treinamento do modelo acstico
independente de locutor .................................................................................... 79!
Figura 22 !Representao esquemtica da adaptao de locutor .................................... 82!

Figura 23 !Representao esquemtica da decodificao ................................................. 84!
Figura 24 !Variao da acurcia com peso do modelo de linguagem, para o
programa Bom Dia Brasil, utilizando o modelo acstico treinado com
corpus maior ....................................................................................................... 85!
LISTA DE TABELAS
Tabela 1 ! Prazos e cargas horrias mnimas para disponibilizao de closed
caption por faixa horria ................................................................................... 20!
Tabela 2 ! Prazos de adequao da infraestrutura das estaes analgicas para
transmisso de closed caption, de acordo com a populao da cidade
onde a estao estiver localizada ...................................................................... 21!
Tabela 3 ! Comparao de textos com e sem alinhamento............................................... 49!
Tabela 4 ! Exemplo de trecho de closed caption extrado em dois formatos:
apenas texto e texto com marcao de tempo de cada caractere................... 51!
Tabela 5 ! Acurcia da Estenotipia .................................................................................... 52!
Tabela 6 ! Acurcia da Relocuo ...................................................................................... 58!
Tabela 7 ! Acurcia do IBM ViaVoice ............................................................................... 64!
Tabela 8 ! Taxa de palavras fora do dicionrio e perplexidade do modelo de
linguagem............................................................................................................ 77!
Tabela 9 ! Impacto sobre a acurcia do nmero de senones e gaussianas do
modelo acstico treinado com uma nica voz masculina ............................... 81!
Tabela 10 !Acurcia do sistema de RAV baseado em software livre utilizando
modelo acstico treinado com corpus mais reduzido, com apenas uma
voz masculina ..................................................................................................... 86!
modelo acstico treinado com corpus intermedirio, com vozes
masculinas apenas .............................................................................................. 89!
modelo acstico treinado com corpus maior, com vozes masculinas e
femininas ............................................................................................................. 92!
Tabela 13 !Resumo dos resultados de acurcia obtidos nos testes ................................... 96!
LISTA DE ABREVIATURAS E SIGLAS

ABNT
Associao Brasileira de Normas Tcnicas
AC-3
Audio Codec 3
CC
Closed Caption
CMU
Carnegie Mellon University
CPU
Central Processing Unit
DCT
Discrete Cosine Transform
DCT-II
Type-II Discrete Cosine Transform
DFT
Discrete Fourier Transform
FFT
Fast Fourier Transform
HMM
Hidden Markov Model
HTML
HyperText Markup Language
IBGE
Instituto Brasileiro de Geografia e Estatstica
IBM
International Business Machines Corporation
LDA
Linear Discriminant Analysis
MAP
Maximum a Posteriori
MB
Mega Bytes
MFCC
Mel-Frequency Cepstral Coefficients
MLLR
Maximum Likelihood Linear Regression
MLLT
Maximum Likelihood Linear Transform
MOV
QuickTime Movie
MPEG
Moving Picture Experts Group
MPEG-2
Moving Picture Experts Group Standard 2
NHK
Nippon Hs Kykai
PCM
Pulse-Code Modulation
RAM
Random-Access Memory
RAV
Reconhecimento Automtico de Voz
SD
Standard Definition
TV
Televiso
UFPA
Universidade Federal do Par
VRO
Video Recording Object File
WAV
Waveform Audio File Format
WER
Word Error Rate
SUMRIO
1!
INTRODUO ............................................................................................................. 15!
1.1! TEMA ............................................................................................................................. 15!

1.2! DELIMITAO ............................................................................................................. 15!
1.3! JUSTIFICATIVA............................................................................................................ 15!
1.4! OBJETIVOS ................................................................................................................... 16!
1.5! METODOLOGIA ........................................................................................................... 16!
1.6! ORGANIZAO DA DISSERTAO ........................................................................ 16!
2!
LEGENDA OCULTA ................................................................................................... 18!
2.1! ACESSIBILIDADE ........................................................................................................ 18!

2.2! LEGISLAO ................................................................................................................ 20!
2.3! ESTENOTIPIA ............................................................................................................... 22!
2.4! RECONHECIMENTO AUTOMTICO DE VOZ ........................................................ 22!
3!
RECONHECIMENTO AUTOMTICO DE VOZ (RAV) ....................................... 24!
3.1! UNIDADE FONTICA .................................................................................................. 25!

3.2! DICIONRIO ................................................................................................................. 26!
3.3! PROCESSAMENTO DIGITAL DE SINAIS ................................................................. 27!
3.4! MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS ACSTICOS ........ 31!
3.5! MODELOS
ESTATSTICOS
EMPREGADOS
NOS
MODELOS
DE
LINGUAGEM................................................................................................................. 34!
3.6! DECODIFICAO ........................................................................................................ 35!
4!
GERAO DE LEGENDA OCULTA COM RAV NO MUNDO ........................... 38!
4.1! JAPO ............................................................................................................................ 38!

4.2! PORTUGAL ................................................................................................................... 39!
4.3! REINO UNIDO ............................................................................................................... 39!
4.4! CANAD........................................................................................................................ 39!
4.5! ESLOVNIA .................................................................................................................. 40!
4.6! BRASIL........................................................................................................................... 41!
5!
AVALIAO DE DESEMPENHO ............................................................................ 46!
5.1! MATERIAL DE TESTE ................................................................................................. 46!

5.2! AVALIAO DA ESTENOTIPIA ................................................................................ 49!
5.2.1! Acurcia ......................................................................................................................... 51!
5.2.2! Latncia .......................................................................................................................... 55!
5.3! AVALIAO DA RELOCUO ................................................................................. 56!

5.3.1! Acurcia ......................................................................................................................... 57!
5.3.2! Latncia .......................................................................................................................... 61!
5.4! AVALIAO DO IBM VIAVOICE ............................................................................. 61!
5.4.1! Adaptao do Dicionrio e do Modelo de Linguagem ............................................... 62!
5.4.2! Adaptao do Modelo Acstico.................................................................................... 63!
5.4.3! Acurcia ......................................................................................................................... 64!
5.4.4! Latncia .......................................................................................................................... 67!
5.4.5! Consumo de recursos computacionais ........................................................................ 68!
5.5! AVALIAO DE UM SISTEMA DE RAV BASEADO EM SOFTWARE
LIVRE ............................................................................................................................. 69!
5.5.1! Criao do Dicionrio e do Modelo de Linguagem .................................................... 69!
5.5.2! Taxa de palavras fora do dicionrio e perplexidade do modelo de linguagem ....... 76!
5.5.3! Treinamento do Modelo Acstico ................................................................................ 77!
5.5.4! Adaptao do Modelo Acstico.................................................................................... 81!
5.5.5! Acurcia ......................................................................................................................... 83!
5.5.6! Latncia .......................................................................................................................... 95!
5.5.7! Consumo de recursos computacionais ........................................................................ 95!
5.6! ANLISE DOS RESULTADOS.................................................................................... 95!
6!
CONCLUSO E TRABALHOS FUTUROS ............................................................. 99!
6.1! CONCLUSO ................................................................................................................ 99!

6.2! TRABALHOS FUTUROS............................................................................................. 100!
REFERNCIAS ........................................................................................................... 102!
15
1 INTRODUO
1.1 TEMA
O tema deste trabalho o desenvolvimento de um sistema de deciso automtico
para converso de udio em texto na gerao de legenda oculta a partir de software livre e de
bases de dados disponveis publicamente.
1.2 DELIMITAO
Este trabalho pretende examinar os sistemas computacionais por trs do
Reconhecimento Automtico de Voz (RAV) na gerao de legenda oculta, ou seja, sistemas
capazes de realizar um processo de deciso automtica para converso de udio em texto na
gerao de closed caption, utilizando o portugus do Brasil. Neste trabalho no se pretende
desenvolver os algoritmos de processamento digital de sinais ou os modelos estatsticos
envolvidos no Reconhecimento Automtico de Voz. Pretende-se, ao contrrio, avaliar
solues de RAV disponveis, os recursos necessrios ao treinamento para o Portugus do
Brasil e as possibilidades de
otimizao da acurcia, levando em considerao as
informaes disponveis sobre a experincia internacional no uso desse tipo de soluo e as

otimizaes especficas para a aplicao de RAV na gerao de legenda oculta j
implementadas.
1.3 JUSTIFICATIVA
Na anlise de maturidade de tecnologias emergentes (Hype Cycle) da
consultoria Gartner publicada em 2014 (GARTNER, 2014), considera-se que a tecnologia de
reconhecimento de voz j est no patamar de produtividade, ou seja, que j se trata de uma
tecnologia relativamente madura com aplicaes no mercado. No entanto, no se pode
considerar que essa tecnologia esteja to madura no Portugus do Brasil quanto est em outras
lnguas, como o Ingls. Este trabalho motivado pela falta de opes satisfatrias de sistemas
comerciais atuais de Reconhecimento Automtico de Voz em Portugus do Brasil para a
aplicao na gerao de legenda oculta ao vivo.
16
1.4 OBJETIVOS
O objetivo deste trabalho treinar e avaliar uma das opes de software livre
disponveis, tendo em vista a aplicao na gerao de legenda oculta para programas de
televiso ao vivo com fala espontnea em Portugus do Brasil, com Reconhecimento
Automtico de Voz (RAV) e utilizando relocuo (repetio das falas por um locutor
especfico em um ambiente acusticamente controlado). O treinamento para o Portugus do
Brasil utilizar bases de dados disponveis publicamente.
O desempenho desse sistema ser comparado ao obtido por Estenotipia e pelo
IBM ViaVoice.
Pretende-se ainda examinar os algoritmos de processamento de sinais e modelos
estatsticos utilizados por sistemas de RAV.
Por fim, pretende-se tambm verificar a experincia das emissoras de televiso ao
redor do mundo na utilizao de sistemas de Reconhecimento Automtico de Voz em seus
respectivos idiomas para a aplicao em questo, com foco nas otimizaes implementadas
que possam ser aproveitadas para o Brasil.
1.5 METODOLOGIA
A metodologia a ser empregada no desenvolvimento deste trabalho envolve uma
ampla reviso bibliogrfica, tanto da fundamentao necessria sobre o atual estado da arte de
sistemas de Reconhecimento Automtico de Voz (RAV), quanto das ferramentas e recursos
disponveis publicamente, da aplicao do Reconhecimento Automtico de Voz na gerao de
legendas ocultas ao redor do mundo e do contexto brasileiro. Envolve ainda a realizao de
testes comparativos de desempenho de um sistema de RAV para o Portugus do Brasil a ser
desenvolvido a partir de ferramentas e recursos disponveis publicamente com o desempenho
do IBM ViaVoice e da Estenotipia.
1.6 ORGANIZAO DA DISSERTAO
O Captulo 2 descreve o uso de Legenda Oculta na televiso, sua motivao e os
sistemas utilizados para gerao ao vivo: Estenotipia e Reconhecimento Automtico de Voz.
17
No Captulo 3 apresentada uma fundamentao terica sobre o funcionamento

de sistemas de Reconhecimento Automtico de Voz.
No Captulo 4 so apresentadas algumas experincias relatadas por diversos
autores ao redor do mundo sobre a implementao de sistemas de Reconhecimento
Automtico de Voz na gerao de Legenda Oculta.
O Captulo 5 apresenta os resultados de testes comparativos de desempenho de
um sistema de RAV desenvolvido a partir de ferramentas e recursos disponveis publicamente
com o desempenho do IBM ViaVoice e da Estenotipia.
As concluses e propostas de trabalhos futuros so apresentadas no Captulo 6.
18
2 LEGENDA OCULTA
2.1 ACESSIBILIDADE
De acordo com os resultados do Censo Demogrfico 2010 do IBGE (INSTITUTO
BRASILEIRO DE GEOGRAFIA E ESTATSTICA, 2012), cerca de 5,1% da populao
brasileira (quase 10 milhes de pessoas) possuem deficincia auditiva. Para que essa
populao tenha acesso ao contedo dos programas de televiso, necessrio que tais
programas disponham de legendas, contendo no apenas a transcrio textual do que falado,
como tambm descries de msicas e efeitos sonoros que sejam necessrios para a melhor
compreenso do contedo sendo exibido. Tais legendas, porm, no devem estar visveis para
todos os telespectadores, apenas para aqueles que assim as desejarem, ativando tal recurso no
receptor de TV. Isso possvel, tanto na transmisso de TV analgica (CONSUMER
ELECTRONICS
ASSOCIATION,
2008),
quanto
na
transmisso
de
TV
digital
(ASSOCIAO BRASILEIRA DE NORMAS TCNICAS, 2011), atravs de um recurso

denominado legenda oculta ou closed caption (CC).
Outra possibilidade de prover acessibilidade do contedo televisivo populao
com deficincia auditiva, o uso de uma janela superposta ao vdeo com um intrprete de
Libras (Lngua Brasileira de Sinais). Esse meio de acessibilidade atenderia particularmente
populao com deficincia auditiva no alfabetizada (note-se que, de acordo com os
resultados do Censo Demogrfico 2010 do IBGE (INSTITUTO BRASILEIRO DE
GEOGRAFIA E ESTATSTICA, 2012), o analfabetismo mais prevalente na populao com
deficincia auditiva do que na populao geral). Entretanto, se por um lado nem todos os
deficientes auditivos so alfabetizados, por outro nem todos utilizam a Lngua Brasileira de
Sinais. Dessa forma, a Legenda Oculta e a janela com intrprete de Libras seriam
complementares no provimento da acessibilidade do contedo televisivo populao com
deficincia auditiva. Deve-se notar, entretanto, que a Legenda Oculta muito mais utilizada
que a janela com intrprete de Libras, por diversos motivos:
de acordo com a Lei n 10.436, de 24 de abril de 2002 (BRASIL, 2002), no

que se refere ao ensino pblico a "Lngua Brasileira de Sinais - Libras no
poder substituir a modalidade escrita da lngua portuguesa", o que significa
que todos os deficiente auditivos, assim como todos as demais pessoas,
deveriam ser alfabetizados e dessa forma teriam acesso Legenda Oculta;
19
a Lngua Brasileira de Sinais muito pouco conhecida na populao geral,

sendo a modalidade escrita da lngua portuguesa essencial para a integrao da
populao com deficincia auditiva, no que a Legenda Oculta poderia ser um
estmulo e uma ferramenta adicional do processo de alfabetizao;
o uso da janela com intrprete de Libras na televiso obrigatrio apenas na

propaganda poltico-partidria e eleitoral, nas campanhas institucionais e
informativos de utilidade pblica do governo (BRASIL, 2006), e nas vinhetas
de classificao indicativa (BRASIL, 2007);
de acordo com a ABNT NBR 15290:2005 (ASSOCIAO BRASILEIRA

DE NORMAS TCNICAS, 2005), a janela de Libras deve ocupar metade da
altura e um quarto da largura da tela, no que poderia comprometer
significativamente a visualizao integral do vdeo;
embora a Norma Complementar 01, aprovada pela Portaria n 310 do

Ministrio
das
Comunicaes
(BRASIL,
2006),
mencione
que
"o
desenvolvimento e implementao da televiso digital no Brasil dever

permitir o acionamento opcional da janela com intrprete de LIBRAS", tal
recurso opcional na norma de receptores (ASSOCIAO BRASILEIRA
DE NORMAS TCNICAS, 2008a) e na norma de codificao de dados
(ASSOCIAO BRASILEIRA DE NORMAS TCNICAS, 2008b) do
Sistema Brasileiro de TV Digital Terrestre e a codificao de tal recurso no
foi padronizada, de forma que a nica alternativa atualmente disponvel para
utilizao da janela de Libras inclu-la no sinal de vdeo principal, tornandoa visvel a todos os telespectadores e no apenas aos que desejariam ativar
esse recurso.
Embora a maior motivao para utilizar legendas ocultas na programao da
televiso seja para garantir a acessibilidade aos telespectadores com deficincia auditiva, tal
recurso tambm interessante para o pblico geral em algumas situaes especficas, a saber:
em ambientes nos quais a necessidade de silncio no permite que o som da TV seja
reproduzido ou pelo menos no com volume suficiente para uma compreenso adequada (e.g.
hospitais); em ambientes muito barulhentos em que no seria possvel compreender o udio
da televiso, ainda que reproduzido com volume razovel (e.g. bares e restaurantes); em
ambientes com sonorizao musical (e.g. academia); para permitir que diferentes televisores
reproduzam programas diferenciados em um mesmo ambiente para atender a um pblico
20
heterogneo; em ambiente residencial para permitir que se assista TV noite sem incomodar
os demais moradores; para aprendizagem da lngua por parte de estrangeiros ou pessoas em
processo de alfabetizao.
2.2 LEGISLAO
No Brasil, a Lei n 10.098 de 2000 (BRASIL, 2000), criada para estabelecer
normas de acessibilidade, j previa que os servios de radiodifuso de sons e imagens
deveriam adotar medidas tcnicas com o objetivo de permitir o uso de subtitulao, para
garantir o direito de acesso informao s pessoas portadoras de deficincia auditiva.
Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria n 310
do Ministrio das Comunicaes (BRASIL, 2006) estabeleceu prazos, obrigando os
radiodifusores a uma utilizao progressiva de legendas ocultas nas suas programaes. De
acordo com o cronograma estabelecido, em 2017 a totalidade da programao diria das
emissoras e retransmissoras dever dispor de legendas ocultas, como pode ser verificado na
Tabela 1.
Tabela 1 Prazos e cargas horrias mnimas para
disponibilizao de closed caption por faixa horria
Prazo
27/06/2008
27/06/2009
27/06/2010
27/06/2011
27/06/2012
27/04/2014
27/04/2015
27/06/2017
Faixa Horria
08:00 - 14:00
20:00 - 02:00
08:00 - 14:00
18:00 - 02:00
08:00 - 14:00
18:00 - 02:00
08:00 - 14:00
18:00 - 02:00
06:00 - 14:00
18:00 - 02:00
06:00 - 02:00
Dia Inteiro
Dia Inteiro
Carga Horria
1h
1h
2h
2h
3h
3h
4h
4h
6h
6h
16 h
20 h
Totalidade da Programao
Fonte: Prprio autor.
As estaes transmissoras ou retransmissoras analgicas que no suportarem a

transmisso de closed caption devem se adequar de acordo com um prazo estabelecido
conforme a populao da cidade onde a estao estiver localizada, como pode ser observado
21
na Tabela 2. As estaes transmissoras ou retransmissoras digitais devem suportar a

transmisso de closed caption desde o princpio da operao.
Tabela 2 Prazos de adequao da infraestrutura das estaes analgicas para
transmisso de closed caption, de acordo com a populao da cidade onde a estao
estiver localizada
Prazo
27/06/2008
27/06/2010
27/06/2012
27/06/2014
27/06/2016
Populao
> 1.000.000
> 500.000
> 200.000
> 100.000
Qualquer
Alm disso, a Norma Complementar 01 de 2006 do Ministrio das Comunicaes

estabelece que a produo e veiculao de legendas ocultas deve atender os critrios e
requisitos tcnicos da ABNT NBR 15290:2005. Dentre esses requisitos, consta que o texto
das legendas deve ter 100% de acerto acompanhando o tempo exato da cena para programas
com legenda pr-gravada e deve ter no mnimo 98% de acerto com no mximo 4 segundos de
atraso para programas com legenda ao vivo (ASSOCIAO BRASILEIRA DE NORMAS
TCNICAS, 2005). No consta na norma a metodologia a ser utilizada na aferio desses
valores.
Tais exigncias afetam todas as emissoras de televiso do Brasil, independente do
porte. Mesmo as retransmissoras ou afiliadas das redes de televiso localizadas em cidades de
pequeno e mdio porte devero veicular legendas ocultas para sua programao e
comercializao, inclusive local, atendendo os requisitos tcnicos especificados. O
descumprimento das disposies da norma sujeita as emissoras ou retransmissoras s
penalidades prescritas no Cdigo Brasileiro de Telecomunicaes.
Maximizar a taxa de acerto das legendas ocultas importante no apenas para
cumprir a legislao, como tambm para viabilizar a compreenso das mensagens sendo
veiculadas. Por vezes, apenas uma palavra errada suficiente para modificar profundamente o
significado de um texto.
O maior desafio est na produo de legendas ocultas ao vivo, sobretudo quando
h fala espontnea (sem que haja um texto pr-definido em roteiro). Essa situao ocorre com
22
bastante frequncia na programao televisiva: programas de entrevistas, auditrio, religiosos,

variedades, reality shows etc.
Existem atualmente duas formas de produzir as legendas ocultas que se aplicam
transcrio da fala espontnea ao vivo: Estenotipia e Reconhecimento Automtico de Voz.
Quando a fala ao vivo utiliza a leitura de um teleprompt, o texto do teleprompt pode ser
utilizado como legenda oculta. Para a parte da programao que no produzida ao vivo, a
legenda oculta pode ser inserida por digitadores durante o processo de ps-produo.
2.3 ESTENOTIPIA
No caso da estenotipia, um profissional especializado digita as palavras na
velocidade em que as ouve, utilizando smbolos fonticos em um equipamento com teclado
especial (estentipo), conectado a um computador, que utilizando um dicionrio especfico
converte as sequncias de smbolos em palavras.
Um curso de formao profissional em estenotipia dura de seis meses a um ano,
mas normalmente necessrio pelo menos dois anos de prtica para obter a velocidade
necessria para legendagem ao vivo (cerca de 180 palavras por minuto). uma mo-de-obra
relativamente cara, escassa e difcil de repor. De acordo com matria publicada na revista
Galileu de maio de 2012, existem apenas 400 desses profissionais no Brasil (SANT'ANA,
2012), em geral concentrados nas cidades de maior porte.
Erros no processo de estenotipia podem ocorrer tanto por falha humana na
digitao, quanto pela ocorrncia de palavras fora do dicionrio.
2.4 RECONHECIMENTO AUTOMTICO DE VOZ
O Reconhecimento Automtico de Voz o processo de converso do sinal
acstico da voz em uma transcrio textual correspondente. Um sistema que implemente tal
processo inclui a captao do sinal de voz, sua digitalizao, processamento digital de sinais e
modelos estatsticos.
Na aplicao de Reconhecimento Automtico de Voz para a gerao de closed
caption, normalmente utilizado um relocutor, que ouve a fala espontnea atravs de um fone
de
ouvido
repete
em
um
estdio
(AHMER,
2002;
INTERNATIONAL
TELECOMMUNICATION UNION, 2011). Com o uso da relocuo, o sistema pode ser
23
adaptado voz do relocutor, reduzindo a complexidade do reconhecimento de voz, por no

precisar considerar a variabilidade fontica entre indivduos. Alm disso, como a relocuo se
d em um ambiente acusticamente controlado, proporciona uma razo sinal/rudo melhor para
o sistema de reconhecimento. Outra vantagem de utilizar a relocuo, que o relocutor pode
reformular a fala, corrigindo as disfluncias comuns na linguagem oral, tornando-a mais
adequada a uma transcrio para a linguagem escrita. Em caso de fala muito rpida (e.g.
locuo esportiva), o relocutor pode resumir a fala, para que a velocidade de exibio do texto
seja suficientemente lenta para permitir a leitura. Para facilitar o processo de reconhecimento,
o relocutor pode ainda falar ou digitar os sinais de pontuao que devem ser utilizados e
acrescentar pausas entre as palavras. Para realizar a relocuo, no necessrio um curso de
formao profissional especfico, sendo uma mo-de-obra mais barata, fcil e rpida de repor
do que um estenotipista. Pela experincia profissional do autor desta dissertao, o custo
operacional da relocuo aproximadamente a metade do custo da estenotipia.
Erros no processo de reconhecimento de voz podem ser atribudos a problemas
com a qualidade da captao e digitalizao do sinal de voz, ao rudo ambiente, s limitaes
dos algoritmos de processamento de sinais e modelos estatsticos empregados, limitao
e/ou baixa qualidade da base de dados empregada no treinamento do sistema, bem como s
diferenas entre a base de dados utilizada no treinamento e a fala a ser reconhecida
(diferenas acsticas, de vocabulrio, de linguagem etc.) (HUANG; ACERO; HON, 2001).
Pode-se notar que a criticidade para o emprego da estenotipia est no fator
humano, enquanto a criticidade para emprego do reconhecimento de voz est em um sistema
computacional. Em princpio, a soluo utilizando reconhecimento de voz mais atrativa para
as emissoras, por possuir um custo operacional menor.
24
3 RECONHECIMENTO AUTOMTICO DE VOZ (RAV)

Como j foi descrito no captulo anterior, o Reconhecimento Automtico de Voz
o processo de converso do sinal acstico da voz em uma transcrio textual correspondente.
Um sistema que implemente tal processo inclui a captao do sinal de voz, sua digitalizao,
processamento digital de sinais e modelos estatsticos. Uma representao esquemtica de um
sistema de Reconhecimento Automtico de Voz, em sua arquitetura mais frequente (AHMER,
2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011), pode ser visualizada
na Figura 1.
Figura 1 Reconhecimento Automtico de Voz
O sinal de udio obtido pela captao (realizada atravs de um microfone) e

digitalizao (que consiste em um processo de amostragem no tempo e quantizao da
amplitude) da fala. Esse sinal passa por um processamento digital que se destina a extrair
parmetros que possam ser teis no processo de reconhecimento de padres fonticos. O
dicionrio fontico e os modelos estatsticos utilizados no reconhecimento (modelo acstico e
modelo de linguagem) so especficos para cada idioma, podendo ser otimizados para
25
determinadas caractersticas de voz, vocabulrio e linguagem. So gerados a partir de uma

base de dados que deve conter: um conjunto de textos (corpus de texto) e um conjunto de
gravaes de fala em segmentos de curta durao com as transcries textuais
correspondentes (corpus de voz) (HUANG; ACERO; HON, 2001).
3.1 UNIDADE FONTICA
Na implementao de um sistema de Reconhecimento Automtico de Voz, devese escolher qual ser a unidade fontica empregada, ou seja, quais sero as menores partes da
fala que sero consideradas no treinamento e, consequentemente, no reconhecimento
realizado pelo sistema (HUANG; ACERO; HON, 2001).
A utilizao de palavras como unidade fontica em um sistema de RAV apresenta
grandes dificuldades para a aplicao em fala contnua com vocabulrio extenso, embora
possa ser empregada em aplicaes de RAV para comando de voz, em que a fala no seja
contnua e o vocabulrio do sistema seja limitado. Na fala contnua, muitas vezes no h
pausas entre as palavras, o que torna difcil a deteco dos limites de cada palavra no tempo
dentro de um sinal de voz. Como o reconhecimento de voz um tipo de reconhecimento de
padres, a utilizao de um vocabulrio extenso (dezenas ou at centenas de milhares de
palavras) torna difcil a obteno de exemplos de udio com transcrio suficientes para
treinar de forma confivel os modelos estatsticos de cada palavra. Alm disso, com o
aumento da quantidade de padres a serem reconhecidos, aumenta a probabilidade de
confuso entre eles (CINCAREK, 2008).
A utilizao de slabas como unidade fontica, embora reduza a quantidade de
padres a serem reconhecidos, pode representar uma quantidade de padres ainda
relativamente alta dependendo do idioma considerado, alm de tambm apresentar problemas
para a deteco de incio e fim das slabas (AHMER, 2002).
A menor unidade sonora distintiva da fala denominada fonema. Pode-se
considerar essa unidade anloga ao grafema (menor unidade distintiva da linguagem escrita,
que nas lnguas com escrita alfabtica um caractere). Note-se, entretanto, que no h uma
relao biunvoca entre grafema e fonema (um grafema pode corresponder a mais de um
fonema e vice-versa). Um aspecto interessante da analogia entre fonema e grafema que
ambos so conceitos abstratos, com uma variedade praticamente infinita de realizaes
concretas. No caso do grafema, essa variedade se deve s diferenas de formatao ou
26
caligrafia; no caso do fonema, deve-se s diferenas fisiolgicas (e.g. voz mais grave ou mais
aguda), psicolgicas (e.g. estado emocional) e culturais (e.g. sotaque) dos falantes, alm dos
efeitos coarticulatrios (o som de um fonema afetado pelo contexto de vizinhana fontica).
A realizao concreta de um fonema denominada fone (HUANG; ACERO; HON, 2001).
A quantidade de fonemas existentes em qualquer idioma bem inferior
quantidade de palavras ou slabas existentes, sendo por isso o fonema uma unidade mais
adequada ao treinamento e ao reconhecimento. A durao dos fonemas tambm apresenta
variabilidade menor que a durao das palavras ou slabas, o que facilita a deteco de incio
e fim (AHMER, 2002).
As variaes fonticas devidas aos falantes podem ser mitigadas atravs do uso de
relocuo (INTERNATIONAL TELECOMMUNICATION UNION, 2011). As variaes
devidas aos efeitos coarticulatrios podem ser levadas em considerao diferenciando os
fonemas pelo contexto de vizinhana fontica, utilizando trifones (um trifone representa um
nico fonema, dados o fonema anterior e o fonema posterior). Contudo, a utilizao de
trifones aumenta a quantidade de padres a serem reconhecidos, o que demanda uma base de
dados maior para o treinamento do sistema. Por vezes, uma soluo de compromisso o
agrupamento de informaes em modelos de trifones semelhantes (CINCAREK, 2008).
3.2 DICIONRIO
Como palavras fora do dicionrio no sero reconhecidas pelo sistema, comum
a necessidade de atualizao frequente do dicionrio, incorporando novas palavras, sobretudo
nomes prprios (AHMER, 2002; HUANG; ACERO; HON, 2001). Contudo, deve-se destacar
que quanto maior o vocabulrio considerado pelo sistema, maior a probabilidade de confuso
entre palavras. Portanto, para maximizar a acurcia do sistema, tambm pode ser interessante
retirar do vocabulrio palavras que no sejam mais utilizadas. Uma estratgia comum extrair
o vocabulrio a partir da anlise das palavras mais comuns do conjunto de textos da base de
dados do treinamento (BROUSSEAU et al., 2003; MARTINS; TEIXEIRA; NETO, 2010).
Dessa forma, tambm podem ser construdos dicionrios especializados, segmentando o
conjunto de textos por assunto (MEINEDO et al., 2003; MIYASAKA, 2004).
A transcrio fontica das palavras do dicionrio pode ser realizada de forma
automtica, utilizando um conjunto de regras de converso grafema-fonema (SILVA, 2010).
Eventualmente, uma mesma palavra no dicionrio pode conter mais de uma transcrio
27
fontica, o que particularmente til se o sistema precisar suportar variaes regionais de

pronncia (HUANG; ACERO; HON, 2001).
3.3 PROCESSAMENTO DIGITAL DE SINAIS
Como j mencionado, o processamento digital de sinais empregado no
Reconhecimento Automtico de Voz se destina a extrair do sinal de udio correspondente
voz captada e digitalizada parmetros que possam ser teis no processo de reconhecimento de
padres fonticos. Considerando a tcnica de extrao de parmetros mais utilizada (MFCC
Mel-Frequency Cepstral Coefficients Coeficientes Cepstrais em Frequncia Mel) (SILVA,
2010; YOUNG et al., 2009), tal processo ser descrito a seguir e est ilustrado na Figura 2.
28
Figura 2 Processamento Digital de Sinais empregado no RAV
Tipicamente, o processamento de sinais utilizado nesta aplicao iniciado por

uma filtragem com a finalidade de maximizar a razo sinal/rudo. Nesse sentido, os
componentes com frequncia acima do espectro da voz so filtrados e o sinal reamostrado a
16 kHz (HUANG; ACERO; HON, 2001), o que tambm ajuda a reduzir a quantidade de
dados a serem processados. utilizado ainda um filtro de pr-nfase para compensar o
decaimento de energia nos componentes de frequncia mais alta da fala, que so essenciais
para a distino fontica. Esse filtro tambm ajuda a reduzir o rudo de baixa frequncia.
A seguir, o sinal segmentado no tempo, tipicamente com um segmento a cada 10
ms, tendo cada segmento a durao entre 20 e 30 ms, curto o bastante para que as
caractersticas do sinal de voz possam ser consideradas uniformes dentro do segmento. Em
cada um desses segmentos aplicada uma funo de janelamento, normalmente a de
29
Hamming, para reduzir o vazamento espectral produzido na anlise desses segmentos

(SEGBROECK, 2010). Das janelas resultantes, so extrados os coeficientes MFCC,
conforme os passos descritos a seguir.
As janelas so processadas por uma DFT (Discrete Fourier Transform
Transformada Discreta de Fourier), uma vez que as diferenas fonticas so mais facilmente
observadas no domnio da frequncia do que no domnio do tempo. Para otimizao de
desempenho computacional, a DFT normalmente calculada atravs de uma FFT (Fast
Fourier Transform Transformada Rpida de Fourier). Como a fase da Transformada de
Fourier no contribui para a diferenciao fontica, calcula-se o espectro de potncia atravs
do quadrado do mdulo da transformada (MESEGUER, 2009).
O espectro de potncia calculado dessa forma possui escala de frequncia linear.
Entretanto, possvel verificar que a utilizao de uma escala de frequncia subjetivamente
linear (Mel) benfica para o reconhecimento de voz. O mapeamento do espectro de
potncia para a escala de frequncia Mel realizado atravs de um banco de filtros. So
utilizados normalmente de 24 a 40 filtros triangulares uniformemente espaados na escala
Mel. Dessa forma, o banco de filtros tambm reduz a dimensionalidade dos dados. Como a
percepo humana de intensidade sonora logartmica, calculado o logaritmo da energia
resultante na sada de cada filtro (CINCAREK, 2008).
Para reduzir ainda mais a dimensionalidade, descorrelacionando o vetor resultante
da etapa anterior, calculada a DCT-II (Type-II Discrete Cosine Transform Transformada
Discreta do Cosseno, Tipo 2), da qual permanecemos apenas com os 12 primeiros
componentes (que concentram a maior parte da informao). A quantidade de bandas do
banco de filtros e a quantidade de componentes utilizados da DCT foi determinada
empiricamente para otimizar a relao performance / custo computacional (MESEGUER,
2009).
A transformada do logaritmo do espectro de potncia denominada de cepstro
(termo derivado da palavra espectro). O termo MFCC se justifica porque no processo
anteriormente descrito, calculamos os coeficientes cepstrais utilizando a transformada do
logaritmo do espectro de potncia na escala de frequncia Mel. O cepstro uma representao
do sinal no domnio da quefrncia (termo derivado da palavra frequncia), que tem a
dimenso de tempo (HUANG; ACERO; HON, 2001).
Uma forma de justificar a utilizao de uma transformao cepstral do sinal para a
extrao de parmetros teis na diferenciao fontica considerando um modelo linear de
30
produo fontica com fonte (sinal produzido pela passagem do ar atravs das pregas vocais)
e canal (filtro acstico da cavidade oronasal, controlado pela abertura da boca e pela posio
da lngua, do palato mole e dos lbios). No domnio do tempo, pode-se caracterizar o canal
atravs da sua resposta ao impulso e o sinal de fala resultante atravs da convoluo da fonte
com a resposta ao impulso do canal. No domnio da frequncia a convoluo substituda
pelo produto dos espectros. No domnio da quefrncia a convoluo substituda pela soma
dos cepstros (HUANG; ACERO; HON, 2001).
Uma transformao que converta uma convoluo em uma soma denominada
homomrfica. Embora a transformao empregada no clculo dos coeficientes MFCC no
seja rigorosamente homomrfica por causa da utilizao do banco de filtros, ela pode ser
considerada aproximadamente homomrfica para filtros com espectro suave, como o caso
do filtro acstico oronasal. Dessa forma, a MFCC favorece a separao entre fonte e canal.
Isso favorece o reconhecimento porque a maior parte da diferenciao fontica se deve s
caractersticas do canal. Da fonte, interessa saber apenas se as cordas vocais esto tensionadas
e, portanto vibrando (como o caso nas vogais e nas consoantes sonoras, nas quais o sinal da
fonte peridico) ou relaxadas e, portanto, no vibrando (como o caso nas consoantes
surdas, nas quais o sinal da fonte no peridico) (HUANG; ACERO; HON, 2001).
Nas lnguas tonais, como o chins, que utilizam a variao de afinao (que est
relacionada frequncia de vibrao das pregas vocais) como elemento de diferenciao
fontica, necessrio extrair a informao da afinao, alm dos coeficientes MFCC. Nas
lnguas no-tonais, como o portugus, a variao de afinao frequentemente utilizada como
elemento de diferenciao prosdica, para distinguir afirmativas de interrogativas, para
indicar ironia etc. Entretanto, os sistemas de Reconhecimento Automtico de Voz
normalmente no se prope a analisar a prosdia, portanto essa informao no extrada do
udio (HUANG; ACERO; HON, 2001).
Alm dos 12 coeficientes MFCC normalmente adicionado ao vetor de
parmetros um componente que representa a energia mdia do sinal, aspecto tambm
considerado importante na diferenciao fontica. A esses 13 componentes, so ainda
adicionados a primeira e a segunda derivada, denominados de coeficientes dinmicos, delta
ou vetores de velocidade e acelerao, que ajudam a caracterizar os efeitos coarticulatrios,
formando um vetor de parmetros ou de caractersticas com 39 coeficientes (SEGBROECK,
2010).
31
O vetor de parmetros ou de caractersticas utilizado no modelo acstico para

reconhecimento dos padres fonticos. possvel otimizar esses parmetros utilizando uma
transformao linear que melhore a separabilidade entre os padres a serem reconhecidos, o
que produz um impacto positivo sobre a acurcia do sistema. Alm disso, tal transformao
descorrelaciona as dimenses do vetor de parmetros e possvel reduzir a dimenso desse
vetor (por exemplo, de 39 para 32) sem reduzir significativamente a acurcia, o que reduz o
custo computacional do reconhecimento. Duas transformaes conhecidas que podem ser
utilizadas em conjunto para aumentar a acurcia e reduzir o custo do reconhecimento so
LDA (Linear Discriminant Analysis) e MLLT (Maximum Likelihood Linear Transform)
(HUANG; ACERO; HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012).
3.4 MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS ACSTICOS
As transcries textuais das gravaes de fala contidas na base de dados utilizada
no treinamento do sistema de Reconhecimento Automtico de Voz so convertidas para uma
sequncia de fonemas de acordo com o dicionrio, para que sejam identificados nos
parmetros extrados do sinal de udio, pela etapa de processamento digital de sinais, padres
correspondentes aos fonemas empregados. A modelagem estatstica desses padres fonticos
denominada Modelo Acstico. Diferentemente do dicionrio, as gravaes de fala
utilizadas no treinamento no precisam conter todas as palavras do vocabulrio do sistema,
mas devem conter exemplos suficientes de todos os fonemas, preferencialmente em todos os
contextos de vizinhana fontica possveis (uma vez que cada fonema pode ter suas
caractersticas alteradas de acordo com o antecessor e o sucessor) (HUANG; ACERO; HON,
2001).
Os modelos acsticos treinados com a voz de diferentes locutores so ditos
independentes de locutor. Contudo, a acurcia mxima quando o sistema pode ser treinado
com a voz a ser reconhecida, produzindo modelos acsticos dependentes de locutor. Mas
como, na prtica, difcil obter gravaes suficientes para treinar adequadamente o modelo
acstico, uma soluo de compromisso comum o que se denomina adaptao de locutor, em
que h um treinamento independente de locutor, que posteriormente adaptado para a voz de
um locutor especfico utilizando uma base de treinamento relativamente pequena. Se a base
de treinamento independente de locutor for suficientemente grande e diversificada, tambm
possvel segment-la, gerando modelos acsticos independentes de locutor, mas agrupados
32
por sexo, idade, sotaque etc. A adaptao de locutor tambm pode ser feita a partir dos
modelos acsticos desses agrupamentos (AHMER, 2002; SILVA, 2010).
Dada uma sequncia de vetores de parmetros X extrada de um sinal de voz
atravs do Processamento Digital de Sinais anteriormente descrito, a tarefa do
Reconhecimento Automtico de Voz determinar a sequncia correspondente de palavras W
mais provvel. Em termos probabilsticos, deseja-se descobrir a sequncia de palavras W que
maximiza a probabilidade condicional P(W|X). Como essa probabilidade no conhecida a
priori, podemos utilizar o teorema de Bayes para inverter essa probabilidade condicional
(CINCAREK, 2008; SILVA, 2010):
! ! ! = !(!|!) !(!) !(!)
(1)
Como a maximizao de P(W|X) calculada com X fixo, isso equivale a

maximizar:
!(!|!) !(!)
(2)
Isso permite a separao do problema do Reconhecimento Automtico de Voz em

dois problemas distintos, um modelo acstico, P(X|W), que ser tratado agora, e um modelo
de linguagem, P(W), que ser abordado adiante.
O modelo acstico utiliza, tipicamente, HMM (Hidden Markov Model Modelo
Oculto de Markov). Nesse modelo, assume-se que o processo segue uma sequncia de estados
que no so diretamente observveis. A observao indireta, no caso, corresponde a um vetor
de caractersticas extrado do sinal de voz. Os estados poderiam ser associados aos fonemas
(ou trifones), mas para maior acurcia do sistema, divide-se cada fonema (ou trifone) em trs
estados, denominados senones, sendo o primeiro correspondente ao incio do fonema, cuja
observao influenciada pelo efeito coarticulatrio da transio a partir do fonema anterior,
o segundo estado corresponde parte intermediria e mais estvel do fonema e o terceiro
estado corresponde parte final do fonema, cuja observao influenciada pelo efeito
coarticulatrio da transio para o prximo fonema (HUANG; ACERO; HON, 2001).
Um modelo HMM caracterizado pelas probabilidades iniciais dos estados
(representadas por um vetor), pelas probabilidades de transio entre os estados
(representadas por uma matriz) e pelas probabilidades de observao. As probabilidades de
observao so modeladas, normalmente, por uma mistura de gaussianas, pela flexibilidade
que tal mistura oferece de aproximar qualquer distribuio de probabilidade. Uma mistura de
gaussianas representada pelo vetor das mdias e matriz de covarincia de cada componente
e por um vetor com os pesos de cada componente (SEGBROECK, 2010).
33
Para reduzir a dimensionalidade do modelo pode-se associar as probabilidades dos

estados (senones) semelhantes, tais como os estados intermedirios dos trifones que
representam o mesmo fonema e os estados inicial e final dos trifones que representam o
mesmo fonema e que podem ser agrupadas por categorias fonticas dos fonemas anteriores e
posteriores, respectivamente (YOUNG et al., 2009).
Em alguns idiomas, como o japons, em que a durao um fator de
diferenciao fontica, necessrio modelar a probabilidade de transio de estados como
uma funo do tempo. Nos demais idiomas, como o portugus, embora a durao possa servir
para diferenciao prosdica, indicando nfase ou mesmo o estado emocional do falante,
como os sistemas de Reconhecimento Automtico de Voz normalmente no se propem a
analisar a prosdia, essa modelagem no utilizada (HUANG; ACERO; HON, 2001).
O treinamento de um modelo acstico o processo de estimao das
probabilidades que caracterizam o modelo HMM. O algoritmo mais utilizado para essa
estimao o de Baum-Welch. A transcrio textual dos udios empregados no treinamento
utilizada para gerar, baseada no dicionrio, a transcrio fontica das palavras e, a partir da, a
sequncia de estados correspondentes aos trifones, inserindo estados opcionais de silncio
entre as palavras. O algoritmo por si busca o melhor alinhamento temporal dos estados em
relao sequncia de vetores de caractersticas extrada do sinal de udio e estima as
probabilidades do modelo HMM (AHMER, 2002).
Na adaptao de um modelo acstico para a voz de um locutor especfico
(adaptao de locutor), duas tcnicas so empregadas com frequncia: MLLR (Maximum
Likelihood Linear Regression) e MAP (Maximum a Posteriori). A tcnica MLLR calcula
matrizes de transformao dos vetores de mdias das gaussianas do modelo acstico
independente de locutor de forma a maximizar a probabilidade de observao dos vetores de
parmetros extrados do corpus de adaptao. A tcnica MAP ajusta todos os parmetros do
modelo acstico, interpolando o modelo original com um novo modelo treinado a partir do
corpus de adaptao. O hiperparmetro (tau) usado para controlar o peso do modelo
disponvel a priori. A tcnica MLLR possui custo computacional mais baixo e resulta em
maior acurcia caso o corpus de adaptao seja muito pequeno. A tcnica MAP possui custo
computacional mais alto e resulta em maior acurcia caso o corpus de adaptao seja um
pouco maior. A combinao das tcnicas MLLR e MAP resulta na melhor acurcia para
qualquer tamanho de corpus de adaptao (HUANG; ACERO; HON, 2001; CARNEGIE
MELLON UNIVERSITY, 2012).
34
3.5 MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS DE LINGUAGEM

O conjunto de textos da base de dados de treinamento do sistema de RAV
utilizado na modelagem da probabilidade de palavras e sequncias de palavras, no que se
denomina Modelo de Linguagem (SILVA, 2010; SEGBROECK, 2010). Para maximizar a
acurcia, os textos devem possuir similaridade de vocabulrio e estilo de linguagem com a
fala a ser reconhecida (HUANG; ACERO; HON, 2001). Para um sistema com uso previsto
em situaes com assuntos (e, portanto, vocabulrios e estilos de linguagem) muito distintos,
comum segmentar a base de dados de textos por assunto, produzindo modelos de linguagem
diferenciados, a serem selecionados em cada situao (AHMER, 2002). comum, assim
como no caso do dicionrio, a necessidade de atualizao frequente dos modelos de
linguagem, para incorporao de novos assuntos e atualizao do vocabulrio (MARTINS;
TEIXEIRA; NETO, 2010; LAMBOURNE et al., 2004; BOULIANNE et al., 2006).
O modelo de linguagem utiliza, tipicamente, cadeias de Markov para modelar a
probabilidade de ocorrncia de uma sequncia de palavras. Idealmente, o clculo da
probabilidade de ocorrncia de uma palavra deveria levar em conta todo o histrico de
palavras anteriores. Isso, obviamente, no factvel. possvel, contudo, obter uma
aproximao razovel, limitando o tamanho do histrico considerado (uma vez que a
dependncia estatstica da ocorrncia de uma palavra com a ocorrncia de outra anterior reduz
com o aumento da distncia entre elas). Isso nos leva ao modelo denominado N-Grama, onde
N o nmero de palavras consideradas em sequncia. Normalmente so utilizados trigramas,
em que a probabilidade de uma palavra condicionada s duas palavras anteriores,
constituindo um modelo de Markov de segunda ordem (CINCAREK, 2008; SILVA, 2010).
O treinamento do modelo de linguagem utiliza apenas uma base de texto e os
parmetros podem ser estimados por uma simples contagem da frequncia de ocorrncia dos
trigramas. Entretanto, dessa forma, os trigramas que no ocorressem no treinamento do
modelo de linguagem nunca seriam considerados no Reconhecimento Automtico de Voz,
uma vez que seriam associados a uma probabilidade nula. Esse problema seria frequente, uma
vez que o sistema de RAV precisa lidar com um vocabulrio muito grande (dezenas ou
centenas de milhares de palavras) e o nmero de trigramas possveis seria aproximadamente o
tamanho do vocabulrio ao cubo, enquanto a base de texto utilizada no treinamento sempre
limitada. A soluo para isso a utilizao de um algoritmo de suavizao, que reduza um
pouco a probabilidade de ocorrncia dos trigramas mais frequentes e aumente a probabilidade
35
dos menos frequentes, atribuindo uma probabilidade pequena, mas no nula, aos trigramas
que no ocorrerem no treinamento. O algoritmo de suavizao mais utilizado o de KneserNey (YOUNG et al., 2009).
Note-se que, embora o modelo de linguagem no leve em conta explicitamente a
gramtica, sintaxe ou semntica da lngua, esses elementos esto de certa forma implcitos,
uma vez que influenciam a probabilidade de ocorrncia de uma sequncia de palavras
(HUANG; ACERO; HON, 2001).
3.6 DECODIFICAO
A decodificao basicamente um processo de busca. O sistema de
Reconhecimento Automtico de Voz busca a sequncia de palavras mais provvel, a partir do
vocabulrio definido no dicionrio e dados os modelos acstico e de linguagem, para a
sequncia de parmetros extrada do sinal de voz captado, digitalizado e processado
O espao de busca pode ser definido em um nico modelo HMM integrando os
modelos acstico, P(X|W), e de linguagem, P(W), em que, opcionalmente, pode-se atribuir
empiricamente um peso diferenciado (LW) para o modelo de linguagem, P(W)LW, para
otimizar a acurcia. O modelo de linguagem tambm funciona como uma penalidade para
inserir novas palavras durante a decodificao (com uma penalidade pequena o decodificador
prefere utilizar mais palavras de menor durao e com uma penalidade alta o decodificador
prefere utilizar menos palavras de maior durao). Ao modificar o peso do modelo de
linguagem, essa penalidade alterada. Uma penalidade para insero de novas palavras (IP)
pode ser includa no modelo de linguagem, P(W)LW
IPN(W), onde N(W) o nmero de
palavras, podendo tambm ser ajustada empiricamente para maximizar a acurcia (HUANG;
ACERO; HON, 2001).
A sequncia de estados pode ser organizada na forma de uma rvore ou grafo.
Uma busca de todas as sequncias de estados possveis para uma decodificao teria, em
princpio, complexidade exponencial, O(NT), onde N o nmero de estados possveis a cada
transio de estados (que por sua vez, proporcional ao tamanho do vocabulrio) e T o
tempo. Para otimizar essa busca, utilizado, tipicamente, o algoritmo de Viterbi. Esse
algoritmo baseado no princpio da Programao Dinmica, de dividir um problema
complexo recursivamente em problemas mais simples, armazenando os resultados parciais
36
para evitar a necessidade de reclculos. O algoritmo de Viterbi, armazena para cada estado, a
melhor (mais provvel) sequncia de estados at aquele e a respectiva probabilidade,
reduzindo a complexidade para O(N2T). Ao final da decodificao, basta verificar o estado
mais provvel e recuperar a informao armazenada sobre o melhor caminho at aquele
estado (SILVA, 2010; SEGBROECK, 2010).
Outra otimizao comum a representao da probabilidade de transio de
estados atravs do seu logaritmo, substituindo as operaes de multiplicao por somas, a
representao em ponto flutuante por ponto fixo e permitindo uma maior faixa dinmica para
os valores envolvidos, evitando erros de aproximao numrica (especialmente o underflow)
(YOUNG et al., 2009).
A organizao do espao de busca em uma rvore lexical, em que cada ramo
representa um fonema e as folhas representam as palavras, previne o clculo
desnecessariamente replicado das probabilidades dos estados iniciais das diversas palavras
que compartilham os mesmos fonemas inicias (o que particularmente til na lngua
portuguesa, pelo grande nmero de flexes de palavras existentes). As probabilidades do
modelo de linguagem podem ser fatoradas ao longo dos ramos da rvore para que possam ser
levadas em considerao desde o incio da busca, mas empregando um modelo de linguagem
N-Grama, devem ser consideradas em relao ao contexto das palavras anteriormente
decodificadas (HUANG; ACERO; HON, 2001).
Idealmente, a busca deveria considerar todas as hipteses possveis para a
sequncia de estados. Como o clculo de todos os caminhos possveis dentro da rvore ou
grafo do espao de busca pode ser proibitivo pelo tamanho do vocabulrio e pela
complexidade do modelo (e.g. utilizando trigramas, trifones e probabilidades de observao
modeladas
pela
mistura
de
vrias
gaussianas),
busca
pode
ser
otimizada
computacionalmente se forem desconsiderados (podados) os ramos mais improvveis.

Note-se que h o risco de desconsiderar prematuramente um ramo pertencente ao caminho
com maior probabilidade global, introduzindo erros de decodificao devido a essa poda.
Trata-se de uma deciso de compromisso entre custo computacional e acurcia (YOUNG et
al., 2009).
H vrios mecanismos de poda empregados na decodificao dos sistemas de
RAV. O mais frequente o controle de feixe (beam), empregado em conjunto com o
algoritmo de Viterbi, em que so expandidos apenas os ramos cuja probabilidade no caia
abaixo de um limiar proporcional probabilidade do ramo mais provvel. Outra possibilidade
37
a gerao de uma lista dos N-Melhores caminhos utilizando uma primeira decodificao
mais rpida, com modelos simplificados (e.g. bigramas, monofones, probabilidades de
observao modeladas pela mistura de menos gaussianas). A seguir, so calculadas as
probabilidades dos caminhos escolhidos, utilizando modelos acsticos e de linguagem mais
refinados, para escolher o caminho mais provvel e, portanto, a decodificao mais provvel
38
4 GERAO DE LEGENDA OCULTA COM RAV NO MUNDO

4.1 JAPO
No Japo, de acordo com Miyasaka (2004), desde 2000 a emissora NHK utiliza
um software de Reconhecimento Automtico de Voz para gerao de legenda oculta ao vivo
em telejornais, por ela desenvolvido, para atender os requisitos tcnicos desejados por essa
emissora (acurcia mnima de 95% e latncia mxima de 2 segundos), porque o software
comercial disponvel, IBM ViaVoice em japons, no atendia a tais requisitos. O sistema
utilizava modelos acsticos adaptados para cada apresentador de telejornal, sem utilizar
relocuo. Antes de cada telejornal, o modelo de linguagem era atualizado utilizando os
rascunhos das matrias disponveis. Embora o software desenvolvido atendesse o requisito de
95% de acurcia, para que no houvesse erro algum na legenda oculta, o sistema inclua
quatro operadores: dois para revisar frases alternadas marcando as palavras erradas e, para
cada revisor, um operador para corrigir as palavras erradas marcadas.
De acordo com Homma et al. (2008), desde 2001 a NHK passou a empregar,
sobretudo em emissoras afiliadas sua rede, um sistema com apenas um ou dois operadores
para realizar as correes, em que as palavras erradas so selecionadas em um monitor
sensvel ao toque e corrigidas pelo mesmo operador. Com dois operadores, no
Reconhecimento Automtico de Voz de telejornais com apenas um apresentador, o sistema
chegou a obter 99,9% de acurcia e 99,8% com apenas um operador. A emissora passou
tambm a utilizar Reconhecimento Automtico de Voz para gerao de legenda oculta ao
vivo em outros programas, alm de telejornais, empregando relocuo.
Sako e Ariki (2005) relatam a implementao de um sistema de Reconhecimento
Automtico de Voz para produzir closed caption para a transmisso de jogos de beisebol ao
vivo. O sistema no emprega relocuo, porm os modelos acsticos so adaptados para o
locutor do jogo. Alm disso, os modelos acsticos so segmentados de acordo com alguns
estados emocionais pr-definidos. Assim, o sistema deve primeiro classificar o estado
emocional da fala, para a seguir escolher qual modelo acstico empregar. Tambm foi
incorporado ao modelo de linguagem uma memria de estado, com significado especfico
para o jogo (e.g. o placar no pode regredir, mudanas no placar normalmente esto
associadas a uma mudana no estado emocional da voz do locutor etc.). A melhoria de
39
acurcia proporcionada pela anlise de estado emocional e memria de estado do jogo foi de
cerca de 1%.
Ohno et al. (2007) relatam o desenvolvimento de um sistema de resumo
automtico de monlogos, para ser usado em conjunto com um sistema de Reconhecimento
Automtico de Voz na gerao de closed caption, porque, de acordo os autores, a velocidade
de exibio do texto era rpida demais para a leitura.
4.2 PORTUGAL
Em Portugal, Meinedo et al. (2003) relatam o desenvolvimento de um software de
Reconhecimento Automtico de Voz para telejornais. A acurcia obtida foi de 85%, com
modelo acstico independente de locutor.
Martins et al. (2010) relatam a implementao de um sistema que atualiza
diariamente o dicionrio e o modelo de linguagem, de forma automtica, utilizando textos de
sites de notcias. Com essa abordagem, conseguiram reduzir em 88% os erros ocasionados
pela ocorrncia de palavras fora do vocabulrio do sistema.
4.3 REINO UNIDO
No Reino Unido, Evans (2003) relata o uso na BBC de um sistema de
Reconhecimento Automtico de Voz desenvolvido internamente utilizando o software IBM
ViaVoice e empregando relocuo, para a gerao de closed caption em programas ao vivo.
Lambourne et al. (2004) relatam a adoo de um sistema semelhante em trs
outras grandes emissoras britnicas, tambm utilizando o IBM ViaVoice, empregando
relocuo e modelos de linguagem diferenciados de acordo com o assunto. A acurcia obtida
foi de 95 a 98%.
4.4 CANAD
No Canad, de acordo com Boulianne et al. (2006), desde 2004 utiliza-se
regularmente na gerao de legenda oculta ao vivo um software de Reconhecimento
Automtico de Voz para a lngua francesa, desenvolvido em conjunto por uma emissora e um
instituto de pesquisa canadenses.
40
O sistema utiliza relocuo, com modelos acsticos adaptados a partir de modelos

independentes de locutor agrupados por sexo. Utiliza ainda dicionrios e modelos de
linguagem diferenciados por assunto. Os dicionrios, os modelos de linguagem e os modelos
acsticos so atualizados semiautomaticamente. O sistema busca diariamente textos de sites
de notcias correspondentes aos assuntos modelados no sistema, para atualizar os modelos de
linguagem. Quando ocorrem palavras novas, o relocutor precisa valid-las (juntamente com
suas pronncias e associao aos assuntos) na pr-produo dos programas para que sejam
inseridas nos dicionrios. Palavras inativas por muito tempo tambm so removidas do
vocabulrio do sistema. Ainda na pr-produo, o relocutor faz uma breve gravao para
atualizar seu modelo acstico. Durante a produo, o relocutor pode comutar o assunto,
indicar a mudana da pessoa cuja fala est sendo transcrita e inserir pontuao e outros
smbolos utilizando um controle de videogame. Aps a produo, o relocutor pode corrigir os
erros do reconhecimento para que a transcrio corrigida seja utilizada na atualizao dos
modelos acstico e de linguagem. A acurcia obtida pelo sistema variou entre 89 e 93%, com
latncia de dois segundos, alm de um segundo de latncia da relocuo.
Cardinal et al. (2007) relatam o desenvolvimento de um sistema de correo em
tempo real de legendas ocultas para ser usado em conjunto com um sistema de
Reconhecimento Automtico de Voz. Alm de permitir a digitao das palavras corrigidas, o
sistema sugere, para cada palavra, uma lista de alternativas baseada nos erros de
reconhecimento mais comuns observados.
4.5 ESLOVNIA
Na Eslovnia, devido falta de gravaes de fala com transcrio textual em
quantidade suficiente para um treinamento adequado dos modelos acsticos, Zgank (2010)
props uma metodologia para incorporar gravaes sem transcrio na base de dados,
treinando o sistema inicialmente apenas com as gravaes com transcrio disponveis,
utilizando o sistema para fazer uma transcrio automtica das gravaes sem transcrio,
associando a essas transcries um escore de confiana, e aproveitando em um novo
treinamento do sistema apenas as gravaes cujas transcries automticas obtiveram os
escores de confiana mais altos (descartando 10% das transcries, aquelas com escores de
confiana mais baixos). Pelos resultados experimentais que ele obteve, o acrscimo dessas
gravaes transcritas automaticamente na base de treinamento do sistema melhorou
41
significativamente a acurcia do mesmo. A acurcia obtida foi de 82%, mas como se trata de
um modelo acstico independente de locutor, pode-se esperar obter uma acurcia
significativamente mais alta empregando-se adaptao de locutor.
4.6 BRASIL
O primeiro software de reconhecimento de voz comercial que surgiu para o
Portugus do Brasil e que foi empregado nesta aplicao foi o IBM ViaVoice. Este produto
foi desenvolvido e comercializado pela IBM at 2003, quando foi vendido para a ScanSoft,
posteriormente adquirida pela Nuance (IBM, 2008). Nem a ScanSoft, nem a Nuance deram
continuidade ou desenvolveram produtos para substituir o ViaVoice em Portugus do Brasil.
Com isso, o software no dispe mais de suporte corretivo ou evolutivo. Eventualmente ele
pode deixar de funcionar com sistemas operacionais mais novos. Alm disso, a quantidade de
licenas existentes limitada.
Note-se que o IBM ViaVoice nem era um produto otimizado para aplicao na
gerao de legenda oculta: tratava-se de um sistema de Reconhecimento Automtico de Voz
para utilizao como interface homem-mquina. Como tal, era um produto desenvolvido para
funcionar como um processo em segundo plano, em computadores de uso domstico da
poca. Emissoras de televiso e outras empresas desenvolveram interfaces para a gerao de
legendas ocultas utilizado o ViaVoice. Como j mencionamos que parte dos erros do
reconhecimento de voz se devem s limitaes dos algoritmos de processamento de sinais e
modelos estatsticos empregados, pode-se imaginar que hoje seria possvel utilizar algoritmos
e modelos mais precisos e complexos, na medida em que a tecnologia de reconhecimento de
voz evoluiu nesse perodo e na medida em que a capacidade computacional aumentou desde a
descontinuidade do ViaVoice. E ainda mais se considerarmos que no precisamos nos limitar
a computadores de uso domstico, mas podemos utilizar at mesmo um conjunto de
servidores realizando processamento distribudo. E, obviamente, neste contexto, o sistema de
reconhecimento de voz no precisa ser considerado um processo secundrio no(s)
computador(es) em que estiver sendo executado.
De fato, alguns dos sistemas de reconhecimento de voz mais bem sucedidos
atualmente utilizam o paradigma de computao em nuvem (cloud computing), como, por
exemplo, a pesquisa por voz do Google (GOOGLE, 2012) e o Apple Siri (APPLE, 2011).
42
Dessa forma, esto livres da limitao da capacidade computacional dos usurios (o que
especialmente til para aplicaes embarcadas em dispositivos mveis).
Recentemente, uma empresa que atua na rea de Reconhecimento Automtico de
Voz para gerao de closed caption em Portugal (Voice Interaction) entrou no mercado
brasileiro, treinando seus sistemas para o Portugus do Brasil e fazendo parcerias comerciais
com empresas que implementam codificadores de legenda oculta para o Sistema Brasileiro de
TV Digital. Existem dois produtos dessa empresa sendo utilizados na gerao de legendas
ocultas ao vivo no Brasil: o Audimus.Media (VOICE INTERACTION, 2014a) e o
VoxControl (VOICE INTERACTION, 2014b). O principal produto o Audimus.Media, que
possui entretanto a restrio de no poder ser adaptado voz de um relocutor, utilizando um
sistema independente de locutor, o que limita a acurcia. O segundo produto, VoxControl,
embora permita a adaptao de locutor, utiliza um sistema de reconhecimento mais simples,
que no foi concebido para a aplicao na gerao de legenda oculta, mas sim como um
sistema de interface homem-mquina otimizado para execuo como um processo em
segundo plano em computadores domsticos, o que tambm limita a acurcia.
Apesar de existirem poucas opes de software comercial que possam ser
empregadas no Reconhecimento Automtico de Voz do Portugus do Brasil, existem diversas
opes de software livre que podem ser consideradas: HTK (CAMBRIDGE UNIVERSITY,
2009) da Universidade de Cambridge, CMU Sphinx (CARNEGIE MELLON UNIVERSITY,
2012) da Universidade Carnegie Mellon, Julius (KYOTO UNIVERSITY, 2012) da
Universidade de Kyoto, Simon (SIMON LISTENS, 2012) da Organizao Simon Listens,
RWTH ASR (RWTH AACHEN UNIVERSITY, 2012) da Universidade Tcnica de Aachen,
iATROS (UNIVERSIDAD POLITCNICA DE VALENCIA, 2011) da Universidade
Politcnica de Valncia, SHoUT (UNIVERSITY OF TWENTE, 2010) da Universidade de
Twente, ISIP ASR (MISSISSIPPI STATE UNIVERSITY, 2007) da Universidade Estadual
do Mississippi etc. Esses sistemas implementam em software os algoritmos de processamento
de sinais e modelos estatsticos utilizados no Reconhecimento Automtico de Voz, mas para
serem aplicados ao Portugus do Brasil necessitam de treinamento com bases de dados
correspondentes a este idioma. O treinamento desses sistemas utiliza ferramentas distribudas
juntamente com alguns deles, alm de outras distribudas separadamente, como o SRILM
(SRI INTERNATIONAL, 2011) da SRI International.
Como j mencionado anteriormente, o treinamento um aspecto crtico para o
bom funcionamento de um sistema de Reconhecimento Automtico de Voz. E sendo o
43
portugus, ao contrrio do ingls, uma lngua altamente flexiva (em que as palavras podem
sofrer flexo de gnero, nmero, modo, tempo e pessoa), o vocabulrio a ser considerado
aumenta substancialmente, o que tende a ter um impacto negativo na acurcia do
reconhecimento. A gramtica do portugus, novamente ao contrrio do ingls, tambm
relativamente livre quanto ordem das palavras, o que torna os modelos de linguagem mais
complexos e tambm tende a ter um impacto negativo na acurcia do sistema. Essas duas
diferenas entre os idiomas portugus e ingls apontam para a necessidade de bases de dados
para o treinamento de um sistema de Reconhecimento Automtico de Voz em portugus
maiores do que seria necessrio em ingls, para se obter a mesma acurcia. Entretanto, o que
ainda se observa que dispomos de bases de dados significativamente menores.
As bases de dados necessrias para o treinamento de um sistema de
reconhecimento de voz so de dois tipos: conjuntos de textos (corpus de texto) e gravaes de
voz com transcrio textual (corpus de voz). relativamente fcil gerar um corpus de texto
arbitrariamente grande a partir de textos disponveis na internet, por exemplo, mas no
simples gerar um corpus de voz adequado, pois ele deveria idealmente conter centenas de
horas de gravao de voz de centenas de pessoas divididas em segmentos de curta durao
com a transcrio textual correspondente a cada segmento.
Existem alguns corpora de voz para o Portugus do Brasil que esto disponveis
comercialmente, a saber:
Spoltech (OREGON HEALTH & SCIENCE UNIVERSITY, 2009a) (4 horas,

477 locutores, ambiente no controlado - US$ 50.00 para licena acadmica e
US$ 3000.00 para licena comercial);
West Point (LINGUISTIC DATA CONSORTIUM, 2008) (8 horas, 68

homens e 60 mulheres, ambiente no controlado - licena por US$ 500.00);
GlobalPhone (EUROPEAN LANGUAGE RESOURCES ASSOCIATION,

2008) (24 horas, 54 homens e 48 mulheres, ambiente no controlado - 700
Euros para licena acadmica e 3600 Euros para licena comercial);
OGI-22 (OREGON HEALTH & SCIENCE UNIVERSITY, 2009b) (3 horas,

gravaes telefnicas, ambiente no controlado - US$ 50.00 para licena
acadmica e US$ 3000.00 para licena comercial).
Uma das iniciativas que buscam disponibilizar publicamente um corpus de voz

para o treinamento de sistemas de Reconhecimento Automtico de Voz em Portugus (do
Brasil e de Portugal) a do site VoxForge (VOXFORGE, 2014a). Em maio de 2014, o site
44
informava ter 2,8 horas de gravao em ambiente no controlado (2% da meta deles), da voz
de diversos voluntrios (VOXFORGE, 2014b).
Existe tambm um pequeno corpus de Portugus do Brasil desenvolvido pela
Universidade de Lisboa e disponvel publicamente (CENTRO DE LINGUSTICA DA
UNIVERSIDADE DE LISBOA, 1997) (2 horas, 12 homens e 13 mulheres, ambiente no
controlado, segmentos de longa durao).
Outra iniciativa importante de ser citada a do grupo FalaBrasil
(UNIVERSIDADE FEDERAL DO PAR, 2009), da Universidade Federal do Par. Eles
desenvolveram alguns corpora de voz, a saber:
Constituio1.0 (com a voz de um nico locutor masculino em ambiente

acstico controlado de estdio, com 9 horas de durao, disponvel
publicamente);
LapsBenchMark1.4 (total de 54 minutos de gravao em ambiente no

controlado, utilizando 25 homens e 10 mulheres com a mesma durao,
disponvel publicamente);
LapsMail1.0 (total de 84 minutos de gravao em ambiente no controlado,

utilizando 21 homens e 4 mulheres com a mesma durao, udio disponvel
publicamente, porm transcrio textual no);
LapsStory (total de 5 horas e 19 minutos, construdo atravs da segmentao e

transcrio manual de audiolivros, porm no disponibilizado publicamente
devido s restries de direitos autorais dos audiolivros utilizados).
Em um dos trabalhos do grupo (BATISTA, 2013), relata-se o uso de um corpus

de voz do Centro de Estudos de Telecomunicaes da PUC-Rio que teria cerca de 130 horas,
porm no foi possvel obter informaes adicionais sobre esse corpus.
Alm de disponibilizar alguns corpora de voz, o grupo FalaBrasil j possui uma
experincia considervel e bons resultados no treinamento de diversos sistemas em software
livre para o Portugus do Brasil e na integrao desses sistemas para algumas aplicaes
especficas (interface homem-mquina: ditado e comandos de voz). Entretanto, as diferenas
entre essas aplicaes e a aplicao de gerao de legenda oculta dificulta qualquer
comparao dos resultados obtidos.
Como todos os corpora de voz disponveis (mesmo os pagos) podem ser
insuficientes para o treinamento de um sistema de Reconhecimento Automtico de Voz em
Portugus do Brasil com acurcia elevada, pode-se considerar outras alternativas para
45
desenvolver novos corpora de voz a partir de recursos disponveis publicamente. Uma

possibilidade desenvolver um corpus de voz a partir do acervo do site Librivox
(LIBRIVOX, 2014), que disponibiliza audiolivros de domnio pblico e que possua, em maio
de 2014, 157 horas de gravaes em portugus do Brasil (em ambiente no controlado) com
23 homens e 13 mulheres (embora a distribuio no seja uniforme: duraes por leitor
variando de menos de um minuto a mais de 110 horas e totalizando 42 horas de voz
masculina e 114 horas de voz feminina). Para utilizar esse material preciso segmentar udio
e texto em pequenas frases. possvel segmentar o udio por pausas de forma automtica. O
desafio segmentar o texto de acordo. No havendo uma forma automtica confivel para
realizar a segmentao do texto a partir da segmentao do udio, essa segmentao teria que
ser feita manualmente, o que seria um processo extremamente demorado.
46
5 AVALIAO DE DESEMPENHO
Utilizando um telejornal, um programa jornalstico sobre sade e um programa de
auditrio, foram avaliados o desempenho da transcrio textual realizada por estenotipia e por
Reconhecimento Automtico de Voz da relocuo, atravs do IBM ViaVoice (IBM, 2008) e
de um sistema utilizando um software livre (CMU Sphinx) (CARNEGIE MELLON
UNIVERSITY, 2012) treinado para o Portugus do Brasil utilizando bases de dados
disponveis publicamente.
O IBM ViaVoice foi utilizado como referncia por ter sido o primeiro software de
Reconhecimento Automtico de Voz em Portugus do Brasil utilizado na gerao de Legenda
Oculta, sendo ainda hoje muito utilizado nesta aplicao.
O CMU Sphinx foi escolhido para esse teste por ser um software de RAV livre
dos mais bem conceituados atualmente, relativamente maduro (desenvolvido desde 1986) mas
que ainda conta com uma comunidade de desenvolvimento bastante ativa, por conter todas as
ferramentas necessrias ao treinamento e teste de um sistema de RAV, por estar
suficientemente bem documentado para permitir a realizao de todos os testes pretendidos e
por adotar uma licena de uso que no restringe a aplicao comercial.
5.1 MATERIAL DE TESTE
Uma representao esquemtica da preparao do material de teste, que ser
descrita de forma pormenorizada a seguir, apresentada na Figura 3.
47
Figura 3 Representao Esquemtica da Preparao do Material de Teste
Fonte: Prprio autor
O computador utilizado na avaliao da estenotipia, da relocuo, do IBM

ViaVoice e nas avaliaes de latncia e consumo de recursos computacionais do sistema de
RAV baseado em software livre foi um Apple MacBook Pro 13 polegadas do final de 2011,
com processador Intel Core i5 de 2,4 GHz, 8 GB de RAM e sistema operacional OS X 10.8.2.
O computador utilizado nos demais testes foi um Apple Mac mini do final de 2012, com
processador Intel Core i5 de 2,5 GHz, 16 GB de RAM e sistema operacional OS X 10.9.4. Tal
diviso no compromete a comparao dos resultados, pois nas avaliaes em que o
desempenho do computador poderia afetar o resultado (latncia e consumo de recursos
computacionais) foi utilizado um nico computador.
Para os testes foram escolhidos o telejornal Bom Dia Brasil, o programa
jornalstico sobre sade Bem Estar e o programa de auditrio Domingo do Fausto,
todos da Rede Globo, exibidos entre os dias 18 e 19 de novembro de 2012, o primeiro
contendo cinco blocos com durao total de 52 minutos e 50 segundos e 7903 palavras, o
segundo contendo dois blocos com durao total de 38 minutos e 55 segundos e 6333
palavras, e o terceiro contendo quatro blocos com durao total de 1 hora, 45 minutos e 2
segundos e 14686 palavras. Os referidos programas possuam closed caption produzido por
estenotipia.
Foi utilizada uma recepo do sinal SD (Standard Definition) da TV Globo Rio,
atravs do receptor de uma operadora de TV a cabo (NET). A sada do receptor foi capturada
48
utilizando um gravador LG RH397H e a gravao foi segmentada (no prprio gravador) por
bloco de programa. O disco rgido desse gravador foi removido e ligado a um computador.
Em seguida, utilizando um software livre (VAL238, 2008) para a leitura da formatao
proprietria, foram extrados os arquivos correspondentes a cada bloco de programa
produzidos pelo gravador no formato VRO (Video Recording Object File), contendo um
MPEG program stream com vdeo MPEG-2 e udio Dolby Digital AC-3 estreo, conforme
ilustrado na Figura 4.
Figura 4 Extrao de arquivo VRO do Disco Rgido
No computador, foi extrado o texto do closed caption produzido por estenotipia,

conforme detalhado na Seo 5.2. Paralelamente, foi gravada a relocuo e foram feitas
transcries manuais do udio original e relocutado, conforme detalhado na Seo 5.3. O
udio da relocuo foi utilizado para reconhecimento de voz pelo IBM ViaVoice, conforme
detalhado na Seo 5.4, e pelo CMU Sphinx, conforme detalhado na Seo 5.5. As
transcries manuais do udio original e relocutado, os textos produzidos por estenotipia e as
transcries realizadas pelo IBM ViaVoice e pelo CMU Sphinx para o udio de relocuo
foram comparados para avaliao da acurcia da estenotipia, da relocuo e de cada um dos
sistemas de RAV empregados. Alm disso, foi verificada a latncia da estenotipia, da
relocuo e dos sistemas de RAV, alm do consumo de recursos computacionais dos sistemas
de RAV.
A acurcia avaliada atravs da taxa de erro de palavras (WER Word Error
Rate) (HUANG; ACERO; HON, 2001), definida como:
!"# = (! + ! + !)/!
(3)
49
onde S o nmero de substituies, O o nmero de omisses, I o nmero de inseres e N

o nmero total de palavras na transcrio correta. A acurcia pode ser definida como (1 WER). Note-se que a acurcia distinta da taxa de acerto, que definida como (C / N), onde
C o nmero de palavras corretas. Em geral, a acurcia apresenta um valor menor que a taxa
de acerto. A taxa de acerto a mtrica utilizada na ABNT NBR 15290 (ASSOCIAO
BRASILEIRA DE NORMAS TCNICAS, 2005), enquanto a acurcia a mtrica utilizada
em todo o restante da literatura referenciada neste trabalho. Para verificao dos erros de uma
transcrio, este texto deve ser alinhado com o texto de referncia de forma que minimize a
taxa de erro de palavras. A necessidade de alinhamento est ilustrada na comparao dos
textos "A" (referncia) e "B" (transcrio sendo avaliada) com e sem alinhamento na Tabela
3.
Tabela 3 Comparao de textos com e sem alinhamento
Comparao de Textos sem Alinhamento
A:
B:
comea
comea
C
a
a
C
funcionar
funcionar
C
o
reforo
S
reforo
no
S
no
policiamento
S
policiamento
da
S
das
rede
S
divisas
visa
S
Comparao de Textos com Alinhamento

A:
B:
comea
comea
C
a
a
C
funcionar
funcionar
C
o
O
reforo
reforo
C
no
no
C
policiamento
policiamento
C
das
da
S
divisas
rede
S
visa
I
Sem alinhamento dos textos, a omisso ou insero de uma palavra pode fazer
com que vrias palavras subsequentes que foram transcritas corretamente sejam comparadas
com palavras distintas, resultando na contagem indevida de diversos erros de substituio. No
exemplo apresentado, sem alinhamento, considera-se a ocorrncia de 6 erros por substituies
de palavras, enquanto com alinhamento, considera-se a ocorrncia de apenas 4 erros (1
omisso, 2 substituies e 1 insero).
Os detalhes e resultados de cada teste esto descritos nas sees seguintes.
5.2 AVALIAO DA ESTENOTIPIA
Os arquivos VRO foram convertidos para o formato MPEG (com vdeo MPEG-2
e udio MPEG-1 Layer II) utilizando um software livre (SQUARED5, 2008), para que fosse
possvel a extrao do closed caption com o software livre CCExtractor (SANZ;
QUETSCHKE, 2012), conforme ilustrado na Figura 5.
50
Figura 5 Extrao de closed caption de arquivo VRO
Foram utilizados dois formatos de extrao: um deles apenas com o texto, para
avaliao da acurcia da transcrio, e outro contendo a marcao de tempo de cada caractere,
para avaliao da latncia. Um exemplo de um trecho de closed caption extrado nos dois
formatos est ilustrado na Tabela 4.
51
Tabela 4 Exemplo de trecho de closed caption extrado em dois formatos:

apenas texto e texto com marcao de tempo de cada caractere
Closed Caption
Closed Caption
(apenas texto)
(texto com marcao de tempo de cada caractere)

00:00:14,179 | >> C
00:00:14,212 | >> CHI
00:00:14,246 | >> CHICO
00:00:14,279 | >> CHICO P
00:00:14,313 | >> CHICO PIN
00:00:14,346 | >> CHICO PINHE
>> CHICO PINHEIRO: BOM DIA,
00:00:14,379 | >> CHICO PINHEIR

00:00:14,413 | >> CHICO PINHEIRO:
00:00:14,447 | >> CHICO PINHEIRO: B
00:00:14,480 | >> CHICO PINHEIRO: BOM
00:00:14,513 | >> CHICO PINHEIRO: BOM
00:00:14,547 | >> CHICO PINHEIRO: BOM DI
00:00:14,613 | >> CHICO PINHEIRO: BOM DIA,
5.2.1 Acurcia
Foi realizada a transcrio manual do udio dos programas, para ser comparada
com o texto da estenotipia. Em ambos os textos, todos os caracteres foram substitudos por
letras minsculas, todas as abreviaes e nmeros foram reescritos por extenso e foram
removidos todos os sinais de pontuao e caracteres especiais. O texto da estenotipia
continha, em alguns casos, a identificao da pessoa cuja fala estava sendo transcrita (como
no exemplo da Tabela 4, com o nome do apresentador do telejornal). Para possibilitar a
comparao dos textos da estenotipia com a transcrio manual das falas, tais identificaes
foram manualmente removidas. Embora a estenotipia permita correo do closed caption em
tempo real (apagando caracteres), a insero e apagamento de caracteres podem ser
observados apenas no texto com marcao de tempo; no texto sem marcao de tempo (que
foi utilizado na avaliao da acurcia) aparecem apenas as linhas finalizadas (aps eventuais
correes). A comparao utilizou o script word_align.pl, distribudo com o pacote
Sphinxtrain v.1.0.8, parte do sistema de software livre CMU Sphinx.
Os resultados obtidos podem ser observados na Tabela 5.
52
Tabela 5 Acurcia da Estenotipia

(continua)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Bom Dia Brasil (Bloco 1)

26m35s
3916
3308 (84,47%)
Substituies:
728 (18,59%)
Omisses:
Inseres:
81,41%
12m15s
1826
1573 (86,14%)
Substituies:
291 (15,94%)
Omisses:
Inseres:
84,06%
07m12s
1153
990 (85,86%)
Substituies:
195 (16,91%)
Omisses:
Inseres:
83,09%
04m13s
651
574 (88,17%)
Substituies:
94 (14,44%)
Omisses:
Inseres:
85,56%
02m35s
357
265 (74,23%)
Substituies:
108 (30,25%)
Omisses:
Inseres:
69,75%
245 (6,26%)
363 (9,27%)
120 (3,06%)
116 (6,35%)
137 (7,51%)
38 (2,08%)
87 (7,55%)
76 (6,59%)
32 (2,77%)
45 (6,91%)
32 (4,92%)
17 (2,61%)
57 (15,97%)
35 (9,80%)
16 (4,48%)
53

(continuao)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
SUBTOTAL BOM DIA BRASIL

52m50s
7903
6710 (84,90%)
Substituies:
1420 (17,97%)
Omisses:
Inseres:
82,03%
Bem Estar (Bloco 1)
31m55s
5193
3445 (66,34%)
Substituies:
1925 (37,07%)
Omisses:
Inseres:
62,93%
Bem Estar (Bloco 2)
07m00s
1140
795 (69,74%)
Substituies:
388 (34,04%)
Omisses:
Inseres:
65,96%
SUBTOTAL BEM ESTAR
38m55s
6333
4240 (66,95%)
Substituies:
2313 (36,52%)
Omisses:
Inseres:
63,48%
Domingo do Fausto (Bloco 1)
17m41s
1470
1030 (70,07%)
Substituies:
465 (31,63%)
Omisses:
Inseres:
68,37%
550 (6,96%)
643 (8,14%)
227 (2,87%)
695 (13,38%)
1053 (20,28%)
177 (3,41%)
149 (13,07%)
196 (17,20%)
43 (3,77%)
844 (13,33%)
1249 (19,72%)
220 (3,47%)
153 (10,41%)
287 (19,52%)
25 (1,70%)
54

(concluso)

Durao:
22m03s
Nmero de Palavras:
3743
Acertos:
2128 (56,85%)
Substituies:
Erros:
1642 (43,87%)
Omisses:
Inseres:
Acurcia:
56,13%
Durao:
13m16s
Nmero de Palavras:
2351
Acertos:
1381 (58,74%)
Substituies:
Erros:
984 (41,85%)
Omisses:
Inseres:
Acurcia:
58,15%
Durao:
52m02s
Nmero de Palavras:
7122
Acertos:
4395 (61,71%)
Substituies:
Erros:
2826 (39,68%)
Omisses:
Inseres:
Acurcia:
60,32%
SUBTOTAL DOMINGO DO FAUSTO
Durao:
01h45m02s
Nmero de Palavras:
14686
Acertos:
8934 (60,83%)
Substituies:
Erros:
5917 (40,29%)
Omisses:
Inseres:
Acurcia:
59,71%
TOTAL GERAL
Durao:
03h16m47s
Nmero de Palavras:
28922
Acertos:
19884 (68,75%)
Substituies:
Erros:
9650 (33,37%)
Omisses:
Inseres:
Acurcia:
66,63%
302 (8,07%)
1313 (35,08%)
27 (0,72%)
202 (8,59%)
768 (32,67%)
14 (0,59%)
667 (9,37%)
2060 (28,92%)
99 (1,39%)
1324 (9,02%)
4428 (30,15%)
165 (1,12%)
2718 (9,40%)
6320 (21,85%)
612 (2,12%)
55
5.2.2 Latncia
O udio do arquivo MPEG do programa foi extrado para o formato WAV (PCM
Linear mono, 48 kHz, 16 bits, Little Endian) com um software comercial (APPLE, 2009),
conforme ilustrado na Figura 6.
Figura 6 Extrao de udio em formato WAV a partir de arquivo MPEG
A latncia da estenotipia foi avaliada comparando-se os tempos de fim de trs

frases no udio do programa (verificados manualmente no arquivo WAV atravs de um
software livre) (AUDACITY, 2013) com as marcaes de tempo do ltimo caractere de cada
uma dessas frases, extradas do closed caption, conforme ilustrado na Figura 7.
56
Figura 7 Exemplo de marcao de tempo de fim de frase no udio do programa

e no texto extrado do closed caption
Verificou-se a latncia mdia de 4,034 segundos.

5.3 AVALIAO DA RELOCUO
O arquivo MPEG do programa foi convertido para o formato MOV com um
software comercial (APPLE, 2009), utilizando o codec de vdeo H.264 intra-frame e udio
PCM Linear estreo, 48 kHz, 16 bits, Little Endian, para que pudesse ser importado em um
software comercial (APPLE, 2012), para gravao da relocuo. Posteriormente, a relocuo
foi exportada para um arquivo WAV (PCM Linear mono, 48 kHz, 16 bits, Little Endian), para
uso nas anlises subsequentes, conforme ilustrado na Figura 8.
57
Figura 8 Formatos de arquivos e softwares utilizados na relocuo
A gravao foi realizada em ambiente domstico, pelo prprio autor dessa

dissertao, com Headset Apple e utilizando a interface de udio integrada do computador.
5.3.1 Acurcia
Foi realizada uma transcrio manual do udio da relocuo, para ser comparada
com a transcrio manual do udio original. Todos os caracteres foram substitudos por letras
minsculas, todas as abreviaes e nmeros foram reescritos por extenso e foram removidos
todos os sinais de pontuao e caracteres especiais. A comparao utilizou o script
word_align.pl.
58
Tabela 6 Acurcia da Relocuo

(continua)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

26m35s
3916
3886 (99,23%)
Substituies:
35 (0,89%)
Omisses:
Inseres:
99,11%
12m15s
1826
1811 (99,18%)
Substituies:
19 (1,04%)
Omisses:
Inseres:
98,96%
07m12s
1153
1137 (98,61%)
Substituies:
21 (1,82%)
Omisses:
Inseres:
98,18%
04m13s
651
651 (100,00%)
Substituies:
1 (0,15%)
Omisses:
Inseres:
99,85%
02m35s
357
348 (97,48%)
Substituies:
11 (3,08%)
Omisses:
Inseres:
96,92%
19 (0,48%)
11 (0,28%)
5 (0,13%)
9 (0,49%)
6 (0,33%)
4 (0,22%)
8 (0,69%)
8 (0,69%)
5 (0,44%)
0 (0,00%)
0 (0,00%)
1 (0,15%)
2 (0,56%)
7 (1,96%)
2 (0,56%)
59

(continuao)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

52m50s
7903
7833 (99,11%)
Substituies:
87 (1,10%)
Omisses:
Inseres:
98,90%
Bem Estar (Bloco 1)
31m55s
5193
4928 (94,90%)
Substituies:
286 (5,51%)
Omisses:
Inseres:
94,49%
Bem Estar (Bloco 2)
07m00s
1140
1115 (97,81%)
Substituies:
31 (2,72%)
Omisses:
Inseres:
97,28%
SUBTOTAL BEM ESTAR
38m55s
6333
6043 (95,42%)
Substituies:
317 (5,01%)
Omisses:
Inseres:
94,99%
17m41s
1470
1437 (97,76%)
Substituies:
37 (2,52%)
Omisses:
Inseres:
97,48%
38 (0,48%)
32 (0,40%)
17 (0,22%)
198 (3,81%)
67 (1,29%)
21 (0,41%)
12 (1,05%)
13 (1,14%)
6 (0,53%)
210 (3,32%)
80 (1,26%)
27 (0,43%)
30 (2,05%)
3 (0,20%)
4 (0,27%)
60

(concluso)

Durao:
22m03s
Nmero de Palavras:
3743
Acertos:
3577 (95,57%)
Substituies:
Erros:
213 (5,69%)
Omisses:
Inseres:
Acurcia:
94,31%
Durao:
13m16s
Nmero de Palavras:
2351
Acertos:
2252 (95,79%)
Substituies:
Erros:
117 (4,98%)
Omisses:
Inseres:
Acurcia:
95,02%
Durao:
52m02s
Nmero de Palavras:
7122
Acertos:
6640 (93,23%)
Substituies:
Erros:
691 (9,70%)
Omisses:
Inseres:
Acurcia:
90,30%
Durao:
01h45m02s
Nmero de Palavras:
14686
Acertos:
13906 (94,69%)
Substituies:
Erros:
1058 (7,20%)
Omisses:
Inseres:
Acurcia:
92,80%
TOTAL GERAL
Durao:
03h16m47s
Nmero de Palavras:
28922
Acertos:
27782 (96,06%)
Substituies:
Erros:
1462 (5,05%)
Omisses:
Inseres:
Acurcia:
94,95%
100 (2,67%)
66 (1,76%)
47 (1,26%)
50 (2,13%)
49 (2,08%)
18 (0,77%)
281 (3,95%)
201 (2,82%)
209 (2,93%)
461 (3,14%)
319 (2,17%)
278 (1,89%)
709 (2,45%)
431 (1,49%)
322 (1,11%)
61
5.3.2 Latncia
A latncia da relocuo foi avaliada comparando-se os tempos de fim de trs
frases nos arquivos WAV do programa e da relocuo (verificados manualmente atravs de
um software livre) (AUDACITY, 2013). Verificou-se a latncia mdia de 1,059 segundo.
5.4 AVALIAO DO IBM VIAVOICE
Foi utilizado nesse teste o software IBM ViaVoice para Windows Pro USB
Edition Release 9, sendo executado em uma mquina virtual com sistema operacional
Microsoft Windows XP Professional SP3 32 bits atravs de um software de virtualizao
(VMWARE, 2012). No sistema hospedeiro (OS X), nenhum outro aplicativo estava em
execuo, alm do software de virtualizao e no Windows, nenhum outro aplicativo estava
em execuo alm do IBM ViaVoice, exceto quando especificado em contrrio. A mquina
virtual foi configurada para utilizar 1 ncleo do processador (de 4 disponveis) e 1 GB de
RAM. As opes de desempenho do Windows foram ajustadas para obter melhor
desempenho e a memria virtual foi desativada. O ambiente de execuo do IBM ViaVoice
est ilustrado na Figura 9.
Figura 9 Ambiente de execuo do IBM ViaVoice
O IBM ViaVoice um programa com cdigo fechado e no h informaes sobre

os detalhes internos do seu funcionamento, os algoritmos empregados no processamento
digital de sinais e os modelos estatsticos. O software j vem treinado para o Portugus do
62
Brasil, com um dicionrio, um modelo de linguagem e um modelo acstico independente de

locutor previamente definidos. Apenas os seguintes ajustes so possveis no IBM ViaVoice:
Adaptao do dicionrio e do modelo de linguagem
Adaptao do modelo acstico (adaptao de locutor)
Ajuste do desempenho de reconhecimento (rpido, equilibrado, preciso ou

automtico)
Foi utilizado o ajuste de desempenho de reconhecimento preciso. A adaptao do

dicionrio e do modelo de linguagem foi feita conforme descrito na Seo 5.4.1 e a adaptao
do modelo acstico foi feita conforme descrito na Seo 5.4.2.
5.4.1 Adaptao do Dicionrio e do Modelo de Linguagem
A adaptao do dicionrio e do modelo de linguagem do IBM ViaVoice requer
um ou mais textos, dos quais so extrados o vocabulrio e a probabilidade de sequncias de
palavras.
O texto utilizado nessa adaptao foi extrado dos arquivos HTML hospedados no
domnio globo.com em 17 de novembro de 2012. Os arquivos foram obtidos com auxlio de
uma ferramenta de software livre (GNU, 2012). O texto foi extrado dos arquivos HTML
utilizado uma biblioteca de software livre (KOHLSCHTTER, 2011), conforme ilustrado na
Figura 10.
63
Figura 10 Extrao dos textos da globo.com
Em seguida, o texto passou por um processo de reviso manual, para remoo dos
erros eventualmente presentes (sobretudo provenientes de comentrios publicados por
usurios nos sites). O texto resultante possua 100.954 sentenas e 1.707.869 palavras, com
vocabulrio de 53.633 palavras distintas.
5.4.2 Adaptao do Modelo Acstico
Para a adaptao do modelo acstico (adaptao de locutor), o IBM ViaVoice
utiliza uma base de textos composta por 1.027 sentenas e 6.622 palavras, com vocabulrio de
1.953 palavras distintas. O udio de cada sentena foi gravado pelo prprio autor dessa
dissertao no Audacity (no OS X) para que o mesmo udio pudesse ser utilizado tambm na
adaptao do modelo acstico do CMU Sphinx. A durao total da gravao foi de 53
minutos e 50 segundos. O envio do udio gravado no OS X para o IBM ViaVoice na mquina
64
virtual Windows foi feito utilizando um driver de udio com licena de software livre
(CYCLING'74, 2012) a 44,1 kHz, conforme ilustrado na Figura 11.
Figura 11 Fluxo do sinal de udio utilizado na adaptao de locutor do IBM ViaVoice
5.4.3 Acurcia
A transcrio da relocuo realizada pelo IBM ViaVoice foi comparada com a
transcrio manual da relocuo, atravs do script word_align.pl.
Tabela 7 Acurcia do IBM ViaVoice
(continua)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

26m35s
3909
3277 (83,83%)
Substituies:
781 (19,98%)
Omisses:
Inseres:
80,02%
522 (13,35%)
110 (2,82%)
149 (3,81%)
65

(continuao)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

12m15s
1823
1555 (85,30%)
Substituies:
329 (18,05%)
Omisses:
Inseres:
81,95%
07m12s
1149
953 (82,94%)
Substituies:
236 (20,54%)
Omisses:
Inseres:
79,46%
04m13s
651
539 (82,80%)
Substituies:
129 (19,82%)
Omisses:
Inseres:
80,18%
02m35s
351
291 (82,91%)
Substituies:
75 (21,37%)
Omisses:
Inseres:
78,63%
52m50s
7883
6615 (83,91%)
Substituies:
1650 (20,93%)
Omisses:
Inseres:
79,07%
213 (11,68%)
55 (3,02%)
61 (3,35%)
145 (12,62%)
51 (4,44%)
40 (3,48%)
84 (12,91%)
28 (4,30%)
17 (2,61%)
47 (13,39%)
13 (3,71%)
15 (4,27%)
1011 (12,82%)
357 (4,53%)
282 (3,58%)
66

(continuao)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Bem Estar (Bloco 1)

31m55s
5146
3614 (70,23%)
Substituies:
1727 (33,56%)
Omisses:
Inseres:
66,44%
Bem Estar (Bloco 2)
07m00s
1132
874 (77,21%)
Substituies:
293 (25,88%)
Omisses:
Inseres:
74,12%
SUBTOTAL BEM ESTAR
38m55s
6278
4488 (71,49%)
Substituies:
2020 (32,18%)
Omisses:
Inseres:
67,82%
17m41s
1470
1103 (75,03%)
Substituies:
440 (29,93%)
Omisses:
Inseres:
70,07%
22m03s
3723
2351 (63,15%)
Substituies:
1459 (39,19%)
Omisses:
Inseres:
60,81%
1220 (23,71%)
312 (6,06%)
195 (3,79%)
199 (17,58%)
59 (5,21%)
35 (3,09%)
1419 (22,60%)
371 (5,91%)
230 (3,67%)
309 (21,02%)
58 (3,94%)
73 (4,97%)
1031 (27,69%)
341 (9,16%)
87 (2,34%)
67

(concluso)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

13m16s
2319
1493 (64,38%)
Substituies:
625 (26,95%)
886 (38,21%)
Omisses:
201 (8,68%)
Inseres:
60 (2,58%)
61,79%
52m02s
7129
4550 (63,82%)
Substituies:
2041 (28,63%)
2832 (39,73%)
Omisses:
538 (7,55%)
Inseres:
253 (3,55%)
60,27%
01h45m02s
14641
9497 (64,87%)
Substituies:
4006 (27,36%)
5617 (38,36%)
Omisses:
1138 (7,77%)
Inseres:
473 (3,23%)
61,64%
TOTAL GERAL
03h16m47s
28802
20600 (71,52%)
Substituies:
6436 (22,34%)
9287 (32,24%)
Omisses:
1866 (6,48%)
Inseres:
985 (3,42%)
67,76%
5.4.4 Latncia
Para avaliao da latncia do IBM ViaVoice foi realizada uma gravao da tela e
do udio do computador durante um trecho do reconhecimento, utilizando um software
comercial (SYNIUM SOFTWARE, 2013). O udio da gravao foi extrado para o formato
WAV utilizando um software comercial (APPLE, 2009). A latncia foi avaliada comparando
os tempos de fim de trs frases no arquivo WAV (verificados manualmente atravs de um
software livre) (AUDACITY, 2013) e no vdeo (verificados manualmente atravs de um
68
software comercial) (APPLE, 2009). Os softwares e formatos de arquivo utilizados nessa

avaliao esto ilustrados na Figura 12.
Figura 12 Formatos de arquivos e softwares utilizados
na avaliao da latncia do IBM ViaVoice
Verificou-se a latncia mdia de 2,098 segundos.

5.4.5 Consumo de recursos computacionais
O uso de CPU e a ocupao de RAM foram verificados atravs do Gerenciador de
Tarefas do Windows XP. Entende-se que este mtodo no adequado quando se deseja obter
preciso em medidas. Entretanto, o objetivo de sua utilizao neste trabalho apenas prover
uma noo da ordem de grandeza do consumo de recursos computacionais de sistemas RAV.
Sob esta tica, o IBM ViaVoice, durante a operao de reconhecimento, ocupou menos de
20% da CPU da mquina virtual e menos de 70 MB de RAM.
69
5.5 AVALIAO DE UM SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE

Originalmente, o CMU Sphinx no possui nenhum dicionrio, modelo de
linguagem ou modelo acstico para o Portugus do Brasil. No presente teste, esses recursos
foram desenvolvidos utilizando apenas bases de dados disponveis publicamente, conforme
descrito a seguir.
5.5.1 Criao do Dicionrio e do Modelo de Linguagem
A criao do dicionrio e do modelo de linguagem feita a partir de um corpus de
texto. Foi gerado um corpus de texto de uso geral e um corpus de texto especfico para cada
programa utilizado no teste (Bom Dia Brasil, Bem Estar e Domingo do Fausto). Para
reduzir o tempo de processamento, os testes com os corpora de texto especficos de cada
programa (a criao do dicionrio e do modelo de linguagem, bem como a avaliao da taxa
de palavras fora do dicionrio e da perplexidade descritas na Seo 5.5.2), foram realizados
em paralelo (utilizando 3 threads simultneos).
O corpus de texto de uso geral foi gerado pela concatenao do TextCorpora1.5
desenvolvido pelo grupo FalaBrasil da UFPA (UNIVERSIDADE FEDERAL DO PAR,
2009), com os textos extrados do domnio globo.com para adaptao do dicionrio e do
modelo de linguagem do IBM ViaVoice. Todos os caracteres foram substitudos por letras
minsculas, todas as abreviaes e nmeros foram reescritos por extenso e foram removidos
todos os sinais de pontuao e caracteres especiais. O corpus de texto foi organizado com
uma sentena por linha e com marcaes especiais de incio (<s>) e fim (</s>) em cada
sentena. O corpus de texto resultante possua 1.593.389 sentenas e 24.746.658 palavras,
com vocabulrio de 210.446 palavras distintas. Um trecho do corpus de texto pode ser visto
na Figura 13.
70
Figura 13 Trecho do corpus de texto

<s> o fim do mundo em dois mil e doze um dos temas de maior sucesso na internet </s>
<s> uma infinidade de vdeos fotos textos e teorias defende que ns no vamos passar dessa data </s>
<s> o dia teria sido previsto pelos maias antigo povo do mxico e amrica central que tinha grande
conhecimento astronmico </s>
<s> vrios fatores se apresentam como candidatos a acabar com nosso planeta o inimigo mais assustador e
mais comentado pelos tericos chamado de nibiru </s>
<s> um planeta desconhecido do sistema solar que estaria vindo em direo terra </s>
<s> e ao passar perto ou se chocar com a gente ocorreria uma exploso </s>
O corpus de texto especfico para cada programa utilizou, alm dos textos
utilizados no corpus de texto de uso geral, 50% das sentenas da transcrio manual da
relocuo do programa, selecionadas ao acaso. A transcrio manual foi segmentada
manualmente em sentenas correspondentes segmentao do udio da relocuo de forma
automtica pela deteco de silncios, usando a ferramenta adintool, do software livre
Julius v.4.2.2 (KYOTO UNIVERSITY, 2012). O processo de segmentao automtica do
udio est ilustrado na Figura 14.
Figura 14 Segmentao automtica do udio
O texto selecionado do Bom Dia Brasil possua 82 sentenas e 4.011 palavras,

com vocabulrio de 1.333 palavras distintas. O texto selecionado do Bem Estar possua 76
sentenas e 3.056 palavras, com vocabulrio de 939 palavras distintas. O texto selecionado do
71
Domingo do Fausto possua 341 sentenas e 7.690 palavras, com vocabulrio de 1.569
palavras distintas. Como o texto da transcrio manual da relocuo dos programas era muito
menor que o texto utilizado no corpus de texto de uso geral, ele poderia no modificar de
forma muito significativa a probabilidade de sequncias de palavras. Por isso, essas sentenas
foram acrescentadas repetidamente ao corpus de texto de uso geral, at que no houvesse
reduo na perplexidade1 do modelo de linguagem resultante.
A variao observada da perplexidade do modelo de linguagem do programa Bom
Dia Brasil com o nmero de repeties da transcrio de parte do programa no corpus de
texto est ilustrado na Figura 15.
Figura 15 Variao da perplexidade do modelo de linguagem
do programa Bom Dia Brasil com o nmero de repeties
da transcrio de parte do programa no corpus de texto
270!
Perplexidade!
265!
260!
255!
250!
245!
0!
1!
2!
3!
4!
5!
6!
Nmero!de!Repeties!
Perplexidade um conceito da Teoria da Informao relacionado entropia, podendo ser definido por: P = 2E,
onde P a perplexidade e E a entropia. A perplexidade de um modelo de linguagem pode ser interpretada
como o grau de dificuldade de prever a prxima palavra em um texto utilizando o referido modelo. Por exemplo,
um valor de perplexidade de 200 corresponde mesma dificuldade de prever uma palavra dentre uma lista de
200 palavras equiprovveis. Portanto, quanto menor o valor da perplexidade do modelo de linguagem mais ele
contribui para a acurcia do sistema de Reconhecimento Automtico de Voz (HUANG, ACERO e HON, 2001).
72
A variao observada da perplexidade do modelo de linguagem do programa Bem

Estar com o nmero de repeties da transcrio de parte do programa no corpus de texto est
ilustrado na Figura 16.
do programa Bem Estar com o nmero de repeties
670!
660!
Perplexidade!
650!
640!
630!
620!
610!
600!
590!
580!
0!
1!
2!
Nmero!de!Repeties!
A variao observada da perplexidade do modelo de linguagem do programa

Domingo do Fausto com o nmero de repeties da transcrio de parte do programa no
corpus de texto est ilustrado na Figura 17.
73

do programa Domingo do Fausto com o nmero de repeties
800!
Perplexidade!
750!
700!
650!
600!
550!
500!
0!
1!
2!
3!
4!
5!
6!
7!
Nmero!de!Repeties!
O desenvolvimento dos dicionrios e dos modelos de linguagem utilizou as

ferramentas do pacote CMUclmtk v.0.7, parte do software livre CMU Sphinx. Uma
representao esquemtica das ferramentas utilizadas para criao dos dicionrios e dos
modelos de linguagem pode ser vista na Figura 18.
74
Figura 18 Ferramentas utilizadas para criao dos dicionrios

e dos modelos de linguagem
A ferramenta text2wfreq relaciona a frequncia de cada palavra no texto e

usada em conjunto com a ferramenta wfreq2vocab para extrair as palavras mais frequentes
em um texto. De cada corpus de texto produzido, foram extradas as 65535 palavras mais
frequentes, para que o vocabulrio fosse compatvel com a utilizao de ndices de 16 bits do
CMU Sphinx.
Os modelos de linguagem foram gerados a partir de cada vocabulrio, de cada
corpus de texto e da lista de smbolos de contexto (<s> e </s>) atravs das ferramentas
text2idngram e idngram2lm, e convertidos para um formato binrio atravs da
ferramenta sphinx_lm_convert (distribuda com o pacote Sphinxbase v.0.8, do CMU
75
Sphinx). Foram gerados modelos de linguagem trigrama, com vocabulrio aberto (em que
atribuda uma probabilidade ocorrncia de palavras fora do dicionrio).
Cada vocabulrio gerado nas etapas anteriores (excluindo o cabealho e as
entradas <s> e </s>) foi transformado em dicionrio com transcrio fontica utilizando o
software
livre
Conversor
Grafema-Fone
v.1.6,
do
grupo
FalaBrasil
da
UFPA
(UNIVERSIDADE FEDERAL DO PAR, 2009), que utiliza um conjunto de 38 fonemas. Os

fonemas utilizados por esse software so representados por combinaes de letras maisculas,
minsculas e smbolos. Essas representaes precisaram ser alteradas para garantir a
compatibilidade com o CMU Sphinx, que no diferencia letras maisculas e minsculas e no
aceita smbolos. Palavras para as quais o software no gere transcrio fontica (e.g. h)
tambm precisam ser retiradas do dicionrio. Um dicionrio separado foi construdo com as
entradas <s>, </s> e <sil>, mapeando todas para o mesmo smbolo fontico (SIL),
correspondente ao silncio. Foi gerada ainda uma lista dos smbolos fonticos usados nos
dicionrios (nesse caso, 38 fonemas e um silncio).
A lista dos smbolos fonticos utilizados pode ser vista na Figura 19.
Figura 19 Lista dos smbolos fonticos utilizados
Um trecho do dicionrio pode ser visto na Figura 20.
76
Figura 20 Trecho do dicionrio

diferencia
diferenciada
diferenciadas
diferenciado
diferenciados
diferenciais
diferencial
diferenciam
diferenciar
diferenciao
diferencie
diferenciou
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
sia
siada
siadas
siadu
siadus
siajs
siaw
s i aa ww
s i a xm
s i a s aa ww
si
siow
5.5.2 Taxa de palavras fora do dicionrio e perplexidade do modelo de linguagem

Os dicionrios e os modelos de linguagem gerados foram avaliados,
respectivamente quanto taxa de palavras fora do dicionrio e quanto perplexidade, em
relao transcrio manual da relocuo dos programas utilizados no teste (considerando
apenas as sentenas no utilizadas nos corpora de texto especficos de cada programa). Essa
avaliao foi feita utilizando a ferramenta evallm do pacote CMUclmtk v.0.7, parte do
software livre CMU Sphinx.
Os resultados obtidos para cada programa e bloco de programa de taxa de
palavras fora do dicionrio (considerando um dicionrio de uso de geral e um dicionrio
especfico de cada programa) e perplexidade do modelo de linguagem (considerando um
modelo de linguagem de uso geral e um modelo de linguagem especfico de cada programa)
podem ser observados na Tabela 8.
77
Tabela 8 Taxa de palavras fora do dicionrio e perplexidade do modelo de linguagem

Taxa de palavras fora do
dicionrio
Bom Dia
Brasil
Bem Estar
Domingo
do Fausto
Bloco 1
Bloco 2
Bloco 3
Bloco 4
Bloco 5
Programa
Completo
Bloco 1
Bloco 2
Programa
Completo
Bloco 1
Bloco 2
Bloco 3
Bloco 4
Programa
Completo
Perplexidade
Dicionrio
de uso geral
Dicionrio
especfico do
programa
Modelo de
linguagem de
uso geral
0,86%
0,13%
0,30%
0,00%
0,00%
0,73%
0,13%
0,15%
0,00%
0,00%
288,20
187,11
301,53
388,60
193,48
Modelo de
linguagem
especfico do
programa
270,28
166,19
284,35
381,43
155,44
0,57%
0,47%
266,22
246,74
1,39%
1,08%
1,31%
1,08%
670,04
649,44
591,83
580,17
1,34%
1,27%
666,42
589,79
3,50%
2,59%
1,28%
2,16%
2,00%
0,90%
0,99%
1,60%
557,93
811,11
638,75
865,39
378,89
576,61
408,71
611,25
2,30%
1,37%
773,50
536,94
5.5.3 Treinamento do Modelo Acstico

Para treinamento do modelo acstico necessrio possuir um corpus de voz, que
deve consistir em um conjunto de arquivos de udio contendo a gravao da fala segmentada
em trechos de curta durao (idealmente de 5 a 30 segundos) e uma transcrio textual dessas
gravaes.
Foram treinados trs modelos acsticos: um utilizando apenas uma voz masculina,
um utilizando diversas vozes masculinas e um utilizando vozes masculinas e femininas.
Para o primeiro (treinado com corpus mais reduzido, apenas com uma voz
masculina), foi utilizado apenas o corpus Constituio1.0 do grupo FalaBrasil da UFPA
(UNIVERSIDADE FEDERAL DO PAR, 2009), com 1.238 sentenas, 68.575 palavras,
vocabulrio de 5.305 palavras distintas, 8 horas, 50 minutos e 12 segundos de gravao de um
nico locutor do sexo masculino, lendo textos da Constituio Federal em um ambiente
controlado (estdio).
78
Para o segundo (treinado com corpus intermedirio, com vozes masculinas

apenas), foram includas mais gravaes de vozes masculinas, provenientes do corpus
LapsBenchMark1.4 do grupo FalaBrasil da UFPA (com 500 sentenas, 5.166 palavras,
vocabulrio de 2.102 palavras distintas, 38 minutos e 10 segundos de gravao em ambiente
no controlado, da voz de 25 homens com aproximadamente a mesma durao) e do site
VoxForge (1.828 sentenas, 9.173 palavras, vocabulrio de 584 palavras distintas, 1 hora, 51
minutos e 24 segundos de gravao em ambiente no controlado, da voz de 78 homens com
durao varivel) (VOXFORGE, 2014b).
Para o terceiro (treinado com corpus maior, com vozes masculinas e femininas),
foram includas tambm as gravaes de vozes femininas provenientes do corpus
LapsBenchMark1.4 do grupo FalaBrasil da UFPA (200 sentenas, 2.062 palavras,
vocabulrio de 1.064 palavras distintas, 15 minutos e 51 segundos de gravao em ambiente
no controlado, da voz de 10 mulheres com aproximadamente a mesma durao) e do site
VoxForge (180 sentenas, 855 palavras, vocabulrio de 351 palavras distintas, 9 minutos e 30
segundos de gravao em ambiente no controlado, da voz de 6 mulheres com durao
varivel).
Note-se
que
corpus
utilizado
do
site
VoxForge
possua
durao
significativamente menor que a mencionada na Seo 4.6. Isso porque foram removidas as
gravaes em Portugus de Portugal e as gravaes que estavam ininteligveis (nvel de udio
excessivamente baixo, rudo ou distoro excessivamente altos). Os demais corpora
disponveis publicamente citados na Seo 4.6 no foram utilizados pois seriam necessrios
muitos ajustes manuais (segmentao de gravaes de longa durao e das transcries
correspondentes e transcrio das gravaes no transcritas).
Os arquivos de udio dos diversos corpora empregados foram convertidos para 16
kHz utilizando do software livre SoX (NORSKOG et al., 2013).
A ferramenta Sphinxtrain, do pacote Sphinxtrain v.1.0.8, do CMU Sphinx,
foi utilizada inicialmente para gerar um arquivo de configurao que pode ser editado, com
definies sobre o processamento digital de sinais e o modelo estatstico que sero
empregados. A mesma ferramenta foi, por fim, utilizada para produzir cada modelo acstico.
Uma representao esquemtica do treinamento do modelo acstico pode ser vista na Figura
21.
79
Figura 21 Representao esquemtica do treinamento do

modelo acstico independente de locutor
A maioria das configuraes foram mantidas conforme o padro do CMU Sphinx,

exceto os seguintes itens:
LDA/MLLT
A fim de otimizar a acurcia e reduzir o custo computacional do
reconhecimento, foi habilitada a criao de uma matriz de transformao
do vetor de parmetros utilizando LDA/MLLT com 32 dimenses.
multithread
A fim de reduzir o tempo necessrio ao treinamento do modelo acstico,
foi habilitado o processamento multithread (at 4 threads simultneos,
correspondendo ao limite do processador Intel Core i5 empregado).
forced alignment
Foi habilitado tambm o alinhamento forado (forced alignment), que no
inclui no treinamento os arquivos de udio que no puderem ser alinhados
com as suas respectivas transcries textuais. Essa opo requer a
instalao do pacote Sphinx3, na reviso 12110 do repositrio SVN. O
alinhamento forado utilizou um controle de feixe (beam) com limiar
80
muito baixo (10-100), para evitar que um arquivo de udio com transcrio
correta pudesse ser indevidamente descartado.
modelo de converso grafema-fonema

Tambm foi habilitado o treinamento de um modelo de converso
grafema-fonema, que permite que sejam empregadas no treinamento do
modelo acstico palavras que no constem no dicionrio fontico utilizado
(embora, para o treinamento de cada modelo acstico tenha sido utilizado
um dicionrio fontico especfico com as 65.535 palavras mais frequentes
do corpus de voz utilizado).
senones / gaussianas
Quanto aos dois parmetros de configurao reconhecidamente mais
crticos para a acurcia (devido ao impacto sobre a complexidade e a
treinabilidade) do sistema e cujos valores timos dependem do corpus de
voz utilizado (nmero de senones equivalente ao nmero de estados a
serem treinados no Modelo Oculto de Markov, controlando o quanto os
estados de trifones semelhantes so agrupados e nmero de gaussianas a
serem treinadas para cada estado na modelagem das probabilidades de
observao por mistura de gaussianas), foram ajustados de forma iterativa
para cada modelo acstico. O modelo acstico inicial foi treinado com 250
senones e com nmero gaussianas inicial de 1 e final de 64 (gerando
modelos com 1, 2, 4, 8, 16, 32 e 64 gaussianas). Nas etapas de adaptao
de locutor e decodificao (detalhadas a seguir), foram utilizados os
modelos a partir de 64 gaussianas, reduzindo o nmero de gaussianas at
que no houvesse melhoria na acurcia do modelo adaptado. A seguir, o
modelos acsticos foram treinados novamente dobrando o nmero de
senones e refazendo as etapas de adaptao de locutor e decodificao at
que no houvesse melhoria na acurcia do modelo adaptado. Dessa forma,
foram determinados o nmero timo (dentre os testados e quanto
acurcia) de senones e de gaussianas para cada modelo acstico. Por
exemplo, para o modelo acstico treinado com apenas uma voz masculina,
foi selecionada a configurao com 1000 senones e 16 gaussianas, como
pode ser verificado pelos resultados de acurcia da Tabela 9.
81
Tabela 9 Impacto sobre a acurcia do nmero de senones e gaussianas

do modelo acstico treinado com uma nica voz masculina
gaussianas
senones
1
2
4
8
16
32
64
250
66,94%
67,06%
500
68,48%
68,67%
1000
69,52%
69,64%
69,43%
68,67%
2000
69,50%
69,60%
69,51%
69,20%
69,15%
67,76%
62,52%
5.5.4 Adaptao do Modelo Acstico

Para a adaptao do modelo acstico para a voz de um locutor especfico,
necessrio um novo corpus de voz, com gravaes da voz deste locutor. Para construo
desse corpus, foram utilizados os mesmos arquivos de udio gravados para a adaptao de
locutor do IBM ViaVoice (conforme detalhado na Seo 5.4.2) e os arquivos de udio
correspondentes s gravaes das sentenas selecionadas para gerao do corpus de texto
especfico de cada programa utilizado no teste (conforme detalhado na Seo 5.5.1, com 98
minutos e 23 segundos), convertidos para 16 kHz utilizando o software livre SoX
(NORSKOG et al., 2013). Uma representao esquemtica da adaptao de locutor pode ser
vista na Figura 22.
82
Figura 22 Representao esquemtica da adaptao de locutor
Foram extrados os parmetros do udio do corpus de adaptao, com a mesma

configurao de processamento digital de sinais utilizada no treinamento do modelo acstico.
Para isso foi utilizada a ferramenta sphinx_fe (do pacote Sphinxbase v.0.8, do CMU
Sphinx), dividindo o corpus de adaptao em 4 partes processadas em paralelo (4 threads
simultneos).
A ferramenta bw (do pacote Sphinxtrain v.1.0.8, do CMU Sphinx) foi utilizada
para coletar as estatsticas necessrias adaptao MLLR do modelo acstico independente
83
de locutor considerando os parmetros extrados do corpus de adaptao e a matriz de

transformao LDA/MLLT, tambm utilizando 4 threads simultneos.
A ferramenta mllr_solve (do pacote Sphinxtrain v.1.0.8, do CMU Sphinx) foi
utilizada para criar a matriz de transformao MLLR considerando as estatsticas coletadas
sobre o corpus de adaptao.
A ferramenta mllr_transform (do pacote Sphinxtrain v.1.0.8, do CMU
Sphinx) foi utilizada para criar novos vetores de mdias das gaussianas, aplicando a matriz de
transformao MLLR aos vetores de mdias das gaussianas do modelo acstico independente
de locutor.
A ferramenta bw (do pacote Sphinxtrain v.1.0.8, do CMU Sphinx) foi utilizada
para coletar as estatsticas necessrias adaptao MAP do modelo acstico anteriormente
adaptado por MLLR considerando os parmetros extrados do corpus de adaptao e a matriz
de transformao LDA/MLLT, utilizando 4 threads simultneos.
Por fim, a ferramenta map_adapt (do pacote Sphinxtrain v.1.0.8, do CMU
Sphinx) foi usada para fazer a adaptao MAP de todos os parmetros do modelo acstico
anteriormente adaptado por MLLR considerando as estatsticas coletadas, usando um valor
fixo (100) para o hiperparmetro (tau).
5.5.5 Acurcia
Para o teste de acurcia, foram utilizados os arquivos de udio de relocuo que
no foram utilizados na adaptao do modelo acstico, convertidos para 16 kHz utilizando o
software livre SoX (NORSKOG et al., 2013).
O reconhecimento foi testado utilizando a ferramenta pocketsphinx_batch,
do pacote Pocketsphinx v.0.8, do CMU Sphinx, dividindo o corpus de teste em 4 partes
processadas em paralelo (4 threads simultneos). Para cada programa, foram utilizados o
dicionrio e o modelo de linguagem especficos de cada programa gerados anteriormente,
conforme descrito na Seo 5.5.1. Foram utilizados os trs modelos acsticos treinados e
adaptados anteriormente, conforme descrito nas Sees 5.5.3 e 5.5.4. Uma representao
esquemtica da decodificao pode ser vista na Figura 23.
84
Figura 23 Representao esquemtica da decodificao
O peso do modelo de linguagem (LW) foi ajustado de forma iterativa em cada

programa, iniciando com LW=1 e somando 1 at que no houvesse melhoria na acurcia da
decodificao. Um exemplo da variao de acurcia com o peso do modelo de linguagem,
para o programa Bom Dia Brasil, utilizando o modelo acstico treinado com corpus maior,
pode ser observado na Figura 24.
85
Figura 24 Variao da acurcia com peso do modelo de linguagem, para o programa

Bom Dia Brasil, utilizando o modelo acstico treinado com corpus maior
80%!
79%!
Acurcia!
78%!
77%!
76%!
75%!
74%!
1!
2!
3!
4!
5!
6!
Peso!do!Modelo!de!Linguagem!
Foi ajustada a mesma penalidade para insero de novas palavras (IP) para todos
os programas de forma iterativa, iniciando com IP=0,1 e somando 0,1 at que no houvesse
melhoria na acurcia da decodificao, resultando no valor de IP=6,4.
A decodificao utilizou um controle de feixe (beam) com limiar muito baixo (10100
), para evitar erros de decodificao devido possvel poda prematura de uma hiptese
correta.
A transcrio gerada foi comparada com a transcrio manual, atravs do script
word_align.pl, distribudo com o pacote Sphinxtrain v.1.0.8, parte do sistema de software
livre CMU Sphinx.
A execuo de todos os processos descritos nas Sees 5.5.1 a 5.5.5 consumiu o
equivalente a mais de 17 dias de processamento ininterrupto de um computador dedicado a
essa atividade (utilizando um Apple Mac mini do final de 2012, com processador Intel Core
i5 de 2,5 GHz, 16 GB de RAM e sistema operacional OS X 10.9.4), mesmo com a execuo
de threads paralelos quando possvel.
Os resultados obtidos com o modelo acstico treinado com corpus mais reduzido,
apenas com uma voz masculina, podem ser observados na Tabela 10.
86
Tabela 10 Acurcia do sistema de RAV baseado em software livre utilizando modelo

acstico treinado com corpus mais reduzido, com apenas uma voz masculina
(continua)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

13m17s
2201
1772 (80,51%)
Substituies:
485 (22,04%)
Omisses:
Inseres:
77,96%
06m08s
790
668 (84,56%)
Substituies:
149 (18,86%)
Omisses:
Inseres:
81,14%
03m36s
666
520 (78,08%)
Substituies:
158 (23,72%)
Omisses:
Inseres:
76,28%
02m06s
126
100 (79,37%)
Substituies:
29 (23,02%)
Omisses:
Inseres:
76,98%
01m18s
79
69 (87,34%)
Substituies:
12 (15,19%)
Omisses:
Inseres:
84,81%
318 (14,45%)
111 (5,04%)
56 (2,55%)
94 (11,90%)
28 (3,54%)
27 (3,42%)
104 (15,61%)
42 (6,31%)
12 (1,80%)
22 (17,46%)
4 (3,18%)
3 (2,38%)
6 (7,60%)
4 (5,06%)
2 (2,53%)
87

(continuao)
Durao:
Nmero de Palavras:
Peso do
Modelo de Linguagem:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Peso do
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

26m25s
3862
4
3129 (81,02%)
Substituies:
833 (21,57%)
Omisses:
Inseres:
78,43%
Bem Estar (Bloco 1)
15m58s
2662
1806 (67,84%)
Substituies:
921 (34,60%)
Omisses:
Inseres:
65,40%
Bem Estar (Bloco 2)
03m30s
557
412 (73,97%)
Substituies:
156 (28,01%)
Omisses:
Inseres:
71,99%
SUBTOTAL BEM ESTAR
19m28s
3219
544 (14,09%)
189 (4,89%)
100 (2,59%)
634 (23,82%)
222 (8,34%)
65 (2,44%)
104 (18,67%)
41 (7,36%)
11 (1,98%)
5
2218 (68,90%)
Substituies:
1077 (33,46%)
Omisses:
Inseres:
66,54%
08m50s
799
604 (75,59%)
Substituies:
232 (29,04%)
Omisses:
Inseres:
70,96%
738 (22,93%)
263 (8,17%)
76 (2,36%)
153 (19,15%)
42 (5,26%)
37 (4,63%)
88

(concluso)

11m02s
1894
1279 (67,53%)
Substituies:
442 (23,34%)
Erros:
653 (34,48%)
Omisses:
173 (9,13%)
Inseres:
38 (2,01%)
Acurcia:
65,52%
Durao:
06m38s
Nmero de Palavras:
1014
Acertos:
663 (65,38%)
Substituies:
258 (25,44%)
Erros:
368 (36,29%)
Omisses:
93 (9,17%)
Inseres:
17 (1,68%)
Acurcia:
63,71%
Durao:
26m01s
Nmero de Palavras:
3240
Acertos:
2239 (69,10%)
Substituies:
733 (22,63%)
Erros:
1096 (33,83%)
Omisses:
268 (8,27%)
Inseres:
95 (2,93%)
Acurcia:
66,17%
Durao:
37m31s
Nmero de Palavras:
6947
Peso do
4
Acertos:
4785 (68,88%)
Substituies:
1586 (22,83%)
Erros:
2349 (33,81%)
Omisses:
576 (8,29%)
Inseres:
187 (2,69%)
Acurcia:
66,19%
TOTAL GERAL
Durao:
01h38m24s
Nmero de Palavras:
14028
Senones:
1000
Gaussianas:
16
Acertos:
10132 (72,23%)
Substituies:
2868 (20,44%)
Erros:
4259 (30,36%)
Omisses:
1028 (7,33%)
Inseres:
363 (2,59%)
Acurcia:
69,64%
Durao:
Nmero de Palavras:
Acertos:
89
Os resultados obtidos com o modelo acstico treinado com corpus intermedirio,

com vozes masculinas apenas, podem ser observados na Tabela 11.
acstico treinado com corpus intermedirio, com vozes masculinas apenas
(continua)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

13m17s
2201
1802 (81,87%)
Substituies:
458 (20,81%)
Omisses:
Inseres:
79,19%
06m08s
790
680 (86,08%)
Substituies:
138 (17,47%)
Omisses:
Inseres:
82,53%
03m36s
666
530 (79,58%)
Substituies:
154 (23,12%)
Omisses:
Inseres:
76,88%
02m06s
126
106 (84,13%)
Substituies:
23 (18,25%)
Omisses:
Inseres:
81,75%
01m18s
79
66 (83,54%)
Substituies:
16 (20,25%)
Omisses:
Inseres:
79,75%
302 (13,72%)
97 (4,41%)
59 (2,68%)
90 (11,39%)
20 (2,53%)
28 (3,55%)
93 (13,96%)
43 (6,46%)
18 (2,70%)
17 (13,49%)
3 (2,38%)
3 (2,38%)
9 (11,39%)
4 (5,06%)
3 (3,80%)
90

(continuao)
Durao:
Nmero de Palavras:
Peso do
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Peso do
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

26m25s
3862
3
3184 (82,44%)
Substituies:
789 (20,43%)
Omisses:
Inseres:
79,57%
Bem Estar (Bloco 1)
15m58s
2662
1846 (69,35%)
Substituies:
905 (34,00%)
Omisses:
Inseres:
66,00%
Bem Estar (Bloco 2)
03m30s
557
405 (72,71%)
Substituies:
167 (29,98%)
Omisses:
Inseres:
70,02%
SUBTOTAL BEM ESTAR
19m28s
3219
511 (13,23%)
167 (4,33%)
111 (2,87%)
610 (22,92%)
206 (7,74%)
89 (3,34%)
112 (20,11%)
40 (7,18%)
15 (2,69%)
3
2251 (69,93%)
Substituies:
1072 (33,30%)
Omisses:
Inseres:
66,70%
08m50s
799
619 (77,47%)
Substituies:
215 (26,91%)
Omisses:
Inseres:
73,09%
722 (22,43%)
246 (7,64%)
104 (3,23%)
133 (16,65%)
47 (5,88%)
35 (4,38%)
91

(concluso)

11m02s
1894
1346 (71,07%)
Substituies:
372 (19,64%)
Erros:
585 (30,89%)
Omisses:
176 (9,29%)
Inseres:
37 (1,96%)
Acurcia:
69,11%
Durao:
06m38s
Nmero de Palavras:
1014
Acertos:
677 (66,77%)
Substituies:
240 (23,67%)
Erros:
357 (35,21%)
Omisses:
97 (9,57%)
Inseres:
20 (1,97%)
Acurcia:
64,79%
Durao:
26m01s
Nmero de Palavras:
3240
Acertos:
2273 (70,15%)
Substituies:
713 (22,00%)
Erros:
1068 (32,96%)
Omisses:
254 (7,84%)
Inseres:
101 (3,12%)
Acurcia:
67,04%
Durao:
37m31s
Nmero de Palavras:
6947
Peso do
4
Acertos:
4915 (70,75%)
Substituies:
1458 (20,99%)
Erros:
2225 (32,03%)
Omisses:
574 (8,26%)
Inseres:
193 (2,78%)
Acurcia:
67,97%
TOTAL GERAL
Durao:
01h38m24s
Nmero de Palavras:
14028
Senones:
2000
Gaussianas:
4
Acertos:
10350 (73,78%)
Substituies:
2691 (19,18%)
Erros:
4086 (29,13%)
Omisses:
987 (7,04%)
Inseres:
408 (2,91%)
Acurcia:
70,87%
Durao:
Nmero de Palavras:
Acertos:
92
Os resultados obtidos com o modelo acstico treinado com corpus maior, com
vozes masculinas e femininas, podem ser observados na Tabela 12.
acstico treinado com corpus maior, com vozes masculinas e femininas
(continua)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

13m17s
2201
1788 (81,24%)
Substituies:
465 (21,13%)
Omisses:
Inseres:
78,87%
06m08s
790
673 (85,19%)
Substituies:
140 (17,72%)
Omisses:
Inseres:
82,28%
03m36s
666
530 (79,58%)
Substituies:
149 (22,37%)
Omisses:
Inseres:
77,63%
02m06s
126
97 (76,98%)
Substituies:
31 (24,60%)
Omisses:
Inseres:
75,40%
01m18s
79
72 (91,14%)
Substituies:
9 (11,39%)
Omisses:
Inseres:
88,61%
305 (13,86%)
108 (4,91%)
52 (2,36%)
92 (11,65%)
25 (3,16%)
23 (2,91%)
91 (13,66%)
45 (6,76%)
13 (1,95%)
23 (18,25%)
6 (4,76%)
2 (1,59%)
4 (5,06%)
3 (3,80%)
2 (2,53%)
93

(continuao)
Durao:
Nmero de Palavras:
Peso do
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Peso do
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:

26m25s
3862
6
3160 (81,82%)
Substituies:
794 (20,56%)
Omisses:
Inseres:
79,44%
Bem Estar (Bloco 1)
15m58s
2662
1881 (70,66%)
Substituies:
866 (32,53%)
Omisses:
Inseres:
67,47%
Bem Estar (Bloco 2)
03m30s
557
411 (73,79%)
Substituies:
165 (29,62%)
Omisses:
Inseres:
70,38%
SUBTOTAL BEM ESTAR
19m28s
3219
515 (13,34%)
187 (4,84%)
92 (2,38%)
611 (22,95%)
170 (6,39%)
85 (3,19%)
112 (20,11%)
34 (6,10%)
19 (3,41%)
3
2292 (71,20%)
Substituies:
1031 (32,03%)
Omisses:
Inseres:
67,97%
08m50s
799
614 (76,85%)
Substituies:
215 (26,91%)
Omisses:
Inseres:
73,09%
723 (22,46%)
204 (6,34%)
104 (3,23%)
139 (17,40%)
46 (5,76%)
30 (3,75%)
94

(concluso)

11m02s
1894
1337 (70,59%)
Substituies:
390 (20,59%)
Erros:
594 (31,36%)
Omisses:
167 (8,82%)
Inseres:
37 (1,95%)
Acurcia:
68,64%
Durao:
06m38s
Nmero de Palavras:
1014
Acertos:
696 (68,64%)
Substituies:
225 (22,19%)
Erros:
336 (33,14%)
Omisses:
93 (9,17%)
Inseres:
18 (1,78%)
Acurcia:
66,86%
Durao:
26m01s
Nmero de Palavras:
3240
Acertos:
2268 (70,00%)
Substituies:
728 (22,47%)
Erros:
1074 (33,15%)
Omisses:
244 (7,53%)
Inseres:
102 (3,15%)
Acurcia:
66,85%
Durao:
37m31s
Nmero de Palavras:
6947
Peso do
4
Acertos:
4915 (70,75%)
Substituies:
1482 (21,33%)
Erros:
2219 (31,94%)
Omisses:
550 (7,92%)
Inseres:
187 (2,69%)
Acurcia:
68,06%
TOTAL GERAL
Durao:
01h38m24s
Nmero de Palavras:
14028
Senones:
2000
Gaussianas:
16
Acertos:
10367 (73,90%)
Substituies:
2720 (19,39%)
Erros:
4044 (28,83%)
Omisses:
941 (6,71%)
Inseres:
383 (2,73%)
Acurcia:
71,17%
Durao:
Nmero de Palavras:
Acertos:
95
5.5.6 Latncia
Para o teste de latncia, foram utilizados os recursos gerados (dicionrios,
modelos acstico e de linguagem) em um programa Java, baseado na biblioteca sphinx4.jar,
parte do pacote Sphinx4 v.1.0beta6, do CMU Sphinx, desenvolvido a partir do programa Java
HelloNGram, tambm parte do pacote Sphinx4 v.1.0beta6.
Foi realizada uma gravao da tela e do udio do computador durante um trecho
do reconhecimento, utilizando um software comercial (SYNIUM SOFTWARE, 2013). O
udio da gravao foi extrado para o formato WAV utilizando um software comercial
(APPLE, 2009).
A latncia foi avaliada comparando os tempos de fim de trs frases no arquivo
WAV (verificados manualmente atravs de um software livre) (AUDACITY, 2013) e no
vdeo (verificados manualmente atravs de um software comercial (APPLE, 2009). Verificouse a latncia mdia de 652 ms.
5.5.7 Consumo de recursos computacionais
O uso de CPU e a ocupao de RAM foram verificados atravs do Monitor de
Atividade do OS X. Tal como apontado na Seo 5.4.5, este mtodo tambm no adequado
quando se deseja obter preciso em medidas. Contudo, o objetivo de sua utilizao neste
trabalho novamente conseguir capturar uma noo da ordem de grandeza do consumo de
recursos computacionais de sistemas RAV. Sob esta tica, a medio de consumo de recursos
computacionais foi feita com o mesmo programa Java mencionado no item anterior, que
durante a operao de reconhecimento ocupou cerca de 20% da CPU do computador e cerca
de 300 MB de RAM.
5.6 ANLISE DOS RESULTADOS
Um resumo dos resultados de acurcia obtidos nos testes est representado na
Tabela 13.
96
Tabela 13 Resumo dos resultados de acurcia obtidos nos testes
Acertos:
SUBTOTAL
Substituies:
BOM DIA Erros: Omisses:
BRASIL
Inseres:
Acurcia:
Acertos:
Substituies:
SUBTOTAL
Erros: Omisses:
BEM ESTAR
Inseres:
Acurcia:
Acertos:
SUBTOTAL
Substituies:
DOMINGO
Erros: Omisses:
DO
Inseres:
FAUSTO
Acurcia:
Acertos:
Substituies:
TOTAL
Erros: Omisses:
GERAL
Inseres:
Acurcia:
Estenotipia
Relocuo
IBM ViaVoice
84,90%
6,96%
17,97% 8,14%
2,87%
82,03%
66,95%
13,33%
36,52% 19,72%
3,47%
63,48%
60,83%
9,02%
40,29% 30,15%
1,12%
59,71%
68,75%
9,40%
33,37% 21,85%
2,12%
66,63%
99,11%
0,48%
1,10% 0,40%
0,22%
98,90%
95,42%
3,32%
5,01% 1,26%
0,43%
94,99%
94,69%
3,14%
7,20% 2,17%
1,89%
92,80%
96,06%
2,45%
5,05% 1,49%
1,11%
94,95%
83,91%
12,82%
20,93% 4,53%
3,58%
79,07%
71,49%
22,60%
32,18% 5,91%
3,67%
67,82%
64,87%
27,36%
38,36% 7,77%
3,23%
61,64%
71,52%
22,34%
32,24% 6,48%
3,42%
67,76%
CMU Sphinx c/
Corpus
Reduzido
81,02%
14,09%
21,57% 4,89%
2,59%
78,43%
68,90%
22,93%
33,46% 8,17%
2,36%
66,54%
68,88%
22,83%
33,81% 8,29%
2,69%
66,19%
72,23%
20,44%
30,36% 7,33%
2,59%
69,64%
CMU Sphinx c/
Corpus
Intermedirio
82,44%
13,23%
20,43% 4,33%
2,87%
79,57%
69,93%
22,43%
33,30% 7,64%
3,23%
66,70%
70,75%
20,99%
32,03% 8,26%
2,78%
67,97%
73,78%
19,18%
29,13% 7,04%
2,91%
70,87%
CMU Sphinx c/
Corpus Maior
81,82%
13,34%
20,56% 4,84%
2,38%
79,44%
71,20%
22,46%
32,03% 6,34%
3,23%
67,97%
70,75%
21,33%
31,94% 7,92%
2,69%
68,06%
73,90%
19,39%
28,83% 6,71%
2,73%
71,17%
Na avaliao da estenotipia, observa-se que o erro mais frequente a omisso de

palavras. Provavelmente, algumas palavras so suprimidas porque o estenotipista no
consegue digitar rpido o suficiente. Entretanto, no foi feita nenhuma anlise qualitativa
sobre essas omisses ou sobre os demais erros, quanto perda de informao til ou
interferncia na compreenso do texto.
Diferentemente da estenotipia, a relocuo utilizada na presente avaliao no foi
realizada por um servio profissional especializado; tambm no foi utilizado um estdio de
gravao adequado; trata-se de uma gravao domstica realizada pelo prprio autor deste
trabalho. Portanto, os resultados obtidos a partir dessa relocuo (incluindo os resultados de
Reconhecimento Automtico de Voz) provavelmente poderiam ser melhores em uma
aplicao real. A relocuo apresentou uma quantidade relativamente pequena de erros, que
seria somada aos erros dos sistemas de Reconhecimento Automtico de Voz na aplicao
proposta para esses sistemas.
Todos os sistemas de Reconhecimento Automtico de Voz testados apresentaram
acurcia superior estenotipia. Nota-se que o tipo de erro mais frequente nesses sistemas a
substituio. Caso se considere, em trabalhos futuros, que a substituio tem efeito mais
negativo para a compreenso do texto do que a omisso de palavras, possvel modificar o
sistema de RAV para exibir apenas as palavras reconhecidas com escore de confiana acima
de um determinado limiar, o que reduziria o nmero de substituies e aumentaria o nmero
de omisses.
97
Os testes utilizando o software livre CMU Sphinx apresentaram acurcia superior

ao IBM ViaVoice, apesar de os corpora de voz utilizados no treinamento dos modelos
acsticos serem muito pequenos (com duraes totais variando de 8h50m a 11h45m).
Entretanto, vale notar que a documentao do sistema (CARNEGIE MELLON
UNIVERSITY, 2012) recomenda que o treinamento do modelo acstico para a aplicao em
telejornais utilize pelo menos 200 horas de udio com a voz de, pelo menos 200 pessoas. Para
o reconhecimento de conversao espontnea recomenda-se a utilizao de 2000 horas de
udio. E trata-se de uma recomendao para a lngua inglesa. A lngua portuguesa, por ser
muito flexiva e ter uma gramtica relativamente livre em relao ordem das palavras, requer
dicionrios maiores e modelos de linguagem mais complexos. Para obter a mesma acurcia
que se obtm na lngua inglesa, necessrio compensar aumentando a preciso do modelo
acstico, o que requer um corpus de voz ainda maior.
Os modelos acsticos treinados com corpora de voz um pouco maiores
apresentaram acurcia maior. Aumentar o corpus de voz significativamente seria, portanto,
muito benfico para a acurcia do sistema. O corpus de voz maior (11h45m), mesmo sendo
misto (com vozes masculinas e femininas) resultou em uma acurcia maior que o corpus de
voz apenas masculino com durao um pouco menor (11h20m) no reconhecimento de uma
voz masculina. Nesse caso, no houve vantagem em segmentar o corpus de voz por sexo, o
que talvez seja vantajoso, como sugerido por diversos autores, apenas em um corpus de maior
durao.
A adaptao de locutor, em uma aplicao real, poderia contar com um corpus
cada vez maior, utilizando o reconhecimento revisado da relocuo dos programas anteriores.
A utilizao de dicionrios e modelos de linguagem especficos de cada programa
efetivamente reduziu a taxa de palavras fora do dicionrio e a perplexidade, mesmo utilizando
apenas metade de um programa no treinamento. Em uma aplicao real tambm seria possvel
ter acesso a diversos programas anteriores e, talvez tambm a algum rascunho de roteiro do
programa do dia.
Observa-se que, tanto na estenotipia quanto na relocuo e Reconhecimento
Automtico de Voz, o telejornal apresenta muito menos erros que o programa sobre sade e
que o programa de auditrio. Dois motivos podem ser considerados: o vocabulrio
(especializado no programa sobre sade, grias no programa de auditrio) e o estilo mais
informal dos programas no jornalsticos, com mais dilogos espontneos.
98
Em todas as alternativas de gerao de closed caption ao vivo testadas, a taxa de

acerto muito inferior mnima especificada na ABNT NBR 15290 (ASSOCIAO
BRASILEIRA DE NORMAS TCNICAS, 2005) (98%). Pode-se considerar, portanto, que o
desempenho especificado no alcanvel no atual estado da tcnica.
Quanto latncia, a estenotipia avaliada encontra-se no limite da norma
(aproximadamente 4 segundos). A latncia de aproximadamente um segundo observada na
relocuo consistente com a relatada por Boulianne et al. (2006) no Canad. Para o IBM
ViaVoice foi observada uma latncia mdia de aproximadamente dois segundos, enquanto
para o CMU Sphinx foi observada uma latncia mdia de aproximadamente 650 ms. Em
ambos os casos, essa medida de latncia no inclui a latncia da relocuo, da codificao e
da multiplexao do closed caption, processos que seriam necessrios em uma aplicao real.
Quanto ao consumo de recursos computacionais, embora o CMU Sphinx consuma
mais recursos que o IBM ViaVoice para o reconhecimento de voz, ambos podem ser
executados facilmente por um computador de uso domstico atual. Quanto ao treinamento do
sistema de RAV, porm, pode ser necessrio estudar otimizaes para viabilizar uma
atualizao frequente, dado que no presente teste esse treinamento consumiu o equivalente a
mais de 17 dias de processamento ininterrupto de um computador dedicado a essa atividade.
99
6 CONCLUSO E TRABALHOS FUTUROS

6.1 CONCLUSO
Observa-se claramente uma demanda por uma soluo alternativa estenotipia na
gerao de legenda oculta de programas de televiso com fala espontnea ao vivo, tanto para
reduzir os custos, como para conseguir a escala necessria para atender a todos os programas
televisivos produzidos ao vivo no pas, dada a escassez de profissionais de estenotipia. Tal
demanda especialmente crtica nas afiliadas das redes de televiso localizadas em cidades de
pequeno e mdio porte. Tambm existe o desejo de se obter maior qualidade (maior acurcia
e menor latncia). Como o limitador da qualidade da estenotipia o fator humano, difcil
acreditar que possa haver uma melhoria significativa na qualidade desse servio no futuro
prximo.
Durante a pesquisa para elaborao desta dissertao, foi apresentado um artigo
(BRITO; STRAUSS; MELLO, 2012) no Congresso da Sociedade Brasileira de Engenharia de
Televiso (SET), que recebeu o Prmio SET 2012 de Melhor Paper Acadmico Cientfico,
demonstrando o interesse do setor pelo tema.
O Reconhecimento Automtico de Voz, como tem sua qualidade limitada por um
sistema computacional, teria a oportunidade de melhoria contnua. Alm disso, apresenta
custo operacional baixo e facilmente escalvel.
Tanto o sistema comercial (obsoleto) de RAV quanto o sistema baseado em
software livre utilizados nesse teste apresentaram acurcia mais alta e latncia mais baixa que
a estenotipia. O melhor desempenho foi do sistema baseado em software livre, que ainda
apresenta muitas possibilidades de melhorias futuras.
Em todo caso, nem a estenotipia, nem o Reconhecimento Automtico de Voz
puderam se aproximar da taxa de acerto mnima especificada pela NBR 15290 (98%), o que
indica que se trata de um critrio atualmente inalcanvel, estabelecido sem a realizao de
testes em sistemas reais de gerao de legenda oculta ao vivo.
100
6.2 TRABALHOS FUTUROS

Para melhorar ainda mais o desempenho do sistema de RAV baseado em software
livre para a gerao de legenda oculta ao vivo, vrias aes so possveis, dentre as quais
algumas ideias so destacadas a seguir.
O desenvolvimento que provavelmente seria mais significativo seria o de um
corpus de voz suficientemente grande e diversificado. Isso pode ser feito a partir dos corpora
disponveis publicamente indicados na Seo 4.6, completando as transcries e
segmentaes faltantes, e/ou utilizando corpora comerciais e/ou investindo na gravao de
um novo corpus. Utilizar vozes com sotaque semelhante ao da localidade de aplicao do
sistema tambm pode ser benfico, embora a adaptao de locutor possa reduzir o problema
da eventual diferena de sotaque das vozes utilizadas no treinamento do modelo acstico
independente de locutor. Segmentar o corpus de voz em masculino e feminino pode ser til se
o corpus for suficientemente grande e diversificado.
Quanto elaborao do corpus de texto preciso desenvolver mecanismos
completamente automticos para extrair textos da Internet, tratando problemas de codificao
de texto, erros de digitao, expanso de abreviaes e nmeros.
Quanto ao dicionrio fontico, pode ser benfico utilizar smbolos fonticos
diferentes para as vogais tnicas. Dicionrios fonticos diferenciados por sotaque tambm
podem ser teis.
Como o processo de treinamento do sistema de RAV utilizado nesse trabalho
consumiu o equivalente a mais de 17 dias de processamento ininterrupto de um computador
dedicado a essa atividade, seria necessrio estudar otimizaes para viabilizar uma
atualizao frequente (e.g. diria) dos modelos acsticos e de linguagem.
Tambm seria interessante avaliar os vrios softwares livres disponveis para essa
aplicao, bem como a possibilidade de customizao deles (uma vez que possuem cdigofonte aberto) ou mesmo de desenvolvimento de um novo sistema.
Para que o sistema alcanasse a maturidade necessria para uma aplicao real,
seria necessrio uma integrao da soluo completa em uma ferramenta simples de usar,
incluindo atualizao automtica (e.g. diria) dos dicionrios e dos modelos de linguagem
especficos de cada programa, do modelo acstico independente de locutor e da adaptao de
locutor, interface operacional para inserir pontuao e outros smbolos (e.g. nome do reprter
ou apresentador) durante a relocuo e para comutar para fontes de texto externas (e.g.
101
teleprompt), ferramentas de correo da transcrio automtica em tempo real e/ou aps a

finalizao do programa, gerao de relatrios de desempenho (acurcia e latncia),
integrao com ferramentas de codificao e multiplexao de closed caption.
Por fim, seria interessante fazer uma avaliao qualitativa do desempenho obtido
com o Reconhecimento Automtico de Voz, preferencialmente com a participao de
deficientes auditivos.
102
REFERNCIAS
AHMER, I. Automatic speech recognition for closed captioning of television: data and
issues. 2002. Thesis (Master of Engineering) University of South Australia, Adelaide, 2002.
APPLE. iMovie'11 v.9.0.8. 2012. Disponvel em: <http:// www.apple.com/ br/ ilife/ imovie>.
Acesso em: 19 nov. 2012.
______. Learn more about Siri. 2011. Disponvel em: <http:// www.apple.com/ iphone/
features/ siri-faq.html>. Acesso em: 13 maio 2012.
______. QuickTime Player Pro v.7.6.6. 2009. Disponvel em: <http:// www.apple.com/
quicktime/ extending>. Acesso em: 19 nov. 2012.
ASSOCIAO BRASILEIRA DE NORMAS TCNICAS. NBR 15610-1: televiso digital
terrestre - acessibilidade - parte 1: ferramentas de texto. Rio de Janeiro, 2011.
______. NBR 15604: televiso digital terrestre - receptores. Rio de Janeiro, 2008a.
______. NBR 15606-1: televiso digital terrestre - codificao de dados e especificaes de
transmisso para radiodifuso digital - parte 1: codificao de dados. Rio de Janeiro, 2008b.
______. NBR 15290: acessibilidade em comunicao na televiso. Rio de Janeiro, 2005.
AUDACITY. Audacity v.2.0.3. 2013. Disponvel em: <http:// audacity.sourceforge.net>.
Acesso em: 19 jan. 2013.
BATISTA, P. D. S. Avanos em reconhecimento de fala para portugus brasileiro e
aplicaes: ditado no LibreOffice e unidade de resposta audvel com Asterisk. 2013.
Dissertao (Mestrado em Engenharia Eltrica) Universidade Federal do Par, Belm, 2013.
BOULIANNE, G.; BEAUMONT, J.; BOISVERT, M.; BROUSSEAU, J.; CARDINAL, P.;
CHAPDELAINE, C.; COMEAU, M.; OUELLET, P.; OSTERRATH, F. Computer-assisted
closed-captioning of live TV broadcasts in French. In: INTERSPEECH 2006: proceedings
of the International Conference of Spoken Language Processing. Pittsburgh: ISCA, 2006. p.
273-276.
BRASIL. Ministrio da Justia. Portaria n 1.220, de 11 de julho de 2007. Regulamenta as
disposies da Lei n 8.069, de 13 de julho de 1990 (Estatuto da Criana e do Adolescente ECA), da Lei no 10.359, de 27 de dezembro de 2001, e do Decreto no 6.061, de 15 de maro
de 2007, relativas ao processo de classificao indicativa de obras audiovisuais destinadas
televiso e congneres. Dirio Oficial [da] Repblica Federativa do Brasil, Poder
Executivo, Braslia, DF, 12 jul. 2007. Seo 1, p. 87-88.
______. Ministrio das Comunicaes. Portaria n 310, de 27 de junho de 2006. Dirio
Oficial [da] Repblica Federativa do Brasil, Poder Executivo, Braslia, DF, 28 jun. 2006.
Seo 1, p. 34.
103
BRASIL. Lei n 10.436, de 24 de abril de 2002. Dispe sobre a Lngua Brasileira de Sinais Libras e d outras providncias. Dirio Oficial [da] Repblica Federativa do Brasil, Poder
Legislativo, Braslia, DF, 25 abr. 2002. Seo 1, p. 23.
______. Lei n 10.098, de 19 de dezembro de 2000. Estabelece normas gerais e critrios
bsicos para a promoo da acessibilidade das pessoas portadoras de deficincia ou com
mobilidade reduzida, e d outras providncias. Dirio Oficial [da] Repblica Federativa do
Brasil, Poder Legislativo, Braslia, DF, 20 dez. 2000. Seo 1, p. 2-3.
BRITO, L. F. D. S.; STRAUSS, E.; MELLO, F. L. D. Uso de reconhecimento automtico de
voz em portugus do Brasil na gerao de closed caption. Revista de Radiodifuso - SET,
2012. v. 6, p. 54-60.
BROUSSEAU, J.; BEAUMONT, J.; BOULIANNE, G.; CARDINAL, P.; CHAPDELAINE,
C.; COMEAU, M.; OSTERRATH, F.; OUELLET, P. Automated closed-captioning of live
TV broadcast news in French. In: Eurospeech 2003: proceedings of the 8th European
Conference on Speech Communication and Technology. Geneva: ISCA, 2003. p. 1245-1248.
CAMBRIDGE UNIVERSITY. HTK. 2009. Disponvel em: <http:// htk.eng.cam.ac.uk>.
Acesso em: 14 maio 2012.
CARDINAL, P.; BOULIANNE, G.; COMEAU, M.; BOISVERT, M. Real-time correction
of closed-captions. In: Proceedings of the ACL 2007 demo and poster sessions. Prague:
ACL, 2007. p. 113-116.
CARNEGIE MELLON UNIVERSITY. CMU Sphinx. 2012. Disponvel em: <http://
cmusphinx.sourceforge.net>. Acesso em: 13 dez. 2012.
CENTRO DE LINGUSTICA DA UNIVERSIDADE DE LISBOA. Portugus falado:
variedades geogrficas e sociais. 1997. Disponvel em: <http:// www.clul.ul.pt/ pt/ recursos/
83-spoken-portuguese-geographical-and-social-varieties-r>. Acesso em: 19 maio 2014.
CINCAREK, T. Selective training for cost-effective development of real-environment
speech recognition applications. 2008. Dissertation (Doctor of Engineering) Nara Institute
of Science and Technology, Ikoma, 2008.
CONSUMER ELECTRONICS ASSOCIATION. ANSI/CEA-608-E: line 21 data services.
Arlington, 2008.
CYCLING'74. Soundflower v.1.6.6. 2012. Disponvel em: <http:// cycling74.com/ products/
soundflower>. Acesso em: 19 nov. 2012.
EUROPEAN LANGUAGE RESOURCES ASSOCIATION. GlobalPhone Portuguese
(Brazilian). 2008. Disponvel em: <http:// catalog.elra.info/ product_info.php? products_id=
825>. Acesso em: 19 maio 2014.
EVANS, M. J. BBC R&D White Paper 065. Speech Recognition in Assisted and Live
Subtitling for Television. 2003. Disponvel em: <http:// downloads.bbc.co.uk/ rd/ pubs/ whp/
whp-pdf-files/ WHP065.pdf>. Acesso em: 18 maio 2012.
104
GARTNER. Gartner's 2014 hype cycle for emerging technologies maps: the journey to
digital business. 2014. Disponvel em: <http:// www.gartner.com/ newsroom/ id/ 2819918>.
Acesso em: 20 ago. 2014.
GNU. Wget v.1.14. 2012. Disponvel em: <http:// www.gnu.org/ software/ wget>. Acesso
em: 17 nov. 2012.
GOOGLE. Introducing voice search: now on your computer. 2012. Disponvel em: <http://
www.google.com/ insidesearch/ features/ voicesearch/ index.html>. Acesso em: 13 maio
2012.
HOMMA, S.; KOBAYASHI, A.; OKU, T.; SATO, S.; IMAI, T.; TAKAGI, T. New realtime closed-captioning system for Japanese broadcast news programs. In: Proceedings of
the 11th International Conference on Computers Helping People with Special Needs. Linz:
Springer, 2008. p. 651-654.
HUANG, X.; ACERO, A.; HON, H. W. Spoken language processing: a guide to theory,
algorithm, and system development. Upper Saddle River: Prentice-Hall, 2001.
IBM. IBM Desktop ViaVoice. 2008. Disponvel em: <http:// www-01.ibm.com/ software/
pervasive/ viavoice.html>. Acesso em: 13 maio 2012.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATSTICA. Censo demogrfico 2010:
resultados gerais da amostra. Rio de Janeiro, 2012. Disponvel em: <http:// www.ibge.gov.br/
home/ presidencia/ noticias/ imprensa/ ppts/ 00000008473104122012315727483985.pdf>.
Acesso em: 12 maio 2012.
INTERNATIONAL TELECOMMUNICATION UNION. Report ITU-R BT.2207-1:
accessibility to broadcasting services for persons with disabilities. Geneva, 2011.
KOHLSCHTTER, C. Boilerpipe v.1.2.0. 2011. Disponvel em: <http:// code.google.com/
p/ boilerpipe>. Acesso em: 17 nov. 2012.
KYOTO UNIVERSITY. Julius. 2012. Disponvel em: <http:// julius.sourceforge.jp/
en_index.php>. Acesso em: 01 ago. 2012.
LAMBOURNE, A.; HEWITT, J.; LYON, C.; WARREN, S. Speech-based real-time
subtitling services. International Journal of Speech Technology, out. 2004. v. 7, n. 4, p.
269-279.
LIBRIVOX. LibriVox. 2014. Disponvel em: <https:// librivox.org/ search? primary_key=
52& search_category=l anguage& search_page= 1& search_form= get_results>. Acesso em:
19 maio 2014.
LINGUISTIC DATA CONSORTIUM. West Point Brazilian Portuguese speech. 2008.
Disponvel em: <https:// catalog.ldc.upenn.edu/ LDC2008S04>. Acesso em: 19 maio 2014.
MARTINS, C.; TEIXEIRA, A.; NETO, J. Dynamic language modeling for European
Portuguese. Computer Speech and Language, out. 2010. v. 24, n. 4, p. 750-773.
105
MEINEDO, H.; CASEIRO, D.; NETO, J.; TRANCOSO, I. AUDIMUS.media: a broadcast

news speech recognition system for the European Portuguese language. In: PROPOR 2003:
Proceedings of the 6th International Workshop on Computational Processing of the
Portuguese Language. Faro: Springer, 2003. p. 9-17.
MESEGUER, N. A. Speech analysis for automatic speech recognition. 2009. Dissertation
(Master of Science in Electronics) Norwegian University of Science and Technology,
Trondheim, 2009.
MISSISSIPPI STATE UNIVERSITY. ISIP ASR. 2007. Disponvel em: <http://
www.isip.piconepress.com/ projects/ speech/ index.html>. Acesso em: 14 maio 2012.
MIYASAKA, E. Development of information systems in Japan Broadcasting Corporation.
Journal of the Center for Information Studies, 2004. n. 5, p. 52-57.
NORSKOG, L.; BAGWELL, C.; MUELLER, J.; ROSSUM, G. SoX v.14.4.1. 2013.
Disponvel em: <http:// sox.sourceforge.net>. Acesso em: 01 fev. 2013.
OHNO, T.; MATSUBARA, S.; KASHIOKA, H.; INAGAKI, Y. Simultaneous
summarization of Japanese spoken monologue for real-time captioning. In: Proceedings
of the International Conference on Natural Language Processing and Knowledge Engineering.
Beijing: IEEE, 2007. p. 373-380.
OREGON HEALTH & SCIENCE UNIVERSITY. Corpora from CSLU: the Spoltech
Brazilian Portuguese V1.0. 2009a. Disponvel em: <http:// www.ohsu.edu/ tech-transfer/
portal/ technology.php? technology_id= 212879>. Acesso em: 19 maio 2014.
______. Corpora from CSLU: 22 language. 2009b. Disponvel em: <http:// www.ohsu.edu/
tech-transfer/ portal/ technology.php? technology_id= 57510>. Acesso em: 19 maio 2014.
RWTH AACHEN UNIVERSITY. RWTH ASR. 2012. Disponvel em: <http:// wwwi6.informatik.rwth-aachen.de/ rwth-asr>. Acesso em: 14 maio 2012.
SAKO, A.; ARIKI, Y. Structuring baseball live games based on speech recognition using
task dependent knowledge and emotion state recognition. In: Proceedings of the
International Conference on Acoustics, Speech, and Signal Processing. Philadelphia: IEEE,
2005. p. 1049-1052.
SANT'ANA, T. Eu sou: estenotipista. Revista Galileu. maio 2012. Disponvel em: <http://
revistagalileu.globo.com/ Revista/ Common/ 0,EMI281040-17773,00EU+SOU+ESTENOTIPISTA.html>. Acesso em: 12 maio 2012.
SANZ, C. F.; QUETSCHKE, V. CCExtractor v.0.64. 2012. Disponvel em: <http://
ccextractor.sourceforge.net>. Acesso em: 19 nov. 2012.
SEGBROECK, M. V. Robust large vocabulary continuous speech recognition using
missing data techniques. 2010. Dissertation (Doctor in Engineering) Katholieke
Universiteit Leuven, Leuven, 2010.
106
SILVA, C. P. A. D. Um software de reconhecimento de voz para portugus brasileiro.

2010. Dissertao (Mestrado em Engenharia Eltrica) Universidade Federal do Par, Belm,
2010.
SIMON LISTENS. Simon. 2012. Disponvel em: <http:// simon-listens.org/
index.php?id=122&L=1>. Acesso em: 14 maio 2012.
SQUARED5. MPEG Streamclip v.1.9.2. 2008. Disponvel em: <http://
www.squared5.com>. Acesso em: 19 nov. 2012.
SRI INTERNATIONAL. SRILM. 2011. Disponvel em: <http:// www.speech.sri.com/
projects/ srilm>. Acesso em: 14 maio 2012.
SYNIUM SOFTWARE. Screenium v.2.1.2. 2013. Disponvel em: <http://
www.syniumsoftware.com/ screenium>. Acesso em: 02 jan. 2013.
UNIVERSIDAD POLITCNICA DE VALENCIA. iATROS. 2011. Disponvel em: <https://
prhlt.iti.upv.es/ page/ projects/ multimodal/ idoc/ iatros>. Acesso em: 14 maio 2012.
UNIVERSIDADE FEDERAL DO PAR. FalaBrasil. 2009. Disponvel em: <http://
www.laps.ufpa.br/ falabrasil>. Acesso em: 14 maio 2012.
UNIVERSITY OF TWENTE. SHoUT. 2010. Disponvel em: <http:// shouttoolkit.sourceforge.net>. Acesso em: 14 maio 2012.
VAL238. From_HDD_LG_to_PC v.1.12. 2008. Disponvel em: <http:// from-hdd-lg-topc.narod.ru>. Acesso em: 19 nov. 2012.
VMWARE. Fusion Professional v.5.0.2. 2012. Disponvel em: <http:// www.vmware.com/
products/ fusion>. Acesso em: 19 nov. 2012.
VOICE INTERACTION. Legendagem automtica: Audimus.Media. 2014a. Disponvel em:
<http:// www.voiceinteraction.com.br/ ?page_id=376>. Acesso em: 03 set. 2014.
______. Sistema de ditado para MS Windows: VoxControl. 2014b. Disponvel em: <http://
www.voiceinteraction.com.br/ ?page_id=1086>. Acesso em: 03 set. 2014.
VOXFORGE. VoxForge. 2014a. Disponvel em: <http:// www.voxforge.org/ pt>. Acesso
em: 19 maio 2014.
______. Downloads: Portuguese. 2014b. Disponvel em: <http:// www.voxforge.org/ pt/
Downloads>. Acesso em: 19 maio 2014.
YOUNG, S.; EVERMANN, G.; GALES, M.; HAIN, T.; KERSHAW, D.; LIU, X.; MOORE,
G.; ODELL, J.; OLLASON, D.; POVEY, D.; VALTCHEV, V.; WOODLAND, P. The HTK
book. Cambridge: Cambridge University Engineering Department, 2009.
ZGANK, A. Three-stage framework for unsupervised acoustic modeling using untranscribed
spoken content. ETRI Journal, out. 2010. v. 32, n. 5, p. 810-818.

Sistema de Decisão Automático para Conversão de Áudio em Texto Na Geração de Legenda Oculta

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sistema de Decisão Automático para Conversão de Áudio em Texto Na Geração de Legenda Oculta

Uploaded by

Copyright:

Available Formats

UNIVERSIDADE ESTADUAL DO CEAR

CENTRO DE CINCIAS E TECNOLOGIA

SISTEMA DE DECISO AUTOMTICO PARA

RIO DE JANEIRO RIO DE JANEIRO

LUIZ FAUSTO DE SOUZA BRITO

SISTEMA DE DECISO AUTOMTICO PARA

Dissertao apresentada ao Curso de Mestrado

RIO DE JANEIRO RIO DE JANEIRO

Dados Internacionais de Catalogao na Publicao

LUIZ FAUSTO DE SOUZA BRITO

SISTEMA DE DECISO AUTOMTICO PARA

CONVERSO DE AUDIO EM TEXTO NA GERAO DE LEGENDA OCULTA

Dissertao apresentada ao Curso de Mestrado

requisito parcial obteno do ttulo de mestre

Prof. Dr. Flvio Luis de Mello (Orientador)

Universidade Federal do Rio de Janeiro UFRJ

Negr iros Gomes

Universi ade Estadual do Cear UECE

Prof. Dr. Francisco Henrique de Freitas Viana

Educao Tecnolgica do Rio de Janeiro CEFET/RJ

Prof. Dr. Luiz Wagner Pereira Biscainho

memria do meu pai, meu maior mestre

Assim tambm vs: se vossa lngua s

compreender o que dizeis? Sereis como quem

Reconhecimento Automtico de Voz.

Figura 22 !Representao esquemtica da adaptao de locutor .................................... 82!

LISTA DE ABREVIATURAS E SIGLAS

Associao Brasileira de Normas Tcnicas

Carnegie Mellon University

Central Processing Unit

Discrete Cosine Transform

Type-II Discrete Cosine Transform

Discrete Fourier Transform

Fast Fourier Transform

Hidden Markov Model

HyperText Markup Language

Instituto Brasileiro de Geografia e Estatstica

International Business Machines Corporation

Linear Discriminant Analysis

Mel-Frequency Cepstral Coefficients

Maximum Likelihood Linear Regression

Maximum Likelihood Linear Transform

Moving Picture Experts Group

Moving Picture Experts Group Standard 2

Reconhecimento Automtico de Voz

Universidade Federal do Par

Video Recording Object File

Waveform Audio File Format

Word Error Rate

INTRODUO ............................................................................................................. 15!

1.1! TEMA ............................................................................................................................. 15!

LEGENDA OCULTA ................................................................................................... 18!

2.1! ACESSIBILIDADE ........................................................................................................ 18!

RECONHECIMENTO AUTOMTICO DE VOZ (RAV) ....................................... 24!

3.1! UNIDADE FONTICA .................................................................................................. 25!

GERAO DE LEGENDA OCULTA COM RAV NO MUNDO ........................... 38!

4.1! JAPO ............................................................................................................................ 38!

AVALIAO DE DESEMPENHO ............................................................................ 46!

5.1! MATERIAL DE TESTE ................................................................................................. 46!

5.3! AVALIAO DA RELOCUO ................................................................................. 56!

CONCLUSO E TRABALHOS FUTUROS ............................................................. 99!

6.1! CONCLUSO ................................................................................................................ 99!

otimizao da acurcia, levando em considerao as