Professional Documents
Culture Documents
Estadual
do
Cear,
como
BANCA _EXAMINADORA
'
Prof. Dr Marcos Jo
'
AGRADECIMENTOS
A Deus, verdadeira fonte de toda sabedoria. minha esposa, por todo suporte que me d. Aos
meus filhos, por inspirarem e alegrarem os meus dias. Aos meus pais, pela educao que me
deram. Aos professores Flvio Mello e Edilberto Strauss, pela pacincia, compreenso e
apoio. A todos que, de alguma forma, me ajudaram a chegar at aqui, o meu muito obrigado.
palavras
ininteligveis,
como
se
RESUMO
Este trabalho se prope a analisar uma soluo computacional para o problema de gerao de
legenda oculta em programas de televiso produzidos ao vivo e que contenham fala
espontnea, decidindo automaticamente a melhor transcrio de um sinal de udio em
Portugus do Brasil para o texto correspondente. Trata-se, portanto, do estudo de sistemas de
Reconhecimento Automtico de Voz em Portugus do Brasil, tendo em vista a otimizao da
acurcia. A busca de tal soluo se torna crtica pela falta de opes satisfatrias no mercado,
pela necessidade de garantir a acessibilidade do contedo televisivo para as pessoas com
deficincia auditiva e tambm para o cumprimento de legislao especfica. A anlise dos
resultados obtidos demonstra que possvel desenvolver um sistema a partir de software livre
e de bases de dados disponveis publicamente que obtenha um desempenho superior
estenotipia e aos sistemas comerciais de Reconhecimento Automtico de Voz em Portugus
do Brasil atualmente disponveis.
Palavras-Chave:
Computao.
Sistemas
de
Apoio
Deciso.
Legenda
Oculta.
ABSTRACT
This study aims to analyze a computational solution to the problem of generating closed
captions on live television programs containing spontaneous speech. The system may
automatically decide the best transcription of an audio signal in Brazilian Portuguese to the
corresponding text. To that end, it investigates Brazilian Portuguese Automatic Speech
Recognition systems in order to optimize their accuracy. The search for such a solution
becomes critical due to the lack of satisfactory options in the market, the need to provide
television content accessibility for hearing impaired people and also the compulsory
fulfillment of specific legislation. The analysis of the results that have been achieved shows
that it is possible to develop a system based on free software and publicly available databases
that gets a superior performance compared to stenotyping and currently available commercial
Brazilian Portuguese Automatic Speech Recognition systems.
Keywords: Computing. Decision Support Systems. Closed Caption. Automatic Speech
Recognition.
LISTA DE ILUSTRAES
Figura 1 ! Reconhecimento Automtico de Voz ................................................................ 24!
Figura 2 ! Processamento Digital de Sinais empregado no RAV .................................... 28!
Figura 3 ! Representao Esquemtica da Preparao do Material de Teste ............... 47!
Figura 4 ! Extrao de arquivo VRO do Disco Rgido ..................................................... 48!
Figura 5 ! Extrao de closed caption de arquivo VRO ................................................... 50!
Figura 6 ! Extrao de udio em formato WAV a partir de arquivo MPEG ................ 55!
Figura 7 ! Exemplo de marcao de tempo de fim de frase no udio do programa
e no texto extrado do closed caption ................................................................ 56!
Figura 8 ! Formatos de arquivos e softwares utilizados na relocuo ............................ 57!
Figura 9 ! Ambiente de execuo do IBM ViaVoice ......................................................... 61!
Figura 10 !Extrao dos textos da globo.com .................................................................... 63!
Figura 11 !Fluxo do sinal de udio utilizado na adaptao de locutor do IBM
ViaVoice .............................................................................................................. 64!
Figura 12 !Formatos de arquivos e softwares utilizados na avaliao da latncia
do IBM ViaVoice................................................................................................ 68!
Figura 13 !Trecho do corpus de texto ................................................................................. 70!
Figura 14 !Segmentao automtica do udio ................................................................... 70!
Figura 15 !Variao da perplexidade do modelo de linguagem do programa Bom
Dia Brasil com o nmero de repeties da transcrio de parte do
programa no corpus de texto............................................................................. 71!
Figura 16 !Variao da perplexidade do modelo de linguagem do programa Bem
Estar com o nmero de repeties da transcrio de parte do
programa no corpus de texto............................................................................. 72!
Figura 17 !Variao da perplexidade do modelo de linguagem do programa
Domingo do Fausto com o nmero de repeties da transcrio de
parte do programa no corpus de texto ............................................................. 73!
Figura 18 !Ferramentas utilizadas para criao dos dicionrios e dos modelos de
linguagem............................................................................................................ 74!
Figura 19 !Lista dos smbolos fonticos utilizados............................................................. 75!
Figura 20 !Trecho do dicionrio.......................................................................................... 76!
Figura 21 !Representao esquemtica do treinamento do modelo acstico
independente de locutor .................................................................................... 79!
LISTA DE TABELAS
Tabela 1 ! Prazos e cargas horrias mnimas para disponibilizao de closed
caption por faixa horria ................................................................................... 20!
Tabela 2 ! Prazos de adequao da infraestrutura das estaes analgicas para
transmisso de closed caption, de acordo com a populao da cidade
onde a estao estiver localizada ...................................................................... 21!
Tabela 3 ! Comparao de textos com e sem alinhamento............................................... 49!
Tabela 4 ! Exemplo de trecho de closed caption extrado em dois formatos:
apenas texto e texto com marcao de tempo de cada caractere................... 51!
Tabela 5 ! Acurcia da Estenotipia .................................................................................... 52!
Tabela 6 ! Acurcia da Relocuo ...................................................................................... 58!
Tabela 7 ! Acurcia do IBM ViaVoice ............................................................................... 64!
Tabela 8 ! Taxa de palavras fora do dicionrio e perplexidade do modelo de
linguagem............................................................................................................ 77!
Tabela 9 ! Impacto sobre a acurcia do nmero de senones e gaussianas do
modelo acstico treinado com uma nica voz masculina ............................... 81!
Tabela 10 !Acurcia do sistema de RAV baseado em software livre utilizando
modelo acstico treinado com corpus mais reduzido, com apenas uma
voz masculina ..................................................................................................... 86!
Tabela 11 !Acurcia do sistema de RAV baseado em software livre utilizando
modelo acstico treinado com corpus intermedirio, com vozes
masculinas apenas .............................................................................................. 89!
Tabela 12 !Acurcia do sistema de RAV baseado em software livre utilizando
modelo acstico treinado com corpus maior, com vozes masculinas e
femininas ............................................................................................................. 92!
Tabela 13 !Resumo dos resultados de acurcia obtidos nos testes ................................... 96!
AC-3
Audio Codec 3
CC
Closed Caption
CMU
CPU
DCT
DCT-II
DFT
FFT
HMM
HTML
IBGE
IBM
LDA
MAP
Maximum a Posteriori
MB
Mega Bytes
MFCC
MLLR
MLLT
MOV
QuickTime Movie
MPEG
MPEG-2
NHK
Nippon Hs Kykai
PCM
Pulse-Code Modulation
RAM
Random-Access Memory
RAV
SD
Standard Definition
TV
Televiso
UFPA
VRO
WAV
WER
SUMRIO
1!
ESTATSTICOS
EMPREGADOS
NOS
MODELOS
DE
LINGUAGEM................................................................................................................. 34!
3.6! DECODIFICAO ........................................................................................................ 35!
4!
15
1 INTRODUO
1.1 TEMA
O tema deste trabalho o desenvolvimento de um sistema de deciso automtico
para converso de udio em texto na gerao de legenda oculta a partir de software livre e de
bases de dados disponveis publicamente.
1.2 DELIMITAO
Este trabalho pretende examinar os sistemas computacionais por trs do
Reconhecimento Automtico de Voz (RAV) na gerao de legenda oculta, ou seja, sistemas
capazes de realizar um processo de deciso automtica para converso de udio em texto na
gerao de closed caption, utilizando o portugus do Brasil. Neste trabalho no se pretende
desenvolver os algoritmos de processamento digital de sinais ou os modelos estatsticos
envolvidos no Reconhecimento Automtico de Voz. Pretende-se, ao contrrio, avaliar
solues de RAV disponveis, os recursos necessrios ao treinamento para o Portugus do
Brasil e as possibilidades de
16
1.4 OBJETIVOS
O objetivo deste trabalho treinar e avaliar uma das opes de software livre
disponveis, tendo em vista a aplicao na gerao de legenda oculta para programas de
televiso ao vivo com fala espontnea em Portugus do Brasil, com Reconhecimento
Automtico de Voz (RAV) e utilizando relocuo (repetio das falas por um locutor
especfico em um ambiente acusticamente controlado). O treinamento para o Portugus do
Brasil utilizar bases de dados disponveis publicamente.
O desempenho desse sistema ser comparado ao obtido por Estenotipia e pelo
IBM ViaVoice.
Pretende-se ainda examinar os algoritmos de processamento de sinais e modelos
estatsticos utilizados por sistemas de RAV.
Por fim, pretende-se tambm verificar a experincia das emissoras de televiso ao
redor do mundo na utilizao de sistemas de Reconhecimento Automtico de Voz em seus
respectivos idiomas para a aplicao em questo, com foco nas otimizaes implementadas
que possam ser aproveitadas para o Brasil.
1.5 METODOLOGIA
A metodologia a ser empregada no desenvolvimento deste trabalho envolve uma
ampla reviso bibliogrfica, tanto da fundamentao necessria sobre o atual estado da arte de
sistemas de Reconhecimento Automtico de Voz (RAV), quanto das ferramentas e recursos
disponveis publicamente, da aplicao do Reconhecimento Automtico de Voz na gerao de
legendas ocultas ao redor do mundo e do contexto brasileiro. Envolve ainda a realizao de
testes comparativos de desempenho de um sistema de RAV para o Portugus do Brasil a ser
desenvolvido a partir de ferramentas e recursos disponveis publicamente com o desempenho
do IBM ViaVoice e da Estenotipia.
1.6 ORGANIZAO DA DISSERTAO
O Captulo 2 descreve o uso de Legenda Oculta na televiso, sua motivao e os
sistemas utilizados para gerao ao vivo: Estenotipia e Reconhecimento Automtico de Voz.
17
18
2 LEGENDA OCULTA
2.1 ACESSIBILIDADE
De acordo com os resultados do Censo Demogrfico 2010 do IBGE (INSTITUTO
BRASILEIRO DE GEOGRAFIA E ESTATSTICA, 2012), cerca de 5,1% da populao
brasileira (quase 10 milhes de pessoas) possuem deficincia auditiva. Para que essa
populao tenha acesso ao contedo dos programas de televiso, necessrio que tais
programas disponham de legendas, contendo no apenas a transcrio textual do que falado,
como tambm descries de msicas e efeitos sonoros que sejam necessrios para a melhor
compreenso do contedo sendo exibido. Tais legendas, porm, no devem estar visveis para
todos os telespectadores, apenas para aqueles que assim as desejarem, ativando tal recurso no
receptor de TV. Isso possvel, tanto na transmisso de TV analgica (CONSUMER
ELECTRONICS
ASSOCIATION,
2008),
quanto
na
transmisso
de
TV
digital
19
das
Comunicaes
(BRASIL,
2006),
mencione
que
"o
20
heterogneo; em ambiente residencial para permitir que se assista TV noite sem incomodar
os demais moradores; para aprendizagem da lngua por parte de estrangeiros ou pessoas em
processo de alfabetizao.
2.2 LEGISLAO
No Brasil, a Lei n 10.098 de 2000 (BRASIL, 2000), criada para estabelecer
normas de acessibilidade, j previa que os servios de radiodifuso de sons e imagens
deveriam adotar medidas tcnicas com o objetivo de permitir o uso de subtitulao, para
garantir o direito de acesso informao s pessoas portadoras de deficincia auditiva.
Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria n 310
do Ministrio das Comunicaes (BRASIL, 2006) estabeleceu prazos, obrigando os
radiodifusores a uma utilizao progressiva de legendas ocultas nas suas programaes. De
acordo com o cronograma estabelecido, em 2017 a totalidade da programao diria das
emissoras e retransmissoras dever dispor de legendas ocultas, como pode ser verificado na
Tabela 1.
Tabela 1 Prazos e cargas horrias mnimas para
disponibilizao de closed caption por faixa horria
Prazo
27/06/2008
27/06/2009
27/06/2010
27/06/2011
27/06/2012
27/04/2014
27/04/2015
27/06/2017
Faixa Horria
08:00 - 14:00
20:00 - 02:00
08:00 - 14:00
18:00 - 02:00
08:00 - 14:00
18:00 - 02:00
08:00 - 14:00
18:00 - 02:00
06:00 - 14:00
18:00 - 02:00
06:00 - 02:00
Dia Inteiro
Dia Inteiro
Carga Horria
1h
1h
2h
2h
3h
3h
4h
4h
6h
6h
16 h
20 h
Totalidade da Programao
21
Populao
> 1.000.000
> 500.000
> 200.000
> 100.000
Qualquer
22
ouvido
repete
em
um
estdio
(AHMER,
2002;
INTERNATIONAL
23
24
25
26
caligrafia; no caso do fonema, deve-se s diferenas fisiolgicas (e.g. voz mais grave ou mais
aguda), psicolgicas (e.g. estado emocional) e culturais (e.g. sotaque) dos falantes, alm dos
efeitos coarticulatrios (o som de um fonema afetado pelo contexto de vizinhana fontica).
A realizao concreta de um fonema denominada fone (HUANG; ACERO; HON, 2001).
A quantidade de fonemas existentes em qualquer idioma bem inferior
quantidade de palavras ou slabas existentes, sendo por isso o fonema uma unidade mais
adequada ao treinamento e ao reconhecimento. A durao dos fonemas tambm apresenta
variabilidade menor que a durao das palavras ou slabas, o que facilita a deteco de incio
e fim (AHMER, 2002).
As variaes fonticas devidas aos falantes podem ser mitigadas atravs do uso de
relocuo (INTERNATIONAL TELECOMMUNICATION UNION, 2011). As variaes
devidas aos efeitos coarticulatrios podem ser levadas em considerao diferenciando os
fonemas pelo contexto de vizinhana fontica, utilizando trifones (um trifone representa um
nico fonema, dados o fonema anterior e o fonema posterior). Contudo, a utilizao de
trifones aumenta a quantidade de padres a serem reconhecidos, o que demanda uma base de
dados maior para o treinamento do sistema. Por vezes, uma soluo de compromisso o
agrupamento de informaes em modelos de trifones semelhantes (CINCAREK, 2008).
3.2 DICIONRIO
Como palavras fora do dicionrio no sero reconhecidas pelo sistema, comum
a necessidade de atualizao frequente do dicionrio, incorporando novas palavras, sobretudo
nomes prprios (AHMER, 2002; HUANG; ACERO; HON, 2001). Contudo, deve-se destacar
que quanto maior o vocabulrio considerado pelo sistema, maior a probabilidade de confuso
entre palavras. Portanto, para maximizar a acurcia do sistema, tambm pode ser interessante
retirar do vocabulrio palavras que no sejam mais utilizadas. Uma estratgia comum extrair
o vocabulrio a partir da anlise das palavras mais comuns do conjunto de textos da base de
dados do treinamento (BROUSSEAU et al., 2003; MARTINS; TEIXEIRA; NETO, 2010).
Dessa forma, tambm podem ser construdos dicionrios especializados, segmentando o
conjunto de textos por assunto (MEINEDO et al., 2003; MIYASAKA, 2004).
A transcrio fontica das palavras do dicionrio pode ser realizada de forma
automtica, utilizando um conjunto de regras de converso grafema-fonema (SILVA, 2010).
Eventualmente, uma mesma palavra no dicionrio pode conter mais de uma transcrio
27
28
29
30
produo fontica com fonte (sinal produzido pela passagem do ar atravs das pregas vocais)
e canal (filtro acstico da cavidade oronasal, controlado pela abertura da boca e pela posio
da lngua, do palato mole e dos lbios). No domnio do tempo, pode-se caracterizar o canal
atravs da sua resposta ao impulso e o sinal de fala resultante atravs da convoluo da fonte
com a resposta ao impulso do canal. No domnio da frequncia a convoluo substituda
pelo produto dos espectros. No domnio da quefrncia a convoluo substituda pela soma
dos cepstros (HUANG; ACERO; HON, 2001).
Uma transformao que converta uma convoluo em uma soma denominada
homomrfica. Embora a transformao empregada no clculo dos coeficientes MFCC no
seja rigorosamente homomrfica por causa da utilizao do banco de filtros, ela pode ser
considerada aproximadamente homomrfica para filtros com espectro suave, como o caso
do filtro acstico oronasal. Dessa forma, a MFCC favorece a separao entre fonte e canal.
Isso favorece o reconhecimento porque a maior parte da diferenciao fontica se deve s
caractersticas do canal. Da fonte, interessa saber apenas se as cordas vocais esto tensionadas
e, portanto vibrando (como o caso nas vogais e nas consoantes sonoras, nas quais o sinal da
fonte peridico) ou relaxadas e, portanto, no vibrando (como o caso nas consoantes
surdas, nas quais o sinal da fonte no peridico) (HUANG; ACERO; HON, 2001).
Nas lnguas tonais, como o chins, que utilizam a variao de afinao (que est
relacionada frequncia de vibrao das pregas vocais) como elemento de diferenciao
fontica, necessrio extrair a informao da afinao, alm dos coeficientes MFCC. Nas
lnguas no-tonais, como o portugus, a variao de afinao frequentemente utilizada como
elemento de diferenciao prosdica, para distinguir afirmativas de interrogativas, para
indicar ironia etc. Entretanto, os sistemas de Reconhecimento Automtico de Voz
normalmente no se prope a analisar a prosdia, portanto essa informao no extrada do
udio (HUANG; ACERO; HON, 2001).
Alm dos 12 coeficientes MFCC normalmente adicionado ao vetor de
parmetros um componente que representa a energia mdia do sinal, aspecto tambm
considerado importante na diferenciao fontica. A esses 13 componentes, so ainda
adicionados a primeira e a segunda derivada, denominados de coeficientes dinmicos, delta
ou vetores de velocidade e acelerao, que ajudam a caracterizar os efeitos coarticulatrios,
formando um vetor de parmetros ou de caractersticas com 39 coeficientes (SEGBROECK,
2010).
31
32
por sexo, idade, sotaque etc. A adaptao de locutor tambm pode ser feita a partir dos
modelos acsticos desses agrupamentos (AHMER, 2002; SILVA, 2010).
Dada uma sequncia de vetores de parmetros X extrada de um sinal de voz
atravs do Processamento Digital de Sinais anteriormente descrito, a tarefa do
Reconhecimento Automtico de Voz determinar a sequncia correspondente de palavras W
mais provvel. Em termos probabilsticos, deseja-se descobrir a sequncia de palavras W que
maximiza a probabilidade condicional P(W|X). Como essa probabilidade no conhecida a
priori, podemos utilizar o teorema de Bayes para inverter essa probabilidade condicional
(CINCAREK, 2008; SILVA, 2010):
! ! ! = !(!|!) !(!) !(!)
(1)
(2)
33
34
35
dos menos frequentes, atribuindo uma probabilidade pequena, mas no nula, aos trigramas
que no ocorrerem no treinamento. O algoritmo de suavizao mais utilizado o de KneserNey (YOUNG et al., 2009).
Note-se que, embora o modelo de linguagem no leve em conta explicitamente a
gramtica, sintaxe ou semntica da lngua, esses elementos esto de certa forma implcitos,
uma vez que influenciam a probabilidade de ocorrncia de uma sequncia de palavras
(HUANG; ACERO; HON, 2001).
3.6 DECODIFICAO
A decodificao basicamente um processo de busca. O sistema de
Reconhecimento Automtico de Voz busca a sequncia de palavras mais provvel, a partir do
vocabulrio definido no dicionrio e dados os modelos acstico e de linguagem, para a
sequncia de parmetros extrada do sinal de voz captado, digitalizado e processado
(HUANG; ACERO; HON, 2001).
O espao de busca pode ser definido em um nico modelo HMM integrando os
modelos acstico, P(X|W), e de linguagem, P(W), em que, opcionalmente, pode-se atribuir
empiricamente um peso diferenciado (LW) para o modelo de linguagem, P(W)LW, para
otimizar a acurcia. O modelo de linguagem tambm funciona como uma penalidade para
inserir novas palavras durante a decodificao (com uma penalidade pequena o decodificador
prefere utilizar mais palavras de menor durao e com uma penalidade alta o decodificador
prefere utilizar menos palavras de maior durao). Ao modificar o peso do modelo de
linguagem, essa penalidade alterada. Uma penalidade para insero de novas palavras (IP)
pode ser includa no modelo de linguagem, P(W)LW
palavras, podendo tambm ser ajustada empiricamente para maximizar a acurcia (HUANG;
ACERO; HON, 2001).
A sequncia de estados pode ser organizada na forma de uma rvore ou grafo.
Uma busca de todas as sequncias de estados possveis para uma decodificao teria, em
princpio, complexidade exponencial, O(NT), onde N o nmero de estados possveis a cada
transio de estados (que por sua vez, proporcional ao tamanho do vocabulrio) e T o
tempo. Para otimizar essa busca, utilizado, tipicamente, o algoritmo de Viterbi. Esse
algoritmo baseado no princpio da Programao Dinmica, de dividir um problema
complexo recursivamente em problemas mais simples, armazenando os resultados parciais
36
para evitar a necessidade de reclculos. O algoritmo de Viterbi, armazena para cada estado, a
melhor (mais provvel) sequncia de estados at aquele e a respectiva probabilidade,
reduzindo a complexidade para O(N2T). Ao final da decodificao, basta verificar o estado
mais provvel e recuperar a informao armazenada sobre o melhor caminho at aquele
estado (SILVA, 2010; SEGBROECK, 2010).
Outra otimizao comum a representao da probabilidade de transio de
estados atravs do seu logaritmo, substituindo as operaes de multiplicao por somas, a
representao em ponto flutuante por ponto fixo e permitindo uma maior faixa dinmica para
os valores envolvidos, evitando erros de aproximao numrica (especialmente o underflow)
(YOUNG et al., 2009).
A organizao do espao de busca em uma rvore lexical, em que cada ramo
representa um fonema e as folhas representam as palavras, previne o clculo
desnecessariamente replicado das probabilidades dos estados iniciais das diversas palavras
que compartilham os mesmos fonemas inicias (o que particularmente til na lngua
portuguesa, pelo grande nmero de flexes de palavras existentes). As probabilidades do
modelo de linguagem podem ser fatoradas ao longo dos ramos da rvore para que possam ser
levadas em considerao desde o incio da busca, mas empregando um modelo de linguagem
N-Grama, devem ser consideradas em relao ao contexto das palavras anteriormente
decodificadas (HUANG; ACERO; HON, 2001).
Idealmente, a busca deveria considerar todas as hipteses possveis para a
sequncia de estados. Como o clculo de todos os caminhos possveis dentro da rvore ou
grafo do espao de busca pode ser proibitivo pelo tamanho do vocabulrio e pela
complexidade do modelo (e.g. utilizando trigramas, trifones e probabilidades de observao
modeladas
pela
mistura
de
vrias
gaussianas),
busca
pode
ser
otimizada
37
a gerao de uma lista dos N-Melhores caminhos utilizando uma primeira decodificao
mais rpida, com modelos simplificados (e.g. bigramas, monofones, probabilidades de
observao modeladas pela mistura de menos gaussianas). A seguir, so calculadas as
probabilidades dos caminhos escolhidos, utilizando modelos acsticos e de linguagem mais
refinados, para escolher o caminho mais provvel e, portanto, a decodificao mais provvel
(HUANG; ACERO; HON, 2001).
38
39
acurcia proporcionada pela anlise de estado emocional e memria de estado do jogo foi de
cerca de 1%.
Ohno et al. (2007) relatam o desenvolvimento de um sistema de resumo
automtico de monlogos, para ser usado em conjunto com um sistema de Reconhecimento
Automtico de Voz na gerao de closed caption, porque, de acordo os autores, a velocidade
de exibio do texto era rpida demais para a leitura.
4.2 PORTUGAL
Em Portugal, Meinedo et al. (2003) relatam o desenvolvimento de um software de
Reconhecimento Automtico de Voz para telejornais. A acurcia obtida foi de 85%, com
modelo acstico independente de locutor.
Martins et al. (2010) relatam a implementao de um sistema que atualiza
diariamente o dicionrio e o modelo de linguagem, de forma automtica, utilizando textos de
sites de notcias. Com essa abordagem, conseguiram reduzir em 88% os erros ocasionados
pela ocorrncia de palavras fora do vocabulrio do sistema.
4.3 REINO UNIDO
No Reino Unido, Evans (2003) relata o uso na BBC de um sistema de
Reconhecimento Automtico de Voz desenvolvido internamente utilizando o software IBM
ViaVoice e empregando relocuo, para a gerao de closed caption em programas ao vivo.
Lambourne et al. (2004) relatam a adoo de um sistema semelhante em trs
outras grandes emissoras britnicas, tambm utilizando o IBM ViaVoice, empregando
relocuo e modelos de linguagem diferenciados de acordo com o assunto. A acurcia obtida
foi de 95 a 98%.
4.4 CANAD
No Canad, de acordo com Boulianne et al. (2006), desde 2004 utiliza-se
regularmente na gerao de legenda oculta ao vivo um software de Reconhecimento
Automtico de Voz para a lngua francesa, desenvolvido em conjunto por uma emissora e um
instituto de pesquisa canadenses.
40
41
significativamente a acurcia do mesmo. A acurcia obtida foi de 82%, mas como se trata de
um modelo acstico independente de locutor, pode-se esperar obter uma acurcia
significativamente mais alta empregando-se adaptao de locutor.
4.6 BRASIL
O primeiro software de reconhecimento de voz comercial que surgiu para o
Portugus do Brasil e que foi empregado nesta aplicao foi o IBM ViaVoice. Este produto
foi desenvolvido e comercializado pela IBM at 2003, quando foi vendido para a ScanSoft,
posteriormente adquirida pela Nuance (IBM, 2008). Nem a ScanSoft, nem a Nuance deram
continuidade ou desenvolveram produtos para substituir o ViaVoice em Portugus do Brasil.
Com isso, o software no dispe mais de suporte corretivo ou evolutivo. Eventualmente ele
pode deixar de funcionar com sistemas operacionais mais novos. Alm disso, a quantidade de
licenas existentes limitada.
Note-se que o IBM ViaVoice nem era um produto otimizado para aplicao na
gerao de legenda oculta: tratava-se de um sistema de Reconhecimento Automtico de Voz
para utilizao como interface homem-mquina. Como tal, era um produto desenvolvido para
funcionar como um processo em segundo plano, em computadores de uso domstico da
poca. Emissoras de televiso e outras empresas desenvolveram interfaces para a gerao de
legendas ocultas utilizado o ViaVoice. Como j mencionamos que parte dos erros do
reconhecimento de voz se devem s limitaes dos algoritmos de processamento de sinais e
modelos estatsticos empregados, pode-se imaginar que hoje seria possvel utilizar algoritmos
e modelos mais precisos e complexos, na medida em que a tecnologia de reconhecimento de
voz evoluiu nesse perodo e na medida em que a capacidade computacional aumentou desde a
descontinuidade do ViaVoice. E ainda mais se considerarmos que no precisamos nos limitar
a computadores de uso domstico, mas podemos utilizar at mesmo um conjunto de
servidores realizando processamento distribudo. E, obviamente, neste contexto, o sistema de
reconhecimento de voz no precisa ser considerado um processo secundrio no(s)
computador(es) em que estiver sendo executado.
De fato, alguns dos sistemas de reconhecimento de voz mais bem sucedidos
atualmente utilizam o paradigma de computao em nuvem (cloud computing), como, por
exemplo, a pesquisa por voz do Google (GOOGLE, 2012) e o Apple Siri (APPLE, 2011).
42
Dessa forma, esto livres da limitao da capacidade computacional dos usurios (o que
especialmente til para aplicaes embarcadas em dispositivos mveis).
Recentemente, uma empresa que atua na rea de Reconhecimento Automtico de
Voz para gerao de closed caption em Portugal (Voice Interaction) entrou no mercado
brasileiro, treinando seus sistemas para o Portugus do Brasil e fazendo parcerias comerciais
com empresas que implementam codificadores de legenda oculta para o Sistema Brasileiro de
TV Digital. Existem dois produtos dessa empresa sendo utilizados na gerao de legendas
ocultas ao vivo no Brasil: o Audimus.Media (VOICE INTERACTION, 2014a) e o
VoxControl (VOICE INTERACTION, 2014b). O principal produto o Audimus.Media, que
possui entretanto a restrio de no poder ser adaptado voz de um relocutor, utilizando um
sistema independente de locutor, o que limita a acurcia. O segundo produto, VoxControl,
embora permita a adaptao de locutor, utiliza um sistema de reconhecimento mais simples,
que no foi concebido para a aplicao na gerao de legenda oculta, mas sim como um
sistema de interface homem-mquina otimizado para execuo como um processo em
segundo plano em computadores domsticos, o que tambm limita a acurcia.
Apesar de existirem poucas opes de software comercial que possam ser
empregadas no Reconhecimento Automtico de Voz do Portugus do Brasil, existem diversas
opes de software livre que podem ser consideradas: HTK (CAMBRIDGE UNIVERSITY,
2009) da Universidade de Cambridge, CMU Sphinx (CARNEGIE MELLON UNIVERSITY,
2012) da Universidade Carnegie Mellon, Julius (KYOTO UNIVERSITY, 2012) da
Universidade de Kyoto, Simon (SIMON LISTENS, 2012) da Organizao Simon Listens,
RWTH ASR (RWTH AACHEN UNIVERSITY, 2012) da Universidade Tcnica de Aachen,
iATROS (UNIVERSIDAD POLITCNICA DE VALENCIA, 2011) da Universidade
Politcnica de Valncia, SHoUT (UNIVERSITY OF TWENTE, 2010) da Universidade de
Twente, ISIP ASR (MISSISSIPPI STATE UNIVERSITY, 2007) da Universidade Estadual
do Mississippi etc. Esses sistemas implementam em software os algoritmos de processamento
de sinais e modelos estatsticos utilizados no Reconhecimento Automtico de Voz, mas para
serem aplicados ao Portugus do Brasil necessitam de treinamento com bases de dados
correspondentes a este idioma. O treinamento desses sistemas utiliza ferramentas distribudas
juntamente com alguns deles, alm de outras distribudas separadamente, como o SRILM
(SRI INTERNATIONAL, 2011) da SRI International.
Como j mencionado anteriormente, o treinamento um aspecto crtico para o
bom funcionamento de um sistema de Reconhecimento Automtico de Voz. E sendo o
43
portugus, ao contrrio do ingls, uma lngua altamente flexiva (em que as palavras podem
sofrer flexo de gnero, nmero, modo, tempo e pessoa), o vocabulrio a ser considerado
aumenta substancialmente, o que tende a ter um impacto negativo na acurcia do
reconhecimento. A gramtica do portugus, novamente ao contrrio do ingls, tambm
relativamente livre quanto ordem das palavras, o que torna os modelos de linguagem mais
complexos e tambm tende a ter um impacto negativo na acurcia do sistema. Essas duas
diferenas entre os idiomas portugus e ingls apontam para a necessidade de bases de dados
para o treinamento de um sistema de Reconhecimento Automtico de Voz em portugus
maiores do que seria necessrio em ingls, para se obter a mesma acurcia. Entretanto, o que
ainda se observa que dispomos de bases de dados significativamente menores.
As bases de dados necessrias para o treinamento de um sistema de
reconhecimento de voz so de dois tipos: conjuntos de textos (corpus de texto) e gravaes de
voz com transcrio textual (corpus de voz). relativamente fcil gerar um corpus de texto
arbitrariamente grande a partir de textos disponveis na internet, por exemplo, mas no
simples gerar um corpus de voz adequado, pois ele deveria idealmente conter centenas de
horas de gravao de voz de centenas de pessoas divididas em segmentos de curta durao
com a transcrio textual correspondente a cada segmento.
Existem alguns corpora de voz para o Portugus do Brasil que esto disponveis
comercialmente, a saber:
44
informava ter 2,8 horas de gravao em ambiente no controlado (2% da meta deles), da voz
de diversos voluntrios (VOXFORGE, 2014b).
Existe tambm um pequeno corpus de Portugus do Brasil desenvolvido pela
Universidade de Lisboa e disponvel publicamente (CENTRO DE LINGUSTICA DA
UNIVERSIDADE DE LISBOA, 1997) (2 horas, 12 homens e 13 mulheres, ambiente no
controlado, segmentos de longa durao).
Outra iniciativa importante de ser citada a do grupo FalaBrasil
(UNIVERSIDADE FEDERAL DO PAR, 2009), da Universidade Federal do Par. Eles
desenvolveram alguns corpora de voz, a saber:
45
46
5 AVALIAO DE DESEMPENHO
Utilizando um telejornal, um programa jornalstico sobre sade e um programa de
auditrio, foram avaliados o desempenho da transcrio textual realizada por estenotipia e por
Reconhecimento Automtico de Voz da relocuo, atravs do IBM ViaVoice (IBM, 2008) e
de um sistema utilizando um software livre (CMU Sphinx) (CARNEGIE MELLON
UNIVERSITY, 2012) treinado para o Portugus do Brasil utilizando bases de dados
disponveis publicamente.
O IBM ViaVoice foi utilizado como referncia por ter sido o primeiro software de
Reconhecimento Automtico de Voz em Portugus do Brasil utilizado na gerao de Legenda
Oculta, sendo ainda hoje muito utilizado nesta aplicao.
O CMU Sphinx foi escolhido para esse teste por ser um software de RAV livre
dos mais bem conceituados atualmente, relativamente maduro (desenvolvido desde 1986) mas
que ainda conta com uma comunidade de desenvolvimento bastante ativa, por conter todas as
ferramentas necessrias ao treinamento e teste de um sistema de RAV, por estar
suficientemente bem documentado para permitir a realizao de todos os testes pretendidos e
por adotar uma licena de uso que no restringe a aplicao comercial.
5.1 MATERIAL DE TESTE
Uma representao esquemtica da preparao do material de teste, que ser
descrita de forma pormenorizada a seguir, apresentada na Figura 3.
47
48
utilizando um gravador LG RH397H e a gravao foi segmentada (no prprio gravador) por
bloco de programa. O disco rgido desse gravador foi removido e ligado a um computador.
Em seguida, utilizando um software livre (VAL238, 2008) para a leitura da formatao
proprietria, foram extrados os arquivos correspondentes a cada bloco de programa
produzidos pelo gravador no formato VRO (Video Recording Object File), contendo um
MPEG program stream com vdeo MPEG-2 e udio Dolby Digital AC-3 estreo, conforme
ilustrado na Figura 4.
Figura 4 Extrao de arquivo VRO do Disco Rgido
(3)
49
comea
comea
C
a
a
C
funcionar
funcionar
C
o
reforo
S
reforo
no
S
no
policiamento
S
policiamento
da
S
das
rede
S
divisas
visa
S
comea
comea
C
a
a
C
funcionar
funcionar
C
o
O
reforo
reforo
C
no
no
C
policiamento
policiamento
C
das
da
S
divisas
rede
S
visa
I
Sem alinhamento dos textos, a omisso ou insero de uma palavra pode fazer
com que vrias palavras subsequentes que foram transcritas corretamente sejam comparadas
com palavras distintas, resultando na contagem indevida de diversos erros de substituio. No
exemplo apresentado, sem alinhamento, considera-se a ocorrncia de 6 erros por substituies
de palavras, enquanto com alinhamento, considera-se a ocorrncia de apenas 4 erros (1
omisso, 2 substituies e 1 insero).
Os detalhes e resultados de cada teste esto descritos nas sees seguintes.
5.2 AVALIAO DA ESTENOTIPIA
Os arquivos VRO foram convertidos para o formato MPEG (com vdeo MPEG-2
e udio MPEG-1 Layer II) utilizando um software livre (SQUARED5, 2008), para que fosse
possvel a extrao do closed caption com o software livre CCExtractor (SANZ;
QUETSCHKE, 2012), conforme ilustrado na Figura 5.
50
Foram utilizados dois formatos de extrao: um deles apenas com o texto, para
avaliao da acurcia da transcrio, e outro contendo a marcao de tempo de cada caractere,
para avaliao da latncia. Um exemplo de um trecho de closed caption extrado nos dois
formatos est ilustrado na Tabela 4.
51
Closed Caption
(apenas texto)
5.2.1 Acurcia
Foi realizada a transcrio manual do udio dos programas, para ser comparada
com o texto da estenotipia. Em ambos os textos, todos os caracteres foram substitudos por
letras minsculas, todas as abreviaes e nmeros foram reescritos por extenso e foram
removidos todos os sinais de pontuao e caracteres especiais. O texto da estenotipia
continha, em alguns casos, a identificao da pessoa cuja fala estava sendo transcrita (como
no exemplo da Tabela 4, com o nome do apresentador do telejornal). Para possibilitar a
comparao dos textos da estenotipia com a transcrio manual das falas, tais identificaes
foram manualmente removidas. Embora a estenotipia permita correo do closed caption em
tempo real (apagando caracteres), a insero e apagamento de caracteres podem ser
observados apenas no texto com marcao de tempo; no texto sem marcao de tempo (que
foi utilizado na avaliao da acurcia) aparecem apenas as linhas finalizadas (aps eventuais
correes). A comparao utilizou o script word_align.pl, distribudo com o pacote
Sphinxtrain v.1.0.8, parte do sistema de software livre CMU Sphinx.
Os resultados obtidos podem ser observados na Tabela 5.
52
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
245 (6,26%)
363 (9,27%)
120 (3,06%)
116 (6,35%)
137 (7,51%)
38 (2,08%)
87 (7,55%)
76 (6,59%)
32 (2,77%)
45 (6,91%)
32 (4,92%)
17 (2,61%)
57 (15,97%)
35 (9,80%)
16 (4,48%)
53
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
550 (6,96%)
643 (8,14%)
227 (2,87%)
695 (13,38%)
1053 (20,28%)
177 (3,41%)
149 (13,07%)
196 (17,20%)
43 (3,77%)
844 (13,33%)
1249 (19,72%)
220 (3,47%)
153 (10,41%)
287 (19,52%)
25 (1,70%)
54
302 (8,07%)
1313 (35,08%)
27 (0,72%)
202 (8,59%)
768 (32,67%)
14 (0,59%)
667 (9,37%)
2060 (28,92%)
99 (1,39%)
1324 (9,02%)
4428 (30,15%)
165 (1,12%)
2718 (9,40%)
6320 (21,85%)
612 (2,12%)
55
5.2.2 Latncia
O udio do arquivo MPEG do programa foi extrado para o formato WAV (PCM
Linear mono, 48 kHz, 16 bits, Little Endian) com um software comercial (APPLE, 2009),
conforme ilustrado na Figura 6.
Figura 6 Extrao de udio em formato WAV a partir de arquivo MPEG
56
57
58
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
19 (0,48%)
11 (0,28%)
5 (0,13%)
9 (0,49%)
6 (0,33%)
4 (0,22%)
8 (0,69%)
8 (0,69%)
5 (0,44%)
0 (0,00%)
0 (0,00%)
1 (0,15%)
2 (0,56%)
7 (1,96%)
2 (0,56%)
59
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
38 (0,48%)
32 (0,40%)
17 (0,22%)
198 (3,81%)
67 (1,29%)
21 (0,41%)
12 (1,05%)
13 (1,14%)
6 (0,53%)
210 (3,32%)
80 (1,26%)
27 (0,43%)
30 (2,05%)
3 (0,20%)
4 (0,27%)
60
100 (2,67%)
66 (1,76%)
47 (1,26%)
50 (2,13%)
49 (2,08%)
18 (0,77%)
281 (3,95%)
201 (2,82%)
209 (2,93%)
461 (3,14%)
319 (2,17%)
278 (1,89%)
709 (2,45%)
431 (1,49%)
322 (1,11%)
61
5.3.2 Latncia
A latncia da relocuo foi avaliada comparando-se os tempos de fim de trs
frases nos arquivos WAV do programa e da relocuo (verificados manualmente atravs de
um software livre) (AUDACITY, 2013). Verificou-se a latncia mdia de 1,059 segundo.
5.4 AVALIAO DO IBM VIAVOICE
Foi utilizado nesse teste o software IBM ViaVoice para Windows Pro USB
Edition Release 9, sendo executado em uma mquina virtual com sistema operacional
Microsoft Windows XP Professional SP3 32 bits atravs de um software de virtualizao
(VMWARE, 2012). No sistema hospedeiro (OS X), nenhum outro aplicativo estava em
execuo, alm do software de virtualizao e no Windows, nenhum outro aplicativo estava
em execuo alm do IBM ViaVoice, exceto quando especificado em contrrio. A mquina
virtual foi configurada para utilizar 1 ncleo do processador (de 4 disponveis) e 1 GB de
RAM. As opes de desempenho do Windows foram ajustadas para obter melhor
desempenho e a memria virtual foi desativada. O ambiente de execuo do IBM ViaVoice
est ilustrado na Figura 9.
Figura 9 Ambiente de execuo do IBM ViaVoice
62
63
Em seguida, o texto passou por um processo de reviso manual, para remoo dos
erros eventualmente presentes (sobretudo provenientes de comentrios publicados por
usurios nos sites). O texto resultante possua 100.954 sentenas e 1.707.869 palavras, com
vocabulrio de 53.633 palavras distintas.
5.4.2 Adaptao do Modelo Acstico
Para a adaptao do modelo acstico (adaptao de locutor), o IBM ViaVoice
utiliza uma base de textos composta por 1.027 sentenas e 6.622 palavras, com vocabulrio de
1.953 palavras distintas. O udio de cada sentena foi gravado pelo prprio autor dessa
dissertao no Audacity (no OS X) para que o mesmo udio pudesse ser utilizado tambm na
adaptao do modelo acstico do CMU Sphinx. A durao total da gravao foi de 53
minutos e 50 segundos. O envio do udio gravado no OS X para o IBM ViaVoice na mquina
64
virtual Windows foi feito utilizando um driver de udio com licena de software livre
(CYCLING'74, 2012) a 44,1 kHz, conforme ilustrado na Figura 11.
Figura 11 Fluxo do sinal de udio utilizado na adaptao de locutor do IBM ViaVoice
5.4.3 Acurcia
A transcrio da relocuo realizada pelo IBM ViaVoice foi comparada com a
transcrio manual da relocuo, atravs do script word_align.pl.
Os resultados obtidos podem ser observados na Tabela 7.
Tabela 7 Acurcia do IBM ViaVoice
(continua)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
522 (13,35%)
110 (2,82%)
149 (3,81%)
65
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
213 (11,68%)
55 (3,02%)
61 (3,35%)
145 (12,62%)
51 (4,44%)
40 (3,48%)
84 (12,91%)
28 (4,30%)
17 (2,61%)
47 (13,39%)
13 (3,71%)
15 (4,27%)
1011 (12,82%)
357 (4,53%)
282 (3,58%)
66
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
1220 (23,71%)
312 (6,06%)
195 (3,79%)
199 (17,58%)
59 (5,21%)
35 (3,09%)
1419 (22,60%)
371 (5,91%)
230 (3,67%)
309 (21,02%)
58 (3,94%)
73 (4,97%)
1031 (27,69%)
341 (9,16%)
87 (2,34%)
67
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
5.4.4 Latncia
Para avaliao da latncia do IBM ViaVoice foi realizada uma gravao da tela e
do udio do computador durante um trecho do reconhecimento, utilizando um software
comercial (SYNIUM SOFTWARE, 2013). O udio da gravao foi extrado para o formato
WAV utilizando um software comercial (APPLE, 2009). A latncia foi avaliada comparando
os tempos de fim de trs frases no arquivo WAV (verificados manualmente atravs de um
software livre) (AUDACITY, 2013) e no vdeo (verificados manualmente atravs de um
68
69
70
O corpus de texto especfico para cada programa utilizou, alm dos textos
utilizados no corpus de texto de uso geral, 50% das sentenas da transcrio manual da
relocuo do programa, selecionadas ao acaso. A transcrio manual foi segmentada
manualmente em sentenas correspondentes segmentao do udio da relocuo de forma
automtica pela deteco de silncios, usando a ferramenta adintool, do software livre
Julius v.4.2.2 (KYOTO UNIVERSITY, 2012). O processo de segmentao automtica do
udio est ilustrado na Figura 14.
Figura 14 Segmentao automtica do udio
71
Domingo do Fausto possua 341 sentenas e 7.690 palavras, com vocabulrio de 1.569
palavras distintas. Como o texto da transcrio manual da relocuo dos programas era muito
menor que o texto utilizado no corpus de texto de uso geral, ele poderia no modificar de
forma muito significativa a probabilidade de sequncias de palavras. Por isso, essas sentenas
foram acrescentadas repetidamente ao corpus de texto de uso geral, at que no houvesse
reduo na perplexidade1 do modelo de linguagem resultante.
A variao observada da perplexidade do modelo de linguagem do programa Bom
Dia Brasil com o nmero de repeties da transcrio de parte do programa no corpus de
texto est ilustrado na Figura 15.
Figura 15 Variao da perplexidade do modelo de linguagem
do programa Bom Dia Brasil com o nmero de repeties
da transcrio de parte do programa no corpus de texto
270!
Perplexidade!
265!
260!
255!
250!
245!
0!
1!
2!
3!
4!
5!
6!
Nmero!de!Repeties!
Perplexidade um conceito da Teoria da Informao relacionado entropia, podendo ser definido por: P = 2E,
onde P a perplexidade e E a entropia. A perplexidade de um modelo de linguagem pode ser interpretada
como o grau de dificuldade de prever a prxima palavra em um texto utilizando o referido modelo. Por exemplo,
um valor de perplexidade de 200 corresponde mesma dificuldade de prever uma palavra dentre uma lista de
200 palavras equiprovveis. Portanto, quanto menor o valor da perplexidade do modelo de linguagem mais ele
contribui para a acurcia do sistema de Reconhecimento Automtico de Voz (HUANG, ACERO e HON, 2001).
72
650!
640!
630!
620!
610!
600!
590!
580!
0!
1!
2!
Nmero!de!Repeties!
73
Perplexidade!
750!
700!
650!
600!
550!
500!
0!
1!
2!
3!
4!
5!
6!
7!
Nmero!de!Repeties!
74
75
Sphinx). Foram gerados modelos de linguagem trigrama, com vocabulrio aberto (em que
atribuda uma probabilidade ocorrncia de palavras fora do dicionrio).
Cada vocabulrio gerado nas etapas anteriores (excluindo o cabealho e as
entradas <s> e </s>) foi transformado em dicionrio com transcrio fontica utilizando o
software
livre
Conversor
Grafema-Fone
v.1.6,
do
grupo
FalaBrasil
da
UFPA
76
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
dz i f e r ee
sia
siada
siadas
siadu
siadus
siajs
siaw
s i aa ww
s i a xm
s i a s aa ww
si
siow
77
Bom Dia
Brasil
Bem Estar
Domingo
do Fausto
Bloco 1
Bloco 2
Bloco 3
Bloco 4
Bloco 5
Programa
Completo
Bloco 1
Bloco 2
Programa
Completo
Bloco 1
Bloco 2
Bloco 3
Bloco 4
Programa
Completo
Perplexidade
Dicionrio
de uso geral
Dicionrio
especfico do
programa
Modelo de
linguagem de
uso geral
0,86%
0,13%
0,30%
0,00%
0,00%
0,73%
0,13%
0,15%
0,00%
0,00%
288,20
187,11
301,53
388,60
193,48
Modelo de
linguagem
especfico do
programa
270,28
166,19
284,35
381,43
155,44
0,57%
0,47%
266,22
246,74
1,39%
1,08%
1,31%
1,08%
670,04
649,44
591,83
580,17
1,34%
1,27%
666,42
589,79
3,50%
2,59%
1,28%
2,16%
2,00%
0,90%
0,99%
1,60%
557,93
811,11
638,75
865,39
378,89
576,61
408,71
611,25
2,30%
1,37%
773,50
536,94
78
Note-se
que
corpus
utilizado
do
site
VoxForge
possua
durao
significativamente menor que a mencionada na Seo 4.6. Isso porque foram removidas as
gravaes em Portugus de Portugal e as gravaes que estavam ininteligveis (nvel de udio
excessivamente baixo, rudo ou distoro excessivamente altos). Os demais corpora
disponveis publicamente citados na Seo 4.6 no foram utilizados pois seriam necessrios
muitos ajustes manuais (segmentao de gravaes de longa durao e das transcries
correspondentes e transcrio das gravaes no transcritas).
Os arquivos de udio dos diversos corpora empregados foram convertidos para 16
kHz utilizando do software livre SoX (NORSKOG et al., 2013).
A ferramenta Sphinxtrain, do pacote Sphinxtrain v.1.0.8, do CMU Sphinx,
foi utilizada inicialmente para gerar um arquivo de configurao que pode ser editado, com
definies sobre o processamento digital de sinais e o modelo estatstico que sero
empregados. A mesma ferramenta foi, por fim, utilizada para produzir cada modelo acstico.
Uma representao esquemtica do treinamento do modelo acstico pode ser vista na Figura
21.
79
LDA/MLLT
A fim de otimizar a acurcia e reduzir o custo computacional do
reconhecimento, foi habilitada a criao de uma matriz de transformao
do vetor de parmetros utilizando LDA/MLLT com 32 dimenses.
multithread
A fim de reduzir o tempo necessrio ao treinamento do modelo acstico,
foi habilitado o processamento multithread (at 4 threads simultneos,
correspondendo ao limite do processador Intel Core i5 empregado).
forced alignment
Foi habilitado tambm o alinhamento forado (forced alignment), que no
inclui no treinamento os arquivos de udio que no puderem ser alinhados
com as suas respectivas transcries textuais. Essa opo requer a
instalao do pacote Sphinx3, na reviso 12110 do repositrio SVN. O
alinhamento forado utilizou um controle de feixe (beam) com limiar
80
muito baixo (10-100), para evitar que um arquivo de udio com transcrio
correta pudesse ser indevidamente descartado.
senones / gaussianas
Quanto aos dois parmetros de configurao reconhecidamente mais
crticos para a acurcia (devido ao impacto sobre a complexidade e a
treinabilidade) do sistema e cujos valores timos dependem do corpus de
voz utilizado (nmero de senones equivalente ao nmero de estados a
serem treinados no Modelo Oculto de Markov, controlando o quanto os
estados de trifones semelhantes so agrupados e nmero de gaussianas a
serem treinadas para cada estado na modelagem das probabilidades de
observao por mistura de gaussianas), foram ajustados de forma iterativa
para cada modelo acstico. O modelo acstico inicial foi treinado com 250
senones e com nmero gaussianas inicial de 1 e final de 64 (gerando
modelos com 1, 2, 4, 8, 16, 32 e 64 gaussianas). Nas etapas de adaptao
de locutor e decodificao (detalhadas a seguir), foram utilizados os
modelos a partir de 64 gaussianas, reduzindo o nmero de gaussianas at
que no houvesse melhoria na acurcia do modelo adaptado. A seguir, o
modelos acsticos foram treinados novamente dobrando o nmero de
senones e refazendo as etapas de adaptao de locutor e decodificao at
que no houvesse melhoria na acurcia do modelo adaptado. Dessa forma,
foram determinados o nmero timo (dentre os testados e quanto
acurcia) de senones e de gaussianas para cada modelo acstico. Por
exemplo, para o modelo acstico treinado com apenas uma voz masculina,
foi selecionada a configurao com 1000 senones e 16 gaussianas, como
pode ser verificado pelos resultados de acurcia da Tabela 9.
81
gaussianas
senones
1
2
4
8
16
32
64
250
66,94%
67,06%
500
68,48%
68,67%
1000
69,52%
69,64%
69,43%
68,67%
2000
69,50%
69,60%
69,51%
69,20%
69,15%
67,76%
62,52%
82
83
84
85
Acurcia!
78%!
77%!
76%!
75%!
74%!
1!
2!
3!
4!
5!
6!
Peso!do!Modelo!de!Linguagem!
Foi ajustada a mesma penalidade para insero de novas palavras (IP) para todos
os programas de forma iterativa, iniciando com IP=0,1 e somando 0,1 at que no houvesse
melhoria na acurcia da decodificao, resultando no valor de IP=6,4.
A decodificao utilizou um controle de feixe (beam) com limiar muito baixo (10100
), para evitar erros de decodificao devido possvel poda prematura de uma hiptese
correta.
A transcrio gerada foi comparada com a transcrio manual, atravs do script
word_align.pl, distribudo com o pacote Sphinxtrain v.1.0.8, parte do sistema de software
livre CMU Sphinx.
A execuo de todos os processos descritos nas Sees 5.5.1 a 5.5.5 consumiu o
equivalente a mais de 17 dias de processamento ininterrupto de um computador dedicado a
essa atividade (utilizando um Apple Mac mini do final de 2012, com processador Intel Core
i5 de 2,5 GHz, 16 GB de RAM e sistema operacional OS X 10.9.4), mesmo com a execuo
de threads paralelos quando possvel.
Os resultados obtidos com o modelo acstico treinado com corpus mais reduzido,
apenas com uma voz masculina, podem ser observados na Tabela 10.
86
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
318 (14,45%)
111 (5,04%)
56 (2,55%)
94 (11,90%)
28 (3,54%)
27 (3,42%)
104 (15,61%)
42 (6,31%)
12 (1,80%)
22 (17,46%)
4 (3,18%)
3 (2,38%)
6 (7,60%)
4 (5,06%)
2 (2,53%)
87
Durao:
Nmero de Palavras:
Peso do
Modelo de Linguagem:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Peso do
Modelo de Linguagem:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
544 (14,09%)
189 (4,89%)
100 (2,59%)
634 (23,82%)
222 (8,34%)
65 (2,44%)
104 (18,67%)
41 (7,36%)
11 (1,98%)
5
2218 (68,90%)
Substituies:
1077 (33,46%)
Omisses:
Inseres:
66,54%
Domingo do Fausto (Bloco 1)
08m50s
799
604 (75,59%)
Substituies:
232 (29,04%)
Omisses:
Inseres:
70,96%
738 (22,93%)
263 (8,17%)
76 (2,36%)
153 (19,15%)
42 (5,26%)
37 (4,63%)
88
89
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
302 (13,72%)
97 (4,41%)
59 (2,68%)
90 (11,39%)
20 (2,53%)
28 (3,55%)
93 (13,96%)
43 (6,46%)
18 (2,70%)
17 (13,49%)
3 (2,38%)
3 (2,38%)
9 (11,39%)
4 (5,06%)
3 (3,80%)
90
Durao:
Nmero de Palavras:
Peso do
Modelo de Linguagem:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Peso do
Modelo de Linguagem:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
511 (13,23%)
167 (4,33%)
111 (2,87%)
610 (22,92%)
206 (7,74%)
89 (3,34%)
112 (20,11%)
40 (7,18%)
15 (2,69%)
3
2251 (69,93%)
Substituies:
1072 (33,30%)
Omisses:
Inseres:
66,70%
Domingo do Fausto (Bloco 1)
08m50s
799
619 (77,47%)
Substituies:
215 (26,91%)
Omisses:
Inseres:
73,09%
722 (22,43%)
246 (7,64%)
104 (3,23%)
133 (16,65%)
47 (5,88%)
35 (4,38%)
91
92
Os resultados obtidos com o modelo acstico treinado com corpus maior, com
vozes masculinas e femininas, podem ser observados na Tabela 12.
Tabela 12 Acurcia do sistema de RAV baseado em software livre utilizando modelo
acstico treinado com corpus maior, com vozes masculinas e femininas
(continua)
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
305 (13,86%)
108 (4,91%)
52 (2,36%)
92 (11,65%)
25 (3,16%)
23 (2,91%)
91 (13,66%)
45 (6,76%)
13 (1,95%)
23 (18,25%)
6 (4,76%)
2 (1,59%)
4 (5,06%)
3 (3,80%)
2 (2,53%)
93
Durao:
Nmero de Palavras:
Peso do
Modelo de Linguagem:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Peso do
Modelo de Linguagem:
Acertos:
Erros:
Acurcia:
Durao:
Nmero de Palavras:
Acertos:
Erros:
Acurcia:
515 (13,34%)
187 (4,84%)
92 (2,38%)
611 (22,95%)
170 (6,39%)
85 (3,19%)
112 (20,11%)
34 (6,10%)
19 (3,41%)
3
2292 (71,20%)
Substituies:
1031 (32,03%)
Omisses:
Inseres:
67,97%
Domingo do Fausto (Bloco 1)
08m50s
799
614 (76,85%)
Substituies:
215 (26,91%)
Omisses:
Inseres:
73,09%
723 (22,46%)
204 (6,34%)
104 (3,23%)
139 (17,40%)
46 (5,76%)
30 (3,75%)
94
95
5.5.6 Latncia
Para o teste de latncia, foram utilizados os recursos gerados (dicionrios,
modelos acstico e de linguagem) em um programa Java, baseado na biblioteca sphinx4.jar,
parte do pacote Sphinx4 v.1.0beta6, do CMU Sphinx, desenvolvido a partir do programa Java
HelloNGram, tambm parte do pacote Sphinx4 v.1.0beta6.
Foi realizada uma gravao da tela e do udio do computador durante um trecho
do reconhecimento, utilizando um software comercial (SYNIUM SOFTWARE, 2013). O
udio da gravao foi extrado para o formato WAV utilizando um software comercial
(APPLE, 2009).
A latncia foi avaliada comparando os tempos de fim de trs frases no arquivo
WAV (verificados manualmente atravs de um software livre) (AUDACITY, 2013) e no
vdeo (verificados manualmente atravs de um software comercial (APPLE, 2009). Verificouse a latncia mdia de 652 ms.
5.5.7 Consumo de recursos computacionais
O uso de CPU e a ocupao de RAM foram verificados atravs do Monitor de
Atividade do OS X. Tal como apontado na Seo 5.4.5, este mtodo tambm no adequado
quando se deseja obter preciso em medidas. Contudo, o objetivo de sua utilizao neste
trabalho novamente conseguir capturar uma noo da ordem de grandeza do consumo de
recursos computacionais de sistemas RAV. Sob esta tica, a medio de consumo de recursos
computacionais foi feita com o mesmo programa Java mencionado no item anterior, que
durante a operao de reconhecimento ocupou cerca de 20% da CPU do computador e cerca
de 300 MB de RAM.
5.6 ANLISE DOS RESULTADOS
Um resumo dos resultados de acurcia obtidos nos testes est representado na
Tabela 13.
96
Acertos:
SUBTOTAL
Substituies:
BOM DIA Erros: Omisses:
BRASIL
Inseres:
Acurcia:
Acertos:
Substituies:
SUBTOTAL
Erros: Omisses:
BEM ESTAR
Inseres:
Acurcia:
Acertos:
SUBTOTAL
Substituies:
DOMINGO
Erros: Omisses:
DO
Inseres:
FAUSTO
Acurcia:
Acertos:
Substituies:
TOTAL
Erros: Omisses:
GERAL
Inseres:
Acurcia:
Estenotipia
Relocuo
IBM ViaVoice
84,90%
6,96%
17,97% 8,14%
2,87%
82,03%
66,95%
13,33%
36,52% 19,72%
3,47%
63,48%
60,83%
9,02%
40,29% 30,15%
1,12%
59,71%
68,75%
9,40%
33,37% 21,85%
2,12%
66,63%
99,11%
0,48%
1,10% 0,40%
0,22%
98,90%
95,42%
3,32%
5,01% 1,26%
0,43%
94,99%
94,69%
3,14%
7,20% 2,17%
1,89%
92,80%
96,06%
2,45%
5,05% 1,49%
1,11%
94,95%
83,91%
12,82%
20,93% 4,53%
3,58%
79,07%
71,49%
22,60%
32,18% 5,91%
3,67%
67,82%
64,87%
27,36%
38,36% 7,77%
3,23%
61,64%
71,52%
22,34%
32,24% 6,48%
3,42%
67,76%
CMU Sphinx c/
Corpus
Reduzido
81,02%
14,09%
21,57% 4,89%
2,59%
78,43%
68,90%
22,93%
33,46% 8,17%
2,36%
66,54%
68,88%
22,83%
33,81% 8,29%
2,69%
66,19%
72,23%
20,44%
30,36% 7,33%
2,59%
69,64%
CMU Sphinx c/
Corpus
Intermedirio
82,44%
13,23%
20,43% 4,33%
2,87%
79,57%
69,93%
22,43%
33,30% 7,64%
3,23%
66,70%
70,75%
20,99%
32,03% 8,26%
2,78%
67,97%
73,78%
19,18%
29,13% 7,04%
2,91%
70,87%
CMU Sphinx c/
Corpus Maior
81,82%
13,34%
20,56% 4,84%
2,38%
79,44%
71,20%
22,46%
32,03% 6,34%
3,23%
67,97%
70,75%
21,33%
31,94% 7,92%
2,69%
68,06%
73,90%
19,39%
28,83% 6,71%
2,73%
71,17%
97
98
99
100
101
102
REFERNCIAS
AHMER, I. Automatic speech recognition for closed captioning of television: data and
issues. 2002. Thesis (Master of Engineering) University of South Australia, Adelaide, 2002.
APPLE. iMovie'11 v.9.0.8. 2012. Disponvel em: <http:// www.apple.com/ br/ ilife/ imovie>.
Acesso em: 19 nov. 2012.
______. Learn more about Siri. 2011. Disponvel em: <http:// www.apple.com/ iphone/
features/ siri-faq.html>. Acesso em: 13 maio 2012.
______. QuickTime Player Pro v.7.6.6. 2009. Disponvel em: <http:// www.apple.com/
quicktime/ extending>. Acesso em: 19 nov. 2012.
ASSOCIAO BRASILEIRA DE NORMAS TCNICAS. NBR 15610-1: televiso digital
terrestre - acessibilidade - parte 1: ferramentas de texto. Rio de Janeiro, 2011.
______. NBR 15604: televiso digital terrestre - receptores. Rio de Janeiro, 2008a.
______. NBR 15606-1: televiso digital terrestre - codificao de dados e especificaes de
transmisso para radiodifuso digital - parte 1: codificao de dados. Rio de Janeiro, 2008b.
______. NBR 15290: acessibilidade em comunicao na televiso. Rio de Janeiro, 2005.
AUDACITY. Audacity v.2.0.3. 2013. Disponvel em: <http:// audacity.sourceforge.net>.
Acesso em: 19 jan. 2013.
BATISTA, P. D. S. Avanos em reconhecimento de fala para portugus brasileiro e
aplicaes: ditado no LibreOffice e unidade de resposta audvel com Asterisk. 2013.
Dissertao (Mestrado em Engenharia Eltrica) Universidade Federal do Par, Belm, 2013.
BOULIANNE, G.; BEAUMONT, J.; BOISVERT, M.; BROUSSEAU, J.; CARDINAL, P.;
CHAPDELAINE, C.; COMEAU, M.; OUELLET, P.; OSTERRATH, F. Computer-assisted
closed-captioning of live TV broadcasts in French. In: INTERSPEECH 2006: proceedings
of the International Conference of Spoken Language Processing. Pittsburgh: ISCA, 2006. p.
273-276.
BRASIL. Ministrio da Justia. Portaria n 1.220, de 11 de julho de 2007. Regulamenta as
disposies da Lei n 8.069, de 13 de julho de 1990 (Estatuto da Criana e do Adolescente ECA), da Lei no 10.359, de 27 de dezembro de 2001, e do Decreto no 6.061, de 15 de maro
de 2007, relativas ao processo de classificao indicativa de obras audiovisuais destinadas
televiso e congneres. Dirio Oficial [da] Repblica Federativa do Brasil, Poder
Executivo, Braslia, DF, 12 jul. 2007. Seo 1, p. 87-88.
______. Ministrio das Comunicaes. Portaria n 310, de 27 de junho de 2006. Dirio
Oficial [da] Repblica Federativa do Brasil, Poder Executivo, Braslia, DF, 28 jun. 2006.
Seo 1, p. 34.
103
BRASIL. Lei n 10.436, de 24 de abril de 2002. Dispe sobre a Lngua Brasileira de Sinais Libras e d outras providncias. Dirio Oficial [da] Repblica Federativa do Brasil, Poder
Legislativo, Braslia, DF, 25 abr. 2002. Seo 1, p. 23.
______. Lei n 10.098, de 19 de dezembro de 2000. Estabelece normas gerais e critrios
bsicos para a promoo da acessibilidade das pessoas portadoras de deficincia ou com
mobilidade reduzida, e d outras providncias. Dirio Oficial [da] Repblica Federativa do
Brasil, Poder Legislativo, Braslia, DF, 20 dez. 2000. Seo 1, p. 2-3.
BRITO, L. F. D. S.; STRAUSS, E.; MELLO, F. L. D. Uso de reconhecimento automtico de
voz em portugus do Brasil na gerao de closed caption. Revista de Radiodifuso - SET,
2012. v. 6, p. 54-60.
BROUSSEAU, J.; BEAUMONT, J.; BOULIANNE, G.; CARDINAL, P.; CHAPDELAINE,
C.; COMEAU, M.; OSTERRATH, F.; OUELLET, P. Automated closed-captioning of live
TV broadcast news in French. In: Eurospeech 2003: proceedings of the 8th European
Conference on Speech Communication and Technology. Geneva: ISCA, 2003. p. 1245-1248.
CAMBRIDGE UNIVERSITY. HTK. 2009. Disponvel em: <http:// htk.eng.cam.ac.uk>.
Acesso em: 14 maio 2012.
CARDINAL, P.; BOULIANNE, G.; COMEAU, M.; BOISVERT, M. Real-time correction
of closed-captions. In: Proceedings of the ACL 2007 demo and poster sessions. Prague:
ACL, 2007. p. 113-116.
CARNEGIE MELLON UNIVERSITY. CMU Sphinx. 2012. Disponvel em: <http://
cmusphinx.sourceforge.net>. Acesso em: 13 dez. 2012.
CENTRO DE LINGUSTICA DA UNIVERSIDADE DE LISBOA. Portugus falado:
variedades geogrficas e sociais. 1997. Disponvel em: <http:// www.clul.ul.pt/ pt/ recursos/
83-spoken-portuguese-geographical-and-social-varieties-r>. Acesso em: 19 maio 2014.
CINCAREK, T. Selective training for cost-effective development of real-environment
speech recognition applications. 2008. Dissertation (Doctor of Engineering) Nara Institute
of Science and Technology, Ikoma, 2008.
CONSUMER ELECTRONICS ASSOCIATION. ANSI/CEA-608-E: line 21 data services.
Arlington, 2008.
CYCLING'74. Soundflower v.1.6.6. 2012. Disponvel em: <http:// cycling74.com/ products/
soundflower>. Acesso em: 19 nov. 2012.
EUROPEAN LANGUAGE RESOURCES ASSOCIATION. GlobalPhone Portuguese
(Brazilian). 2008. Disponvel em: <http:// catalog.elra.info/ product_info.php? products_id=
825>. Acesso em: 19 maio 2014.
EVANS, M. J. BBC R&D White Paper 065. Speech Recognition in Assisted and Live
Subtitling for Television. 2003. Disponvel em: <http:// downloads.bbc.co.uk/ rd/ pubs/ whp/
whp-pdf-files/ WHP065.pdf>. Acesso em: 18 maio 2012.
104
GARTNER. Gartner's 2014 hype cycle for emerging technologies maps: the journey to
digital business. 2014. Disponvel em: <http:// www.gartner.com/ newsroom/ id/ 2819918>.
Acesso em: 20 ago. 2014.
GNU. Wget v.1.14. 2012. Disponvel em: <http:// www.gnu.org/ software/ wget>. Acesso
em: 17 nov. 2012.
GOOGLE. Introducing voice search: now on your computer. 2012. Disponvel em: <http://
www.google.com/ insidesearch/ features/ voicesearch/ index.html>. Acesso em: 13 maio
2012.
HOMMA, S.; KOBAYASHI, A.; OKU, T.; SATO, S.; IMAI, T.; TAKAGI, T. New realtime closed-captioning system for Japanese broadcast news programs. In: Proceedings of
the 11th International Conference on Computers Helping People with Special Needs. Linz:
Springer, 2008. p. 651-654.
HUANG, X.; ACERO, A.; HON, H. W. Spoken language processing: a guide to theory,
algorithm, and system development. Upper Saddle River: Prentice-Hall, 2001.
IBM. IBM Desktop ViaVoice. 2008. Disponvel em: <http:// www-01.ibm.com/ software/
pervasive/ viavoice.html>. Acesso em: 13 maio 2012.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATSTICA. Censo demogrfico 2010:
resultados gerais da amostra. Rio de Janeiro, 2012. Disponvel em: <http:// www.ibge.gov.br/
home/ presidencia/ noticias/ imprensa/ ppts/ 00000008473104122012315727483985.pdf>.
Acesso em: 12 maio 2012.
INTERNATIONAL TELECOMMUNICATION UNION. Report ITU-R BT.2207-1:
accessibility to broadcasting services for persons with disabilities. Geneva, 2011.
KOHLSCHTTER, C. Boilerpipe v.1.2.0. 2011. Disponvel em: <http:// code.google.com/
p/ boilerpipe>. Acesso em: 17 nov. 2012.
KYOTO UNIVERSITY. Julius. 2012. Disponvel em: <http:// julius.sourceforge.jp/
en_index.php>. Acesso em: 01 ago. 2012.
LAMBOURNE, A.; HEWITT, J.; LYON, C.; WARREN, S. Speech-based real-time
subtitling services. International Journal of Speech Technology, out. 2004. v. 7, n. 4, p.
269-279.
LIBRIVOX. LibriVox. 2014. Disponvel em: <https:// librivox.org/ search? primary_key=
52& search_category=l anguage& search_page= 1& search_form= get_results>. Acesso em:
19 maio 2014.
LINGUISTIC DATA CONSORTIUM. West Point Brazilian Portuguese speech. 2008.
Disponvel em: <https:// catalog.ldc.upenn.edu/ LDC2008S04>. Acesso em: 19 maio 2014.
MARTINS, C.; TEIXEIRA, A.; NETO, J. Dynamic language modeling for European
Portuguese. Computer Speech and Language, out. 2010. v. 24, n. 4, p. 750-773.
105
106