Ricardo Violato

Universidade Estadual de Campinas
Faculdade de Engenharia Eltrica e de Computao

ESTUDO DE ALGORITMOS DE QUANTIZAO VETORIAL
APLICADOS A SINAIS DE FALA
Ricardo Paranhos Velloso Violato
Dissertao de Mestrado apresentada Faculdade de
Engenharia Eltrica e de Computao como parte dos
requisitos para obteno do ttulo de Mestre em En-
genharia Eltrica. rea de concentrao: Engenharia
de Computao.
Orientador: Fernando Jos Von Zuben
Campinas, SP
2010
FICHA CATALOGRFICA ELABORADA PELA
BIBLIOTECA DA REA DE ENGENHARIA - BAE - UNICAMP
Violato, Ricardo Paranhos Velloso
V811e Estudo de algoritmos de quantizao vetorial
aplicados a sinais de fala / Ricardo Paranhos Velloso
Violato. Campinas, SP: [s.n.], 2010.
Orientador: Fernando Jos Von Zuben.
Dissertao de Mestrado - Universidade Estadual de
Campinas, Faculdade de Engenharia Eltrica e de
Computao.
1. Codicao de voz. 2. Sistemas de processamento
da fala. 3. Algoritmos - Processamento de dados. 4.
Aprendizado de computador. 5. Inteligncia articial -
Processamento de dados. I. Von Zuben, Fernando Jos.
II. Universidade Estadual de Campinas. Faculdade de
Engenharia Eltrica e de Computao. III. Ttulo.
Ttulo em Ingls: Study of vector quantization algorithms applied to speech signals
Palavras-chave em Ingls: Speech coding, Speech processing systems, Algorithms -
Data processing, Learning computer, Articial intelligence -
Data processing
rea de concentrao: Engenharia de Computao
Titulao: Mestre em Engenharia Eltrica
Banca Examinadora: Sarajane Marques Peres, Romis Ribeiro de Faissol Attux
Data da defesa: 08/07/2010
Programa de Ps Graduao: Engenharia Eltrica
ii
iv
Resumo
Este trabalho apresenta um estudo comparativo de trs algoritmos de quantizao vetorial, aplica-
dos para a compresso de sinais de fala: k-mdias, NG (do ingls Neural-Gas) e ARIA. Na tcnica de
compresso utilizada, os sinais so primeiramente parametrizados e quantizados, para serem armaze-
nados e/ou transmitidos. Para recompor o sinal, os vetores quantizados so mapeados em quadros de
fala, que so, por sua vez, concatenados, atravs de uma tcnica de sntese concatenativa. Esse sis-
tema pressupe a existncia de um dicionrio (codebook) de vetores-padro (codevectors), os quais
so utilizados na etapa de codicao, e de um dicionrio de quadros, que utilizado na etapa de
decodicao. Tais dicionrios so gerados aplicando-se um algoritmo de quantizao vetorial junto
a uma base de treinamento. Em particular, deseja-se avaliar o algoritmo imuno-inspirado denomi-
nado ARIA e sua capacidade de preservao da densidade da distribuio dos dados. So testados
tambm diferentes conjuntos de parmetros para identicar aquele que produz os melhores resulta-
dos. Por m, so propostas modicaes no algoritmo ARIA visando ganho de desempenho tanto na
preservao de densidade quanto na qualidade do sinal sintetizado.
Palavras-chave: codicao de fala, quantizao vetorial, algoritmo imuno-inspirado, preserva-
o de densidade.
Abstract
This work presents a comparative study of three algorithms for vector quantization, applied for the
compression of speech signals: k-means, NG (Neural-Gas) and ARIA. In the compression technique
used, the signals are rst parameterized and quantized to be stored and/or transmitted. To reconstruct
the signal, the quantized vectors are mapped into speech frames, which are concatenated through a
concatenative synthesis technique. This system assumes the existence of a dictionary (codebook) of
reference vectors (codevectors), which is used in the coding step, and a dictionary of frames, which
is used in the decoding step. These dictionaries are generated by applying a vector quantization al-
gorithm within a training database. In particular, we want to evaluate the immune-inspired algorithm
called ARIA and its ability to preserve the density of data distribution. Different sets of parameters
are also tested in order to identify the one that produces the best results. Finally, modications to the
ARIA algorithm are proposed aiming at obtaining gain in performance in both the preservation of
density and the quality of the synthesized signal.
Keywords: speech coding, vector quantization, immune-inspired algorithm, density preservation.
v
vi
Agradecimentos
Ao meu orientador, Prof. Fernando Jos Von Zuben, sou grato pela orientao.
Aos colegas de ps-graduao e do CPqD, pelas crticas e sugestes.
A minha famlia, pelo apoio durante esta jornada.
FEEC, por propiciar acesso s instalaes e por toda a infra-estrutura para o desenvolvimento da
pesquisa.
Ao CPqD, pela disponibilizao da base de dados de fala.
vii
viii
Sumrio
Lista de Figuras xi
Lista de Tabelas xv
Trabalhos Publicados Pelo Autor xvii
1 Introduo 1
2 Sistemas Imunolgicos: Do Natural aos Articiais 5
2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Sistema Imunolgico Natural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Aspectos Histricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 O Sistema Imune Inato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.3 O Sistema Imune Adaptativo . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Sistemas Imunolgicos Articiais . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Quantizao Vetorial 19
3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Algoritmos Empregados em Quantizao Vetorial . . . . . . . . . . . . . . . . . . . 22
3.2.1 k-mdias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 NG - Neural-Gas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.3 ARIA - Adaptive Radius Immune Algorithm . . . . . . . . . . . . . . . . . 25
3.3 Tabela Comparativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Formas de Avaliar a Qualidade da Quantizao . . . . . . . . . . . . . . . . . . . . 30
4 Sntese de Fala 35
4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Aspectos Gerais da Converso Texto-Fala . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Sntese de Fala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3.1 Sntese Concatenativa de Fala . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Codicao de Fala 41
5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 Processamento do Sinal de Fala . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3 Gerao do Codebook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
ix
x SUMRIO
5.4 Compresso do Sinal de Fala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.5 Parmetros do Sinal de Fala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.5.1 Parmetros Extrados no Domnio do Tempo . . . . . . . . . . . . . . . . . 52
5.5.2 Parmetros Extrados no Domnio da Frequncia . . . . . . . . . . . . . . . 54
5.6 Mtodos de Avaliao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 Resultados 63
6.1 Descrio dos Dados Utilizados e dos Testes Realizados . . . . . . . . . . . . . . . 63
6.2 Avaliando Diferentes Conjuntos de Parmetros . . . . . . . . . . . . . . . . . . . . 66
6.3 Avaliando Diferentes Algoritmos de Quantizao Vetorial . . . . . . . . . . . . . . . 74
6.3.1 Congurao do NG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.3.2 Congurao do ARIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.3.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.4 Primeira Proposta - Modicao no Clculo do Raio . . . . . . . . . . . . . . . . . 83
6.5 Segunda Proposta - Modicao no Clculo da Densidade . . . . . . . . . . . . . . 87
6.6 Relao entre a Nota PESQ, o Erro de Quantizao e a Entropia Relativa . . . . . . . 91
7 Concluso 99
Referncias bibliogrcas 102
Lista de Figuras
2.1 Mecanismos de defesa do organismo: barreiras fsicas e siolgicas (algumas ve-
zes consideradas parte da resposta imune inata), resposta imune inata e resposta
imune adaptativa. Figura extrada de (de Castro, 2001), com permisso do autor. 6
2.2 rgos linfides no corpo humano. O timo e a medula ssea so os rgos pri-
mrios ou centrais. Os rgos secundrios ou perifricos so: o bao, as placas
de Peyer, o apndice, as amgdalas e os linfonodos. Figura extrada de (de Castro,
2001), com permisso do autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Clula APC captura um patgeno, fragmenta-o em peptdeos que se ligam a
uma protena MHC de classe II. O complexo formado por essa unio exposto
na superfcie da clula, onde pode ser reconhecido pelo linfcito T auxiliador.
Figura extrada de (de Castro, 2001), com permisso do autor. . . . . . . . . . . 11
2.4 Identicao e eliminao de um antgeno. 2.4(a) Um antgeno com trs diferen-
tes eptopos, sendo reconhecido por receptores (anticorpos Ab) de trs diferentes
clulas B. Figura extrada de (de Castro, 2001), com permisso do autor. 2.4(b)
Um fagcito ingerindo o antgeno marcado com anticorpos. Figura extrada de
(de Castro, 2001), com permisso do autor. . . . . . . . . . . . . . . . . . . . . . 13
2.5 Princpio da Seleo Clonal. Clulas B que reconhecem o antgeno proliferam,
atravs de clonagemcomhipermutao somtica, emque a taxa de variabilidade
inversamente proporcional sua anidade. Aquelas com maior anidade ao
antgeno sobrevivem e se diferenciam em clulas plasmticas ou clulas de me-
mria. Figura extrada de (de Castro, 2001), com permisso do autor, e adaptada. 14
2.6 Uma clula APC reconhece um patgeno, ingere-o e digere-o (I). O patgeno
fragmentado em peptdeos que se ligam a uma molcula MHC. O complexo for-
mado apresentado a uma clula T (II). O reconhecimento do complexo ativa
a clula T, que ento libera sinais qumicos que estimulam as clulas B (III). As
clulas B reconhecem antgenos no meio (IV) e, uma vez ativadas, essas clula
se diferenciam em clulas plasmticas, que secretam anticorpos (V). Os anticor-
pos identicam e neutralizam os patgenos (VI). Figura extrada de (de Castro,
2001), com permisso do autor, e adaptada. . . . . . . . . . . . . . . . . . . . . . 15
3.1 Exemplos de posicionamento de prottipos para 3.1(a) agrupamento de dados e
3.1(b) quantizao vetorial. Os prottipos obtidos pelo agrupamento poderiam
ser utilizados para representar (quantizar) as amostras de tal grupo. . . . . . . . 20
3.2 Parties obtidas pela quantizao vetorial. . . . . . . . . . . . . . . . . . . . . . 21
xi
xii LISTA DE FIGURAS
3.3 Exemplo do posicionamento e dos raios de atuao dos anticorpos. . . . . . . . . 29
3.4 Dois grupos de dados bem distintos, com 100 amostras cada, gerados a partir
da amostragem de duas funes gaussianas, sendo uma delas com mdia 0 e
varincia 0,5 e a outra com mdia 10 e varincia 2,0. . . . . . . . . . . . . . . . . 31
4.1 Passos da converso texto-fala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Etapas da converso texto-fala baseada em sntese concatenativa. . . . . . . . . 40
5.1 Etapas do processamento do sinal de fala empregado neste trabalho. (a) Trecho
de Sinal Vozeado. (b) Quadro. (c) Janela com o mesmo nmero de amostras do
quadro, obtida pela concatenao de duas janelas Hanning. (d) Quadro Janelado. 44
de Sinal Hbrido de Transio. (b) Quadro. (c) Janela com o mesmo nmero
de amostras do quadro, obtida pela concatenao de duas janelas Hanning. (d)
Quadro Janelado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
de Sinal No-Vozeado. (b) Quadro. (c) Janela com o mesmo nmero de amos-
tras do quadro, obtida pela concatenao de duas janelas Hanning. (d) Quadro
Janelado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.4 Etapas do processo de gerao do codebook. 5.4(a) Etapas detalhadas. 5.4(b)
Processo resumido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.5 Processo de codicao e decodicao do sinal de fala. 5.4(a) Codicao do si-
nal de fala utilizando o codebook. 5.4(b) Decodicao do sinal de fala utilizando
o dicionrio de quadros e os ndices obtidos na etapa de codicao. . . . . . . . 50
5.6 Logaritmo do quadrado da magnitude do espectro do quadro da Figura 5.1 e
sua respectiva envoltria espectral. . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.7 Mapeamento de frequncias nas escalas linear (em Hertz) e mel, segundo a fr-
mula da Equao 5.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.8 Banco de ltros triangulares linearmente espaados na escala mel. A gura mos-
tra a escala de frequncia em Hertz, para facilitar a compreenso do comporta-
mento do banco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.9 Coecientes mel do quadro da Figura 5.1. Para efeito de visualizao, foi feita
uma correo de amplitude nos coecientes, mas interessa apenas no seu formato. 58
5.10 O algoritmo PESQ recebe como entradas os sinais original e degradado, obtido
aps a codicao e a decodicao, e fornece uma nota da qualidade do sinal
degradado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.1 Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: LPC
() e LSF (- -). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2 Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: MFCC
( ) e LSF (- -). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.3 Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: MFCC
( ) e MEL (- - -). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
LISTA DE FIGURAS xiii
6.4 Resultado da otimizao dos pesos de normalizao da energia (En) e do perodo
esquerdo (PE), utilizando a congurao de 50 frases de treinamento e codebook
com 250 prottipos. 6.4(a) Resultado em uma regio larga. 6.4(b) Zoom na
melhor regio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.5 Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: MEL
(- - -) e PE + En + MEL(). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.6 Resultado comparativo dos conjuntos de atributos testados (20 LPC, 20 LSF, 12
MFCC, 24 MEL e PE + En + 24 MEL). . . . . . . . . . . . . . . . . . . . . . . . 76
6.7 Resultado dos algoritmos k-mdias, NG e ARIA, da escolha aleatria de protti-
pos e do codebook formado pelas bases de treinamento inteiras (Sem Compres-
so), utilizando o conjunto de parmetros PE + En + 24 mel. . . . . . . . . . . . 81
6.8 Histograma do nmero de amostras de entrada que cada prottipo representa,
para a congurao de teste com 200 frases de treinamento e codebook com 500
codevectors, para os algoritmos: 6.8(a) k-mdias. 6.8(b) NG. 6.8(c) ARIA. 6.8(d)
Escolha aleatria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.9 Resultados obtidos ao empregar a frmula 6.5 no algoritmo ARIA, para dife-
rentes valores de . A base de treinamento empregada continha 200 frases e o
tamanho dos codebooks produzidos foi aproximadamente 500. . . . . . . . . . . 85
6.10 Resultado dos algoritmos k-mdias, NG e ARIA (utilizando a Equao 6.7 para
clculo do raio dos anticorpos), da escolha aleatria de prottipos e do codebook
formado pelas bases de treinamento inteiras (Sem Compresso), utilizando o
conjunto de parmetros PE + En + 24 mel. . . . . . . . . . . . . . . . . . . . . . 86
6.11 Dois grupos de dados bem distintos, obtidos a partir de duas distribuies gaus-
sianas, amostradas 1000 vezes cada uma. . . . . . . . . . . . . . . . . . . . . . . 88
6.12 Resultado das trs verses do algoritmo ARIA, utilizando o conjunto de par-
metros PE + En + 24 mel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.13 Erro de quantizao mdio das trs verses do algoritmo ARIA. . . . . . . . . . 92
6.14 Erro de quantizao mdio (em relao aos dados de teste) dos algoritmos k-
mdias, NG e ARIA (utilizando o mtodo KNN para estimao de densidade),
da escolha aleatria de prottipos e do codebook formado pelas bases de treina-
mento inteiras (Sem Compresso). . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.15 Relao entre a nota PESQwb mdia das frases de teste e o erro de quantizao
dos dados de teste. Nesse grco, aparecem os resultados de todos os algoritmos
aplicados a todas as conguraes de teste utilizadas. . . . . . . . . . . . . . . . 94
6.18 Resultado da relao da nota PESQwb e da entropia relativa entre as distri-
buies dos dados de teste e dos prottipos, produzidos pelo algoritmos NG,
k-mdias, ARIA (verso com o mtodo KNN para estimao de densidade) e
escolha aleatria de prottipos, estimada com o mtodo KNN, para diferentes
valores de k. 6.18(a) k = 5. 6.18(b) k = 20. 6.18(c) k = 50. 6.18(d) k = 100. . . . 98
xiv LISTA DE FIGURAS
Lista de Tabelas
3.1 Comparao entre os algoritmos k-mdias, Neural-Gas e ARIA. . . . . . . . . . 30
5.1 Notas na escala MOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.1 Caractersticas do sinal de fala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 Caractersticas da base de fala utilizada. . . . . . . . . . . . . . . . . . . . . . . 64
6.3 Caractersticas da base de fala utilizada. . . . . . . . . . . . . . . . . . . . . . . 65
6.4 Congurao dos testes realizados. . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.5 Nmero mdio de prottipos obtido pelo algoritmo ARIA e raio mnimo r utili-
zado, para cada congurao de teste. . . . . . . . . . . . . . . . . . . . . . . . . 80
6.6 Nmero mdio de prottipos obtido pelo algoritmo ARIA, utilizando a Equao
6.7 para clculo do raio dos anticorpos, e raio mnimo r utilizado. . . . . . . . . 87
6.7 Nmero mdio de prottipos obtido pelo algoritmo ARIA, utilizando o mtodo
KNNcomk = 100 para estimao de densidade e a frmula original para clculo
do raio dos anticorpos, e raio mnimo r utilizado. . . . . . . . . . . . . . . . . . . 89
xv
xvi LISTA DE TABELAS
Trabalhos Publicados Pelo Autor
1. Ricardo P. V. Violato, Fernando J. Von Zuben, Flvio O. Simes, Mrio Uliani Neto, Edson J. Nagle,
Fernando O. Runstein, Leandro de C. T. Gomes. Agrupamento Sensvel Densidade para a Quan-
tizao de Sinais de Fala. 30
o
Congresso Ibero-Latino-Americano de Mtodos Computacionais em
Engenharia (CILAMCE 2009), Armao de Bzios, Rio de Janeiro, Brasil, 08-11 novembro 2009.
2. Ricardo P. V. Violato, Alisson G. Azzolini, Fernando J. Von Zuben. Antibodies with Adaptive Radius
as Prototypes of High-Dimensional Datasets. Proceedings of the 9th International Conference on Ar-
ticial Immune Systems (ICARIS2010), Lecture Notes in Computer Science, vol. 6209, pp. 158-170,
2010.
3. Alisson G. Azzolini, Ricardo P. V. Violato, Fernando J. Von Zuben. Density Preservation and Vector
Quantization in Immune-Inspired Algorithms. Proceedings of the 9th International Conference on
Articial Immune Systems (ICARIS2010), Lecture Notes in Computer Science, vol. 6209, pp. 33-46,
2010.
xvii
xviii
Captulo 1
Introduo
Por ser a mais simples e natural forma de comunicao do ser humano, a fala sempre despertou
um grande interesse cientco. No que tange engenharia, o objetivo das pesquisas na rea de pro-
cessamento de fala era, inicialmente, desenvolver sistemas de armazenamento do sinal e sistemas de
comunicao por voz distncia, ou telefonia. Tais sistemas primordiais eram todos analgicos, ou
seja, a prpria forma de onda do sinal era transmitida e/ou armazenada.
Com o avano tecnolgico, esses sistemas analgicos migraram para sistemas digitais, em virtude
das vantagens que a representao digital do sinal oferece. A digitalizao um processo no qual
os sinais de fala, que so originalmente analgicos, so amostrados e quantizados, passando a ser
representados por uma sequncia de bits. A recente expanso dos computadores e dos sistemas de
comunicao digitais vem tornando o uso de sinais de fala digitalizados cada vez mais comum.
Esse desenvolvimento s foi possvel graas ao estudo de meios ecientes para transmitir, arma-
zenar e parametrizar o sinal de fala. Esse mesmo avano tecnolgico tambm provocou o surgimento
de outras reas de estudo, por exemplo, a converso texto-fala. Conversores texto-fala, mais co-
nhecidos por sua sigla em ingls TTS (text-to-speech), so sistemas que sintetizam o sinal de fala
correspondente leitura de um texto.
Sistemas TTS tm sido aplicados em diversas reas, mas sempre norteados pelo objetivo de faci-
litar a comunicao do homem com os computadores. Dado que os computadores apresentam grande
capacidade de armazenar e processar informaes, na presena de um conversor texto-fala essas in-
formaes podem ser disponibilizadas para um usurio atravs da fala. Exemplos de aplicaes so
inmeros, dos quais se destacam: consultas por telefone (e-mail, catlogos, informaes bancrias,
horrios de voos, calendrio esportivo etc.), auxlio ao aprendizado da lngua, sistemas de navegao
e auxlio a decientes visuais e vocais. A evoluo da tecnologia complementar converso, ou seja,
o reconhecimento de fala, permitir que nossa interao com as mquinas se torne cada vez mais
rpida e natural, ampliando o leque de aplicaes imaginveis.
1
2 Introduo
Isto aponta para uma popularizao dos sistemas TTS. Os sistemas atuais de converso texto-fala
que buscam sintetizar fala de alta naturalidade so baseados em uma tcnica conhecida como sntese
concatenativa por seleo de unidades. Tais sistemas dependem de uma grande base de sinais de fala
pr-gravados, o que pode dicultar ou at mesmo inviabilizar certas aplicaes.
Neste trabalho, apresentada uma tcnica de codicao de sinais de fala que visa a compresso
de bases de sinais, como as empregadas nos conversores texto-fala. Nessa tcnica, os sinais so
primeiramente divididos em quadros, e, em seguida, so parametrizados e quantizados, para serem
armazenados e/ou transmitidos. Para recompor o sinal, os vetores quantizados so mapeados em
quadros de fala, que so, por sua vez, concatenados, atravs de uma tcnica de sntese concatenativa.
Dois aspectos desse processo so analisados no presente trabalho: feito um estudo dos atribu-
tos do sinal de fala utilizados na etapa de parametrizao, bem como uma anlise de algoritmos de
quantizao vetorial empregados, claro, na etapa de quantizao.
Para o funcionamento desse sistema, necessria a existncia de um dicionrio (codebook) de
vetores-padro (codevectors), os quais so utilizados na etapa de codicao, e de um dicionrio de
quadros, que utilizado na etapa de decodicao. Tais dicionrios so gerados aplicando-se um
algoritmo de quantizao vetorial junto a uma base de treinamento.
Em quantizao vetorial, o objetivo representar certa distribuio de dados utilizando um n-
mero de prottipos signicativamente menor que o nmero de dados. No processo de quantizao,
um vetor qualquer associado a um prottipo, que uma verso quantizada e, portanto, aproxi-
mada do vetor original. A quantizao vetorial uma forma de compresso de dados, pois apenas os
prottipos precisam ser armazenados, ao invs da base de dados inteira.
Neste trabalho, so testados trs algoritmos de quantizao vetorial: k-mdias, NG (do ingls
Neural-Gas) e ARIA (da sigla em ingls para Adaptive Radius Immune Algorithm). A este ltimo
dedicada ateno especial e so propostas duas modicaes para melhorar o seu desempenho. Ao
associar os dados a antgenos e os prottipos (vinculados ao processo de quantizao) a anticorpos,
o algoritmo ARIA representa um paradigma alternativo de quantizao vetorial, o que justica o seu
emprego e a comparao de desempenho com outras propostas.
OARIA umalgoritmo de agrupamento de dados pertencente classe dos Sistemas Imunolgicos
Articiais, isto , sua criao foi inspirada no sistema imunolgico natural. Sistemas imunolgicos
articiais so denidos como mecanismos computacionais compostos por metodologias de processa-
mento de informao, inspiradas no sistema imune natural, visando a soluo de problemas do mundo
real.
A apresentao conceitual deste trabalho comea justamente pelo sistema imunolgico natural, no
Captulo 2. Nesse mesmo captulo, tambm denido o conceito de sistemas imunolgicos articiais
e so apresentadas caractersticas gerais comuns a esses sistemas e o escopo de sua utilizao.
3
Em seguida, o Captulo 3 trata da quantizao vetorial, onde tambm so descritos os algoritmos
utilizados neste trabalho, bem como mtodos para avaliar a qualidade da soluo fornecida por esses
algoritmos.
O Captulo 4 aborda o tema da sntese de fala, especialmente a sntese concatenativa, e utiliza
como pano de fundo a converso texto-fala, que tambm apresentada nesse captulo.
O sistema de codicao do sinal de fala empregado neste trabalho descrito no Captulo 5, que
inclui uma explicao das tcnicas de processamento de sinais necessrias para sua implementao.
Alm disso, este captulo descreve os parmetros do sinal de fala testados e, ainda, mtodos de avali-
ao da qualidade do sinal de fala sinttico produzido.
Isto posto, no Captulo 6, so apresentados os resultados obtidos. O captulo comea com a des-
crio da base de dados utilizada. Em seguida, relata os resultados auferidos com diferentes conjuntos
de parmetros, em termos da qualidade do sinal de fala gerado. Aps determinar o conjunto de pa-
rmetros que levou ao melhor resultado, o desempenho dos algoritmos de quantizao comparado.
A partir da, so propostas modicaes no algoritmo ARIA, que aprimoraram sua performance. Por
ltimo, avaliada a relao entre a qualidade do sinal de fala sintetizado e as medidas de qualidade da
quantizao vetorial (erro de quantizao e entropia relativa), e o efeito das modicaes propostas
para o ARIA em relao a seu desempenho mediante essas medidas.
As consideraes nais fazem parte do Captulo 7, onde so apresentadas as concluses e perspec-
tivas futuras do trabalho realizado, procurando mostrar as contribuies feitas e delineando sugestes
para o prosseguimento da pesquisa desenvolvida.
4 Introduo
Captulo 2
Sistemas Imunolgicos: Do Natural aos
Articiais
2.1 Introduo
Todos os seres vivos tm a habilidade de resistir a agentes causadores de doenas. A natureza
dessa resistncia varia de uma espcie para outra e uma funo da complexidade do organismo. Os
mamferos, particularmente os humanos, desenvolveram sistemas imunolgicos altamente sostica-
dos que interagem com outros sistemas do corpo (como o sistema nervoso e o sistema endcrino) para
manter a vida (de Castro, 2006). Neste captulo so apresentados alguns conceitos bsicos referentes
apenas ao sistema imunolgico dos animais vertebrados, mais especicamente dos mamferos, pois
se trata do principal objeto da pesquisa imunolgica e da mais importante fonte de inspirao para os
sistemas imunolgicos articiais.
Algumas caractersticas do sistema imune despertaram, principalmente a partir dos anos de 1990,
o interesse de engenheiros e cientistas da computao, que se inspiraram nelas para desenvolver
mtodos computacionais conhecidos hoje como sistemas imunolgicos articiais. Sistemas imuno-
lgicos articiais so mecanismos computacionais compostos por metodologias de processamento
de informao, inspiradas no sistema imune natural, visando a soluo de problemas do mundo real
(Dasgupta, 1998). Juntamente com a inteligncia de enxame, os sistemas imunolgicos articiais
so um dos campos de estudo mais recentes dentro da computao inspirada na natureza (de Castro,
2006).
Este captulo apresenta uma descrio breve do sistema imunolgico natural e das propriedades
que serviram de inspirao para a criao de algoritmos computacionais (Seo 2.2). Em seguida,
denido o conceito de sistemas imunolgicos articiais, so apresentadas caractersticas gerais
comuns a esses sistemas, o escopo de sua utilizao e, por m, descreve-se como algumas de suas
5
6 Sistemas Imunolgicos: Do Natural aos Articiais
propriedades podem ser empregadas para quantizao vetorial (Seo 2.3).
2.2 Sistema Imunolgico Natural
Dentre os mecanismos de defesa do organismo pode-se incluir barreiras fsicas, como a pele, e
bioqumicas, derivadas das condies siolgicas de funcionamento do corpo, como o pH. Caso essas
barreiras no sejam ecazes no combate a um agente invasor, entra em ao o sistema imunolgico
(Figura 2.1).
Fig. 2.1: Mecanismos de defesa do organismo: barreiras fsicas e siolgicas (algumas vezes
consideradas parte da resposta imune inata), resposta imune inata e resposta imune adaptativa.
Figura extrada de (de Castro, 2001), com permisso do autor.
O sistema imunolgico capaz de reconhecer e combater agentes invasores, tambm chamados
de patgenos, sendo um mecanismo de auto-identicao (identicao do prprio indivduo), res-
ponsvel pela manuteno da integridade fsica e homeostase do organismo (de Castro, 2001). Sua
complexidade pode ser comparada do crebro em muitos aspectos, e, assim como o sistema nervoso
central, cada indivduo possui o seu prprio sistema imunolgico, com capacidades e vulnerabilida-
des particulares. Gmeos idnticos, portanto nascidos com o mesmo cdigo gentico, desenvolvem
sistemas imunolgicos diferentes, do mesmo modo como eles desenvolvem crebros diferentes. O
2.2 Sistema Imunolgico Natural 7
sistema imunolgico de cada pessoa armazena o histrico nico de vida do indivduo, pois esse sis-
tema, como o crebro, se organiza atravs de sua experincia de vida (Cohen, 2004).
Os mecanismos de reconhecimento e combate, inerentes ao sistema imunolgico, reagem a pa-
dres moleculares chamados de antgenos, presentes em agentes invasores. Uma vez que o sistema
imunolgico reconhea um antgeno de um dado patgeno, a resposta imunolgica ativada, bus-
cando eliminar esse invasor potencialmente perigoso (Janeway et al., 2001).
Existem dois tipos de respostas imunes: a inata e a adaptativa. O sistema imune inato capaz
de atuar em uma vasta variedade de agentes invasores, sem que tenha sido exposto previamente a
eles. J o sistema imune adaptativo especco para cada antgeno e precisa se adaptar, como seu
prprio nome diz, e aprender a reconhecer um agente desconhecido para poder combat-lo. Uma vez
combatido um patgeno, o sistema consegue memorizar seu padro molecular (antgeno) e ter uma
resposta mais rpida e eciente em uma futura invaso.
Em seu trabalho, de Castro e Timmis (2002) enumeram e discutem algumas das propriedades do
sistema imunolgico, muitas delas evidentemente interessantes sob a perspectiva computacional, das
quais destacam-se: reconhecimento de padres, manuteno de diversidade, memria, tolerncia a
rudo, remoo de redundncia, aprendizagem por reforo e auto-organizao.
O foco principal neste captulo ser o sistema imune adaptativo, que foi a principal inspirao
para a criao dos Sistemas Imunolgicos Articiais (de Castro e Timmis, 2002). H muitas teorias
que buscam explicar o funcionamento do sistema imune adaptativo, mas duas delas formam a base
do algoritmo utilizado nesse trabalho: o princpio da Seleo Clonal (Burnet, 1959) e a Teoria da
Rede Imunolgica (Jerne, 1974). Deve-se destacar que algumas teorias que sero apresentadas no
so completamente aceitas pelos imunologistas, mas isso no impede que sejam aproveitadas como
inspirao para produzir algoritmos computacionais para a soluo de problemas.
2.2.1 Aspectos Histricos
A imunologia uma cincia relativamente nova. Sua origem atribuda a Edward Jenner, que em
1796 descobriu o processo de inocular indivduos sadios com cepas atenuadas de agentes causadores
de doena, a m de obter proteo natural do organismo contra a enfermidade, o que conhecido
desde ento como vacinao.
Quando Jenner introduziu a vacinao, possivelmente nada sabia a respeito dos agentes infecci-
osos que causam doenas. Foi somente mais tarde, no sculo XIX, que Robert Koch provou que as
doenas infecciosas eram causadas por microorganismos, cada um responsvel por uma enfermidade
ou patologia. Reconhecem-se atualmente quatro grandes categorias de microorganismos causadores
de doenas ou patgenos (Janeway et al., 2001): os vrus, as bactrias, os fungos e outros organis-
mos eucariticos (formados por clulas com ncleo separado do citoplasma) relativamente grandes
ou complexos, coletivamente chamados de parasitas.
Faltava ainda compreender quais mecanismos eram responsveis pela proteo do corpo contra
esses patgenos. A imunidade inata foi descoberta pelo imunologista russo Elie Metchnikoff, que
vericou que muitos microorganismos podiam ser ingeridos e digeridos por clulas chamadas de
macrfagos, em um processo que recebeu o nome de fagocitose. A resposta imune adaptativa foi des-
coberta posteriormente por Emil von Behring e Shibasaburo Kitasato. Eles identicaram no soro de
indivduos vacinados a presena de certas substncias, que foram ento denominadas de anticorpos,
que se ligavam especicamente aos agentes infecciosos (Janeway et al., 2001).
Desde ento, o entendimento do sistema imune avanou bastante e muitas teorias surgiram para
tentar explicar como ocorre a resposta imune, como se d a interao dos patgenos com o sistema
imune, qual a relao entre a imunidade inata e a imunidade adaptativa e como esses sistemas intera-
gem com o restante do organismo.
2.2.2 O Sistema Imune Inato
Aimunidade inata responsvel pela primeira linha de defesa do hospedeiro contra patgenos. Os
microorganismos encontrados diariamente na vida de um indivduo normal causam doenas apenas
ocasionalmente. Em sua maioria eles so detectados e destrudos em questo de horas pelos mecanis-
mos de imunidade inata (Janeway et al., 2001). Como indica o nome, esses mecanismos existem no
organismo antes mesmo de um encontro com um agente infeccioso, e so rapidamente ativados por
ele.
A imunidade inata dita no-especca, pois capaz de reconhecer estruturas comuns a muitos
patgenos. Na realidade, seus mecanismos so capazes de discriminar entre clulas do hospedeiro
e superfcies de patgenos, ou seja, entre prprio e no-prprio. A imunidade inata tambm dita
no-adaptativa, pois o sistema imune inato no desenvolve memria e respostas secundrias, ou seja,
no se adapta para produzir uma resposta mais rpida e ecaz a um novo encontro com o mesmo
agente invasor (Pinchuk, 2002).
Pode-se dizer que a imunidade inata inicialmente realizada por uma barreira fsica, formada
pelo epitlio que separa as superfcies internas e externas do corpo, ou seja, a pele e as mucosas dos
tratos respiratrios, gastrintestinal e reprodutivo. Internamente, a imunidade inata composta por c-
lulas especializadas em reconhecer e eliminar microorganismos, incluindo os leuccitos (neutrlos
e macrfagos), as clulas matadoras naturais NK (do ingls Natural Killers) e alguns linfcitos T e
B (descritos na Seo 2.2.3) com pouca especicidade aos receptores dos antgenos. Fazem parte
tambm do sistema imune inato algumas protenas e peptdeos circulantes que exercem um papel
antimicrobiano e formam o chamado sistema do complemento (Pinchuk, 2002).
O sistema imune inato usa uma diversidade de receptores que reconhecem e respondem aos pa-
tgenos. Aqueles que reconhecem diretamente a superfcie dos patgenos frequentemente ligam-se a
padres repetitivos, que so caractersticos das superfcies microbianas, mas que no so encontrados
nas clulas do hospedeiro. Alguns desses receptores estimulam diretamente a fagocitose, enquanto
outros so produzidos como molculas secretadas que promovem a fagocitose dos patgenos pela
ativao do complemento (Janeway et al., 2001).
O sistema do complemento um sistema de protenas plasmticas que prov a primeira resposta
imune inata. Quando molculas desse sistema se ligam a certos patgenos, elas ajudam na eliminao
deles atravs de dois processos. O primeiro um processo pelo qual protenas do complemento
rompem a membrana no patgeno, formando poros na sua superfcie e resultando na sua destruio.
Osegundo a opsonizao, que consiste no recobrimento de umpatgeno por protenas que sinalizam
para os macrfagos que esse complexo deve ser fagocitado (Segel e Cohen, 2001).
Resultados da diferenciao de moncitos (que circulam no sangue), aps estes migrarem para os
tecidos, os macrfagos so literalmente grandes clulas comedoras. Eles circulam por tecidos de todo
o corpo ingerindo e digerindo antgenos. Alm disso, tambm so capazes de estimular a ao dos
linfcitos T (ver Seo 2.2.3), atuando como clulas apresentadoras de antgenos (APC - do ingls
Antigen-Presenting Cell).
Outro tipo de leuccitos, alm dos macrfagos, os neutrlos so os elementos celulares mais
numerosos e importantes da resposta inata. Da mesma forma que os macrfagos, eles tm receptores
de superfcie para constituintes comuns de bactrias e complemento e so as principais clulas que
englobame destroemos microorganismos invasores (Janeway et al., 2001). Uma diferena importante
entre os macrfagos e os neutrlos que os primeiros tm um tempo de vida muito maior do que os
segundos, chegando a viver semanas depois de atuar em um local de inamao (Pinchuk, 2002).
Atravs da deteco de uma menor quantidade de uma molcula chamada MHC de classe I (do
ingls Major Histocompatibility Complex), as clulas matadoras naturais (NK) reconhecem princi-
palmente clulas infectadas por vrus ou tumores e induzem a apoptose (morte celular programada).
As molculas MHC so fundamentais para a resposta imune adaptativa e so descritas na Seo 2.2.3.
Os mecanismos da imunidade inata esto envolvidos nas fases iniciais de uma infeco e podem
ser ecazes na sua eliminao. Entretanto, alguns patgenos desenvolveram estratgias que lhes per-
mitem, em algumas ocasies, esquivarem-se ou dominarem os mecanismos da defesa imune inata e
estabelecer um foco infeccioso a partir de onde eles podem se disseminar. Nessas circunstncias, a
resposta imune inata tem um papel crucial de controle dos principais aspectos da resposta adaptativa,
atravs do reconhecimento dos microorganismos infecciosos e da induo dos sinais necessrios para
a ativao da resposta imune adaptativa. Os linfcitos antgeno-especcos da resposta imune adap-
tativa so ativados por molculas co-estimuladoras que so induzidas nas clulas do sistema imune
inato durante sua interao com os patgenos.
2.2.3 O Sistema Imune Adaptativo
Somente quando as defesas inatas do hospedeiro so sobrepujadas, evadidas, ou dominadas,
necessria uma resposta imune adaptativa ou induzida (Janeway et al., 2001). As principais clulas
envolvidas na resposta imune adaptativa so os linfcitos B e T. Assim como todas as clulas do
sangue, incluindo, portanto, as clulas do sistema imune, ambos surgem na medula ssea, mas ape-
nas os linfcitos B ali se diferenciam, enquanto os linfcitos T migram para o timo para sofrer seu
processo de amadurecimento. o local de maturao que deu origem aos seus nomes: B, do ingls
bone marrow, e T, de timo (em ingls thymus). Uma vez completada sua maturao celular, os dois
tipos de linfcitos entram na corrente sangunea, migrando para os rgos linfides perifricos, que
so os linfonodos, o bao e os tecidos linfides associados s mucosas, como as amgdalas, as placas
de Peyer e o apndice cecal. A medula ssea e o timo so considerados rgos linfides centrais
(Janeway et al., 2001). A Figura 2.2 mostra a localizao anatmica desses rgos.
Fig. 2.2: rgos linfides no corpo humano. O timo e a medula ssea so os rgos primrios
ou centrais. Os rgos secundrios ou perifricos so: o bao, as placas de Peyer, o apndice, as
amgdalas e os linfonodos. Figura extrada de (de Castro, 2001), com permisso do autor.
A induo da resposta imune adaptativa comea quando um patgeno ingerido por uma clula
dendrtica imatura, que apresenta receptores na sua superfcie capazes de reconhecer estruturas co-
muns de vrios patgenos. A funo das clulas dendrticas, contudo, no primeiramente destruir
os patgenos, mas levar os antgenos patognicos para rgos linfides perifricos e apresent-los aos
linfcitos T. Quando isso ocorre, diz-se que ela amadureceu em uma clula apresentadora de antgeno
(APC - do ingls Antigen-Presenting Cell).
Outras clulas, alm das dendrticas, podem desempenhar o papel de apresentadoras de antgenos,
como os macrfagos (ver Seo 2.2.2) e os linfcitos B(de Castro e Timmis, 2002), e todas elas fazem
isso atravs de uma molcula chamada MHC (do ingls Major Histocompatibility Complex), pois os
receptores das clulas T, ou TCR (do ingls T-cell receptor), s so capazes de reconhecer antgenos
quando unidos a uma molcula MHC. As clulas APC capturam protenas antignicas e processam-
nas, ingerindo e digerindo o antgeno. Isso causa a fragmentao do antgeno em molculas menores
chamadas de peptdeos. So esses peptdeos que se ligam a uma molcula MHC, formando um
complexo MHC/peptdeo que ento apresentado na superfcie da clula (Figura 2.3).
Fig. 2.3: Clula APC captura um patgeno, fragmenta-o em peptdeos que se ligam a uma
protena MHC de classe II. O complexo formado por essa unio exposto na superfcie da
clula, onde pode ser reconhecido pelo linfcito T auxiliador. Figura extrada de (de Castro,
2001), com permisso do autor.
H duas classes de molculas MHC. A MHC de classe I encontrada em todas as clulas do
corpo, enquanto a MHC de classe II exclusiva das clulas do sistema imune. H tambm dois
tipos de linfcito T, os matadores Tk (do ingls killer T-cells) e os auxiliadores Th (do ingls helper
T-cells). Os linfcitos T matadores identicam peptdeos antignicos ligados MHC de classe I. J
as clulas T auxiliadoras interagem com antgenos ligados MHC de classe II. A MHC de classe
I especializada em apresentar patgenos intracelulares e a MHC de classe II especializada em
apresentar patgenos recolhidos do meio extracelular.
Os linfcitos Tk s so ativados quando identicam um complexo MHC/peptdeo juntamente com
um sinal co-estimulante do sistema imune inato. Se uma clula Tk ativada, ela destruir a clula
hospedeira infectada (por isso esse tipo de clula recebeu o nome de matadora) de uma das seguintes
formas: ou ativando o mecanismo de apoptose (morte celular programada) da clula hospedeira, ou
criando furos na membrana da clula, ou secretando molculas txicas. Como todas as clulas do
corpo produzem MHC de classe I, as clulas Tk podem identicar e eliminar qualquer clula do
corpo que esteja infectada.
As clulas Th recebem esse nome, pois elas auxiliam a atividade das clulas APC atravs de um
sinal co-estimulante, desencadeando a resposta imune na clula apresentadora. Por exemplo, macr-
fagos so estimulados a destruir o que estiver dentro de suas vesculas e clulas B sero estimuladas
a se proliferar e diferenciar (Segel e Cohen, 2001). So essas clulas tambm as responsveis pela
tolerncia ao prprio, ou seja, para que o sistema imune no seja ativado pelo prprio hospedeiro.
Assim como as clulas T, as clulas B tambm possuem receptores em sua superfcie, chamados
ento de BCR (do ingls B-cell receptor). O reconhecimento de um antgeno ocorre quando esses
receptores se ligam a uma molcula presente na superfcie do antgeno, chamada eptopo. A inten-
sidade com que essa ligao acontece chamada de anidade e, quando a anidade do BCR com
certo eptopo excede um certo limiar, a clula B ca ativa e ela secreta seus receptores na forma de
anticorpos. Cada clula B produz um nico tipo de anticorpo, por isso ela dita monoespecca. Os
antgenos, no entanto, podem apresentar uma srie de eptopos, ou seja, diferentes anticorpos podem
reconhecer o mesmo antgeno (Figura 2.4(a)). Anticorpos ligados aos eptopos de um patgeno apre-
sentam dois efeitos: primeiro, eles opsonizam o patgeno, sinalizando para outras clulas que elas
podem inger-lo e process-lo (Figura 2.4(b)); e segundo, eles neutralizam a atuao do patgeno,
impedindo que esses se liguem s clulas do hospedeiro.
As clulas B esto relacionadas a trs importantes propriedades do sistema imune: adaptao,
memria e tolerncia ao prprio. Para compreender esses conceitos, vamos detalhar melhor como
essas clulas so capazes de identicar os mais diversos antgenos (eptopos) e como ocorre de fato a
ativao dessas clulas.
Quando uma clula B ativada, ela migra para um linfodo, onde a resposta imune adaptativa se
desenvolve. No linfonodo, as clulas B ativadas produzem vrios clones atravs de diviso celular.
Entretanto, essa clonagem est sujeita a uma forma de mutao chamada de hipermutao som-
tica, em que as taxas de mutao so muito maiores (at 9 ordens de grandeza maiores) do que as
observadas na diviso celular comum. As taxas de variabilidade so inversamente proporcionais
sua anidade ao antgeno em questo, aumentando as chances de que os clones apresentem estru-
turas de receptores diferentes do progenitor e, portanto, diferentes anidades com o eptopo. As
novas clulas B tm a oportunidade de se ligar aos eptopos presentes no linfonodo e, dentre as novas
(a) (b)
Fig. 2.4: Identicao e eliminao de um antgeno. 2.4(a) Um antgeno com trs diferentes
eptopos, sendo reconhecido por receptores (anticorpos Ab) de trs diferentes clulas B. Figura
extrada de (de Castro, 2001), com permisso do autor. 2.4(b) Um fagcito ingerindo o antgeno
marcado com anticorpos. Figura extrada de (de Castro, 2001), com permisso do autor.
clulas geradas, as que possuem maior anidade com o antgeno so selecionadas e as demais supri-
midas, mecanismo esse conhecido como maturao de anidade. Este processo de expanso clonal,
hipermutao e seleo das clulas com receptores mais bem adaptados denominado Seleo Clo-
nal (Burnet, 1959, 1978). Pode-se dizer que o princpio da seleo clonal apresenta caractersticas
semelhantes ao processo de evoluo das espcies atravs da seleo natural, no qual as chances de
sobrevivncia e reproduo de indivduos mais bem adaptados ao ambiente maior do que a daqueles
menos adaptados, favorecendo assim a evoluo da espcie como um todo.
As clulas B selecionadas se diferenciam em clulas B plasmticas, especializadas em secretar
anticorpos, ou em clulas B de memria (Figura 2.5). Se o mesmo patgeno encontrado no futuro,
essa populao j adaptada de clulas B de memria pode responder de forma muito mais rpida
invaso, pois o procedimento de maturao de anidade desencadeado no primeiro encontro pode
durar dias. Essa propriedade explorada pelo processo de vacinao, em que o organismo exposto
ao antgeno atenuado, que no causa a doena emsi, mas produz uma resposta imune, que gera clulas
B de memria.
As clulas B so ativadas, na verdade, pela presena de dois sinais estimulantes: um deles ocorre
quando elas identicam um patgeno (sinal I) e o outro fornecido por uma clula Th (sinal II).
Isso porque a clula Th precisa vericar o reconhecimento feito pela clula B. Como descrito ante-
riormente, a clula B apresenta o antgeno clula Th, atravs de MHC de classe II. Se a clula Th
se liga ao complexo MHC/peptdeo, ela fornece o sinal II, ativando a clula B (seleo positiva de
clulas B). A Figura 2.6 resume esse processo.
Fig. 2.5: Princpio da Seleo Clonal. Clulas B que reconhecem o antgeno proliferam, atra-
vs de clonagem com hipermutao somtica, em que a taxa de variabilidade inversamente
proporcional sua anidade. Aquelas com maior anidade ao antgeno sobrevivem e se dife-
renciam em clulas plasmticas ou clulas de memria. Figura extrada de (de Castro, 2001),
com permisso do autor, e adaptada.
O amadurecimento dos linfcitos T no timo preserva aqueles que reconhecem uma molcula
MHC do prprio hospedeiro (seleo positiva), enquanto elimina aquelas que reconhecem peptdeos
prprios ligados a MHC prpria (seleo negativa), o que torna as clulas ecientes em detectar
agentes invasores e, ao mesmo tempo, tolerantes ao prprio. Portanto, a clula Th no produzir o
sinal II caso uma clula B reconhea o prprio hospedeiro. Se uma clula B recebe o sinal I sem a
presena do sinal II, ela deve morrer. esse mecanismo que permite o sistema imune ser tolerante ao
prprio hospedeiro.
Foi visto at agora o que se pode considerar um modelo de sistema imune que discrima entre
prprio e no-prprio. H outras duas abordagens que sero salientadas. A Teoria do Perigo, proposta
por Matzinger (Matzinger, 1994, 2002), sugere que o sistema imune capaz de reconhecer sinais de
stress ou danos ao organismo, ou seja, o sistema est mais preocupado em previnir a destruio do
que em identicar invasores.
Fig. 2.6: Uma clula APC reconhece um patgeno, ingere-o e digere-o (I). O patgeno frag-
mentado em peptdeos que se ligam a uma molcula MHC. O complexo formado apresentado
a uma clula T (II). O reconhecimento do complexo ativa a clula T, que ento libera sinais
qumicos que estimulam as clulas B (III). As clulas B reconhecem antgenos no meio (IV) e,
uma vez ativadas, essas clula se diferenciam em clulas plasmticas, que secretam anticorpos
(V). Os anticorpos identicam e neutralizam os patgenos (VI). Figura extrada de (de Castro,
2001), com permisso do autor, e adaptada.
Essa abordagem fundamentada no fato de que, apesar de existiremmuitas entidades no-prprias
que so perigosas, como bactrias e vrus, h tambm clulas do prprio que so perigosas, como
tumores, e entidades no-prprias que no so perigosas, como certas bactrias bencas. A questo
como o sistema imune discrimina entre o que perigoso e o que no . Simplicadamente, essa
teoria prope que as clulas APC so estimuladas por sinais de alarme obtidos de clulas danicadas,
desencadeando a resposta imune.
Outra teoria menos ortodoxa a Teoria da Rede Imunolgica, formalizada por Jerne (Jerne, 1974).
Diferentemente da teoria da seleo clonal, que sugere um sistema imune composto por elementos
(clulas e molculas) discretos em repouso e que so estimulados por antgenos no-prprios, a teoria
da rede imunolgica prope que as clulas e molculas do sistema imune presentes no organismo
so capazes de reconhecer no s antgenos, mas tambm umas s outras. Dessa forma, o sistema
imunolgico pode ser visto como uma enorme e complexa rede, onde cada componente reconhece e
reconhecido por outros elementos, e interfere e sofre interferncia desses outros elementos. Esta
relao entre componentes faz com que a rede imunolgica atinja um estado de equilbrio vinculado
concentrao dos seus componentes. Dessa forma, so alteraes neste equilbrio dinmico que
provocam as respostas imunes. Segundo essa ptica, as principais caractersticas do sistema imu-
nolgico, como aprendizado, memria, manuteno de diversidade, so consideradas propriedades
emergentes, consequncias dos mecanismos de regulao que mantm a rede em equilbrio (de Cas-
tro e Timmis, 2002).
Apesar de muito popular aps sua publicao, a teoria de Jerne se encontra em descrdito entre
os imunologistas desde os anos de 1990, devido falta de evidncias empricas que comprovem seus
mecanismos de operao.
2.3 Sistemas Imunolgicos Articiais
Podem ser encontradas na literatura (de Castro, 2001; de Castro e Timmis, 2002; Dasgupta, 1998;
Starlab, 2008; Timmis, 2000) muitas denies para sistemas imunolgicos articiais. Neste traba-
lho, apresentada apenas a denio de de Castro e Timmis (2002), que buscou compilar outras
denies em uma forma compacta e nica:
Sistemas Imunolgicos Articiais (SIAs) so sistemas adaptativos, inspirados na imunologia te-
rica e em funes, princpios e modelos imunolgicos, que so aplicados resoluo de problemas.
Em seu trabalho (de Castro e Timmis, 2002), os autores destacam que o termo imunologia terica
refere-se a todos os mecanismos, princpios, modelos e teorias matemticas e no-matemticas usados
para descrever o funcionamento do sistema imune. Tambm deve ser ressaltado que a maioria dos
sistemas imunolgicos articiais usa apenas algumas ideias do sistema imune, valendo-se de altos
nveis de abstrao.
Segundo um processo conhecido como engenharia imunolgica (de Castro, 2001), para desenvol-
ver sistemas imunolgicos articiais, necessrio denir os seguintes elementos bsicos (de Castro,
2006; de Castro e Timmis, 2002): uma representao para os componentes do sistema; um conjunto
de mecanismos para avaliar a interao desses componentes com o ambiente e uns com os outros; e
procedimentos de adaptao que governem a dinmica do sistema, ou seja, algoritmos imunolgicos.
Segundo de Castro (2006), pode-se dividir os algoritmos imunolgicos em cinco classes princi-
pais:
Modelos de medula ssea;
Algoritmo de seleo negativa;
Algoritmo de seleo clonal;
2.3 Sistemas Imunolgicos Articiais 17
Modelos de rede imunolgica contnua;
Modelos de rede imunolgica discreta.
Os modelos de medula ssea so usados para gerar populaes de clulas e molculas imunes para
serem utilizadas em um SIA ou outras abordagens populacionais, como os algoritmos genticos. Os
algoritmos de seleo negativa so usados para denir um conjunto de detectores para desempenhar
principalmente deteco de anomalia. Os algoritmos de seleo clonal so usados para gerar um re-
pertrio de clulas imunes que apresentam alta anidade a padres antignicos. O algoritmo controla
a expanso, a variao gentica e a seleo das clulas. Os modelos de rede imunolgica contnua so
usados para simular uma rede imunolgica dinmica em um ambiente contnuo, enquanto os modelos
de rede imunolgica discreta so usados para um ambiente discreto.
Os sistemas imunolgicos articiais superam algumas das diculdades encontradas em outras
abordagens populacionais, destacando-se as seguintes vantagens:
So inerentemente capazes de manter a diversidade da populao;
O tamanho da populao a cada gerao automaticamente denido de acordo com a demanda
da aplicao;
Solues timas locais tendem a ser simultaneamente preservadas, quando localizadas.
Apesar de existirem abordagens evolutivas que tambm apresentam essas caractersticas, impor-
tante ressaltar que nos SIAs essas vantagens so fruto de propriedades inerentes ao funcionamento do
sistema. Com essas propriedades, os SIAs apresentam uma vasta gama de aplicaes, destacando-se
as seguintes reas: reconhecimento de padres, anlise de dados (classicao, agrupamento, quan-
tizao), busca e otimizao e deteco de falhas e anomalias. Em de Castro e Timmis (2002), so
apresentados exemplos de algoritmos e aplicaes dessas e de outras reas.
Para realizar uma tarefa de quantizao vetorial, que o objetivo deste trabalho, estudado um
algoritmo denominado ARIA (Adaptive Radius Immune Algorithm) (Bezerra et al., 2005), inspirado
no sistema imunolgico e que explora os conceitos do princpio da seleo clonal e da teoria da rede
imunolgica. Em quantizao vetorial, deseja-se representar um conjunto de dados de entrada com
um nmero reduzido de prottipos (ver Captulo 3).
Interpretando os dados de entrada como antgenos e os prottipos como anticorpos, deseja-se um
mtodo em que os anticorpos identiquem os antgenos da melhor maneira possvel. Pode-se criar
um mecanismo em que, dado um certo posicionamento de prottipos, eles se adaptem para melhor
representar os dados e, caso seja necessrio, que o nmero de prottipos aumente. Ora, pode-se
ver que h uma forte relao entre esse mecanismo e o processo de expanso clonal, hipermutao
somtica e seleo das clulas mais bem adaptadas, que caracteriza a seleo clonal.
Para evitar a proximidade excessiva de dois ou mais anticorpos, o que poderia levar a um cres-
cimento indesejvel de sua quantidade, pode-se medir tal proximidade e remover anticorpos que
estejam muito prximos, segundo algum critrio. Ao no permitir que os prottipos aproximem-se
uns dos outros, pretende-se evitar um desperdcio de recursos, pois tais prottipos estariam desem-
penhando quase o mesmo papel, ou seja, reconhecendo dados muito parecidos. Estabelecer uma
comunicao entre elementos do sistema imunolgico entre si, e no apenas deles com os antgenos,
o que foi proposto na teoria da rede imunolgica para explicar a resposta imune, e pode servir de
inspirao para criar um mecanismo de controle da distribuio e do nmero de prottipos.
Esses procedimentos constituem o esqueleto do algoritmo ARIA, que est descrito em detalhes
na Seo 3.2.3.
Captulo 3
Quantizao Vetorial
3.1 Introduo
Dada a ampliao da nossa capacidade de gerar e armazenar informaes, as bases de dados
esto cada vez maiores e se tornam de difcil tratamento, caso no haja um procedimento automtico
para sua anlise. Nesse sentido, tcnicas de agrupamento de dados tm se tornado um tpico muito
importante dentro de uma rea mais ampla conhecida como minerao de dados.
Agrupamento de dados (ou clusterizao) o processo de agrupar um conjunto de dados em
classes ou grupos (clusters), de forma que amostras do mesmo grupo apresentem alta similaridade
entre si e tenham pouca similaridade com amostras de outros grupos (Duda et al., 2001). Dessa forma,
um grupo denido como uma coleo de dados que so similares aos dados do mesmo grupo e
diferentes daqueles de outros grupos. Umconjunto de dados comessas caractersticas pode ser tratado
coletivamente como uma entidade s e, portanto, o agrupamento de dados pode ser considerado como
uma forma de compresso de dados.
Diferentemente do procedimento de classicao, que requer uma base de dados em que as amos-
tras j tenham seus rtulos denidos, para servir de exemplos para o treinamento de um classicador,
o agrupamento de dados no necessita de uma base de dados rotulada. Por isso, a classicao
considerada uma tcnica de aprendizado supervisionado e o agrupamento de dados uma tcnica de
aprendizado no-supervisionado ou de aprendizado por observao.
Com o agrupamento de dados, podem-se identicar regies densas e esparsas no espao dos dados
e, assim, descobrir padres de distribuio gerais e relaes interessantes entre os atributos dos dados
(Han e Kamber, 2006). Por isso, essa rea de pesquisa est presente nas mais diversas aplicaes de
todas as cincias (exatas, humanas e biolgicas), incluindo pesquisa de mercado, reconhecimento de
padres, processamento de imagem, processamento de voz, preveno de fraudes e anlise gentica.
Em quantizao vetorial o objetivo representar certa distribuio de dados utilizando um nmero
19
20 Quantizao Vetorial
(a) (b)
Fig. 3.1: Exemplos de posicionamento de prottipos para 3.1(a) agrupamento de dados e 3.1(b)
quantizao vetorial. Os prottipos obtidos pelo agrupamento poderiam ser utilizados para
representar (quantizar) as amostras de tal grupo.
de prottipos signicativamente menor que o nmero de dados. Opapel desses prottipos aproximar
estatisticamente o conjunto de dados original. Imagine que haja um conjunto de dados de entrada
formado por N vetores de dimenso d. A quantizao vetorial consiste em mapear esses dados em
outro conjunto de M < N prottipos, tambm de dimenso d (Simes et al., 2008). Da advm o
nome dessa tcnica, pois, no processo de quantizao, os vetores do conjunto de entrada, assim como
qualquer outro novo dado (vetor), so associados a um prottipo, que uma verso quantizada e,
portanto, aproximada do vetor original.
Ao denir conjuntos de dados similares, as tcnicas de agrupamento de dados podemser utilizadas
para quantizao vetorial, de forma que todos os dados de um grupo passam a ser representados
por um prottipo, por exemplo, o centroide do grupo. Na Figura 3.1, visualizam-se exemplos de
posicionamento de prottipos para agrupamento de dados (Figura 3.1(a)) e para quantizao vetorial
(Figura 3.1(b)). Claramente, poder-se-iam utilizar os prottipos que caracterizam os grupos na Figura
3.1(a) para quantizar suas amostras, obtendo assim uma representao mais compacta dos dados.
A quantizao vetorial uma forma de compresso de dados, pois apenas os prottipos precisam
ser armazenados, ao invs da base de dados inteira. O conjunto de prottipos divide o espao dos
dados em regies que cada um representa (ver Figura 3.2), de forma que qualquer dado mapeado
pela regio em que ele se encontra e apenas o ndice dessa regio suciente para quantizar o dado
em um prottipo (Cherkassky e Mulier, 1998).
H muitas tcnicas para agrupamento de dados e podem-se encontrar na literatura classicaes
para essas tcnicas. Por exemplo, em Han e Kamber (2006) elas so divididas em cinco categorias:
3.1 Introduo 21
Fig. 3.2: Parties obtidas pela quantizao vetorial.
mtodos de partio, mtodos hierrquicos, mtodos baseados em densidade, mtodos baseados em
grid e mtodos baseados em modelos. No entanto, o objetivo de todas elas conceitualmente o
mesmo: gerar parties dos dados. O que muda apenas como essas parties so geradas e or-
ganizadas. Maiores detalhes (com exemplos de algoritmos e de aplicaes de mtodos das cinco
categorias) podem ser encontrados em Han e Kamber (2006).
Os mtodos de partio podem ser subdivididos em duas categorias: hard clustering e fuzzy clus-
tering. Nos de partio rgida (hard clustering), cada amostra pertence a um e apenas um grupo. J
nas tcnicas baseadas em parties nebulosas (fuzzy clustering), cada amostra pode estar associada
a vrios grupos, com um certo grau de pertinncia a cada grupo. Uma restrio comum s duas
categorias que cada grupo deve conter pelo menos uma amostra.
Os mtodos hierrquicos tambm podem ser subdivididos em duas categorias (Cherkassky e Mu-
lier, 1998): aglomerativa (bottom up) ou divisiva (top down). Em um mtodo hierrquico aglome-
rativo, inicialmente cada amostra considerada um grupo e progressivamente os grupos so unidos,
at que todas as amostras pertenam a um s grupo, chamado de n raiz. Em um mtodo hierrquico
divisivo, inicialmente todas as amostras pertencem a um nico grupo (n raiz) e recursivamente os
grupos pais so subdivididos em grupos lhos. Nos mtodos hierrquicos, as relaes entre os grupos
resultantes so representadas por uma rvore ou um dendrograma.
A maioria dos mtodos de partio agrupa as amostras baseando-se na distncia entre elas. Por
isso, esses mtodos so ecientes apenas em encontrar grupos com formato hiper-esfrico. Nos
mtodos baseados em densidade, os grupos so denidos por regies com uma densidade de dados
maior do que a observada em sua vizinhana. Tais mtodos conseguem, portanto, identicar grupos
de qualquer formato.
3.2 Algoritmos Empregados em Quantizao Vetorial
Nesta seo, so apresentados os trs algoritmos para agrupamento de dados (ou quantizao
vetorial) que foram utilizados neste trabalho. O primeiro deles o k-mdias, uma das mais populares
heursticas usadas para agrupamento de dados ou quantizao. Em seguida, descrita uma rede
neural, chamada de Neural-Gas (NG), desenvolvida para quantizao vetorial. O outro algoritmo
avaliado um algoritmo imunolgico (ARIA), que foi criado para agrupamento de dados, mas que,
para realizar essa tarefa, primeiramente executa um processo de quantizao.
Obviamente, existem inmeros algoritmos para agrupamento de dados e inmeros algoritmos
para quantizao vetorial, sendo que, como descrito anteriormente, um mesmo algoritmo pode ser
empregado para qualquer uma dessas duas tarefas. O algoritmo ARIA uma evoluo da aiNet
(de Castro e Von Zuben, 2001) e um dos objetivos deste trabalho avaliar seu desempenho em uma
aplicao especca, buscando identicar limitaes em sua operao e propor modicaes que
aprimorem seu desempenho.
Para validar os resultados, decidiu-se compar-lo com o algoritmo padro k-mdias e com uma
outra classe de algoritmo bio-inspirado, a rede neural NG. Inicialmente pretendia-se testar os mapas
auto-organizveis de Kohonen. No entanto, em teste preliminares, seu desempenho no foi satisfa-
trio. O NG foi ento escolhido por ter uma implementao simplicada disponvel juntamente com
o toolbox do SOM. O algoritmo k-mdias foi escolhido por se tratar de um algoritmo de referncia.
Nas prximas sees, esses trs algoritmo so descritos detalhadamente.
3.2.1 k-mdias
Considere o seguinte problema de agrupamento de dados: dado um conjunto de n pontos no es-
pao d-dimensional (padres de entrada) e um inteiro k, posicionar um conjunto de k pontos, chama-
dos de centroides ou prottipos, tambm no espao d-dimensional, de forma a minimizar a distncia
quadrtica mdia de cada padro ao prottipo mais prximo.
No existe um algoritmo exato para resolver esse problema, mas vrias heursticas j foram pro-
postas para a obteno uma soluo aproximada. Dentre essas heursticas, a mais popular o algo-
ritmo de Lloyd (MacQueen, 1967; Lloyd, 1982), que cou conhecido como algoritmo k-mdias. O
algoritmo k-mdias funciona da seguinte forma:
3.2 Algoritmos Empregados em Quantizao Vetorial 23
N: nmero de padres de entrada
k: nmero de prottipos
C: conjunto de padres representado por cada prottipo
1 Inicialize os k prottipos;
2 While critrio de convergncia no for atingido do:
2.1 For i = 1 to N do:
2.1.1 Identique o prottipo mais prximo do padro de entrada i;
2.1.2 Atualize C;
end
2.2 Reposicione cada prottipo no centroide do subconjunto de padres associados a ele;
end
Os prottipos podem ser inicializados, por exemplo, amostrando aleatoriamente os padres de
entrada. O critrio de convergncia pode ser certo nmero pr-determinado de iteraes ou ento a
ausncia de modicaes nos grupos.
O algoritmo k-mdias funciona bem para problemas em que os grupos so compactos, bem se-
parados e com formato hiper-esfrico. Alm de ser bastante simples, a complexidade computacional
do k-mdias aproximadamente linear, o que torna esse algoritmo uma boa opo para problemas
de larga escala (Xu e Wunsch II, 2008). No entanto, deve-se destacar tambm duas limitaes do
algoritmo: o nmero de grupos precisa ser denido previamente e o resultado do algoritmo depende
da inicializao dos prottipos.
O primeiro problema pode ser resolvido executando-se o algoritmo com diferentes valores de k e
utilizando algum ndice de validao de agrupamentos para identicar qual k produziu a melhor so-
luo. Para contornar o segundo problema, existem mtodos baseados em algum tipo de busca local,
capazes de fazer com que o algoritmo escape de mnimos locais (Kanungo et al., 2002, 2004). Obvia-
mente essas solues implicam em um aumento do custo computacional do procedimento completo.
Para uma aplicao de quantizao vetorial, denir previamente o valor k geralmente no um
problema. Pelo contrrio, quase sempre se conhece ou se deseja um certo nmero de prottipos, pois
este nmero est diretamente relacionado com o fator de compresso da quantizao. Alm disso,
os ndices de validao de agrupamentos perdem seu sentido, j que o objetivo no mais identicar
grupos de dados, mas sim produzir uma representao mais compacta dos dados. Repare que a
qualidade da quantizao, ao menos em um possvel sentido, est diretamente associada ao objetivo
do k-mdias: minimizar a distncia quadrtica mdia de cada dado ao prottipo mais prximo. A
Seo 3.4 trata desse assunto.
3.2.2 NG - Neural-Gas
O algoritmo Neural-Gas (NG) uma rede neural desenvolvida para compresso de dados atra-
vs de quantizao vetorial. Esse algoritmo pode ser visto como uma variao dos mapas auto-
organizveis de Kohonen (SOM - Self-Organizing Map) (Kohonen, 1982), em que se emprega uma
rede mais exvel capaz de (i) quantizar conjuntos de dados topologicamente heterogneos e (ii) iden-
ticar as similaridades entre os padres de entrada sem a necessidade de predenir a topologia da rede
(Martinetz e Schulten, 1991; Martinetz et al., 1993).
No algoritmo NG, para cada padro de entrada, os neurnios (prottipos) tm seus pesos sinpti-
cos adaptados na direo desse padro em funo de sua distncia a esse estmulo de entrada. Quanto
mais distante, menor o passo de adaptao, segundo um ranking de distncias de cada neurnio da
rede ao padro de entrada (o neurnio mais prximo o primeiro e o mais distante o ltimo no
ranking). Essa relao determinada segundo uma queda exponencial, que, dessa forma, dene a
vizinhana que inuenciada a cada estmulo recebido.
Em seguida, criada uma conexo entre os dois neurnios mais prximos desse padro de entrada
(que podem-se chamar vencedor e segundo colocado), caso ela no exista, e inicializa uma idade para
essa conexo em zero. Caso a conexo j exista, sua idade reinicializada em zero. Depois se
incrementa a idade de todas as conexes ligadas ao neurnio vencedor. Por m, as conexes que
atingem uma idade superior a um certo limiar so removidas.
Ento, repetem-se essas etapas para todos os padres de entrada por um certo nmero de iteraes,
sendo que a cada padro de entrada o passo mximo permitido e a vizinhana so reduzidos, levando
convergncia dos neurnios. A forma como esses decaimentos ocorrem est descrita em detalhes
na Seo 6.3. A cada iterao, a ordem em que os padres de entrada so apresentados rede
alterada, sendo sempre denida aleatoriamente. Resumidamente, o pseudo-cdigo do algoritmo NG
o seguinte:
C: matriz de conexes
T: matriz de idade das conexes
W: matriz com os pesos sinpticos dos neurnios
N: nmero de dados de entrada
k: nmero de neurnios
max
it
: nmero de iteraes
idade
max
: idade mxima permitida para as conexes
1 Inicialize idade
max
, max
it
, W, C e T
2 For it = 1 to max
it
do:
2.1 Crie uma sequncia aleatria rand contendo os nmeros de 1 a N, sem repetio;
2.2.1 Ordene os k neurnios de acordo com sua distncia ao padro de entrada
rand(i);
2.2.2 Adapte os neurnios na direo do padro de entrada, sendo que quanto mais
distante menor o passo de adaptao (ver Equao 6.4);
2.2.3 Inicialize uma conexo entre o neurnio vencedor e o segundo melhor
colocado;
2.2.4 Inicialize a idade dessa conexo em 0;
2.2.5 Incremente a idade de todas as conexes do neurnio vencedor;
2.2.6 Remova as conexes do neurnio vencedor que atingiram a idade mxima
permitida;
2.2.7 Reduza o passo de adaptao mximo permitido e o tamanho da vizinhana
(ver Equaes 6.1, 6.2 e 6.3).
end
end
Uma implementao simplicada do NG pode ser encontrada no toolbox do SOM (SOM toolbox,
2008). Ela funciona da mesma forma do algoritmo original, mas no gera a matriz de conexes e,
consequentemente, tambm no h matriz de idade das conexes
1
, ou seja, no esto implementados
os passos 2.2.3 a 2.2.6. Neste trabalho, esta implementao do toolbox foi utilizada.
Perceba que, diferentemente do SOM, em que a vizinhana denida a priori por uma rede
ligando os prottipos, no NG a inuncia da vizinhana determinada pela distncia no espao dos
dados.
3.2.3 ARIA - Adaptive Radius Immune Algorithm
O ARIA (Bezerra et al., 2005) um algoritmo de agrupamento de dados pertencente classe
dos Sistemas Imunolgicos Articiais (SIAs) (de Castro e Timmis, 2002). Muitos algoritmos imu-
nolgicos para agrupamento de dados so baseados na reduo da redundncia presente nos dados,
seguida do agrupamento propriamente dito (de Castro e Von Zuben, 2001; Timmis e Neal, 2001). A
maioria desses algoritmos funciona posicionando um nmero reduzido de prottipos nas regies mais
1
Repare que a informao das matrizes C e T pode ser condensada em apenas uma matriz, na qual o valor zero indica
que no h conexo entre os neurnios e valores positivos indicam a idade das conexes existentes. O pseudo-cdigo
apresentados aqui baseado em (Martinetz e Schulten, 1991).
representativas dos dados, produzindo assim uma representao parcimoniosa desses dados (etapa de
reduo de redundncia). Tcnicas de partio podem ento ser usadas para agrupar os prottipos
resultantes, formando clusters (etapa de agrupamento).
A fase de reduo de redundncia tem, portanto, um papel muito importante nesse processo, pois
atravs dela que se busca eliminar o rudo presente nos dados e evidenciar as fronteiras entre os
grupos, diminuindo a complexidade do problema. No entanto, deve-se destacar que a remoo inade-
quada de redundncia pode ser prejudicial para a qualidade da soluo, pois justamente a redundn-
cia que prov o conhecimento (Stibor e Timmis, 2007). Anal, um conjunto de dados s forma um
grupo quando seus elementos compartilham atributos semelhantes e so, portanto, redundantes entre
si.
O ARIA foi desenvolvido a partir do algoritmo aiNet (de Castro e Von Zuben, 2001), buscando
superar algumas de suas limitaes, principalmente em problemas em que (i) os clusters esto muito
prximos uns dos outros, (ii) a densidade de dados varia de um cluster para outro e (iii) quando
h sobreposio entre os cluster ou suas fronteiras no esto bem denidas (fuzzy borders). Nessas
situaes, dado que o posicionamento dos anticorpos (prottipos) gerado pela aiNet no leva em
considerao a informao de densidade presente nos dados, as distncias relativas entre os prottipos
no corresponde distncia relativa entre os dados, o que pode levar a uma identicao incorreta
dos clusters. O que diferencia o ARIA justamente sua capacidade de preservar a densidade da
distribuio dos dados, ou seja, este algoritmo consegue posicionar mais prottipos onde h maior
concentrao dos dados.
Para compreender o funcionamento do ARIA, considere os dados como sendo antgenos e os
prottipos como sendo os anticorpos. O objetivo do algoritmo produzir um conjunto de anticorpos
que reconhea adequadamente os antgenos. Para isso, so aplicados o princpio da seleo clonal
(Burnet, 1959) e a teoria da rede imunolgica (Jerne, 1974), em um procedimento iterativo com trs
etapas principais (Bezerra et al., 2005):
1. Maturao de Anidade: os antgenos (dados) so apresentados aos anticorpos (prottipos),
que sofrem hipermutao para melhor reconhecer os antgenos (interao antgeno-anticorpo).
2. Expanso Clonal: os anticorpos que reconhecem antgenos a uma distncia maior do que seu
raio de atuao so clonados e a populao aumenta.
3. Supresso da Rede: a interao dos anticorpos quanticada e, caso um anticorpo reconhea
outro, um deles removido da populao (interao anticorpo-anticorpo).
Para facilitar o entendimento do algoritmo, apresentado primeiramente o seu pseudocdigo e,
em seguida, ser explicado cada um de seus passos.
Ag: antgenos
Ab: anticorpos
E: raio que dene a vizinhana para o clculo da densidade local
max
it
: nmero de iteraes
N: nmero de dados de entrada (antgenos)
n: tamanho inicial da populao de anticorpos
R: vetor com o raio de cada anticorpo
r: raio mnimo empregado na atualizao de R
: taxa de mutao
c: constante de decaimento geomtrico da taxa de mutao
1 Inicializao de variveis (Ab, E, n, R, max
it
, r, , c)
2 For it = 1 to max
it
do:
2.1.1 Selecione o anticorpo Ab que melhor reconhece o antgeno Ag
i
;
2.1.2 Mute Ab com taxa na direo de Ag
i
;
end
2.2 Elimine os Ab
s que no foram estimulados;

2.3 Clone os Ab
s que reconhecem Ag
s localizados a
uma distncia maior do que seu raio;
2.4 Calcule a densidade local para cada Ab;
2.5 Atualize R;
2.6 Aplique a supresso da rede de anticorpos;
2.7 Atualize E;
2.8 Reduza a taxa de mutao ;
end
No Passo 1, os parmetros do algoritmo so denidos. Alm do nmero de iteraes (max
it
),
o projetista deve denir a populao inicial de anticorpos (Ab), seus raios iniciais (R), o raio inicial
(E), o raio mnimo (r), a taxa de mutao inicial () e a constante de decaimento (c < 1). Repare
que h um nmero elevado de parmetros que devem ser denidos a priori, o que uma diculdade
comum em tcnicas bio-inspiradas.
A operao do algoritmo est toda denida dentro do lao iterativo do Passo 2. O Passo 2.1
representa a etapa de maturao de anidade. Os antgenos so apresentados um a um aos anticorpos
e aquele com maior anidade (menor distncia euclidiana) selecionado e sofre uma mutao com
taxa
it
na direo do antgeno, como descrito na Equao 3.1.
Ab
i
= Ab
i
+
it
rand (Ag
j
Ab
i
) (3.1)
onde Ab
i
o anticorpo vencedor antes da mutao, Ab
i
aps a mutao, Ag
j
o antgeno em ques-
to,
it
a taxa de mutao e rand um nmero gerado aleatoriamente segundo uma distribuio
uniforme entre 0 e 1.
Pode acontecer de um certo anticorpo no vencer para nenhum antgeno, ou seja, para nenhum
dos antgenos ele o anticorpo com maior anidade. Esse anticorpo, portanto, no est contribuindo
para o reconhecimento dos antgenos e deve ser eliminado para evitar o desperdcio de recursos. Isso
ocorre no Passo 2.2.
Os anticorpos possuem um raio de atuao inversamente proporcional densidade local de dados
na regio do anticorpo. Caso a distncia do anticorpo com maior anidade a um certo antgeno seja
maior do que seu raio (R
i
) de atuao, esse anticorpo escolhido para sofrer clonagem. Essa a etapa
de expanso clonal, descrita no Passo 2.3. Os clones so cpias dos anticorpos originais mutadas na
direo do antgeno que desencadeou o processo de clonagem. Um nico anticorpo pode reconhecer
vrios antgenos que satisfaam essa condio, mas permitido gerar apenas um clone por anticorpo.
Com isso, espera-se que o crescimento da rede seja suave, tornando o processo de auto-organizao
da rede mais estvel.
Em seguida, calculada a densidade local de cada anticorpo (Passo 2.4). A densidade denida
como o nmero de dados na vizinhana do anticorpo, denida pelo raio E. Com os valores de
densidade, calcula-se o raio (R
i
) de atuao de cada anticorpo (Passo 2.5) segundo a Equao 3.2.
R
i
= r
_
den
max
den
i
_ 1
dim
(3.2)
onde r o raio mnimo, den
i
a densidade local de dados do anticorpo i, den
max
a maior densidade
local de dados de um anticorpo na iterao e dim a dimenso dos dados. Observe que um anticorpo
posicionado na regio mais densa, ou seja, que reconhece o maior nmero de antgenos a uma dis-
tncia E, ter um raio de valor igual a r e todos os outros tero raio maior do que esse valor. Note
tambm que essa frmula no implica que o raio seja inversamente proporcional densidade local,
mas sim que o hipervolume de uma hiperespera o seja.
Por m, ocorre a supresso da rede (Passo 2.6), em que o limiar de supresso o prprio raio (R
i
)
de atuao dos anticorpos. Assim, caso a distncia entre dois anticorpos seja menor do que o raio de
atuao de um deles, aquele com maior raio removido da rede. Calculando o valor mdio dos raios
de todos os anticorpos da rede no nal de cada iterao, obtm-se o raio (E) que dene a vizinhana
para o clculo de densidade local (Passo 2.7).
Por ltimo, a taxa de mutao reduzida segundo a frmula dada pela Equao 3.3:
Fig. 3.3: Exemplo do posicionamento e dos raios de atuao dos anticorpos.
it+1
=
it
c (3.3)
Essa reduo fora a convergncia da rede de anticorpos, pois a cada iterao eles se movimenta-
ro menos e seus clones caro mais prximos a eles, forando a supresso de um deles. Dessa forma
o tamanho e o posicionamento da populao se estabilizam.
O algoritmo consegue preservar a densidade local dos dados, permitindo que os anticorpos posi-
cionados nas regies mais densas quem mais prximos, pois possuem um raio menor. J nas regies
mais esparsas, seus raios tendem a ser maiores e a distribuio de anticorpos tende a ser esparsa
tambm. A Figura 3.3 mostra um exemplo em duas dimenses do posicionamento e dos raios de
atuao dos anticorpos obtidos ao nal da execuo do algoritmo para um conjunto de dados gerados
aleatoriamente a partir de trs distribuies de probabilidade gaussianas com varincias diferentes,
produzindo 50 pontos cada uma.
Repare que o algoritmo foi capaz de gerar um posicionamento adequado dos prottipos e que os
raios
2
so inversamente proporcionais densidade local dos dados, como era esperado.
3.3 Tabela Comparativa
Aqui apresentada uma tabela comparando os algoritmos qualitativamente.
Tab. 3.1: Comparao entre os algoritmos k-mdias, Neural-Gas e ARIA.
k-mdias NG ARIA
Nmero de prottipos xo e denido a priori xo e denido a priori auto-ajustvel
Sensvel densidade no no sim
Bio-inspirado no sim sim
Sensibilidade inicializao forte mdia fraca
Custo Computacional baixo mdio alto
Sensibilidade a mnimos locais forte mdia fraca
3.4 Formas de Avaliar a Qualidade da Quantizao
A quantizao vetorial o processo de mapear dados em prottipos. Essa aproximao introduz
um erro na representao dos dados de entrada, denominado erro de quantizao vetorial (Gray e
Neuhoff, 1998).
O erro de quantizao de uma amostra de entrada n
i
dado pela distncia entre tal amostra e o
prottipo m
j
que a representa, denido por m
j
= q(n
i
), como mostra a Equao 3.4.
Q
i
= d(n
i
, q(n
i
)) (3.4)
onde d(, ) uma mtrica que fornece uma medida da distncia entre dois vetores, por exemplo, a
distncia euclidiana
3
.
Para avaliar o resultado de um algoritmo de quantizao, pode-se empregar o erro de quantizao
mdio Q
N
(Equao 3.5), ou seja, a mdia do erro de quantizao individual de cada amostra n
i
,
tomadas todas as N amostras de entrada.
Q
N
=
1
N
N
i=1
Q
i
=
1
N
N
i=1
d(n
i
, q(n
i
)) (3.5)
2
Formalmente, para um caso em duas dimenses, as reas dos crculos so inversamente proporcionais densidade
local dos dados e no os raios.
3
O algoritmo k-mdias, ao posicionar prottipos no centroide do conjunto de dados que eles representam, minimiza,
de fato, a distncia euclidiana ao quadrado.
3.4 Formas de Avaliar a Qualidade da Quantizao 31
Pode-se armar que o erro de quantizao a forma mais simples de avaliar a qualidade da
quantizao vetorial. Contudo, h situaes em que o erro de quantizao pode no ser uma medida
adequada da qualidade da quatizao.
Suponha, por exemplo, um cenrio simples em que h dois grupos de dados bem distintos, com o
mesmo nmero de amostras, gerados a partir da amostragem de duas funes gaussianas, com mdias
e varincias diferentes, como mostra a Figura 3.4
Fig. 3.4: Dois grupos de dados bem distintos, com 100 amostras cada, gerados a partir da
amostragem de duas funes gaussianas, sendo uma delas com mdia 0 e varincia 0,5 e a outra
com mdia 10 e varincia 2,0.
Uma distribuio de prottipos, que busque minimizar o erro de quantizao, posicionaria mais
prottipos sobre o grupo menos denso (produzido pela gaussiana com varincia maior), onde as dis-
tncias so naturalmente maiores.
No entanto, como h o mesmo nmero de amostras nos dois grupos, poderia ser interessante posi-
cionar tambm o mesmo nmero de prottipos nas regies denidas por cada grupo. Dessa forma, se
considerarmos a similaridade entre a distribuio dos dados e a dos prottipos, seria obtida uma solu-
o melhor, pelo menos no sentido de nmero de prottipos por amostra, junto a cada grupo. Existem,
portanto, dois objetivos diferentes e muitas vezes conitantes (Azzolini et al., 2010): minimizar o erro
de quantizao ou maximizar a similaridade entre as distribuies.
Para avaliar tal similaridade, outra medida de qualidade da quantizao sugerida: a entropia
relativa, ou divergncia de Kullback-Leibler (Kullback, 1959). Suponha que se conhecem as funes
densidade de probabilidade p
N
(x) e p
M
(x), das quais teriam sido amostrados, respectivamente, os N
dados de entrada e os M prottipos. Ento, possvel medir a dissimilaridade H(N, M) entre essas
duas distribuies usando a entropia relativa (Fukunaga e Hayes, 1989), dada na Equao 3.6.
H(N, M) =
_
ln
_
p
N
(x)
p
M
(x)
_
p
N
(x) dx (3.6)
Quanto mais distintas forem as distribuies, maior ser o valor de H(N, M), sendo 0 o resul-
tado quando as duas distribuies so iguais. A Equao 3.6 da entropia pode ser re-escrita como
E{ln[p
M
(x)/p
N
(x)]}, onde a esperana tomada em relao a p
N
(x). Substituindo, ento, a espe-
rana pela mdia amostral, chega-se a uma aproximao para a entropia relativa, mostrada na Equao
3.7 (Fukunaga e Hayes, 1989).
H(N, M) =
1
N
N
i=1
ln
_
p
N
(x
i
)
p
M
(x
i
)
_
(3.7)
Entretanto, geralmente as funes p
N
(x) e p
M
(x) no so conhecidas e, portanto, precisam ser
estimadas. H algumas maneiras de estimar funes densidade de probabilidade, das quais duas
sero apresentadas (Silverman, 1986): o mtodo KNN (do ingls k-nearest neighbour) e o mtodo
do estimador de ncleo (do ingls kernel estimator). Segundo o mtodo KNN, a estimativa feita da
seguinte forma:
p(x) =
k
[d
k
(x)]
d
(3.8)
onde d
k
(x) a distncia entre x e seu k-simo vizinho mais prximo e d a dimenso do espao.
Com isso, obtm-se uma medida de nmero de amostras em um certo volume, de tal forma que o
parmetro k dene o tamanho da vizinhaa que empregada nesta estimativa. O estimador de ncleo
denido por:
p(x) =
1
N
N
i=1
K(x x
i
) (3.9)
no qual a funo de ncleo K deve satisfazer a seguinte condio:
K(x)dx = 1 (3.10)
Esse mtodo j foi utilizado para avaliar a qualidade da compresso do algoritmo aiNet, prede-
cessor do ARIA, por Stibor e Timmis (2007). Em seu trabalho, os autores empregaram como funo
de ncleo a funo gaussiana multivariada, dada pela Equao 3.11.
K(x) =
1
(2)
l/2
h
l
exp
_
x
2
2h
2
_
(3.11)
3.4 Formas de Avaliar a Qualidade da Quantizao 33
A chamada largura de banda h controla o tamanho da vizinhana, enquanto a funo de ncleo
determina o formato dessa inuncia.
Resumindo, a medida de qualidade chamada de entropia relativa dada por:
H(N, M) =
1
N
N
i=1
ln
_
p
N
(x
i
)
p
M
(x
i
)
_
(3.12)
Essa medida atende ao critrio de posicionamento de prottipos adotado pelo ARIA, baseado no
conceito de preservao de densidade, segundo o qual deseja-se posicionar mais prottipos onde h
mais dados (ou, no caso do exemplo, o mesmo nmero de prottipos onde h o mesmo nmero de
dados).
Tanto o erro de quantizao quanto a entropia relativa sero utilizados para avaliar o desempe-
nho dos algoritmos de quantizao descritos na Seo 3.2. importante ressaltar que a medida mais
adequada a se usar depende da aplicao em que a quantizao est inserida. Por exemplo, na apli-
cao abordada neste trabalho, em que sinais de fala sero quantizados, pode-se medir a qualidade
da quantizao avaliando-se a qualidade do sinal de fala produzido (ver Captulo 5). No entanto, os
algoritmos de quantizao operam no espao dos dados que so fornecidos a eles e, portanto, deve-se
saber que critrio perseguir neste espao, para que a qualidade da aplicao seja a melhor possvel.
Em outras palavras, deve-se buscar uma medida de qualidade da quantizao que seja correlacionada
com a medida de qualidade da aplicao.
Captulo 4
Sntese de Fala
4.1 Introduo
As chamadas cincias da fala englobam diversas abordagens do estudo da fala, abrangendo reas
como a engenharia, a fsica, a lingustica, a psicologia experimental e cognitiva, a siologia da fala e
a informtica (Simes, 1999).
No que diz respeito engenharia, h vrias frentes de estudo no que se passa a chamar de pro-
cessamento de fala. O conceito de processamento de fala esteve primeiramente relacionado quase
sempre codicao de fala, que estuda meios ecientes para transmitir, armazenar e parametrizar
o sinal de fala. Com o avano tecnolgico, outras reas de estudo surgiram, das quais destacam-se
(i) o reconhecimento de fala, que a partir de um sinal de fala busca obter a descrio textual do que
foi falado, (ii) a sntese de fala, que utiliza mecanismos articiais para a produo de um sinal de
fala, e (iii) o reconhecimento de locutor, que pretende identicar, a partir de um sinal de fala, quem o
pronunciou, dentre outras reas (reconhecimento de lngua, sistemas de traduo automtica etc).
A converso texto-fala pode ser vista como um caso particular da sntese de fala, em que o sinal
de fala produzido a partir de um texto. Note que se pode dizer que a converso texto-fala realiza a
operao inversa do reconhecimento de fala.
Este captulo tem por objetivo introduzir os sistemas de converso texto-fala, mais especica-
mente a etapa de sntese de fala baseada na concateo de trechos de sinais de fala. Cabe mencionar
que a tcnica a ser proposta no Captulo 5 pode ser utilizada para compresso da base de fala utili-
zada em tais sistemas. Alm disso, vendo a situao por outro ngulo, pode-se armar que o sistema
descrito no Captulo 5 para a codicao de sinais de fala est baseado em sntese concatenativa, que,
portanto, merece ser detalhada. O Captulo 4 est organizado da seguinte forma: a Seo 4.2 dedi-
cada a uma breve introduo converso texto-fala e a Seo 4.3 trata da ltima etapa da converso,
a sntese de fala.
35
36 Sntese de Fala
4.2 Aspectos Gerais da Converso Texto-Fala
Os conversores texto-fala, tambm conhecidos como TTS (Text-To-Speech), so sistemas que pro-
duzem fala sinttica correspondente leitura de um texto (Latsch, 2005). De maneira geral, a tarefa
da sntese de fala a partir de texto pode ser dividida em duas etapas distintas, realizadas em sequncia:
a primeira etapa, correspondente anlise do texto, consiste em obter a representao fonolgica da
mensagem a partir de sua forma ortogrca; a etapa de sntese, por sua vez, responsvel pela gera-
o do sinal acstico associado representao fonolgica obtida na etapa anterior (Simes, 1999). O
diagrama da Figura 4.1 mostra de forma simplicada os passos necessrios para executar a converso.
Fig. 4.1: Passos da converso texto-fala.
A etapa de pr-processamento busca a formatao do texto para representar em sua forma textual
dgitos, siglas, abreviaturas e smbolos especiais. Apartir do texto formatado, executa-se a transcrio
ortogrco-fontica. Essa etapa consiste em encontrar a sequncia correta de fonemas que representa
cada uma das palavras contidas no texto. Vrios so os desaos dessa etapa, pois muitas letras, por
exemplo, tem pronncias variadas (observe a letra x das seguintes palavras: trax, xcara, exame,
prximo), muitas palavras de mesma ortograa podem pertencer a classes gramaticais diferentes (o
piloto / eu piloto), com pronncias diferentes, e h tambm casos de palavras de mesma ortograa e
classe gramatical, mas com pronncias diferentes dependendo do contexto (por exemplo, a palavra
sede, que se pronuncia sde ou sde dependendo do contexto).
Mas a representao fonolgica isolada no suciente para a obteno de uma fala sintetizada
4.3 Sntese de Fala 37
de qualidade. Deve-se ainda determinar o acento lexical das palavras, o ritmo e a entonao da frase
e a durao das pausas. Estes so chamados de parmetros prosdicos e permitem a gerao de fala
de forma mais natural.
A ltima etapa do processo de converso texto-fala a sntese do sinal propriamente dita, que ser
tratada com mais detalhes na prxima seo. O papel do mdulo de sntese consiste em obter o sinal
acstico a partir da representao fontico-prosdica obtida nas etapas anteriores (Simes, 1999).
4.3 Sntese de Fala
Os sistemas de sntese de fala podem ser divididos em quatro grandes grupos: a sntese por regras,
a sntese articulatria, a sntese paramtrica e a sntese concatenativa.
O princpio de funcionamento do sintetizador por regras baseado no modelo fonte-ltro da teoria
acstica de produo da fala. Segundo esse modelo, o sinal de fala produzido pelo aparelho fonador
humano corresponde ao resultado da passagem de uma fonte de excitao (que pode ser sonora,
no sonora ou mista) por um ltro, cuja funo de transferncia determinada pela congurao
instantnea do trato vocal. Ao fornecer um modelo adequado da fonte de excitao ao sintetizador,
pode-se supor que ele capaz de produzir sinal de fala na sua sada, desde que o modelo seja capaz
de simular a funo de transferncia do trato vocal humano. Em outras palavras, a qualidade do sinal
sinttico gerado depende do modelamento correto do processo de ltragem e tambm da fonte de
excitao (Simes, 1999). O primeiro sintetizador de sucesso baseado nessa abordagem foi proposto
por Klatt (1980), e foi aperfeioado nos anos seguintes.
O funcionamento de um sistema de sntese articulatria baseia-se na construo de um modelo f-
sico o mais realista possvel do aparelho fonador humano, capaz de mimetizar a dinmica dos diversos
articuladores no processo de produo da fala. As posies desses articuladores (lngua, mandbula,
lbios, osso hiide, vu palatino etc.) correspondem s variveis do modelo. Pode-se armar que essa
abordagem foi a que obteve menos sucesso em aplicaes reais, estando at hoje restrita ao ambiente
acadmico.
Recentemente, uma abordagem que vem se destacando a sntese paramtrica. Essa tcnica uti-
liza uma base de fala gravada para treinar modelos estatsticos, geralmente utilizando HMM (Hidden
Markov Models), os quais geram parmetros de fala, que por sua vez so utilizados para a sntese de
um sinal. Essa abordagem gera fala sinttica de boa qualidade, mas ainda inferior obtida pela tc-
nica de sntese concatenativa, que ser descrita a seguir. Apesar disso, a chamada sntese HMM tem
recebido bastante ateno da comunidade cientca da rea, pois ela apresenta duas vantagens princi-
pais em relao sntese concatenativa (Benesty et al., 2008). Primeiro, ela necessita de muito menos
memria e, segundo, com essa tcnica mais fcil realizar as tarefas de modicao e transformao
38 Sntese de Fala
de voz, que constituem outro tema de pesquisa atual.
Atualmente, a maioria dos sistemas de sntese de fala que buscam alta qualidade ainda utiliza
a tcnica de sntese concatenativa. Na sntese concatenativa, o sinal de fala gerado atravs da
concatenao de trechos gravados de fala, como ser detalhado na Seo 4.3.1.
Embora a converso texto-fala fornea uma boa ilustrao de sua utilidade, sntese de fala no
est restrita a esse universo. A maioria dos sistemas atuais de comunicaes celulares ou pela Inter-
net utiliza alguma tcnica de sntese para a codicao e transmisso do sinal de fala, diferentemente
da telefonia xa clssica, em que a prpria forma de onda do sinal de fala era transmitida, apenas
com uma limitao de frequncia (at 3.4 kHz). O objetivo dessas tcnicas quase sempre a redu-
o da banda de transmisso, conferindo certa robustez s condies de cada sistema especco e
preservando a naturalidade da fala.
4.3.1 Sntese Concatenativa de Fala
A ideia por trs da sntese concatenativa gerar um sinal de fala articial a partir da concatenao
de segmentos gravados de fala natural. Tais segmentos devem ser selecionados a partir de um inven-
trio de unidades previamente construdo, e o contedo desse inventrio deve ser tal que seja possvel
sintetizar todas as sequncias fonticas possveis de serem realizadas dentro de uma determinada
lngua (Simes, 1999).
Para tanto, necessrio decidir quais sero as unidades bsicas utilizadas para concatenao. As
unidades podem variar desde simples quadros, passando por fones (o conceito de fone ser denido
no Captulo 5), difones, trifones, polifones, slabas, palavras e at mesmo conjuntos de palavras. Essa
deciso dene como ser o banco de gravaes contendo as unidades desejadas. Obviamente, quanto
maiores forem as unidades concatenadas, menor ser o nmero de concatenaes necessrias e mais
natural ser a fala sintetizada. Infelizmente, supondo que ser armazenada uma realizao de cada
unidade, a utilizao de unidades maiores implica em um maior nmero de unidades no inventrio
(por exemplo, uma lngua composta geralmente de algumas dezenas de fones, mas o nmero de
palavras imenso), o que aumenta seu custo de gerao e armazenamento.
A princpio, pode parecer interessante utilizar fones como os blocos constituintes bsicos, pois
eles so poucos e com eles seria possvel recriar qualquer sequncia de sons. No entanto, essa soluo
leva a sinais de qualidade muito ruim, muitas vezes sequer inteligveis. Isso porque as caractersticas
de um fone so fortemente inuenciadas pelos fones adjacentes (contexto fontico), um fenmeno
conhecido como co-articulao.
Uma escolha mais razovel so os difones. Um difone um segmento de fala que se inicia no
meio de um certo fone e termina no meio do fone seguinte. Com isso, pretende-se incluir os efeitos
da co-articulao dentro da unidade, evitando a ocorrncia de descontinuidades nas concatenaes.
4.3 Sntese de Fala 39
Ainda assim, h sons em que os efeitos da co-articulao se estendem por mais do que um fone ou
que tem uma forte caracterstica dinmica, tal que no h uma regio boa para se fazer o corte. Por
isso, a utilizao de difones tambm leva a sinais degradados. Nesses casos interessante utilizar
unidades maiores, como trifones ou slabas.
A utilizao de unidades mistas, chamadas genericamente de polifones (como difones, trifones e
slabas), aplicada at os dias de hoje em sistemas de sntese comerciais. A ideia manter o tamanho
do inventrio de unidades pequeno, mas cobrir a maior parte dos sons da lngua, respeitando sua
dinmica e incluindo seus efeitos de co-articulao. Essa tcnica capaz de gerar um sinal de fala
inteligvel, mas de pouca naturalidade.
A sntese a partir de um inventrio xo, ou seja, em que est armazenada apenas uma instn-
cia de cada possvel unidade (como as tcnicas baseadas em difones ou polifones), apresenta dois
problemas principais (Benesty et al., 2008). Primeiro, essa estratgia leva gravao de unidades
hiper-articuladas, capazes de serem utilizadas na maioria dos contextos, mas que portanto no es-
pecca a nenhum deles. Segundo, so necessrias tcnicas de processamento de sinais para adaptar
tais unidades para cada caso e esse processamento tambm causa alguma degradao.
Gerar um sinal de fala sinttica de tima qualidade (natural e inteligvel) s foi possvel a par-
tir da sntese baseada em seleo de unidades, em que so armazenadas vrias instncias de cada
unidade. Em tempo de execuo, dada uma sequncia fontico-prosdica alvo, um algoritmo de se-
leo escolhe, a partir de uma base de gravaes extensa, a melhor sequncia de unidades acsticas
para represent-la. As unidades escolhidas ainda podem ser difones, apesar de fonemas poderem
ser utilizados como alternativa para o caso em que o difone com as caractersticas desejadas no
est disponvel. Tambm possvel que palavras ou at mesmo frases inteiras possam ser utilizadas,
diminuindo o nmero de concatenaes.
Para que tais sistemas produzam fala sinttica de qualidade satisfatria (inteligibilidade e naturali-
dade prximas s da fala humana), necessrio que o banco de gravaes contenha diversos exemplos
de um grande nmero de contextos fonticos (Hentz e Seara, 2009). Para obter essa diversidade, ge-
ralmente esses bancos contm algumas horas de gravaes, ou at mesmo dezenas de horas, o que
implica em centenas de megabytes de memria ocupados.
Uma vez gravados, os sinais de fala que comporo o banco precisam ser processados, em um
procedimento chamado de segmentao e transcrio fontica, no qual o sinal de fala ser divido em
unidades s quais ser associado o devido fonema. Essa etapa pode ser automatizada, mas quase
sempre feita uma reviso manual por um especialista.
A Figura 4.2 ilustra o processo de converso texto-fala baseado em sntese concatenativa.
Apesar do recente avano das tecnologias de armazenamento de dados, que permitiram reduzir
seus custos a nveis muito baixos, h situaes em que o tamanho da base de gravaes pode ser um
40 Sntese de Fala
Fig. 4.2: Etapas da converso texto-fala baseada em sntese concatenativa.
problema, como em dispositivos mveis (celulares, smartphones e PDAs), receptores de TV digital e
em qualquer situao em que necessria a transmisso da base (por exemplo, para instalao remota
de sistemas de converso texto-fala). Neste trabalho, implementado um sistema de quantizao
vetorial que pode ser empregado para a compresso de bases de sinais de fala gravados.
Alm de bases de fala empregadas em sistemas de converso texto-fala baseados em sntese con-
catenativa por seleo de unidades, h outras aplicaes que requerem grande espao para armazena-
mento de sinais de fala pr-gravados. Um talking book, que uma verso falada equivalente verso
escrita de um livro, por exemplo. Outras aplicaes, como um sistema de assistncia ao aprendizado
de lngua, dicionrios eletrnicos e enciclopdias eletrnicas, so aplicaes potenciais para o sis-
tema avaliado neste trabalho, pois tambm necessitam armazenar grandes quantidades de sinais de
fala (Lee e Cox, 2001) ou podem estar associdados a um sistema de converso TTS. Alm disso, cabe
destacar que os testes realizados neste trabalho foram feitos a partir do contedo parcial de uma base
de gravaes desenvolvida para um sistema TTS comercial.
Captulo 5
Codicao de Fala
5.1 Introduo
Recentemente, viu-se uma expanso dos computadores e dos sistemas de comunicao digitais,
tornando o uso de sinais de fala digitalizados cada vez mais comum. Em tais sistemas, o sinal de
fala , portanto, representado por uma sequncia de bits. A maior vantagem dessa representao
binria que a informao pode ser recuperada perfeitamente (sem distoro) aps atravessar um
canal ruidoso, alm de no perder sua qualidade ao passar por diversas partes de diferentes sistemas
de transmisso
1
.
No entanto, uma representao digital do sinal de fala sempre vai apresentar erros de quantizao,
os quais so mais reduzidos quanto maior o nmero de bits, fazendo com que tais sistemas quem
complexos e caros. Considerando, por exemplo, uma taxa de amostragem de 8 kHz, e que cada
amostra tenha uma preciso de 16 bits (o que pode ser considerada uma preciso suciente para a
quantizao adequada das amostras de voz), seria necessrio uma taxa de: (8000 amostras/segundo)
* (16 bits/amostras) = 128kb/s. Isso encorajou o desenvolvimento de diversos mtodos de codicao
de fala, buscando formas mais ecientes para a transmisso e o armazenamento de sinais de fala
digitais.
Historicamente, a tecnologia de codicao de fala foi dominada por codicadores baseados em
predio linear. Para obter um sinal de qualidade boa, a maioria desses codicadores pode ser denida
como aproximadores de forma de onda. Dentre estes, os codicadores CELP (code-excited linear
prediction) (Schoroeder e Atal, 1985) e suas variaes - VSELP (Gerson e Jasiuk, 1990), LD-CELP
(Chen, 1989; Chen et al., 1992), ACELP (Adoul et al., 1987; Laamme et al., 1990), CS-CELP
(Kataoka et al., 1993), CS-ACELP (Salami et al., 1998), PSI-CELP (Miki et al., 1993), RCELP
(Kleijn et al., 1993), eX-CELP (Gao et al., 2001) - se tornaram, a partir de sua criao na dcada de
1
Essas vantagens existem, supondo que o sistema tenha sido projetado apropriadamente.
41
42 Codicao de Fala
80, a tcnica de codicao dominante.
Para taxas acima de 4kb/s, os codicadores de forma de onda baseados no codicador CELP so
capazes de produzir fala de boa qualidade. Para taxas abaixo desse valor, a maioria dos codicadores
busca modelar apenas as caractersticas perceptuais mais importantes, tipicamente atravs da codi-
cao de parmetros do modelo de predio linear do sinal de fala (Benesty et al., 2008). Por isso,
esses codicadores so chamados de codicadores paramtricos.
Este captulo descreve o sistema de codicao de fala empregado neste trabalho, o qual segue
uma abordagem diferente da abordagem desses codicadores e baseada em um paradigma de sn-
tese concatenativa (Lee e Cox, 2001), geralmente empregada em sistemas de converso texto-fala.
Tal codicador pode ser til, por exemplo, em aplicaes que requerem o armazenamento e/ou a
transmisso de grandes quantidades de sinais de fala pr-gravados. Este o caso de sistemas de con-
verso texto-fala (Seo 4.2) baseados em sntese concatenativa, que dependem de uma extensa base
de sinais de fala gravados para produzir resultados de qualidade elevada (Seo 4.3.1).
Uma questo importante denir um mtodo de avaliao do desempenho do sistema de codi-
cao empregado, quanto qualidade do sinal de fala produzido. Duas formas tradicionais para
avaliao da qualidade de sinais de fala so a avaliao subjetiva (inspeo auditiva) e avaliao ob-
jetiva (medida gerada por software). A avaliao subjetiva consiste do uso de mtodos padronizados
para gerao de notas de avaliao de qualidade por avaliadores humanos, sendo esta bastante dispen-
diosa em termos de tempo e requisitos de infra-estrutura. A avaliao objetiva, por sua vez, substitui
os avaliadores humanos por um algoritmo cuja funo modelar o comportamento desses avalia-
dores, atravs da utilizao de modelos psicoacsticos, que levam em conta diversas caractersticas
peculiares do aparelho auditivo humano.
Acompresso de uma extensa base de fala ser utilizada para avaliar o desempenho dos algoritmos
de quantizao vetorial apresentados no Captulo 3, uma vez que representam um cenrio desaador
para tais algoritmos, com uma grande quantidade de dados de alta dimenso. A avaliao se dar
de duas formas distintas, uma baseada na qualidade do sinal de fala produzido e outra baseada na
distribuio de prottipos gerada, sendo que esta ltima est descrita na Seo 3.4 e a primeira est
descrita na Seo 5.6. Deve-se ressaltar que ao avaliar a qualidade do sinal de fala produzido, avalia-
se o sistema como um todo (parmetros, algoritmo de quantizao, tcnica de concatenao etc.) e
no apenas a ecincia do algoritmo de quantizao vetorial aplicado.
A organizao do captulo a seguinte: a Seo 5.2 introduz os conceitos bsicos de processa-
mento de sinais utilizados. A Seo 5.3 mostra como construdo um codebook de quadros de fala
(chamado de dicionrio de quadros), atravs de quantizao vetorial, e a Seo 5.4 descreve como tal
dicionrio pode ser usado para a codicao de um sinal de fala, visando a compresso de uma base
de sinais. Na Seo 5.5, sero apresentados alguns dos principais parmetros extrados dos sinais de
5.2 Processamento do Sinal de Fala 43
fala e que so usualmente empregados em seu processamento. Por m, a Seo 5.6 descreve tcnicas
de avaliao da qualidade de um sinal de fala, que so necessrias para avaliar o desempenho do
sistema descrito.
5.2 Processamento do Sinal de Fala
Um sinal de fala produzido a partir da passagem do ar pelo aparelho fonador humano. As carac-
tersticas do sinal de fala em um dado instante dependem da congurao momentnea do trato vocal
do falante, ou seja, da abertura dos lbios e da mandbula, da posio da lngua, da taxa de vibrao
das pregas vocais etc. Ao proferir uma sentena, o falante modica continuamente a congurao de
seu trato vocal, de forma a produzir uma sequncia de sons que transmite uma mensagem ao ouvinte.
Essa sequncia de sons composta por unidades bsicas denominadas fones. Pode-se denir um
fone como um trecho do sinal de fala, cujas caractersticas acsticas seguem um determinado padro
(Simes et al., 2008).
Pode-se dividir os sinais de fala em trs categorias: os vozeados, os no-vozeados e aqueles com
caractersticas hbridas entre as dos sinais vozeados e as dos no-vozeados.
Nos trechos de sinal de fala chamados de vozeados (do ingls voiced), ocorre a vibrao das pregas
vocais. Percebe-se, nesse caso, que o sinal de fala apresenta uma caracterstica quase peridica, em
que a frequncia do sinal produzido est diretamente relacionado taxa de vibrao das pregas vocais
(Figura 5.1a). J nos trechos no-vozeados do sinal (do ingls unvoiced), no ocorre vibrao das
pregas vocais e o sinal apresenta caracterstica totalmente aperidica, assemelhando-se a um sinal de
rudo (Figura 5.3a).
Embora as caractersticas acsticas do sinal de fala variem continuamente ao longo do tempo,
possvel analis-las de forma discreta. Supondo que o sinal de fala estacionrio se considerarmos
perodos de tempo sucientemente pequenos, este sinal subdividido em trechos de curta durao,
chamados quadros (frames), cujas caractersticas podem ser consideradas praticamente constantes.
A forma mais comum de diviso do sinal adotar quadros de tamanho xo, por exemplo, 10
ou 20 ms. No entanto, neste trabalho utiliza-se uma abordagem que trata de forma diferente os
trechos vozeados dos no-vozeados, com o auxlio das marcas de pitch. Nos trechos do sinal com
caracterstica vozeada, as marcas de pitch so posicionadas nos picos do sinal de fala. Nos trechos
no-vozeados, as marcas de pitch so posicionadas em instantes igualmente espaados no tempo, no
caso 10 ms. Dene-se um quadro como sendo o trecho de sinal centrado em uma marca de pitch,
iniciando-se na marca anterior e terminando na marca seguinte. Outras duas denies emergem
dessa: o perodo esquerdo do quadro, espao de tempo entre a marca inicial e a central, e o perodo
direito, espao de tempo entre a marca central e a nal. Percebe-se que com essa forma de diviso
44 Codicao de Fala
Fig. 5.1: Etapas do processamento do sinal de fala empregado neste trabalho. (a) Trecho de
Sinal Vozeado. (b) Quadro. (c) Janela com o mesmo nmero de amostras do quadro, obtida
pela concatenao de duas janelas Hanning. (d) Quadro Janelado.
do sinal h sobreposio entre quadros consecutivos, pois as amostras do perodo esquerdo de um
certo quadro coincidem com as amostras do perodo direito do quadro imediatamente anterior.
importante notar tambm que o quadro pode ser assimtrico em relao marca de pitch central, ou
seja, seus perodos direito e esquerdo podem ser diferentes.
Entretanto, antes de serem analisados, os quadros passam ainda por uma etapa de janelamento. O
janelamento pode ser entendido como um procedimento para limitar a anlise de um sinal a apenas
um certo trecho. Nesse sentido, a diviso do sinal em quadros, descrita anteriormente, nada mais do
que um processo de janelamento utilizando uma funo retangular de amplitude unitria e limitada
pelas marcas de pitch. No entanto, a funo retangular no uma escolha interessante para esta
aplicao, como car mais claro a seguir.
No processo de janelamento de quadros adjacentes, as janelas so posicionadas de forma que a
primeira amostra de uma janela coincida com a amostra da marca central da janela anterior e a ltima
5.2 Processamento do Sinal de Fala 45
Sinal Hbrido de Transio. (b) Quadro. (c) Janela com o mesmo nmero de amostras do
quadro, obtida pela concatenao de duas janelas Hanning. (d) Quadro Janelado.
amostra dessa mesma janela coincida com a amostra da marca central da janela seguinte. Ao somar
as amostras de janelas consecutivas posicionadas dessa maneira, em um processo chamado PSOLA
(Pitch-Synchronous Overlap and Add) (Moulines, 1990), deseja-se obter uma sequncia de amostras
de valor unitrio constante. Essa propriedade permite reconstruir o sinal original sem distoro a
partir de seus quadros janelados. Para isso, basta posicionar os quadros janelados conforme descrito
anteriormente e em seguida fazer o overlap and add dos mesmos (Simes et al., 2008).
As funes mais comuns utilizadas no janelamento de quadros de sinais de fala so as janelas
de Hamming e de Hanning. Nesse trabalho utiliza-se a janela de Hanning (Figuras 5.1c, 5.2c, 5.3c),
denida pela Equao 5.1, onde N o nmero de amostras da janela (Boll, 1979; Makhoul e Wolf,
1972).
(n) =
1
2

_
1 cos
_
2
n
N 1
__
0 n N 1 (5.1)
46 Codicao de Fala
Alm de conseguir reconstruir o sinal original, outra vantagem de se utilizar uma janela com
decaimento nas laterais evitar a insero de contedo de alta frequncia na anlise espectral dos
quadros, que decorreria da tentativa de modelar o degrau no incio e no m de um quadro obtido com
uma janela retangular.
As funes que denem as janelas so, em geral, simtricas em relao ao seu centro. Dada a
maneira como se deniu um quadro neste trabalho, estes podem ser assimtricos e, para realizar o
janelamento, constroi-se ento uma janela assimtrica a partir da concatenao de duas metades de
janelas de tamanhos diferentes, denidos pelo perodo esquerdo e pelo perodo direito do quadro em
questo. Assim, caso se deseje fazer o janelamento de um quadro de perodo esquerdo N
1
e perodo
direito N
2
, a primeira metade da janela requerida corresponde metade esquerda de uma janela de
Hanning de tamanho 2N
1
, e a segunda metade corresponde metade direita de uma janela de Hanning
de tamanho 2N
2
. Essa janela (assimtrica, se N
1
= N
2
) denida pela expresso 5.2.
(n) =
_
_
1
2

_
1 cos
_
2
n
2N
1
1
__
0 n N
1
1
2

_
1 cos
_
2
nN1+N21
2N
2
1
__
N
1
n N
2
+N
1
1
(5.2)
Ao multiplicar-se o sinal de fala por uma janela posicionada na marca de pitch central do qua-
dro sob anlise, obtm-se o quadro janelado, cujas amostras correspondem s amostras originais do
quadro com atenuao crescente em direo s bordas. So esses quadros janelados que constituem
a unidade bsica de anlise neste trabalho.
As Figuras 5.1, 5.2 e 5.3 ilustram esse processo de manipulao do sinal de fala para a obten-
o dos quadros janelados. Nessas guras, h um trecho de sinal de fala e as marcas de pitch (a),
destacando-se um quadro de interesse (b), a janela utilizada (c) e o quadro janelado obtido (d). A
Figura 5.1 exemplica um quadro de um trecho vozeado do sinal, como se pode perceber por sua
caracterstica peridica. A Figura 5.2 mostra um exemplo de um quadro de transio do silncio
(no-vozeado) para uma vogal (vozeada), onde se observa uma caracterstica hbrida. Note como o
quadro nitidamente assimtrico, com perodo esquerdo maior do que o perodo direito, e como isso
se reete na janela utilizada. Na Figura 5.3, h um exemplo de quadro no-vozeado.
Por m, os quadros janelados so submetidos a um processo de parametrizao, no qual cada
quadro passa a ser representado por um conjunto de parmetros. Uma srie de atributos pode ser
calculada a partir de um sinal de fala e, na Seo 5.5, sero descritos alguns dos principais parmetros
extrados dos sinais de fala e que so usualmente empregados em diversas aplicaes (sntese de fala,
reconhecimento de fala etc.).
5.3 Gerao do Codebook 47
Sinal No-Vozeado. (b) Quadro. (c) Janela com o mesmo nmero de amostras do quadro,
obtida pela concatenao de duas janelas Hanning. (d) Quadro Janelado.
5.3 Gerao do Codebook
Suponha que exista uma base de gravaes de sinais de fala utilizada em um sistema de sntese
de fala (Captulo 4), a qual se deseja compactar. Chamada de base de treinamento, ela ser utilizada
para a gerao do dicionrio de quadros e de seu correspondente codebook.
Os sinais de fala presentes na base de treinamento so submetidos ao processo descrito na Seo
5.2, no qual os sinais so subdivididos em quadros, janelados e, por m, parametrizados. Para todos
os quadros, o conjunto de parmetros calculados o mesmo, de forma que cada quadro gera um vetor
de atributos de mesma dimenso. Assim, a base de sinais de fala convertida em uma matriz de
vetores de atributos. Chamar-sede base de treinamento tanto a base de sinais de fala quanto sua
correspondente matriz de vetores de atributos, sendo que atravs do contexto possvel distinguir
quando se est falando de uma ou de outra.
48 Codicao de Fala
Uma vez calculados os parmetros dos quadros, um algoritmo de agrupamento de dados (Captulo
3) pode ser utilizado para agrupar (quantizar) os quadros, de acordo com a proximidade (segundo
alguma mtrica) entre seus vetores de parmetros. O resultado da execuo desses algoritmos
um conjunto de prottipos que representa o conjunto de dados de entrada (base de treinamento),
separando-os em grupos diferentes. Deseja-se que os quadros pertencentes a um mesmo grupo, ou
seja, representado pelo mesmo prottipo, sejam semelhantes entre si, de modo que o prottipo seja
um bom representante de todos eles.
Deseja-se associar aos prottipos um quadro, por motivos que sero explicados na prxima se-
o. Como o prottipo de cada grupo no necessariamente coincide com a posio de um vetor de
treinamento existente, escolhido como representante do grupo o vetor de treinamento mais prximo
ao prottipo desse grupo, a m de associ-lo ao quadro que o originou. Designam-se esses vetores
de codevectors. O conjunto dos codevectors forma o codebook, ao qual relaciona-se o dicionrio de
quadros, constitudo pelos quadros que originaram os codevectors. Em um sistema de compresso,
o dicionrio de quadros ser utilizado para a reconstruo das formas de onda, na etapa de decodi-
cao do sinal de fala, enquanto o codebook ser utilizado na etapa de codicao desse sistema,
descrito na prxima seo. A Figura 5.4 ilustra essas etapas.
5.4 Compresso do Sinal de Fala
Uma vez gerados o codebook e o dicionrio de quadros, possvel utiliz-los para codicar qual-
quer sinal de fala do mesmo locutor
2
, inclusive a prpria base de treinamento. Para isso, o sinal que
se deseja codicar deve passar pelo mesmo processo de diviso em quadros, janelamento e parame-
trizao descrito na Seo 5.2, atravs do qual o sinal de fala transformado em uma sequncia de
vetores de parmetros. Para cada vetor de parmetros, varre-se ento o codebook em busca do code-
vector mais prximo, de forma que a sequncia de quadros mapeada em uma sequncia de ndices
do codebook. Esse processo de codicao est ilustrado na Figura 5.5(a).
Para a reconstruo (decodicao) do sinal, a sequncia de ndices remapeada em uma sequn-
cia de quadros, utilizando os quadros do dicionrio. Essa sequncia de quadros ento concatenada
atravs da tcnica de sntese de fala, conhecida como PSOLA (Pitch-Synchronous Overlap and Add),
como ilustra a Figura 5.5(b). Alm dos ndices, tambm necessrio ter/receber no decodicador
a informao de frequncia fundamental e energia de cada quadro, cujas nalidades esto descri-
tas a seguir. Portanto, o codicador tambm deve extrair essas informaes do quadro original para
disponibiliz-las.
2
Na realidade, nada impede de se usar o codebook e o dicionrio de quadros para codicar sinais de fala produzidos
por outros locutores, embora a qualidade do sinal e a identidade do locutor tendam a car severamente comprometidas.
5.4 Compresso do Sinal de Fala 49
(a)
(b)
Fig. 5.4: Etapas do processo de gerao do codebook. 5.4(a) Etapas detalhadas. 5.4(b) Processo
resumido.
50 Codicao de Fala
(a) (b)
Fig. 5.5: Processo de codicao e decodicao do sinal de fala. 5.4(a) Codicao do sinal
de fala utilizando o codebook. 5.4(b) Decodicao do sinal de fala utilizando o dicionrio de
quadros e os ndices obtidos na etapa de codicao.
Na tcnica PSOLA, os quadros so posicionados de forma a preservar os perodos de pitch do
sinal original da seguinte forma: o centro do quadro do dicionrio (marca de pitch central) posicio-
nado de forma que coincida com a marca de pitch central do quadro original. Dado que esses quadros
(o original e o advindo do dicionrio), no tm necessariamente o mesmo tamanho (o perodo es-
querdo de um quadro no igual ao perodo direito do quadro seguinte), a sobreposio de quadros
consecutivos pode ser maior ou menor do que 50%. Durante essa operao de overlap and add, faz-se
tambm um ajuste de amplitude dos quadros a m de preservar a energia do sinal original.
Caso o objetivo seja compactar uma base de fala, ela prpria usada como base de treinamento e,
emseguida, ela passa pelo processo de codicao descrito acima, de tal modo que a base comprimida
constituda por:
Dicionrio de quadros;
Sequncia de ndices de mapeamento dos quadros originais em quadros do dicionrio;
Frequncia Fundamental dos quadros originais;
Energia dos quadros originais.
5.5 Parmetros do Sinal de Fala 51
Por m, deve-se destacar que, para recuperar o sinal propriamente dito, este deve ser sintetizado
em tempo real, pois ele ca armazenado em sua forma codicada (sequncia de ndices + frequncia
fundamental + energia).
No caso da codicao de um sinal qualquer, o decodicador deve conter apenas o dicionrio de
quadros e os outros itens so gerados pelo codicador (que contm o codebook) e transmitidos e/ou
armazenados.
Neste trabalho, foi implementado desde a etapa de processamento do sinal de fala (janelamento
e parametrizao), passando pela gerao do codebook e do dicionrio de quadros (quantizao ve-
torial) at a reconstruo do sinal (sntese concatenativa), partindo de uma base de sinais de fala,
disponibilizada juntamente com a marcao de pitch dos sinais. Ou seja, foram desenvolvidos os
mdulos mostrados nas Figuras 5.4 e 5.5, sendo que foram feitos estudos quanto aos parmetros uti-
lizados, os quais sero descritos na prxima seo, e quanto ao algoritmo de quantizao empregado
para a seleo dos quadros do dicionrio.
5.5 Parmetros do Sinal de Fala
A parametrizao um mtodo utilizado para extrair a informao que interessa de um sinal,
dada determinada aplicao. Na maioria das situaes, trabalhar diretamente com a forma de onda de
um sinal pode ser invivel ou levar a resultados pobres. A parametrizao do sinal, portanto, busca
formas mais ecientes de interpret-lo para alguma nalidade, qualquer que seja (armazenamento,
transmisso, codicao etc).
Na literatura, podem ser encontradas descries de inmeros atributos extrados de sinais de fala
(Davis e Mermelstein, 1980; Picone, 1993). Dependendo da aplicao desejada, o uso de determi-
nado atributo, ou um conjunto deles, se mostra mais interessante. Por exemplo, para reconhecimento
de fala, deseja-se utilizar atributos capazes de armazenar informaes que contribuam na discrimi-
nao do que foi falado, independente de quem falou. J em uma aplicao de reconhecimento de
locutor, deseja-se exatamente o contrrio, ou seja, atributos que armazenem informaes capazes de
diferenciar cada locutor, independente do que foi falado
3
.
Como foi dito nas sees anteriores, a etapa de parametrizao desempenha um papel funda-
mental no sistema proposto, visto que a quantizao da base de dados de fala ocorre no espao dos
parmetros. A escolha de atributos capazes de discriminar os quadros de fala de forma eciente ,
portanto, de suma importncia para a ecincia do sistema.
Para isso, os atributos devem conter informaes que diferenciem um determinado quadro de fala
3
H tambm o caso do chamado reconhecimento de locutor dependente de texto, em que a informao do que foi
falado tambm faz parte do reconhecimento.
52 Codicao de Fala
de outro, de acordo com a percepo humana de seu som, uma vez que os quadros do dicionrio iro
substituir os quadros originais de um sinal, e deseja-se que tal codicao seja a mais imperceptvel
possvel para o usurio. Nesta seo, so apresentados apenas os atributos mais usuais e de particu-
lar interesse para a aplicao proposta. No inteno deste texto fazer uma descrio completa e
detalhada de todos os atributos de fala j propostos na literatura.
5.5.1 Parmetros Extrados no Domnio do Tempo
A partir da forma de onda no tempo, alguns parmetros teis podem ser extrados. Dentre eles
destacam-se a energia, a potncia, taxa de cruzamentos de zeros, os j mencionados perodo esquerdo
e perodo direito, e coecientes de predio linear (LPC - linear prediction coefcients).
A energia denida como a soma do quadrado das amostras do sinal e pode ser til para, por
exemplo, detectar quadros de silncio, os quais normalmente apresentam energia muito menor do
que aquela associada aos outros quadros, ou para normalizar o sinal, de forma que todos os quadros
apresentem energia unitria. A potncia simplesmente energia por unidade de tempo, ou seja, a
energia divida pela durao do quadro.
A taxa de cruzamentos de zeros o nmero de vezes que amostras consecutivas trocam de sinal,
de negativo para positivo ou vice-versa. Outro parmetro conceitualmente parecido o nmero de
inexes do sinal, dado pelo nmero de vezes que sua primeira derivada em relao ao tempo troca
de sinal. Tais parmetros podem ajudar a distinguir entre quadros de sons vozeados e no-vozeados,
haja vista que estes ltimos apresentam um comportamento mais ruidoso, de maneira que suas formas
de onda tm um nmero muito maior de cruzamentos de zeros e/ou inexes do que os quadros de
sons vozeados.
O perodo esquerdo e o perodo direito j foram descritos na Seo 5.2, mas repetem-se aqui para
completude da descrio. Considerando que um quadro denido como o segmento de sinal que se
inicia em uma marca de pitch, centrado na marca seguinte e termina na marca posterior central
(ver Figuras 5.1, 5.2 e 5.3), o perodo esquerdo denido como o nmero de amostras (ou o espao
de tempo) entre a marca central e a inicial, e o perodo direito tem a mesma denio, mas entre a
marca central e a nal. Esses perodos podem ser usados para obter a frequncia fundamental F
0
,
no caso dos quadros vozeados, pois nesses casos as marcas de pitch esto espaadas de um perodo
fundamental (supondo que a marcao de pitch foi corretamente efetuada).
Os Coecientes LPC e LSF
A predio linear talvez a forma mais comum de anlise do sinal de fala (Atal, 2006). Apredio
linear uma tcnica de separao fonte/ltro que assume um modelo simples de produo de fala,
o qual considera que o sinal de fala o resultado da passagem de um sinal de entrada por um ltro
linear. Normalmente h interesse particular no ltro, pois dado o ltro e o sinal de sada (o sinal
de fala), pode-se chegar ao sinal de entrada, muitas vezes visto como o sinal de erro da ltragem
(resduo) (Rabiner e Schaffer, 1976). Como descrito na Seo 5.2, considera-se que o sinal de fala
em um quadro estacionrio e, portanto, o ltro invariante no tempo para cada quadro.
Esta anlise recebe o nome de predio linear, pois considera que cada amostra do sinal de fala
pode ser aproximada (predita) a partir de uma combinao linear de amostras passadas. Os pesos
dados s amostras passadas nesta combinao so os chamados coecientes de predio linear (LPC
- do ingls Linear Prediction Coefcients) e denem o ltro em questo, cuja ordem determinada
pelo nmero de amostras passadas utilizadas (Markel e Gray Jr., 1976). Quanto maior a ordem,
melhor a predio. Chamando de s(n) um dado sinal de fala, s(n) sua aproximao e de M a
ordem do ltro utilizado:
s (n) =
M
i=1
a
i
s(n i) (5.3)
onde a
i
so os coecientes do ltro de predio linear.
Existem alguns algoritmos para estimar os coecientes LPC
4
de forma a minimizar o erro de
predio, dos quais se destaca o algoritmo de Levinson-Durbin (Levinson, 1947; Durbin, 1959, 1960).
Mas para este trabalho, o mtodo utilizado no importa e, por isso, eles no sero descritos.
No entanto, sabe-se que os coecientes LPC so inapropriados para quantizao, devido a sua
faixa dinnica relativamente grande e por que a quantizao pode transformar um ltro LPC estvel
em um ltro instvel (Song e Juang, 1993). Mas possvel representar os coecientes LPC de ou-
tras maneiras. Uma representao bastante usada por sua robustez quantizao so os chamados
coecientes LSF (do ingls Line Spectral Frequency), tambm chamados de LSP (do ingls Line
Spectral Pairs), introduzidos por (Itakura, 1975). Sem entrar no mrito matemtico, os coecientes
LSF apresentam as seguintes propriedades (Hentz e Seara, 2009; Song e Juang, 1984):
Tm faixa dinmica limitada, o que os torna mais adequados para a quantizao;
Erros de quantizao no tornam o ltro instvel;
Parmetros LSF podem ser interpolados.
4
Apesar do termo coecientes j estar presente na sigla LPC, a expresso coecientes LPC ser utilizada para
fazer referncia a eles, pois a forma usualmente empregada e soa mais natural para o leitor.
54 Codicao de Fala
5.5.2 Parmetros Extrados no Domnio da Frequncia
Geralmente, a anlise de um sinal de fala ocorre no domnio da frequncia. At mesmo alguns dos
parmetros calculados no domnio do tempo podem ser tambm obtidos ou analisados no domnio da
frequncia.
Para isso, inicialmente calculado o espectro de frequncia do sinal, atravs da transformada
discreta de Fourier (DFT - discrete Fourier transform), que na prtica quase sempre implementada
com o algoritmo FFT (fast Fourier transform). O espectro da DFT complexo e pode ser represen-
tado por suas partes real e imaginria ou por sua magnitude e fase. Sabe-se que o ouvido humano
no sensvel fase e, por isso, a magnitude do espectro a representao mais adequada para o
processamento de fala no domnio da frequncia (Taylor, 2009).
A sensibilidade do ouvido humano aproximadamente logartmica, ou seja, uma multiplicao na
amplitude do sinal produz apenas um crescimento aditivo na intensidade sonora percebida. Portanto,
comum representar a amplitude em uma escala logartmica. Usualmente emprega-se o chamado log
do espectro de potncia, isto , o logaritmo do quadrado da magnitude do espectro de frequncia. A
Figura 5.6 mostra o log do espectro de potncia do quadro janelado da Figura 5.1.
Fig. 5.6: Logaritmo do quadrado da magnitude do espectro do quadro da Figura 5.1 e sua
respectiva envoltria espectral.
A partir da Figura 5.6, pode-se visualizar trs conceitos importantes no processamento de fala:
a frequncia fundamental e suas harmnicas, os formantes e a envoltria espectral. Na Figura 5.6,
nota-se uma srie de picos, igualmente espaados na frequncia. So as harmnicas, mltiplas da
frequncia fundamental do sinal, que pode ser estimada pela diferena entre duas harmnicas conse-
cutivas. Os picos mais globais no espectro so os chamados formantes. Fisicamente, os formantes
so as frequncias de ressonncia do trato vocal e a frequncia fundamental a taxa de vibrao das
pregas vocais. O contorno do espectro de potncia, algo como ligar os picos do sinal, formando
uma curva, denominado a envoltria espectral e tambm est mostrado na gura. A envoltria foi
obtida a partir da resposta em frequncia do ltro LPC de ordem 20.
Outra peculiaridade do ouvido humano sua resposta em frequncia. Estudos revelaram que a
resposta em frequncia do ouvido humano no-linear e empiricamente foram determinadas escalas
mais convenientes para representar a frequncia. Duas dessas escalas mais conhecidas so as escalas
mel (Stevens et al., 1937) e Bark (Zwicker e Fastl, 1990). O mapeamento da escala linear (em Hertz)
para a escal mel de frequncia dado por:
m = 2595 log
10
_
1 +
f
700
_
= 1127 log
e
_
1 +
f
700
_
(5.4)
onde m o valor da frequncia na escala mel e f o valor da frequncia em Hertz. Neste trabalho,
ser utilizada a escala mel, motivo pelo qual no ser apresentado aqui o mapeamento para a escala
Bark, o qual pode ser facilmente encontrado na literatura (Zwicker e Fastl, 1990; Zwicker, 1961).
A Figura 5.7 mostra o resultado deste mapeamento (at a frequncia de 16 kHz), na qual pode-se
observar que at 1000 Hz a relao praticamente linear e depois ela segue uma curva logartmica.
Fig. 5.7: Mapeamento de frequncias nas escalas linear (em Hertz) e mel, segundo a frmula da
Equao 5.4.
56 Codicao de Fala
Os Coecientes Mel
Particularmente, dado que a frequncia fundamental j foi extrada de alguma forma, interessa
apenas o contorno do espectro, ou seja, a envoltria espectral. Mais do que isso, j que a resposta do
ouvido humano pode ser aproximada de uma maneira melhor na escala mel, deseja-se obter uma in-
formao condizente com nossa percepo de frequncias. Agrupar o contedo espectral de frequn-
cias prximas leva a uma estimativa do contorno e, se a largura de banda de cada um desses grupos
de frequncia obedecer escala mel, aproxima-se da reposta do ouvido (Picone, 1993). Uma forma
eciente de obter e armazenar essa informao com a chamada anlise por banco de ltros (Taylor,
2009).
Imagine que o sinal de fala passa por um banco de ltros passa-faixa, onde cada ltro dene
uma banda crtica, espaados uniformemente na escala mel. O nmero de ltros utilizados deve ser
suciente para produzir uma boa estimativa da envoltria espectral e eles devem cobrir a largura
de banda do sinal, isto , para um sinal amostrado a, digamos, 16 kHz, precisa-se de ltros at a
frequncia de 8 kHz (obedecendo ao teorema da amostragem - (Oppenheim e Schaffer, 1989)). Alm
disso, para que haja preservao da energia, a soma das respostas em frequncia dos ltros deve
ser sempre unitria. Um formato simples geralmente empregado para respeitar essa condio o
triangular. A Figura 5.8 ilustra tal banco de ltros, cujos valores de frequncia central podem ser
encontrados em (Picone, 1993).
Por m, pode-se calcular a energia do sinal resultante de cada ltragem, ou melhor, o logaritmo
da energia. O resultado dessa operao o que chamaremos de coecientes mel, sendo esta uma no-
menclatura empregada neste trabalho e no encontrada na literatura. A Figura 5.9 ilustra tal resultado
para o sinal da Figura 5.6.
Resumindo, o contedo espectral na escala mel, aqui chamado de coecientes mel, denido
como o logaritmo na base 10 da energia contida no sinal aps passar por um ltro de banda-crtica.
Matematicamente, portanto, os coecientes mel so dados por:
coeficiente mel
(n)
= log
10
k=
|(X(k) H
n
)|
2
(5.5)
onde coeficiente mel
(n)
designa o n-simo coeciente mel, X(k) a transformada de Fourier do
sinal de entrada x(t) (um quadro janelado) e H
n
a resposta em freqncia do n-simo ltro de
banda-crtica, mostrados na Figura 5.8.
Por ltimo, pode-se empregar uma normalizao de energia, simplesmente dividindo cada coe-
ciente mel pela soma de todos eles.
Fig. 5.8: Banco de ltros triangulares linearmente espaados na escala mel. A gura mostra a
escala de frequncia em Hertz, para facilitar a compreenso do comportamento do banco.
Os Coecientes MFCC
O ltimo conjunto de parmetros do sinal de fala que ser tratado aqui so os chamados coecien-
tes mel-cepstrais (MFCC - mel-frequency cepstral coefcients). O termo cepstro foi cunhado a partir
da inverso da primeira metade da palavra espectro (a primeira letra e de espectro foi suprimida), ou,
em ingls, cepstrum a partir de spectrum (Borget et al., 1963).
Os coecientes mel-cepstrais so a transformada discreta de cosseno (DCT - Discrete Cosine
Transform) do logaritmo na base 10, da energia do sinal resultante da ltragem do sinal original,
por um dos ltros de banda-crtica na escala mel, descritos na seo anterior (Davis e Mermelstein,
1980). Ou seja, os coecientes mel-cepstrais so a transformada de cosseno dos coecientes mel.
Matematicamente, os MFCC so dados por:
MFCC
(n)
=
K
k=1
m(k) cos
_
n (k 0.5)

K
_
(5.6)
onde MFCC
(n)
designa o n-simo coeciente mel-cepstral, m(k) o ksimo coeciente mel e
K o nmero de ltros de banda-crtica utilizados. Repare que para (n) = 0 o MFCC a prpria
energia do sinal e que possvel calcular quantos coecientes se desejar, sendo usual o emprego dos
58 Codicao de Fala
Fig. 5.9: Coecientes mel do quadro da Figura 5.1. Para efeito de visualizao, foi feita uma
correo de amplitude nos coecientes, mas interessa apenas no seu formato.
12 primeiros coecientes seguintes energia.
Portanto, os coecientes MFCC so uma transformao matemtica, que se alega ser capaz de
realizar uma boa separao fonte/ltro, alm de produzir coecientes estatisticamente independentes,
o que de particular interesse em algumas aplicaes. Por isso, esses coecientes so provavelmente,
ao lado dos coecientes LPC, os mais utilizados nas mais variadas aplicaes de processamento de
fala.
5.6 Mtodos de Avaliao
Dada a crescente expanso dos sistemas de comunicao vista nos ltimos anos, com a telefonia
xa, a telefonia mvel e a internet, todos envolvendo a fala como o nico ou um dos principais meios
de interao, desenvolver mtodos prticos para avaliar a qualidade da fala se tornou imprescindvel,
pois o sucesso de qualquer tecnologia, seja ela um equipamento de rede, um mtodo de codicao
de fala, um terminal do usurio etc, depende fortemente da qualidade do sinal de fala percebida pelo
usurio nal.
A qualidade da fala resultado de um processo psicoacstico complexo de percepo humana.
5.6 Mtodos de Avaliao 59
Ao ouvir um sinal de fala, uma pessoa estabelece uma relao entre o que foi ouvido e o que seria
esperado ou o ideal (um conceito interno de cada indivduo), produzindo uma percepo individual
de qualidade. Portanto, a qualidade de um sinal de fala uma medida subjetiva, ou seja, pessoas
diferentes avaliam de forma diferente a qualidade de um mesmo sinal.
O que est sendo chamado aqui de qualidade da fala, na verdade composto por vrios fatores,
ou dimenses perceptuais. As dimenses mais comuns so inteligibilidade, naturalidade, nvel de
rudo etc. Entretanto, somente em aplicaes especcas comum o uso de apenas um desses fatores
individualmente. Menos comum ainda o uso de uma mtrica multidimensional que comporte vrias
dessas dimenses, dada a complexidade de se denir tal mtrica. Geralmente emprega-se uma mtrica
nica, que seja capaz de reproduzir a percepo geral do que ento se chama de qualidade da fala.
Aforma mais bvia de estimar a qualidade da fala pedir para umgrupo de pessoas ouvir amostras
do sinal e dar nota para a qualidade percebida, a partir das quais pode-se ento determinar a qualidade
mdia do sinal. Fica claro que esta abordagem, denominada de teste subjetivo, bastante custosa e
demorada, quase sempre invivel em um ambiente de crescente demanda por avaliaes em campo e
em tempo real.
Por essas diculdades em empregar testes subjetivos, foram desenvolvidas medidas objetivas de
avaliao, baseadas em algoritmos computacionais, que tentam inferir objetivamente um julgamento
subjetivo que a qualidade da fala, buscando aproximar seus resultados dos que seriam obtidos em
um teste subjetivo.
Alm da separao nessas duas categorias (teste subjetivos ou testes objetivos), os mtodos de
avaliao da qualidade da fala podem ser divididos em outros dois conjuntos, considerando-se a
disponibilidade ou no do sinal original (sinal de referncia), para compar-lo com o sinal aps os
processos de codicao e/ou transmisso, gerando medidas absolutas ou relativas.
Dentre os mtodos de avaliao subjetiva, o mais comum a medida absoluta dada na escala
MOS (mean opinion score), normalizado pela ITU-T, emsua norma de referncia P.800 (P.800, 1996).
Nesse mtodo, pedido a um conjunto de ouvintes que eles avaliem uma srie de sinais de fala, dando
notas qualidade de cada um dos sinais apresentados, de acordo com a escala MOS mostrada na
Tabela 5.1. Repare que no h um sinal de referncia para comparao. A nota MOS
5
de determinado
sistema, como o prprio nome diz, o resultado da mdia das notas dos ouvintes para todos os sinais
apresentados. Por ser bastante simples, este mtodo tambm muito popular.
Os mtodos de avaliao objetiva geralmente utilizados so medidas relativas, ou seja, dependem
da existncia de um sinal de referncia para comparao. A classe mais simples de algoritmos
composta de mtodos de comparao da forma de onda do sinal no domnio do tempo, como o caso
5
Chama-se o valor do MOS de um sistema de nota MOS, apesar do termo nota j estar embutido na sigla em ingls,
pois soa mais natural para o leitor dessa forma.
60 Codicao de Fala
Tab. 5.1: Notas na escala MOS.
Qualidade Nota
Excelente 5
Boa 4
Razovel 3
Ruim 2
Pssima 1
da relao sinal-rudo (SNR - signal-to-noise ratio). Medidas baseadas no domnio da frequncia,
como a distoro espectral (SD - spectral distortion) so tambm simples de implementar e, alm
disso, apresentam maior correlao com testes subjetivos, sendo, por isso, mais aceitas como uma
medida de qualidade.
No entanto, a maioria dos mtodos de avaliao objetiva de qualidade da fala est baseada, atual-
mente, no que se pode chamar de domnio perceptual ou psicoacstico. Tais mtodos buscamimitar os
processos de percepo e de avaliao humanos. Tal processo envolve a resposta do sistema auditivo
humano, cujo modelo j se considera bem denido na literatura, mas tambm existe um componente
cognitivo, mais complexo e cujo modelo no se encontra to bem desenvolvido.
A avaliao realizada atravs da determinao de uma distncia perceptual entre o sinal que se
deseja avaliar e o sinal de referncia e, em seguida, criando uma funo, geralmente no-linear, que
mapeie esta distncia em uma medida de qualidade da fala. A m de obter um estimador para a nota
MOS, necessrio normalizar o resultado para a escala MOS, que varia de 1 a 5.
Os algoritmos mais conhecidos de avaliao objetiva da qualidade da fala baseados em modelos
psicoacsticos de percepo so: BSD (Bark Spectral Distance) (Wang et al., 1992), PSQM (Per-
ceptual Speech Quality Measure) (Beerends e Stemerdink, 1994), PAQM (Perceptual Audio Quality
Measure) (Beerends e Stemerdink, 1992), PEAQ (Perceptual Evaluation of Audio Quality) (Thiede
et al., 2000), PAMS (Perceptual Analysis Measurement System) (Rix e Hollier, 2000), MNB (Measu-
ring Normalizing Blocks) (Voran, 1999a,b) e PESQ (Perceptual Evaluation of Speech Quality) (Rix
et al., 2001).
O algoritmo PESQ o mais recente deles e fruto da combinao dos algoritmos PAMS e
PSQM99 (uma verso atualizada e estendida do PSQM), tornando-se uma recomendao da ITU-
T (P.862, 2001). Alm disso, diferentemente das tcnicas anteriores, PESQ capaz de predizer, com
boa correlao, a qualidade subjetiva de um sinal de fala em uma ampla gama de condies, como
distores de codicao, rudo e perda de pacotes (Rix et al., 2001).
Por isso, o algoritmo escolhido para ser utilizado neste trabalho foi o PESQ. Inicialmente, a
norma de referncia do PESQ era voltada para a avaliao de sinais de voz na faixa de telefonia (faixa
de freqncia at 4 kHz). Posteriormente, foi produzida uma outra implementao de referncia,
5.6 Mtodos de Avaliao 61
construda especialmente para trabalhar com espectro de banda larga (at 7 kHz) (P.862.2, 2007).
Foi utilizada a implementao do algoritmo PESQ disponibilizada na pgina web da ITU (ITU,
2008). A Figura 5.10, mostra como o algoritmo utilizado para avaliar o sistema.
Fig. 5.10: O algoritmo PESQ recebe como entradas os sinais original e degradado, obtido aps
a codicao e a decodicao, e fornece uma nota da qualidade do sinal degradado.
62 Codicao de Fala
Captulo 6
Resultados
6.1 Descrio dos Dados Utilizados e dos Testes Realizados
O principal objetivo deste trabalho avaliar o desempenho de alguns algoritmos de quantizao,
aqueles descritos no Captulo 3, em uma aplicao especca e desaadora: a quantizao de sinais
de fala, como descrito no Captulo 5.
Para isso, obviamente precisa-se de uma base de sinais de fala gravados. Tal base foi fornecida
pela Fundao Centro de Pesquisa e Desenvolvimento em Telecomunicaes (CPqD) e, sendo uma
base proprietria, no est disponvel para consulta. A base disponibilizada constituda por 450
frases, gravadas em estdio por uma locutora prossional, amostradas a 16 kHz e digitalizadas com
16 bits por amostra, no formato PCM linear. Essas frases foram geradas de forma a apresentar ampla
riqueza fontica. Juntamente com os sinais de fala, foram disponibilizados arquivos com a marcao
de pitch de cada sinal, de forma que os quadros de fala j estavam denidos. A Tabela 6.1 resume as
caractersticas dos sinais gravados.
Tab. 6.1: Caractersticas do sinal de fala.
Local de Gravao Laboratrio de gravao do CPqD
Locutora Rosana Lee
Taxa de Amostragem 16 kHz
Nmero de bits por amostra 16
Formato PCM linear
As 450 frases perfazem um total de aproximadamente 26 minutos de gravao e ocupam um total
de 49,7 megabytes de memria. Primeiramente, as frases foram separadas em dois conjuntos distin-
tos: 400 frases foram usadas para treinamento, ou seja, para a gerao do codebook e do dicionrio
de quadros, conforme descrito na Seo 5.3, e as 50 frases restantes foram usadas para teste, em
63
64 Resultados
que o codebook resultante foi utilizado para codicar os sinais da base de teste e o dicionrio de
quadros foi utilizado para decodic-los, conforme descrito na Seo 5.4. A Tabela 6.2 sumariza as
caractersticas dessa base, bem como dos conjuntos de treinamento e de teste.
Tab. 6.2: Caractersticas da base de fala utilizada.
Treinamento Teste Total
Nmero de frases 400 50 450
Nmero de quadros 194.437 23.867 218.304
Durao (minutos) 23 3 26
Memria ocupada (MB) 44,2 5,5 49,7
Conforme observado no Captulo 5, nada impede que se utilize a prpria base de treinamento para
os testes.
Dois testes so usados como referncia de desempenho para os algoritmos de quantizao. No
primeiro deles, alm dos algoritmos descritos no Captulo 3, um mtodo mais trivial de escolha dos
quadros que comporo o dicionrio foi testado: a simples escolha aleatria. O outro teste utilizar
a base de treinamento inteira como codebook. Os prximos pargrafos explicam a razo para esses
testes servirem de referncia.
Dado que a base de treinamento completa sempre apresenta mais riqueza fontica do que sua
verso quantizada
1
, espera-se que ela produza resultados melhores. O papel dos algoritmos de quan-
tizao justamente escolher os quadros de forma a promover a menor perda de qualidade possvel,
em comparao com o resultado obtido utilizando a base inteira. Como neste trabalho os dicion-
rios de quadros sero muito pequenos em relao ao tamanho da base de treinamento, no se espera
detectar informao puramente redundante (que resultaria em um empate de qualidade). Deseja-se
apenas fazer a melhor escolha de quadros possvel, pois sempre haver degradao.
Nesse sentido, a escolha aleatria representa um limiar inferior, pois acredita-se que os algoritmos
de quantizao sejam capazes de selecionar quadros mais representativos do universo disponvel, con-
duzindo assim a resultados melhores. Isso s no aconteceria em trs situaes: se a distribuio dos
dados fosse realmente aleatria; se o algoritmo de quantizao tiver um comportamento distorcido,
escolhendo na verdade os quadros menos representativos; ou se as distncias no espao dos parme-
tros utilizados no estabelecerem correlao com a qualidade do sinal obtido, ou em outras palavras,
ainda que os vetores estejam prximos no espao dos parmetros, os quadros que eles representam
no sejam perceptualmente parecidos.
1
Tal armao supe que a base tenha sido projetada adequadamente e que, portanto, quanto mais arquivos de voz,
maior a riqueza presente, ou seja, considera-se que no h informao puramente redundante, cuja remoo no interra
na qualidade. claro que, em um universo de 200 mil quadros, caso apenas um seja removido, por exemplo, provavel-
mente a qualidade do sistema no sofrer variao signicativa.
6.1 Descrio dos Dados Utilizados e dos Testes Realizados 65
Dessas trs hipteses, a primeira pode ser automaticamente descartada, pois sabe-se que os dados
no so aleatrios, mas sim fruto de locues realizadas sicamente. As outras duas sero avaliadas
neste trabalho.
Com as 400 frases de treinamento foram montados quatro conjuntos. O primeiro deles composto
pelas frases de 1 a 50, o segundo pelas frases de 1 a 100, o terceiro pelas frases de 1 a 200 e o quarto
pelas frases de 1 a 400, ou seja, todas as frases de treinamento. ATabela 6.3 descreve as caractersticas
de cada um desses conjuntos.
Tab. 6.3: Caractersticas da base de fala utilizada.
Conjunto 1 2 3 4
Nmero de frases 50 100 200 400
Nmero de quadros 28.146 51.899 99.984 194.437
Durao (minutos) 3 6 12 23
Memria ocupada (MB) 6,4 11,7 22,8 44,2
Sabe-se que em 400 frases h mais riqueza de informao, mas tambm mais redundncia, e
pretende-se com isso avaliar a inuncia do tamanho da base de treinamento nos resultados. Para
isso, necessrio que os codebooks gerados a partir de cada conjunto tenham o mesmo tamanho,
isolando, dessa forma, o efeito do crescimento da base de treinamento. Para este teste, foi escolhido
um nmero de codevectors igual a 500. A razo desta escolha ser apresentada abaixo.
J para avaliar a inuncia do tamanho do codebook, para cada um dos conjuntos de treinamento,
foram gerados codebooks com diferentes quantidades de codevectors. Mais do que isso, deseja-se
testar o resultado obtido com diferentes taxas de compresso, para diferentes bases de treinamento.
Considera-se aqui, como taxa de compresso, a relao entre o nmero de quadros usados no trei-
namento e o nmero de quadros no dicionrio de quadros (nmero de codevectors). Com o intuito
de realizar esses testes, deniu-se duas taxas de compresso xas: 100 e 200 vezes. Obviamente,
segundo a denio de taxa de compresso apresentada acima, para que ela seja xa, se o tamanho
da base de dados de treinamento dobra, o tamanho do codebook deve dobrar tambm.
O motivo da escolha desses valores (100, 200 e 500) leva em conta o seguinte fato: aproximando
o nmero de quadros em cada conjunto de treinamento para 25, 50, 100 e 200 mil, respectivamente,
o nmero de quadros dos dicionrios, respeitando as taxas de compresso de 100 e 200 vezes, ser
de 125, 250, 500, 1000 e 2000, dependendo da congurao desejada, conforme apresenta a Tabela
6.4. Dessa forma, para os conjuntos 2 e 3, consegue-se atender dois requisitos: taxa de compresso
xa e nmero de codevectors xo. Essa no a nica escolha que causa esse efeito, mas uma das
possveis e a que foi adotada.
Resumindo, com o conjunto de testes descrito na Tabela 6.4, testam-se:
66 Resultados
Tab. 6.4: Congurao dos testes realizados.
Congurao Utilizada Teste Realizado
Nmero de Nmero de Taxa de Compresso Fixa Nmero de Codevectors
Frases Codevectors 100 vezes 200 vezes xo 500
125 x
50 250 x
500 x
100 250 x
500 x x
200 500 x x
1000 x
500 x
400 1000 x
2000 x
Tamanhos de codebook diferentes, para uma mesma base de treinamento;
Taxas de compresso xas, para diferentes bases de treinamento;
Tamanho de codebook xo, para diferentes bases de treinamento.
Finalizando a descrio dos dados utilizados e dos testes realizados, essas dez conguraes foram
avaliadas para todos os algoritmos, sendo que, para cada uma delas, o algoritmo foi executado 5 vezes,
a m de obter resultados mdios. Alm disso, foram testados diferentes conjuntos de parmetros na
composio dos vetores. Ou seja, cada algoritmo executado 50 vezes para o conjunto de parmetros
em que ele testado.
6.2 Avaliando Diferentes Conjuntos de Parmetros
Primeiramente, buscou-se identicar o conjunto de parmetros que levaria aos melhores resulta-
dos. Como descrito na Seo 5.5, os parmetros de fala mais usuais, empregados em diversas reas
do processamento de fala, so os coecientes LPC e os MFCC. Portanto, eles foram candidatos ava-
liados inicialmente. Alm desses, os coecientes LSF, obtidos a partir dos LPC, considerados mais
robustos quantizao, tambm foram testados.
Baseado em valores frequentemente encontrados na literatura (Taylor, 2009), decidiu-se utilizar
um nmero de 12 coecientes MFCC, 20 coecientes LPC e, portanto, tambm 20 coecientes LSF
(anal, estes so em mesmo nmero que os LPC). No foi feita uma anlise variando-se esses valores.
6.2 Avaliando Diferentes Conjuntos de Parmetros 67
Para testar esses trs conjuntos de parmetros, decidiu-se no utilizar todos os algoritmos, pois
demandaria muito tempo e o objetivo denir um conjunto timo de parmetros, dentre os testa-
dos. Inicialmente no se objetiva comparar o desempenho dos algoritmos. Sendo o k-mdias o mais
simples dos algoritmos a serem testados, ele foi escolhido para esses testes. Para balizar os resulta-
dos, como descrito na seo anterior, tambm empregou-se a escolha aleatria de prottipos (limite
inferior) e utilizou-se a base de treinamento inteira como dicionrio de quadros (limite superior).
O algoritmo foi congurado para rodar por 50 iteraes, sucientes para a convergncia do algo-
ritmo, e os prottipos iniciais foram escolhidos aleatoriamente entre os dados de entrada.
Primeiramente, testou-se se os parmetros LSF produzemresultados melhores dos que os LPC. As
Figuras 6.1(a), 6.1(b) e 6.1(c) apresentam os resultados obtidos para os testes descritos na Tabela 6.4.
Nesses grcos tambm foram includas as curvas de desempenho da escolha aleatria de codevectors
e as curvas denominadas Sem Compresso, que indicam os resultados obtidos quando se empregou
a base de treinamento inteira como codebook. Estas ltimas so idnticas em todos os grcos, pois
elas s dependem do nmero de frases usado no treinamento.
Nesses grcos, o eixo vertical apresenta a nota PESQ mdia obtida com a reconstruo das 50
frases de teste utilizando os diversos codebooks produzidos a partir das frases de treinamento. Na
legenda desse eixo aparece PESQwb para deixar explcito que foi empregada a implementao do
algoritmo PESQ para sinais de banda larga (ou wideband em ingls, de onde vem o ndice wb).
Nessas guras e nas subsequentes (Figuras 6.2, 6.3 e 6.5), para facilitar a identicao de cada
uma das curvas, a cor das linhas e dos marcadores e o formato dos marcadores de cada ponto distin-
guem os algoritmos. Dessa forma, mesmo em uma impresso em preto-e-branco, o marcador suci-
ente para a discriminao correta dos algoritmos. J o tipo de linha que interpola os pontos serve para
discriminar o tipo de parmetro utilizado. Na Figura 6.1, por exemplo, o algoritmo k-mdias aparece
de preto, com um crculo () como marcador, a escolha aleatria de prottipos aparece de vermelho,
com um asterisco (*) como marcador, e o caso sem compresso aparece de azul, com um losango de
marcador. Os resultados para os parmetros LPC utilizam uma linha contnua para ligar os pontos,
enquanto os resultados para os parmetros LSF utilizam uma linha no-contnua, que intercala trao
e ponto.
Analisando, primeiramente, apenas os grcos referentes s taxas de compresso xas (Figuras
6.1(a) e 6.1(b)), pode-se observar uma tendncia de crescimento em todas as curvas apresentadas.
Este comportamento era esperado, pois a manuteno da taxa de compresso implica em um aumento
do nmero de quadros no dicionrio, uma vez que a base de treinamento tambm cresce
2
. Com mais
quadros disponveis para a quantizao do sinal, melhor tende a ser a qualidade do sinal sintetizado.
2
Lembre-se que se denomina de taxa de compresso a relao entre o nmero de quadros da base de treinamento e o
nmero de quadros do dicionrio de quadros.
68 Resultados
(a) Taxa de compresso de 100 vezes. (b) Taxa de compresso de 200 vezes.
(c) Nmero de prottipos xo (500).
Fig. 6.1: Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: LPC () e
LSF (- -).
Por esse mesmo motivo, percebe-se que os resultados para a taxa de compresso de 200 vezes so
piores dos que os obtidos para a taxa de compresso de 100 vezes, onde h o dobro do nmero de
quadros.
Observando, agora, o grco referente ao caso em que o tamanho do codebook foi mantido xo,
com 500 codevectors (Figura 6.1(c)), pode-se admitir que as curvas so quase horizontais. Conclui-
se que, apesar da maior disponibilidade de vetores para se decidir quais iro compor o codebook, o
algoritmo no selecionou um conjunto de codevectors melhor. Portanto, pode-se armar que, dado
o tamanho limitado de codebook exigido, no foi possvel melhorar sua qualidade, mesmo quando
havia maior diversidade de opes para escolha.
Focando a anlise no desempenho do algoritmo k-mdias, chama a ateno o fato de o algoritmo
ter praticamente empatado com a escolha aleatria, quando se aplicaram os coecientes LPC. Para
esse conjunto de parmetros, a utilizao da base de treinamento completa propiciou um ganho de
qualidade apenas modesto. Juntamente com o fato de a qualidade obtida ter sido bastante ruim, isso
sugere que tais coecientes no so aptos a discriminar corretamente os quadro de fala, ao menos
para a aplicao testada.
Quando se utilizou os coecientes LSF, o desempenho do algoritmo k-mdias foi diferente, reve-
lando que o algoritmo foi capaz de escolher vetores mais representativos do universo disponvel, o
que reetiu em um ganho de qualidade comparado com a escolha aleatria. Nesta aplicao, o papel
dos algoritmos de quantizao vetorial tentar obter uma curva o mais prxima possvel da curva
Sem Compresso, enquanto o estudo de tcnicas de processamento de sinais atuaria para tentar
puxar essas curvas para cima. O foco deste trabalho est na anlise dos algoritmos.
Por m, comparando os dois tipos de parmetros avaliados, os resultados gerados com os co-
ecientes LSF foram superiores aos gerados com os coecientes LPC. Isso era esperado, dada a
reconhecida maior robustez dos coecientes LSF quantizao.
Observe, agora, os resultados dos coecientes LSF comparados comos resultados dos coecientes
MFCC, mostrados nas Figuras 6.2(a), 6.2(b) e 6.2(c). Foi mantida a mesma relao de cores, mar-
cadores e linhas da gura anterior (Figura 6.1), exceto pelas linhas utilizadas nas curvas de resultado
dos coecientes MFCC, que so pontilhadas.
A anlise feita para os resultados apresentados na Figura 6.1 tambm vlida para os resultados
obtidos com os coecientes MFCC. O destaque, neste caso, ca para o fato de a utilizao destes
coecientes ter produzido resultados superiores aos produzidos pelos coecientes LSF.
Os coecientes MFCC so largamente utilizados em aplicaes de reconhecimento de fala, em
que j se mostraram muito ecientes (Taylor, 2009; Benesty et al., 2008). Da, infere-se que eles so
capazes de discriminar com certa preciso os sons de cada quadro. Portanto, tambm era esperado
que eles serviriam para a aplicao aqui testada, na qual deseja-se trocar quadros de um sinal da forma
70 Resultados
Fig. 6.2: Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: MFCC ( )
e LSF (- -).
mais imperceptvel.
Contudo, os resultados obtidos com esses parmetros mais tradicionais (LPC, LSF e MFCC),
foram muito pobres. Isso serviu de motivao para testar os coecientes mel (ver Seo 5.5.2), bem
menos frequentemente encontrados na literatura. O nmero de coecientes mel utilizado denido
pela taxa de amostragem do sinal. Neste caso, os sinais foram amostrados a 16 kHz e na faixa de
frequncia at 8 kHz h 24 ltros de banda-crtica (Picone, 1993), ilustrados na Figura 5.8. Portanto,
foram calculados 24 coecientes mel para cada quadro.
As Figuras 6.3(a), 6.3(b) e 6.3(c) comparam a qualidade obtida com os coecientes mel ape-
nas com as curvas obtidas com os MFCC, pois foi o melhor resultado dentre os trs conjuntos de
parmetros testados inicialmente.
Mais uma vez, observa-se um ganho de qualidade com o novo conjunto de parmetros testado.
Contudo, diferentemente do comportamento observado anteriormente (na comparao dos coecien-
tes LPC, LSF e MFCC), esse ganho no foi to grande, de tal forma que algumas curvas se sobrepem,
dicultando, mas no impedindo, sua visualizao. Ao nal desta seo, sero apresentados grcos
comparando os conjuntos de parmetros testados para cada mtodo individualmente (Sem Com-
presso, escolha aleatria e k-mdias), facilitando a visualizao da evoluo dos resultados com a
mudana dos parmetros empregados (ver Figura 6.6).
Conclui-se, dados os resultados apresentados nas Figuras 6.1, 6.2 e 6.3, que os 24 coecientes
mel foram os atributos que levaram ao resultado de melhor qualidade.
Adicionalmente, aps observar que os coecientes mel apresentaramo melhor resultado, acrescen-
tou-se a esse vetor de parmetros outras informaes consideradas importantes: a energia (En) e a
frequncia fundamental (F
0
). Na realidade, no foram inseridas exatamente a energia e o F
0
. A ex-
trao de F
0
de um sinal bastante complexa e objeto de muita pesquisa. Neste trabalho, utilizou-se
a marcao de pitch fornecida, como uma estimativa da frequncia fundamental, e decidiu-se ento
pelo perodo esquerdo (PE) do quadro como uma aproximao de F
0
. Note que o conceito de frequn-
cia fundamental s pode ser relacionado a quadros vozeados, mas, como nos trechos no vozeados a
marcao de pitch segue o mesmo padro de espaamento xo entre as marcas, esse fato no interfere
no resultado
3
.
Para a insero desses novos parmetros, deve-se considerar o problema da sua escala numrica.
O perodo esquerdo dado em nmero de amostras, que apresenta valores muito maiores do que os
dos coecientes mel. J a energia apresenta valores mais prximos aos dos coecientes mel, anal,
estes so a energia do sinal aps passar por um dos ltros de banda-crtica.
A forma mais simples de contornar essas difereas seria normalizar os dados, ou seja, fazer com
que a mdia fosse nula e a varincia unitria para cada um dos parmetros, quando tomados da
3
Considera-se que a marcao de pitch foi feita adequadamente.
72 Resultados
Fig. 6.3: Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: MFCC ( )
e MEL (- - -).
(a) (b)
Fig. 6.4: Resultado da otimizao dos pesos de normalizao da energia (En) e do perodo es-
querdo (PE), utilizando a congurao de 50 frases de treinamento e codebook com 250 prot-
tipos. 6.4(a) Resultado em uma regio larga. 6.4(b) Zoom na melhor regio.
base inteira. Inicialmente testou-se normalizar apenas os coecientes mel, para avaliar o efeito desse
procedimento no resultado. Tal teste revelou resultados piores do que os obtidos sem a normalizao.
Esse opo foi, ento, descartada e decidiu-se normalizar apenas a energia e o perodo esquerdo e,
em seguida, multiplic-los por pesos que foram ajustados para otimizar o resultado.
Essa estratgia poderia ser aplicada para todos os parmetros, mas nesse caso, ao invs de otimizar
apenas dois pesos, seria necessrio otimizar 26, o que muito mais desaador. Como os valores dos
coecientes mel j apresentam uma relao que se deseja preservar, no h motivo para investir nessa
tarefa.
Os dois pesos foram otimizados atravs de uma busca exaustiva, variando-se ambos os valores
dentro de certos limites. Esses limites tambm foram denidos empiricamente, com alguns testes
iniciais. O que se est chamando de busca exaustiva , na realidade, uma busca em grid, pois no
espao contnuo uma busca literalmente exaustiva implica em testar os innitos valores possveis em
qualquer intervalo dado. Por isso, dados os limites, deniu-se um tamanho de passo para variar o
valor dos pesos. Uma vez detectada a melhor regio, esse passo foi reduzido, formando uma espcie
de zoom para encontrar o timo. A Figura 6.4 ilustra o resultado obtido, onde a cor indica a nota
PESQwb obtida: quanto mais vermelho, maior a nota, quanto mais azul, menor a nota. Os pesos
timos encontrados esto marcados na gura com um asterisco branco e so 0,014 para o perodo
esquerdo e 0,022 para a energia.
importante observar que essa otimizao dos pesos de normalizao foi realizada em apenas
74 Resultados
uma das conguraes testadas, na qual se utilizavam 50 frases de treinamento e codebook com 250
prottipos. Essa deciso foi tomada devido ao alto custo computacional dessa otimizao, j que para
cada avaliao de uma dupla de pesos, foram executadas 5 simulaes a m de obter uma mdia.
Depois, esses mesmos pesos foram aplicados em todas as outras conguraes avaliadas.
As Figuras 6.5(a), 6.5(b) e 6.5(c) mostram o ganho de qualidade obtido com a insero desses
dois parmetros.
Analisando as curvas Sem Compresso, percebe-se o grande potencial de ganho auferido com
a insero desses dois atributos (En e PE). Entretanto, tanto a escolha aleatria quanto o algoritmo
k-mdias no foram capazes de explorar esse potencial, produzindo sim ganhos de qualidade, mas de
menor monta.
Por m, a Figura 6.6 apresenta esses mesmos resultados agrupando agora as curvas dos diferentes
parmetros em uma mesma gura, para cada um dos mtodos testados (Sem Compresso, escolha
aleatria e k-mdias). Atravs desses grcos, ca mais fcil visualizar a evoluo obtida. Apenas o
grco da Figura 6.6(a) no aparece na mesma escala para a nota PESQwb que os demais grcos.
Apesar de a leitura car comprometida, as guras foram feitas intencionalmente pequenas, para
que todos os grcos cassem na mesma pgina, facilitando a comparao. Repetindo, aqui no h
informao nova, uma vez que os valores esto todos presentes nas guras anteriores dessa seo. O
objetivo dessa gura permitir a visualizao da evoluo obtida, envolvendo todos os parmetros
testados.
Concluindo essa seo, o vetor de parmetros constitudo de energia e perodo esquerdo, norma-
lizados e ponderados, mais os 24 coecientes mel, produziu os melhores resultados e foi empregado
para avaliar o desempenho dos outros algoritmos. Este o tema da prxima seo.
6.3 Avaliando Diferentes Algoritmos de Quantizao Vetorial
Na seo anterior, foram avaliados diferentes conjuntos de parmetros, com o propsito de iden-
ticar qual produziria os melhores resultados. Para aqueles testes, foi utilizado apenas o algoritmo
k-mdias. Agora j se sabe que os 24 coecientes mel, juntamente como perodo esquerdo e a energia,
devidamente normalizados e ponderados, provem melhor qualidade aos sinais de fala sintetizados.
Nesta seo, analisa-se o desempenho dos outros algoritmos de quantizao vetorial, aplicados uni-
camente a este conjunto de parmetros timo. Os algoritmos avaliados esto descritos no Captulo
3 e so, alm do k-mdias, o ARIA e o NG (Neural-Gas).
6.3 Avaliando Diferentes Algoritmos de Quantizao Vetorial 75
Fig. 6.5: Resultado do k-mdias, utilizando dois conjuntos de parmetros distintos: MEL (- - -)
e PE + En + MEL().
76 Resultados
(a) Sem Compresso. (b) Escolha aleatria de protti-
pos, para uma taxa de compres-
so xa de 100 vezes.
(c) Algoritmo k-mdias, para
uma taxa de compresso xa de
100 vezes.
(d) Escolha aleatria de protti-
pos, para uma taxa de compres-
so xa de 200 vezes.
(e) Algoritmo k-mdias, para
uma taxa de compresso xa de
200 vezes.
(f) Escolha aleatria de protti-
pos, para nmero de prottipos
xo (500).
(g) Algoritmo k-mdias, para
nmero de prottipos xo (500).
Fig. 6.6: Resultado comparativo dos conjuntos de atributos testados (20 LPC, 20 LSF, 12
MFCC, 24 MEL e PE + En + 24 MEL).
6.3.1 Congurao do NG
Para a operao do algoritmo NG necessrio denir trs decaimentos. Foram utilizadas as
equaes disponveis no prprio cdigo do NG, no SOM Toolbox, para denir esses decaimentos,
as quais esto copiadas aqui, nas equaes 6.1, 6.2 e 6.3. A Equao 6.1 descreve o decaimento do
passo que cada neurnio d na direo do dado, conforme seu ranking de distncia a esse dado. J
a Equao 6.2 descreve o decaimento da intensidade com que esse primeiro decaimento ocorre, ou
seja, os neurnios mais mal ranqueados passam a deslocar cada vez menos. A Equao 6.3 descreve
o decaimento do passo mximo permitido. A atualizao da posio de um neurnio denida pela
Equao 6.4. Vale destacar que , e, portanto, h so atualizados para cada padro de entrada
apresentado rede e no apenas a cada nova iterao.
h = e
ranking
(i)
(6.1)
(i) =
0
_
0, 01
0
_
i1
L
tr
(6.2)
(i) =
0
_
0, 005
0
_
i1
L
tr
(6.3)
Neur onio
k
= Neur onio
k
+(i) h (padrao de entrada Neur onio
k
) (6.4)
As constantes
0
e
0
so valores denidos pelo usurio e a constante L
tr
(de comprimento do
treinamento, do ingls training length) calculada a partir da multiplicao do nmero de dados de
treinamento pelo nmero de iteraes do algoritmo, que tambm denido pelo usurio. O ndice
i incrementado a cada padro de entrada apresentado rede e, por isso, vai de 1 a L
tr
. Ou seja, a
cada padro de entrada, utilizado um valor diferente tanto de quanto de , sempre menores que o
anterior.
Para entender o efeito dos trs decaimentos em conjunto, considere, por exemplo, a relao entre
o passo dado pelo neurnio vencedor, para um certo padro de entrada em uma certa iterao, e o
passo do segundo melhor neurnio. Por denio, o ranking do neurnio vencedor denido como
sendo 0 e, portanto, h ser sempre igual a 1 para o neurnio vencedor. O valor de h ser sempre
menor para o segundo melhor colocado, cujo ranking 1, pois isso que descreve a Equao 6.1.
O fato do valor de tambm decair, conforme descreve a Equao 6.2, implica que, para cada novo
padro de entrada apresentado rede, o valor de h do segundo colocado ser cada vez menor.
O tamanho do passo dado, quando a posio do neurnio for ser atualizada, sofre ainda outro
decaimento, pois o valor de h multiplicado por , que tambm decai (este o terceiro decaimento)
78 Resultados
a cada novo padro de entrada apresentado rede. Ou seja, o passo dado pelo neurnio vencedor, por
exemplo, para o primeiro padro apresentado rede, na primeira iterao ser, na verdade, igual a
0
e cada vez menor da em diante.
O mesmo cdigo sugere valores para as constantes
0
e
0
, sendo que, para a constante
0
, o valor
dado pela metade do nmero de neurnios, e, para a constante
0
, o valor 0, 5. Neste trabalho,
foram utilizadas exatamente essas conguraes, exceto pelo valor de
0
que foi colocado em 0, 25.
Esses valores foram determinados em testes preliminares e levaram a resultados satisfatrios, como
ser visto na Seo 6.3.3.
Completando a descrio da congurao adotada, o nmero de iteraes foi denido em 15,
pois esse nmero se mostrou suciente para a convergncia do algoritmo (o erro de quantizao se
estabilizava). Na inicializao, assim como foi feito para o k-mdias, os neurnios foram escolhidos
aleatoriamente entre os padres de entrada.
6.3.2 Congurao do ARIA
Descrevem-se, agora, as conguraes utilizadas para o algoritmo ARIA. Todas elas foram deter-
minadas empiricamente. A populao inicial de anticorpos foi, novamente, escolhida aleatoriamente
dentre os antgenos, do mesmo modo como fora feito para os algoritmos k-mdias e NG. Mas, no
caso do ARIA, o nmero de anticorpos auto-ajustvel e, portanto, no necessrio utilizar uma
populao inicial com o nmero de prottipos desejado. Na realidade, interessante comear com
poucos anticorpos, para que o algoritmo se adapte e gere o nmero adequado, produzindo mais an-
ticorpos onde for mais necessrio, e removendo-os onde eles no esto contribuindo. O tamanho da
populao inicial empregado foi n = 20.
A taxa de mutao inicial foi = 1 e sua reduo foi iniciada logo na primeira iterao, com
uma constante de decaimento geomtrico c = 0, 95. O raio E, o qual dene a vizinhaa para o
clculo da densidade local de dados, foi inicializado com valor igual a 2 r. A constante r o raio
mnimo permitido aos anticorpos e seu valor depende da congurao do teste em questo. Os valores
utilizados sero apresentados adiante. Os raios iniciais dos anticorpos, que tambm dependem do
valor de r, foram determinados calculando-se a densidade local inicial deles, utilizando o valor de E
inicial, e ento foi empregada a frmula de clculo do raio em funo da densidade local, dada na
Equao 3.2.
O critrio de parada adotado para o ARIA foi de duas uma: ou era atingido o nmero mximo
de iteraes, denido em max
it
= 60, ou o algoritmo convergia antes disso e era terminado. Esse
procedimento no est descrito na verso original do ARIA, que adotava unicamente como critrio
de parada o nmero mximo de iteraes.
O critrio de convergncia aplicado foi avaliar se o tamanho da rede de anticorpos havia se esta-
bilizado e se a movimentao dos anticorpos tambm. A movimentao da rede foi calculada pela
mdia da diferena da posio dos anticorpos antes e depois da etapa de maturao de anidade.
Considerou-se que tanto o tamanho da populao quanto sua movimentao haviam se estabilizado
caso seu valor, ao nal da iterao corrente, estivesse prximo o suciente da mdia de seus valo-
res nas ltimas iteraes. Essa mdia foi tomada das ltimas 4 iteraes e incluiu o valor atual, e o
valor de prximo o suciente foi denido em 10 para o tamanho da populao e em 0, 001 para a
movimentao da rede, lembrando que esses valores foram determinados empiricamente.
Isso quer dizer que, por exemplo, se o tamanho x
t
da populao de anticorpos ao nal de certa
gerao t for igual mdia y dos tamanhos da populao nas ltimas 4 iteraes e do seu valor atual
(y = 1/5 (x
t
+ x
t1
+ x
t2
+ x
t3
+ x
t4
)), mais ou menos 10, ou seja, y 10 x
t
y + 10,
o critrio de convergncia do tamanho da populao foi atingido. Para que o m do algoritmo seja
determinado, necessrio que os dois critrios de convergncia sejam atingidos. Para evitar uma
parada prematura inesperada, tambm foi imposto um nmero mnimo de 30 geraes.
Antes de apresentar os resultados obtidos, mais uma considerao deve ser feita a respeito do
ARIA. O valor do raio mnimo r inuencia no tamanho nal da populao de anticorpos, pois ele
que controla o valor dos raios dos anticorpos, que por sua vez so usados nos processos de expanso
clonal e supresso. Ora, como so buscados tamanhos de codebook diferentes, partindo de bases de
tamanhos diferentes, o valor de r deve ser ajustado para cada caso.
No entanto, no h um mecanismo que estime a priori o resultado que ser obtido e, por isso,
foram necessrias simulaes com diversos valores de r para se chegar ao nmero desejado. Mais
do que isso, o algoritmo se mostrou bastante instvel, pois empregando a mesma congurao ini-
cial, muitas vezes os resultados foram populaes de tamanhos bastante diferentes. Assim, atingir o
tamanho exato de codebook seria bastante custoso. Felizmente no necessrio que esse valor seja
exato, anal um codebook com tamanho de 2000 quadros e outro de 1970, por exemplo, no so
signicativamente diferentes.
Lembrando que se quer obter uma mdia de cinco resultados, foram executadas quantas simula-
es do ARIA fossem necessrias, para que o tamanho nal da populao de anticorpos fosse, em
cinco casos, igual ao nmero de prottipos desejado, 5%. A Tabela 6.5 mostra os intervalos acei-
tveis, o valor dos raios mnimos r empregados em cada congurao de teste para atingir o nmero
de prottipos dentro desse intervalo e o valor mdio dos tamanhos de codebook obtidos.
6.3.3 Resultados
Finalmente, apresentam-se, na Figura 6.7, os resultados obtidos pelos algoritmos k-mdias, NG
e ARIA, pela escolha aleatria de prottipos e pelo codebook formado pelas bases de treinameto
inteiras. Nos grcos, a curva de cada algoritmo foi feita com um trio diferente de: (i) cor, (ii)
80 Resultados
Tab. 6.5: Nmero mdio de prottipos obtido pelo algoritmo ARIA e raio mnimo r utilizado,
para cada congurao de teste.
Nmero de Frases Nmero de Prottipos r
de Treinamento Mnimo Desejado Mximo Obtido Utilizado
50 118 125 132 125,4 0,0102
50 237 250 263 246,4 0,0087
50 475 500 525 513,2 0,0080
100 237 250 263 250,0 0,0085
100 475 500 525 509,6 0,0079
200 475 500 525 494,6 0,0078
200 950 1000 1050 1027,4 0,0072
400 475 500 525 494,8 0,0075
400 950 1000 1050 1015,4 0,0071
400 1900 2000 2100 1970,2 0,0067
formato do marcador e (iii) linha que interpola os pontos.
Comparando o desempenho do algoritmo k-mdias com o algoritmo NG, pode-se armar que
houve quase um empate, com o algoritmo NG ligeiramente melhor. Interessante que um algoritmo
simples como o k-mdias leva a resultados to bons quanto o de outro mais elaborado. Mas impor-
tante destacar que no foi feito um estudo elaborado dos parmetros do algoritmo NG para otimizar
seu resultado.
Analisando a Figura 6.7(c), repara-se que h uma tendncia de crescimento das curvas desses dois
algoritmos. Isso implica que, diferentemente do que foi observado nos resultados com os primeiros
conjuntos de parmetros, neste caso, os algoritmos foram capazes de explorar melhor a maior diver-
sidade de dados, decorrente do aumento da base de treinamento, na escolha de quadros para compor
o dicionrio. Esse comportamente j poderia ter sido notado para o algoritmo k-mdias, no caso do
conjunto de parmetros formado apenas pelos 24 coecientes mel e, em menor escala, no caso dos
12 MFCC (ver Figura 6.3(c)).
O destaque negativo ca por conta do resultado do ARIA, que apresentou um resultado distante
do obtido pelos outros algoritmos e muito prximo do obtido pela escolha aleatria, chegando, em
algumas situaes, a perder para a escolha aleatria. Conforme destacado no incio deste captulo,
isso signica que o ARIA, ao invs de escolher dados representativos do universo disponvel, escolheu
dados pouco representativos para compor o codebook.
Investigou-se, ento, o que poderia estar causando esse comportamento distorcido. Analisando a
distribuio do nmero de dados representado por cada prottipo, foram gerados os histogramas da
Figura 6.8.
Apresenta-se, aqui, o resultado para apenas uma congurao de teste, mas essa anlise foi feita
Fig. 6.7: Resultado dos algoritmos k-mdias, NG e ARIA, da escolha aleatria de prottipos
e do codebook formado pelas bases de treinamento inteiras (Sem Compresso), utilizando o
conjunto de parmetros PE + En + 24 mel.
82 Resultados
(a) (b)
(c) (d)
Fig. 6.8: Histograma do nmero de amostras de entrada que cada prottipo representa, para a
congurao de teste com 200 frases de treinamento e codebook com 500 codevectors, para os
algoritmos: 6.8(a) k-mdias. 6.8(b) NG. 6.8(c) ARIA. 6.8(d) Escolha aleatria.
6.4 Primeira Proposta - Modicao no Clculo do Raio 83
para todas as conguraes e os resultados foram equivalentes. Dentre as 5 simulaes disponveis
de cada algoritmo, utilizou-se aquela que resultou na maior nota PESQwb.
Nitidamente, o ARIA produziu uma distribuio anmala de prottipos, muito diferente da dos
outros algoritmos. Percebe-se um nmero grande de prottipos representando poucas amostras, in-
dicado pela barra alta esquerda do histograma, e um nmero pequeno de prottipos representando
muitas amostras, indicado pela longa cauda no histograma, com vrias barras baixas, direita (ver
Figura 6.8(c)). Essa caracterstica se congura como o oposto do que se esperava obter, dada a anun-
ciada sensibilidade do ARIA densidade relativa dos grupos. Uma possvel explicao est na alta
dimenso do espao (dimenso = 26) em que se encontram os dados, que alterou de forma inesperada
a sensibilidade dos anticorpos densidade local. Adicionalmente, a anlise dos valores dos raios
dos prottipos mostrou que os muitos prottipos representando poucas amostras encontravam-se nas
regies menos densas, pois apresentavam raios grandes quando comparados ao valor mdio da popu-
lao, enquanto os poucos prottipos representando muitas amostras estavam nas regies mais densas
(raios pequenos) (Violato et al., 2009).
Dados esses resultados, foram propostas modicaes no algoritmo ARIA, que sero descritas
nas prximas sees.
6.4 Primeira Proposta - Modicao no Clculo do Raio
Na seo anterior, cou claro que o ARIA apresentou grandes diculdades frente aos testes re-
alizados, chegando, em algumas situaes, a produzir resultados de qualidade inferior obtida at
mesmo pela escolha aleatria de prottipos. Os histogramas forneceram uma indicao do que po-
deria estar causando essa degradao, revelando uma distribuio distorcida do nmero de amostras
representadas por cada prottipo.
Para contornar esse problema, precisava-se de um mtodo que estimulasse a supresso de anticor-
pos que representassem poucos dados e de um mtodo que estimulasse a clonagem de anticorpos que
representassem muitos dados. Surgiu ento uma ideia que implementaria esses dois mtodos com
uma nica modicao no algoritmo. Foi proposta uma nova frmula para o clculo do raio de cada
anticorpo, dada pela Equao 6.5 (Violato et al., 2009).
R
i
= r
_
den
max
den
i
_
dim
(6.5)
Dessa forma, quanto maior o valor de , maior ser o crescimento do raio dos anticorpos posicio-
nados em regies menos densas, estimulando a ocorrncia de supresso
4
. Alm disso, essa proposta
4
Ateno, no confundir este com o k no algoritmo k-mdias, que indica o nmero de centroides utilizado.
84 Resultados
admite a utilizao de um raio mnimo menor, permitindo que mais anticorpos se posicionem nas
regies mais densas. Com isso, combatem-se as duas distores citadas anteriormente. Uma desvan-
tagem dessa nova frmula que se insere no algoritmo um novo parmetro a ser congurado pelo
usurio, para cada conjunto de parmetros a se testar.
Ento, para algumas conguraes de teste, variou-se o valor de , com o intuito de estudar o
efeito dessa variao no resultado nal do algoritmo. Foi analisada a inuncia tanto na nota PESQwb
quanto no histograma e, em todos os casos, chegou-se a resultados similares aos mostrados na Figura
6.9, que ilustra, novamente, o resultado quando foi usada a base de treinamento com 200 frases e
codebooks com aproximadamente 500 codevectors.
Se o leitor reparar no histograma apresentado na Figura 6.9 para o ARIA com = 1, ou seja,
sua formulao original, ir perceber que ele diferente do mostrado na Figura 6.8(c). Isso ocorre,
pois esses resultados foram obtidos em um momento anterior da pesquisa, quando o conjunto de
parmetros empregado ainda no incluia a energia e, no qual a normalizao do perodo esquerdo era
feita de outra forma. A ordem da apresentao dos resultados visa uma maior organizao, a m de
facilitar o acompanhamento do texto, e no segue necessariamente a ordem cronolgica dos fatos.
Mas ressaltamos que isso no invalida o resultado obtido.
Comparando as notas PESQ obtidas para as conguraes testadas, percebeu-se que os melhores
resultados foram obtidos na maioria dos casos para = 5 e, em alguns casos, para = 4. Na Figura
6.9, repara-se que a nota PESQwb praticamente estabilizou para esses valores. Esse resultado foi
suciente para que se decidisse no fazer testes com valores maiores de . Repare que, para = 5,
uma vez que dim = 26:
k
dim
=
5
26
=
1
5
=
1
26
(6.6)
Dada essa aproximao, utilizou-se a frmula da Equao 6.7 no clculo do raio dos anticorpos
(Violato et al., 2009), com o propsito de gerar resultados para todas as conguraes de teste, a m
de compar-los com os resultados previamente obtidos.
R
i
= r
_
den
max
den
i
_ 1
dim
(6.7)
Essa frmula evita a insero do parmetro no algoritmo e, ao menos para os dados especcos
desse trabalho, uma aproximao vlida. Na Figura 6.10, so mostrados os resultados para as taxas
de compresso xas (100 e 200 vezes) e para os codebooks de tamanho xo igual a 500.
Para chegar a esses resultados, os valores do raio mnimo r empregados foram diferentes dos
utilizados na formulao original do algoritmo e esto na Tabela 6.6.
Como era esperado, os valores de r na Tabela 6.5 so maiores do que os valores da Tabela 6.6.
6.4 Primeira Proposta - Modicao no Clculo do Raio 85
Fig. 6.9: Resultados obtidos ao empregar a frmula 6.5 no algoritmo ARIA, para diferentes
valores de . A base de treinamento empregada continha 200 frases e o tamanho dos codebooks
produzidos foi aproximadamente 500.
86 Resultados
Fig. 6.10: Resultado dos algoritmos k-mdias, NG e ARIA (utilizando a Equao 6.7 para cl-
culo do raio dos anticorpos), da escolha aleatria de prottipos e do codebook formado pelas
bases de treinamento inteiras (Sem Compresso), utilizando o conjunto de parmetros PE +
En + 24 mel.
6.5 Segunda Proposta - Modicao no Clculo da Densidade 87
Tab. 6.6: Nmero mdio de prottipos obtido pelo algoritmo ARIA, utilizando a Equao 6.7
para clculo do raio dos anticorpos, e raio mnimo r utilizado.
50 118 125 132 125,4 0,005380
50 237 250 263 245,8 0,004680
50 475 500 525 496,2 0,004255
100 237 250 263 247,8 0,004500
100 475 500 525 489,2 0,004020
200 475 500 525 502,6 0,003750
200 950 1000 1050 1000,4 0,003455
400 475 500 525 494,6 0,003550
400 950 1000 1050 994,0 0,003240
400 1900 2000 2100 2000,4 0,003010
Anal, esse era um dos objetivos dessa proposta.
Comparando, agora, as Figuras 6.7 e 6.10, percebe-se claramente a evoluo da qualidade do re-
sultado do algoritmo ARIA. No entanto, o ARIA ainda apresenta um desempenho levemente inferior
ao dos algoritmos k-mdias e NG, por motivos que caro evidentes nas prximas sees.
6.5 Segunda Proposta - Modicao no Clculo da Densidade
Dado que, mesmo aps a modicao na frmula de clculo do raio dos anticorpos, o algoritmo
ARIA continuava perdendo para os algoritmos NG e k-means, procurou-se identicar o que mais
poderia estar provocando esse desempenho inferior. O objeto de estudo passou a ser, ento, o mtodo
empregado para a estimativa de densidade local.
No algoritmo ARIA, a densidade local de antgenos na vizinhana do anticorpo estimada contan-
do-se o nmero de antgenos nesta vizinhana. A vizinhana igual para todos os anticorpos, denida
pela constante E, o que fornece uma medida relativa de densidade para cada anticorpo da populao.
Este mtodo de estimativa de densidade conhecido como mtodo do histograma (Silverman, 1986).
Entretanto, o mtodo do histograma pode no ser eciente para dados de dimenso elevada. Para
ilustrar esse problema, imagine o seguinte cenrio, similiar ao apresentado na Seo 3.4: consi-
dere um conjunto de dados no espao d-dimensional, obtido pela amostragem de duas distribui-
es gaussianas. O centro de uma das gaussianas
1
= (0
1
, 0
2
0
d
) e o centro da outra
2
= (10
1
, 10
2
10
d
). As duas tm matrizes de covarincia diagonal, com a mesma varincia
em todas as dimenses, mas uma delas tem desvio-padro igual ao dobro da outra, ou seja,
1
= 1
and
2
= 0.5. O mesmo nmero de pontos N = 1000 amostrado de cada distribuio, formando
88 Resultados
5 0 5 10 15
5
0
5
10
15
x
1
x
2
Fig. 6.11: Dois grupos de dados bem distintos, obtidos a partir de duas distribuies gaussianas,
amostradas 1000 vezes cada uma.
dois grupos bem distintos, grupos 1 e 2, respectivamente, como mostra a Figura 6.11.
Suponha que se deseja posicionar apenas um prottipo (anticorpo) para representar cada grupo,
exatamente em seu centro. De acordo com o algoritmo ARIA, seus raios devem ser proporcionais
densidade local de antgenos. A densidade estimada na vizinhana de certo ponto x dada por:
(x) =
k
V (r)
(6.8)
onde k o nmero de pontos dentro da hiperesfera de raio r centrada em x e V (r) o volume
dessa hiperespera. O volume de uma hiperesfera de raio r no espao d-dimensional proporcional
d-sima potncia de r (Stibor et al., 2006):
V (r) = c r
d
(6.9)
No clculo dos raios, interessa a relao de densidades. Para estimar a relao de densidade
1
(
1
)
2
(
2
)
usando a Equao 6.8, pode-se xar ou o nmero de pontos k (mtodo KNN - k-nearest neigh-
bours) ou o volume V (r) (mtodo do histograma) (Silverman, 1986). Para utilizar o mtodo KNN,
posiciona-se ento uma hiperespera de raio r
1
no centro do grupo 1 e uma hiperesfera de raio r
2
no centro do grupo 2. Caso se escolham r
1
e r
2
proporcionais aos desvios-padro das gaussianas
_
r
1
r
2
2
= 2
_
, haver o mesmo nmero esperado de pontos k
1
= k
2
= k dentro de cada hiperesfera.
Usando as Equaes 6.8 e 6.9, obtm-se:
1
(
1
)
2
(
2
)
=
k
V (r
1
)
V (r
2
)
k
=
k
cr
d
1
cr
d
2
k
=
_
r
2
r
1
_
d
= 2
d
(6.10)
No entanto, o algoritmo ARIA estima a densidade xando r, ou V (r) (mtodo do histograma), e
6.5 Segunda Proposta - Modicao no Clculo da Densidade 89
Tab. 6.7: Nmero mdio de prottipos obtido pelo algoritmo ARIA, utilizando o mtodo KNN
com k = 100 para estimao de densidade e a frmula original para clculo do raio dos anti-
corpos, e raio mnimo r utilizado.
50 118 125 132 125,4 0,005200
50 237 250 263 247,2 0,004440
50 475 500 525 493,6 0,004230
100 237 250 263 248,6 0,002375
100 475 500 525 505,6 0,002140
200 475 500 525 495,4 0,001485
200 950 1000 1050 995 0,001380
400 475 500 525 499,6 0,001281
400 950 1000 1050 1010 0,000960
400 1900 2000 2100 2011 0,000898
no k, obtendo:
1
(
1
)
2
(
2
)
=
k
1
V (r)
V (r)
k
2
=
k
1
k
2
(6.11)
Para que a estimativa do ARIA seja correta, basta que
k
1
k
2
2
d
. Isso parece bastante simples,
mas se a dimenso d for grande, essa estimativa se torna praticamente impossvel de funcionar. Por
exemplo, no caso dos dados utilizados nesse trabalho, que tm dimenso d = 26, seriam necessrios
no mnimo 2
26
pontos (mais de 60 milhes).
Portanto, o verdadeiro problema no algoritmo no est na frmula de clculo do raio, mas sim
no mtodo de estimao de densidade. A soluo apresentada na seo anterior apenas mascarava o
real problema, servindo como um paliativo. Assim, ao invs de xar o volume da hiperesfera atravs
do raio de vizinhana E (mtodo do histograma), passou-se a utilizar o mtodo KNN, xando k, e
retomou-se a frmula original de clculo do raio dos anticorpos (Violato et al., 2010).
A Figura 6.12 compara as trs verses do algoritmo ARIA, sendo que para o mtodo KNN a
densidade foi estimada com k = 100. Os valores de raio mnimo empregados em cada caso, bem
como o nmero mdio de prottipos obtido, esto mostrados na Tabela 6.7.
Nitidamente, a soluo apresentada nesta seo obteve os melhores resultados, empatando em
dois casos e perdendo em apenas um dos dez testes feitos. Na comparao com os outros algoritmos,
infelizmente o algoritmo ARIA ainda perde tanto para o algoritmo k-mdias quanto para o algoritmo
NG (na realidade, em apenas um teste o resultado do algoritmo ARIA supera o do k-mdias). No
mostrada uma gura com esta comparao devido semelhana que esta teria com a Figura 6.10,
somente com as curvas do algoritmo ARIA mais prximas das curvas do k-mdias.
90 Resultados
Fig. 6.12: Resultado das trs verses do algoritmo ARIA, utilizando o conjunto de parmetros
PE + En + 24 mel.
6.6 Relao entre a Nota PESQ, o Erro de Quantizao e a Entropia Relativa 91
Na seo 6.6, explicado por que o algoritmo ARIA, que agora seguramente capaz de preservar
a densidade, continua com desempenho pior que o dos outros algoritmos.
6.6 Relao entre a Nota PESQ, o Erro de Quantizao e a En-
tropia Relativa
At o momento, s se avaliou a qualidade dos algoritmos de quantizao vetorial, atravs da nota
PESQwb mdia das 50 frases de teste, sintetizadas a partir dos dicionrios de quadros formados por
quadros selecionados da base de treinamento pelos algoritmos em questo.
Nessa seo, verica-se se h correlao entre essa medida de qualidade do sinal de fala e as
medidas de qualidade da quantizao dos dados, isto , o erro de quantizao e a entropia relativa das
distribuies de dados e prottipos, conforme descrito na Seo 3.4.
Comeando pelo erro de quantizao, pode-se calcul-lo tanto em relao aos dados de treina-
mento quanto em relao aos dados de teste. Como as notas PESQwb so referentes aos dados de
teste, calcula-se o erro de quantizao em relao aos dados de teste tambm. Na Figura 6.13, so
apresentados resultados comparando o algoritmo ARIA em sua verso original com as verses pro-
postas.
Assim como para a nota PESQwb, a modicaes no algoritmo ARIA propostas neste trabalho
levaram a erros de quantizao menores. E, tambm como para a nota PESQwb, a modicao no
mtodo de estimao de densidade foi a que produziu as melhores solues. Na Figura 6.14, compara-
se a verso do algoritmo ARIA que produziu os melhores resultados com os outros algoritmos, isto
, NG e k-mdias, com a escolha aleatria de prottipos e com o teste Sem Compresso.
Apesar da escala prejudicada, possvel perceber que o algoritmo NG obteve os menores erros
de quantizao, seguido pelo k-mdias e depois pelo ARIA. Esse comportamento equivalente ao
observado para os resultados de nota PESQwb desses algoritmos. Com isso, j se pode armar que
existe correlao entre essas medidas.
Para conhecer a natureza dessa correlao, na Figura 6.15 mostrado um grco da nota PESQwb
vs. o erro de quantizao, incluindo o resultado de todos os algoritmos. Os 10 pontos de cada
algoritmo so referentes s 10 conguraes de testes diferentes adotadas, exceto, claro, para os
pontos Sem Compresso, que so apenas 4, um para cada tamanho de base de treinamento adotada.
O grco da Figura 6.15 deixa claro que h correlao linear entre a nota PESQwb e o erro de
quantizao. Alm disso, os grcos das Figuras 6.13 e 6.14 mostram que o erro do ARIA diminuiu,
aps as alteraes na frmula de clculo do raio e no mtodo de estimao de densidade, mas continua
com resultados piores do que os outros algoritmos. importante destacar que o objetivo do ARIA
produzir uma distribuio de prottipos que respeite a densidade dos dados, e no minimizar o
92 Resultados
Fig. 6.13: Erro de quantizao mdio das trs verses do algoritmo ARIA.
Fig. 6.14: Erro de quantizao mdio (em relao aos dados de teste) dos algoritmos k-mdias,
NG e ARIA (utilizando o mtodo KNN para estimao de densidade), da escolha aleatria de
prottipos e do codebook formado pelas bases de treinamento inteiras (Sem Compresso).
94 Resultados
Fig. 6.15: Relao entre a nota PESQwb mdia das frases de teste e o erro de quantizao dos
dados de teste. Nesse grco, aparecem os resultados de todos os algoritmos aplicados a todas
as conguraes de teste utilizadas.
erro de quantizao. Por isso, investigou-se se o ARIA supera os outros algoritmos na questo da
distribuio dos prottipos. A entropia relativa, que indica a proximidade entre as distribuies de
dados e prottipos, dar uma resposta a essa pergunta.
Caso a resposta seja armativa, isso implica que, para esta aplicao, no interessante selecionar
prottipos que respeitem a densidade, mas sim selecion-los de forma que o erro de quantizao seja
o menor possvel.
Para esse teste, decidiu-se usar o mtodo KNN por dois motivos. Primeiro porque o parmetro k
(tamanho da vizinhana) mais intuitivo e, por isso, mais fcil de regular, do que a largura de banda
h do mtodo do estimador de ncleo. Segundo porque, em testes preliminares, o estimador de ncleo
forneceu resultados piores.
Para essa avaliao, empregaram-se diferentes valores de k (do mtodo KNN) para se estimar a
entropia relativa das distribuies: k = 5, k = 20, k = 50 e k = 100. Primeiro compara-se apenas o
resultado do ARIA original com o resultado das modicaes propostas neste trabalho. Tal resultado
apresentado na Figura 6.16. Apenas o caso k = 5 mostrado, pois os resultados para os outros
valores de k foram equivalentes.
V-se que, tambm segundo essa medida, as modicaes propostas aperfeioaram o resultado e
96 Resultados
que a modicao no mtodo de estimao de densidade foi a que surtiu mais efeito, uma vez que,
quanto mais prximo de zero o valor da entropia, mais similares so as distribuies comparadas.
Na Figura 6.17, apresentam-se os resultados dos algoritmos NG, k-mdias, ARIA (apenas da
verso com o mtodo KNN para estimao de densidade) e da escolha aleatria, novamente apenas
para k = 5.
Mais uma vez, pode-se ver que h correlao da entropia relativa com a nota PESQwb, pois as
curvas apresentam comportamento semelhante ao observado para o erro de quantizao. A principal
diferena que nesse caso, o ARIA apresentou os melhores resultados, seguido pelo k-mdias e
depois pelo NG.
Para melhor visualizao e compreenso da natureza da correlao entre as medidas, tal qual foi
feito para o erro de quantizao, na Figura 6.18 so mostrados grcos de nota PESQ vs. Entropia
relativa, agora para os diferentes valores de k avaliados.
Da Figura 6.18, pode-se concluir que (i) a escolha aleatria produz o pior resultado, (ii) k-mdias
ligeiramente melhor que o NG, pois seus pontos esto um pouco mais esquerda (menor entropia
relativa), diferente da nota PESQwb, em que o NG que ligeiramente superior ao k-mdias, pois
seus pontos esto um pouco mais acima (ver tambm Figuras 6.7 e 6.10), e (iii) o ARIA, apesar de na
maioria das situaes produzir distribuies melhores ou to boas quanto k-mdias (entropia relativa
menor ou igual), levou a notas PESQwb sempre piores.
Observando as curvas da nota PESQwb vs. Entropia relativa (Figura 6.18), percebe-se que as
medidas so correlacionadas, pelo menos quando se considera cada algoritmo individualmente. Ou
seja, uma distribuio de prottipos gerada por certo algoritmo que produz uma entropia relativa
menor em relao aos dados de teste, sempre leva a uma nota PESQwb maior, para todos os ks
testados. No entanto, quando se consideram algoritmos diferentes, isso nem sempre verdade, pois
repare que h pontos mais acima (nota PESQwb maior) e mais direta (entropia maior) do que outros.
Por isso, pode-se dizer que a correlao entre a nota PESQwb e o erro de quantizao mais forte
do que sua correlao com a entropia relativa entre as distribuies, uma vez que, para o erro de
quantizao, os pontos de todos os algoritmos so colineares.
Com essa anlise, tambm se justica por que o ARIA, mesmo aps as modicaes que melhora-
ram seu desempenho, ainda perde para os outros algoritmos na aplicao deste trabalho: o algoritmo
posiciona prottipos que, apesar de levar menor entropia relativa, no geram o menor erro de quan-
tizao, reetindo em uma nota PESQwb pior.
98 Resultados
(a) (b)
(c) (d)
Fig. 6.18: Resultado da relao da nota PESQwb e da entropia relativa entre as distribuies
dos dados de teste e dos prottipos, produzidos pelo algoritmos NG, k-mdias, ARIA (verso
com o mtodo KNN para estimao de densidade) e escolha aleatria de prottipos, estimada
com o mtodo KNN, para diferentes valores de k. 6.18(a) k = 5. 6.18(b) k = 20. 6.18(c) k = 50.
6.18(d) k = 100.
Captulo 7
Concluso
Este trabalho realizou um estudo de algoritmos de quantizao vetorial aplicados na compresso
de sinais de fala. Na tcnica de compresso utilizada, os sinais so primeiramente divididos em qua-
dros, depois so janelados e, em seguida, so parametrizados e quantizados, para serem armazenados
e/ou transmitidos. Para recompor o sinal, os vetores quantizados so mapeados em quadros de fala,
que so, por sua vez, concatenados atravs de uma tcnica de sntese concatenativa, conhecida como
PSOLA.
Um dos estudos feitos neste trabalho foi a avaliao de diferentes conjuntos de atributos do sinal
de fala, usados na etapa de parametrizao. Os parmetros testados foram os coecientes LPC, os
coecientes LSF, os coecientes MFCC, os coecientes mel, a energia e a frequncia fundamental.
Concluiu-se que os melhores resultados eram obtidos quando se empregavam os coecientes mel,
associados energia e ao perodo esquerdo (que carrega a informao de frequncia fundamental). A
magnitude desses dois ltimos atributos foi alterada, em um processo de normalizao e ponderao,
no qual os pesos utilizados foram otimizados.
Uma vez denido o conjunto de atributos do sinal que conduziram aos melhores resultados, foi
feito outro estudo, dessa vez envolvendo diferentes algoritmos de quantizao vetorial. Foram avali-
ados os algoritmos k-mdias, NG (Neural-Gas) e ARIA (Adaptive Radius Immune Algorithm). Em
uma avaliao considerando unicamente a qualidade do sinal de fala sintetizado como medida de
desempenho, os algoritmos k-mdias e NG tiveram resultados equivalentes, enquanto o ARIA apre-
sentou os piores resultados.
A causa desses resultados inferiores foi descoberta: na contramo da esperada preservao de
densidade, que o algoritmo propunha e mostrava ser capaz de obter para dados de baixa dimenso, o
posicionamento de prottipos realizado pelo ARIA revelou-se distorcido, o que pode ser associado
elevada dimenso dos dados. Este comportamento inesperado foi detectado pela primeira vez neste
trabalho. Determinado o motivo, foram propostas duas modicaes simples no algoritmo, uma delas
99
100 Concluso
alterando a forma com que os raios dos anticorpos eram calculados e a outra mudando o mtodo de
estimao de densidade local de dados na vizinhana de cada anticorpo, sendo esta ltima a mais
eciente.
Tais modicaes foram implementadas e levaram o ARIA a melhorar consideravelmente seu
desempenho, mas ainda perdia para os outros dois algoritmos em questo. Com isso, tambm foi
investigada neste trabalho a relao entre a qualidade do sinal produzido, dada pela nota PESQwb, e
duas medidas de avaliao da qualidade da quantizao: o erro de quantizao e a entropia relativa,
utilizada para avaliar a similaridade entre as distribuies de dados e de prottipos. Cabe mencionar
que a entropia relativa est diretamente vinculada preservao de densidade.
O erro de quantizao mostrou-se fortemente correlacionado nota PESQwb, enquanto a entropia
relativa tambm apresentou certa correlao, mas no to destacada quanto a do erro de quantizao.
Isso explica o porqu do desempenho inferior do ARIA para esta aplicao. O objetivo do ARIA a
preservao da densidade na distribuio dos prottipos, o que resulta em entropias relativas meno-
res, no correspondendo necessariamente minimizao do erro de quantizao. Por isso, o ARIA
tambm perdeu para os outros algoritmos no quesito erro de quantizao, apesar de super-los no
quesito entropia relativa. Entretanto, deve-se ressaltar que as modicaes propostas foram capazes
de aprimorar a resposta do algoritmo em relao a ambas as medidas de qualidade da quantizao.
Dados esses resultados, conclui-se que no recomendvel a utilizao do ARIA para esta aplica-
o. Alm disso, dos trs algoritmos testados, o ARIA o mais custoso computacionalmente. O custo
computacional um fator importante na anlise de algoritmos, mas no foi abordado neste trabalho,
porque a quantizao vetorial uma etapa ofine na aplicao. Assim, seria justicvel o uso de um
algoritmo computacionalmente mais caro, caso ele levasse a resultados melhores.
Por m, do ponto de vista da aplicao, os valores absolutos de nota PESQwb conseguidos pela
tcnica descrita so relativamente ruins, tornando invivel sua utilizao em ferramentas comerciais,
exceto em situaes que no exijam muita qualidade, ou que os recursos de memria disponvel sejam
realmente pequenos.
Enfrentar essa limitao a principal sugesto para a continuidade deste trabalho. Repare que
no foi empregada nenhuma tcnica de processamento de sinais para reduzir as distores introduzi-
das pela concatenao de quadros, os quais muitas vezes no casam. As amostras dos quadros so
simplesmente sobrepostas e somadas.
Alm disso, a qualidade do sinal sintetizado poderia ser melhorada atravs de uma escolha da
sequncia de quadros do dicionrio que leve em considerao algum tipo de custo de concatenao.
Lembre-se que, neste trabalho, h apenas o que se pode chamar de custo de substituio. Em outras
palavras, na hora da escolha de um quadro, avaliada apenas a distncia entre o vetor do quadro
original e os codevectors, mas no a distncia entre vetores consecutivos.
101
Seria interessante tambm avaliar diferentes locutores (masculinos e femininos), para vericar o
desempenho do sistema com vozes mais graves ou agudas, e trabalhar com sinais amostrados a 8
kHz, o que reduz imediatamente o tamanho do dicionrio de quadros pela metade e atenua algumas
degradaes de alta frequncia.
Com isso, espera-se obter uma melhora da qualidade do sinal produzido, independentemente da
ecincia do algoritmo de quantizao vetorial utilizado.
Outro ponto em que h margem para trabalhos futuros o estudo de outros parmetros do sinal
de fala, ou de diferentes combinaes dos parmetros j apresentados aqui, buscando um vetor de
atributos mais representativo e altamente correlacionado com a qualidade do sinal produzido.
No que diz respeito aos algoritmos de quantizao, pode-se procurar algoritmos mais competentes
na minimizao do erro de quantizao ou aperfeioar os algoritmos descritos neste trabalho, de forma
que a qualidade do sinal gerado a partir do codebook se aproxime cada vez mais da qualidade obtida
com o emprego desta tcnica, mas sem compresso.
Quanto ao ARIA, j foi proposta outra melhoria visando torn-lo eciente para a minimizao do
erro de quantizao (Azzolini et al., 2010), envolvendo o mtodo empregado no clculo do seu raio.
O efeito dessa melhoria no desempenho do ARIA junto s aplicaes consideradas nesta pesquisa
ainda precisa ser avaliado.
Outras etapas do algoritmo ARIA podem ser modicadas. O modelo de treinamento sequencial
pode ser substitudo por um treinamento em batelada. O mecanismo de clonagem pode ser mais
eciente, evitando a proliferao exagerada de anticorpos. Assim como o mecanismo de supresso,
que se baseia em uma rede de anticorpos totalmente conectada, o que bastante custoso, poderia ser
revisto para, por exemplo, empregar outro tipo de rede.
Conclui-se, por m, que ainda h espao para muitas melhorias no sistema descrito neste trabalho
tanto no que diz respeito ao processamento de sinais quanto no que diz respeito quantizao vetorial,
o que indica boas perspectivas futuras para a linha de pesquisa.
102 Concluso
Referncias Bibliogrcas
J.-P. Adoul, P. Mabilleau, M. Delprat, e S. Morisette. Fast CELP Coding Based on Algebraic Codes.
In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing,
vol. 12, pp. 19571960, April 1987.
B. S. Atal. The History of Linear Prediction. In IEEE Signal Processing Magazine, vol. 23, pp.
154161, March 2006.
A. G. Azzolini, R. P. V. Violato, e F. J. Von Zuben. Density Preservation and Vector Quantization
in Immune-Inspired Algorithms. In Proceedings of the 9th International Conference on Articial
Immune Systems (ICARIS2010), Lecture Notes in Computer Science, vol. 6209, pp. 3346, July
2010.
J. G. Beerends e J. A. Stemerdink. A Perceptual Audio Quality Measure Based on a Psychoacoustic
Sound Representation. Journal of the Audio Engineering Society, vol. 40, no. 12, pp. 963974,
December 1992.
J. G. Beerends e J. A. Stemerdink. A Perceptual Speech-Quality Measure Based on a Psychoacoustic
Sound Representation. Journal of the Audio Engineering Society, vol. 42, no. 3, pp. 115123,
March 1994.
J. Benesty, M. M. Sondhi, e Y. Huang, editors. Springer Handbook of Speech Processing. Springer,
2008.
G. B. Bezerra, T. V. Barra, L. N. de Castro, e F. J. Von Zuben. Adaptive Radius Immune Algorithm
for Data Clustering. In C. Jacob, M. L. Pilat, P. J. Bentley, e J. Timmis, editors, Proceedings of 4th
International Conference on Articial Immune Systems (ICARIS-2005), vol. 3627 of Lecture Notes
in Computer Science, pp. 290303. Springer-Verlag, August 2005.
S. Boll. Suppression of Acoustic Noise in Speech Using Spectral Subtraction. IEEE Transactions on
Acoustics, Speech, and Signal Processing, vol. 27, no. 2, pp. 113120, April 1979.
103
104 REFERNCIAS BIBLIOGRFICAS
B. P. Borget, M. J. R. Healy, e J. W. Tukey. The Quefrency Alanysis of Times Series for Echos: Ceps-
trum, Pseudo-Autocovariance, Cross-Cepstrum, and Saphe Cracking. In M. Rosenblatt, editor,
Proceedings of the Symposium on Time Series Analysis, pp. 209243. Wiley, 1963.
F. M. Burnet. The Clonal Selection Theory of Acquired Immunity. Vanderbilt University Press,
Nashville, TN, 1959.
F. M. Burnet. Clonal Selection and After. In G. I. Bell, A. S. Perelson, e G. H. Pimgley Jr, editors,
Theoretical Immunology, pp. 6385. Marcel Dekker Inc., 1978.
J.-H. Chen. A Robust Low-Delay CELP Speech Coder at 16kb/s. In Proceedings of IEEE Global
Telcommunications Conference, vol. 2, pp. 12371241, 1989.
J.-H. Chen, R. V. Cox, Y.-C. Lin, N. S. Jayant, e M. J. Melchner. A Low-Delay CELP Coder for
the CCITT 16kb/s Speech Coding Standard. IEEE Journal on Selected Areas in Communications,
vol. 10, no. 5, pp. 830849, June 1992.
V. Cherkassky e F. Mulier. Learning FromData: Concepts, Theory, and Methods. Wiley-Interscience,
1998.
I. R. Cohen. Tending Adams Garden: Evolving the Cognitive Immune Self. Academic Press, 2004.
D. Dasgupta. Articial Immune Systems and their Applications. Springer-Verlag, 1998.
S. Davis e P. Mermelstein. Comparision of Parametric Representations for Monosyllabic Word Re-
cognition in Continuously Spoken Sentences. IEEE Transactions on Acoustics, Speech, and Signal
Processing, vol. 28, no. 4, pp. 357366, August 1980.
L. N. de Castro. Engenharia Imunolgica: Desenvolvimento e Aplicao de Ferramentas Compu-
tacionais Inspiradas em Sistemas Imunolgicos Articiais. Tese de Doutorado, UNICAMP, Maio
2001.
L. N. de Castro. Fundamentals of Natural Computing: Basic Concepts, Algorithms and Applications.
Chapman & Hall/CRC, 2006.
L. N. de Castro e J. Timmis. Articial Immune Systems: A New Computational Intelligence Approach.
Springer-Verlag, 2002.
L. N. de Castro e F. J. Von Zuben. aiNet: An Articial Immune Network for Data Analysis. In H. A.
Abbass, R. A. Sarker, e C. S. Newton, editors, Data Mining: A Heuristic Approach, chapter 12, pp.
231259. Idea Group Publishing, 2001.
REFERNCIAS BIBLIOGRFICAS 105
R. O. Duda, P. E. Hart, e D. G. Stork. Pattern Classication. Wiley-Interscience, 2nd edition, 2001.
J. Durbin. Efcient Estimation of Parameters on Moving-Average Models. Biometrika, vol. 46,
no. 3-4, pp. 306316, 1959.
J. Durbin. The Fitting of Time-Series Models. Revue de lInstitut International de Statistique, vol. 28,
no. 3, pp. 233243, 1960.
K. Fukunaga e R. R. Hayes. The Reduced Parzen Classier. IEEE Transaction on Pattern Analysis
and Machine Intelligence, vol. 11, no. 4, pp. 423425, April 1989.
Y. Gao, A. Benyassine, J. Thyssen, H. Su, e E. Shlomot. eX-CELP: A Speech Coding Paradigm.
vol. 2, pp. 689692, 2001.
I. A. Gerson e M. A. Jasiuk. Vector SumExcited Linear Prediction (VSELP) Speech Coding at 8 kbps.
vol. 1, pp. 461464, 1990.
R. M. Gray e D. L. Neuhoff. Quantization. IEEE Transactions on Information Theory, vol. 44, no. 6,
pp. 23252383, October 1998.
J. Han e M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2nd
edition, 2006.
A. H. Hentz e R. Seara. Compresso de Bancos de Fala para Sistemas de Sntese Concatenativa de
Alta Qualidade. In XXVII Simpsio Brasileiro de Telecomunicaes (SBrT), 2009.
F. Itakura. Line Spectrum Representation of Linear Predictive Coefcients of Speech Signals. Journal
of the Acoustical Society of America, vol. 57, no. 1, pp. 35, 1975.
ITU. Website acessado em agosto. http://www.itu.int, 2008.
C. A. Janeway, P. Travers, M. Walport, e M. Shlomchik. Imunobiologia: O Sistema Imune na Sade
e na Doena. Artmed, 2001.
N. K. Jerne. Towards a Network Theory of the Immune System. In Ann. Immunol. Inst. Pasteur, no
1-2 in 125C, pp. 373389, January 1974.
T. Kanungo, D. M. Mount, N. Netanyahu, C. Piatko, R. Silverman, e A. Y. Wu. An Efcient k-
means Clustering Algorithm: Analysis and Implementation. IEEE Transactions Pattern Analysis
and Machine Intelligence, vol. 24, no. 7, July 2002.
T. Kanungo, D. M. Mount, N. Netanyahu, C. Piatko, R. Silverman, e A. Y. Wu. A Local Search
Approximation Algorithm for k-Means Clustering. Computational Geometry: Theory and Appli-
cations, vol. 28, no. 2-3, pp. 89112, June 2004.
A. Kataoka, T. Moriya, e S. Hayashi. An 8-kbit/s Speech Coder Based on Conjugate Structure CELP.
vol. 2, pp. 592595, 1993.
D. H. Klatt. Software for a Cascade/Parallel Formant Synthesizer. Journal of the Acoustical Society
of America, vol. 67, no. 3, pp. 971995, March 1980.
W. B. Kleijn, P. Kron, L. Cellario, e D. Sereno. A 5.85 kb/s CELP Algorithm for Cellular Ap-
plications. In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal
Processing, vol. 2, pp. 596599, 1993.
T. Kohonen. Self-Organized Formation of Topologically Correct Feature Maps. Biological Cyberne-
tics, vol. 43, no. 1, pp. 5969, January 1982.
S. Kullback. Information Theory and Statistics. John Wiley & Sons, 1959.
C. Laamme, J.-P. Adoul, H. Y. Su, e S. Morisette. On Reducing Computational Complexity of
Codebook Search in CELP Coder through the use of Algebraic Codes. In Proceedings of IEEE
International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. 177180, 1990.
V. L. Latsch. Construo de Banco de Unidades para Sntese de Fala por Concatenao no Domnio
Temporal. Dissertao de Mestrado, UFRJ, Abril 2005.
K.-S. Lee e R. V. Cox. A Very Low Bit Rate Speech Coder Based on a Recognition-Synthesis
Paradigm. IEEE Transactions on Speech and Audio Processing, vol. 9, no. 5, pp. 482491, July
2001.
N. Levinson. The Wiener RMS (Root Mean Square) Error Criterion in Filter Design and Prediction.
Journal of Mathematics and Physics of the Massachusetts Institute of Technology, vol. 25, no. 4,
pp. 261278, 1947.
S. P. Lloyd. Least Squares Quantization in PCM. IEEE Transactions on Information Theory, vol. 28,
no. 2, pp. 129137, March 1982.
J. MacQueen. Some Methods for Classication and Analysis of Multivariate Observations. In Proc.
Fifth Berkeley Symp. Math. Statistics and Probability, pp. 281296, 1967.
J. Makhoul e J. Wolf. Linear Prediction and the Spectral Analysis of Speech, pp. 172185. Bolt,
Beranek, and Newman Inc., 1972.
J. D. Markel e A. H. Gray Jr. Linear Prediction of Speech. Springer, 1976.
T. M. Martinetz, S. G. Berkovich, e K. J. Schulten. Neural-gas Network for Vector Quantization
and its Application to Time-Series Prediction. IEEE Transactions on Neural Networks, vol. 4,
no. 4, pp. 558 569, July 1993.
T. M. Martinetz e K. J. Schulten. A Neural-Gas Network Learns Topologies. In T. Kohonen,
K. Mkisara, O. Simula, e J. Kangas, editors, Articial Neural Networks, pp. 397402. Elsevier,
North-Holland, Amsterdam, 1991.
P. Matzinger. Tolerance, Danger and the Extended Family. Annual Review of Immunology, vol. 12,
pp. 9911045, April 1994.
P. Matzinger. The Danger Model: ARenewed Sense of Self. Science, vol. 296, no. 5566, pp. 301305,
April 2002.
S. Miki, K. Mano, H. Ohmuro, e T. Moriya. Pitch Synchronous Innovation CELP (PSI-CELP). In
Proceedings of Eurospeech Conference, pp. 261264, 1993.
E. Moulines. Algorithmes de Codage et de Modication des Paramtres Prosodiques pour la Synthse
de la Parole partir du Texte. Tese de Doutorado, cole National Suprieure des Tlcommunica-
tions, February 1990.
A. V. Oppenheim e R. W. Schaffer. Discrete-Time Signal Processing. Prentice-Hall, 1989.
ITU-T Recommendation P.800. Methods for Subjective Determination of Transmission Quality,
1996.
ITU-T Recommendation P.862. Perceptual Evaluation of Speech Quality (PESQ): An Objective
Method for End-to-End Speech Quality Assessment of Narrow Band Telephone Networks and
Speech Codecs, February 2001.
ITU-T Recommendation P.862.2. Wideband Extension to Recommendation P.862 for the Assessment
of Wideband Telephone Networks and Speech Codecs, November 2007.
J. Picone. Signal Modeling Techniques in Speech Recognition. Proceedings of the IEEE, vol. 81,
no. 9, pp. 12151247, September 1993.
G. Pinchuk. Theory and Problems of Immunology. USA: McGraw-Hill, 2002.
L. R. Rabiner e R. W. Schaffer. Digital Processing of Speech Signal. Prentice-Hall, 1976.
A. Rix, J. Beerends, M. Hollier, e A. Hekstra. Perceptual Evaluation of Speech Quality (PESQ) - A
New Method for Speech Quality Assessment of Telephone Networks and Codecs. In Proceedings
of IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, pp. 7376,
2001.
A. Rix e M. Hollier. The Perceptual Analysis Measurement System for Robust end-to-end Speech
Quality Assessment. In Proceedings of IEEE International Conference on Acoustics, Speech, and
Signal Processing, vol. 3, pp. 15151518, June 2000.
R. Salami, C. Laamme, J. P. Adoul, A. Kataoka, S. Hayashi, T. Moriya, C. Lamblin, D. Massaloux,
S. Proust, P. Kroon, e Y. Shoham. Design and Description of CS-ACELP: a Toll Quality 8 kb/s
Speech Coder. IEEE Transactions on Speech and Audio Processing, vol. 6, no. 2, pp. 116130,
March 1998.
M. R. Schoroeder e B. S. Atal. Code-Excited Linear Prediction (CELP): High Quality Speech at Very
Low Bit Rates. In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal
Processing, pp. 937940, March 1985.
L. A. Segel e I. Cohen, editors. Design Principle for the Immune System and Other Distributed
Autonomous Systems. Oxford University Press, 2001.
B. W. Silverman. Density Estimation for Statistics and Data Analysis. Number 26 in Monographs on
statistics and applied probability. Chapman & Hall, 1986.
F. O. Simes. Implementao de um Sistema de Converso Texto-Fala para o Portugus do Brasil.
Dissertao de Mestrado, UNICAMP, Maio 1999.
F. O. Simes, M. Uliani Neto, J. B. Machado, E. J. Nagle, F. O. Runstein, e L. C. T. Gomes. Speech
Compression Using Vector Quantization and Unsupervised Neural Networks. In Brain Inspired
Cognitive Systems (BICS 2008) - Fourth International ICSC Symposium on Biologically Inspired
Systems (BIS 2008), 2008.
F. K. Song e B.-H. Juang. Line Spectrum Pair (LSP) and Speech Data Compression. Proceedings
of IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 9, pp. 3740,
March 1984.
F. K. Song e B.-H. Juang. Optimal Quantization of LSP parameters. IEEE Transactions on Speech
and Audio Processing, vol. 6, pp. 1524, 1993.
Starlab. Website acessado em agosto. users.pandora.be/richard.wheeler1/ais/inn.html, 2008.
S. Stevens, J. Volkman, e E. Newman. A Scale for the Measurement of the Psychological Magnitude
of Pitch. Journal of the Acoustical Society of America, vol. 8, no. 3, pp. 185190, January 1937.
T. Stibor e J. Timmis. An Investigation on the Compression Quality of aiNet. In Proceedings of the
2007 IEEE Symposium on Foundations of Computational Intelligence (FOCI 2007), pp. 495502,
2007.
T. Stibor, J. Timmis, e C. Eckert. On the use of hyperspheres in articial immune systems as an-
tibody recognition regions. In H. Bersini e J. Carneiro, editors, Proceedings of 5th International
Conference on Articial Immune Systems (ICARIS-2006), vol. 4163 of Lecture Notes in Computer
Science, pp. 215228. Springer-Verlag, September 2006.
P. Taylor. Text-to-Speech Synthesis. Cambridge University Press, 2009.
T. Thiede, W. C. Treurniet, R. Bitto, C. Schmidmer, T. Sporer, J. G. Beerends, e C. Colomes. PEAQ
- The ITU Standard for Objective Measurement of Perceived Audio Quality. Journal of the Audio
Engineering Society, vol. 48, no. 1/2, pp. 329, February 2000.
J. Timmis. Articial Immune Systems: A Novel Data Analysis Technique Inspired by the Immune
Network Theory. Tese de Doutorado, Department of Computer Science, University of Whales,
September 2000.
J. Timmis e M. Neal. A resource Limited Articial Immune System for Data Analysis. Knowledge
Based Systems, vol. 14, no. 3-4, pp. 121130, June 2001.
SOM toolbox. Website acessado em agosto. http://www.cis.hut./projects/somtoolbox, 2008.
R. P. V. Violato, A. G. Azzolini, e F. J. Von Zuben. Antibodies with Adaptive Radius as Prototypes
of High-Dimensional Datasets. In Proceedings of the 9th International Conference on Articial
Immune Systems (ICARIS2010), Lecture Notes in Computer Science, vol. 6209, pp. 158170, July
2010.
R. P. V. Violato, F. J. Von Zuben, F. O. Simoes, M. Uliani Neto, E. J. Nagle, F. O. Runstein, e
L. C. T. Gomes. Agrupamento Sensvel Densidade para a Quantizao de Sinais de Fala. In
30
o
Congresso Ibero-Latino-Americano de Mtodos Computacionais em Engenharia (CILAMCE
2009), Novembro 2009.
S. Voran. Objective Estimation of Perceived Speech Quality, Part I: Development of the Measuring
Normalizing Block Technique. IEEE Transactions on Speech and Audio Processing, vol. 7, no. 4,
pp. 371382, July 1999a.
S. Voran. Objective Estimation of Perceived Speech Quality, Part II: Evaluation of the Measuring
Normalizing Block Technique. IEEE Transactions on Speech and Audio Processing, vol. 7, no. 4,
pp. 383390, July 1999b.
S. Wang, A. Sekey, e A. Gersho. An Objective Measure for Predicting Subjective Quality of Speech
Coders. IEEE Journal on Selected Areas in Communications, vol. 10, no. 5, pp. 819829, June
1992.
R. Xu e D. C. Wunsch II. Recent Advances in Cluster Analysis. International Journal of Intelligent
Computing and Cybernetics (IJICC), vol. 1, no. 4, pp. 484508, 2008.
E. Zwicker. Subdivision of the Audible Frequency Range into Critical Bands. Journal of the Acous-
tical Society of America, vol. 33, no. 2, pp. 248, February 1961.
E. Zwicker e H. Fastl. Psychoacoustics, Facts and Models. Springer Verlag, 1990.

Ricardo Violato

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Ricardo Violato

Uploaded by

Copyright:

Available Formats

Universidade Estadual de Campinas

Faculdade de Engenharia Eltrica e de Computao

s que no foram estimulados;

You might also like