You are on page 1of 194

ALEXANDRE DE SOUZA BRANDAO

TESE DE DOUTORADO:

MODELAGEM ACUSTICA
DA VOZ UTILIZANDO
DA PRODUC
AO

TECNICAS
DE VISUALIZAC
AO

DE IMAGENS MEDICAS
ASSOCIADAS

A METODOS
NUMERICOS.

Professores Orientadores:
Prof. Dr. Edson Luiz Cataldo Ferreira (GMA/UFF)
Profa. Dra. Fabiana Rodrigues Leta (TEM/UFF)

Niteroi
2011


ALEXANDRE DE SOUZA BRANDAO

TESE DE DOUTORADO:

DA VOZ
MODELAGEM ACUSTICA
DA PRODUC
AO

DE
UTILIZANDO TECNICAS
DE VISUALIZAC
AO

IMAGENS MEDICAS
ASSOCIADAS A METODOS

NUMERICOS.
Essa Tese de Doutorado foi julgada adequada e aprovada em sua forma final pela
Banca Examinadora abaixo relacionada.
Banca Examinadora:

Professor Edson Luiz Cataldo Ferreira - D.Sc. (Orientador)


UFF/GMA/Pos-Graduacao em Eng. Telecomunicacoes

Professora Fabiana Rodrigues Leta - D.Sc. (Orientadora)


UFF/PGMEC

Professor Antonio Lopes Gama - D.Sc.


UFF/PGMEC

Professora Angela Cristina Cardoso de Souza - D.Sc.


UFF/PGMEC

Professor Jorge Carlos Lucero - D.Sc.


UnB/Dept. de Matematica

Professora Djenane Pamplona - D.Sc.


PUC-Rio/Dept. de Engenharia Civil

Resumo
O objetivo desta tese e simular a propagacao de ondas ac
usticas atraves do
trato vocal humano usando o metodo das Matrizes de Linhas de Transmissao (MLT).
A malha para o modelo numerico foi reconstruda tridimensionalmente a partir de
segmentacoes de imagens medicas obtidas por ressonancia magnetica. Para isso, foi
desenvolvido um aplicativo codigo-aberto na linguagem C++, o qual foi utilizado nas
tarefas inerentes `a reconstrucao dos modelos tridimensionais de trato vocal e simulacao usando o MLT. Adicionalmente, um fator de compensacao foi desenvolvido
visando a eliminacao da dispersao numerica dependente da topologia em malhas
MLT tridimensionais do tipo grade uniforme. Inicialmente foram construdos modelos simples de um e dois tubos para o trato vocal, cujos resultados analticos sao
conhecidos, nos quais foi simulada a propagacao de um sinal com frequencias de 0
a 10000 Hz. Posteriormente, este mesmo sinal foi simulado num modelo de trato
vocal humano cuja forma representa a producao da vogal aberta /a/. Neste modelo,
tambem foi simulada a propagacao de um sinal glotal (obtido por filtragem inversa
do sinal de voz). Os sinais de voz gerados atraves das simulacoes no modelo de
trato vocal humano foram comparados com sinais reais emitidos pelo indivduo a
partir do qual as imagens medicas foram extradas para a construcao dos modelos
tridimensionais. Excelentes aproximacoes foram obtidas em todos os modelos.

Abstract
The objective of this thesis is to simulate the propagation of acoustic waves
through the human vocal tract using the Transmission Line Matrix (TLM) method.
The mesh for the numerical model was tridimensionally reconstructed from segmented magnetic resonance medical images. For this, an open-source application,
developed in the C++ programming language, has been used in tasks inherent to
the reconstruction of the vocal tract tridimensional models and TLM simulations.
Additionally, a compensation factor was developed in order to eliminate topologydependent numerical dispersion in tridimensional uniform grid TLM meshes. Firstly,
simple vocal tract models of one and two tubes, whose the analytical results are
known, were built and the propagation of a signal with a 0 to 10000 Hz frequency
range was simulated. Later, the same signal is simulated in a human vocal tract
model whose the shape represents the production of the open vowel /a/. In this
model, a human glottal signal (obtained by inverse filtering of the voice signal) has
also been simulated. For the vocal tract model, the voice signals generated by the
simulations were compared with voice samples from the same subject from whom
the mesh was extracted. Excellent approximations have been obtained in all models.

ii

Declarac
ao de Originalidade
Esta tese foi produzida por mim e relaciona trabalho original de minha propria
execucao. A menos que de outra forma mencionado, os graficos e tabelas exibidos
foram produzidos a partir de dados obtidos durante a pesquisa. Sempre que materiais, ideias, ou algoritmos computacionais de outros pesquisadores tiverem sido
usados ou adaptados, a fonte de informacao foi claramente especificada. Esta tese
nao foi submetida para graduacao ou qualificacao profissional em nenhum outro
lugar.

Alexandre de Souza Brandao

iii

Agradecimentos

A Deus por tudo.


A Vera Eunice, J
ulia, Roberto, Waldir e Ronaldo pela minha formacao.
Aos Professores Dr. Edson Cataldo e Dra. Fabiana Leta pela orientacao, pelas
palavras de incentivo, pela amizade e pelo apoio constantes.
` CAPES, por ter me concedido esta Bolsa de Doutorado, sem a qual tudo
A
teria sido muito mais difcil.
Ao Curso de Pos-Graduacao em Engenharia Mecanica da Universidade Federal Fluminense que me concedeu esta grande oportunidade de aumentar meus
conhecimentos.
` Professora Dra. Aura Conci pela disciplina de Analise de Imagens e pela
A
indicacao do Dr. Alair Augusto S.M.D. dos Santos.
Ao Doutor Alair Augusto S.M.D. dos Santos, por sua boa vontade, por ter
disponibilizado os equipamentos de ressonancia magnetica do Hospital das Clnicas
de Niteroi e da Clnica ProEcho atraves do qual as imagens de ressonancia magnetica
puderam ser obtidas.
Aos funcionarios da Clnica ProEcho pela atencao e coordialidade.
E a todos os amigos de todos os planos, pela ajuda sempre presente.

iv

Dedicat
oria

Dedico este trabalho a


Vera Eunice,
J
ulia,
Roberto,
Waldir e Ronaldo.
Que Deus nos ilumine e a todos.

Conte
udo

Resumo

Abstract

ii

Declara
c
ao de Originalidade

iii

Agradecimentos

iv

Dedicat
oria

Lista de Figuras

xii

Lista de Tabelas

xx

1 Introdu
c
ao

1.1

O sistema de producao da voz . . . . . . . . . . . . . . . . . . . . . .

1.2

Estudos anteriores sobre as cordas vocais . . . . . . . . . . . . . . . .

1.3

Estudos anteriores sobre o trato vocal . . . . . . . . . . . . . . . . . . 13

1.4

Comparacao entre os Metodos Numericos . . . . . . . . . . . . . . . . 22

2 Imagens M
edicas

26
vi

2.1

Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.2

Imagens de Ressonancia Magnetica . . . . . . . . . . . . . . . . . . . 27

2.3

2.2.1

Imagens Volumetricas . . . . . . . . . . . . . . . . . . . . . . 29

2.2.2

Elastografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

O Padrao DICOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3 Modelagem da propagac
ao ac
ustica no Trato Vocal

33

3.1

O Modelo Fonte-Filtro . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2

A Equacao de onda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1

3.3

Aproximacao do Trato Vocal por Sequencias de Tubos


3.3.1

3.4

Consideracoes sobre Temperatura e Viscosidade . . . . . . . . 36

Estimativa das Frequencias de Ressonancia . . . . . . . . . . . 39

Metodo das Linhas de Transmissao (MLT) . . . . . . . . . . . . . . . 43


3.4.1

Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4.2

Descricao do Metodo . . . . . . . . . . . . . . . . . . . . . . . 43

4 Desenvolvimento do programa ModaVox


4.1

52

Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.1

4.2

. . . . . . . . 38

A linguagem C++ . . . . . . . . . . . . . . . . . . . . . . . . 53

Componentes Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1

O compilador GCC . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2.2

A biblioteca Qt . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2.3

As bibliotecas C++ (ITK e VTK) . . . . . . . . . . . . . . . . 54

4.2.4

RedesNeurais . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
vii

4.2.5

TetGen

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3

Estrutura Basica do Programa . . . . . . . . . . . . . . . . . . . . . . 56

4.4

Interface Grafica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.5

Pre-processamento de Imagens Medicas . . . . . . . . . . . . . . . . . 58

4.6

4.7

4.8

4.9

4.5.1

Removedor de atenuacao . . . . . . . . . . . . . . . . . . . . . 58

4.5.2

Selecao de volume de interesse . . . . . . . . . . . . . . . . . . 59

Segmentacao de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.6.1

Segmentacao por Crescimento de Regioes . . . . . . . . . . . . 60

4.6.2

Segmentacao manual . . . . . . . . . . . . . . . . . . . . . . . 60

4.6.3

Segmentacao por Redes Neurais . . . . . . . . . . . . . . . . . 61

Extracao/Edicao de Malhas . . . . . . . . . . . . . . . . . . . . . . . 66
4.7.1

Formacao do Volume Segmentado . . . . . . . . . . . . . . . . 66

4.7.2

Geracao das Iso-superfcies . . . . . . . . . . . . . . . . . . . . 68

4.7.3

Tetraedralizacao

4.7.4

Extracao de malhas para o MLT . . . . . . . . . . . . . . . . . 71

4.7.5

Vizualizacao em Corte da malha . . . . . . . . . . . . . . . . . 72

4.7.6

Simplificacao de Iso-superfcies . . . . . . . . . . . . . . . . . . 72

4.7.7

Limpeza de Iso-superfcies . . . . . . . . . . . . . . . . . . . . 72

4.7.8

Suavizacao de Iso-superfcies . . . . . . . . . . . . . . . . . . . 72

. . . . . . . . . . . . . . . . . . . . . . . . . 69

Metodos Numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.8.1

Metodo dos Elementos Finitos . . . . . . . . . . . . . . . . . . 73

4.8.2

Metodo das Matrizes de Linhas de Transmissao . . . . . . . . 73

Outras Funcionalidades do Programa . . . . . . . . . . . . . . . . . . 74


viii

4.9.1

Visualizar Fatia Segmentada . . . . . . . . . . . . . . . . . . . 74

4.9.2

Equalizacao de Histograma . . . . . . . . . . . . . . . . . . . . 74

4.9.3

Abrir Arquivos . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.9.4

Salvar Arquivos . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.9.5

Estrutura de um arquivo (*.mvx) do ModaVox . . . . . . . . . 75

4.10 O sistema de documentacao (Doxygen) . . . . . . . . . . . . . . . . . 76


5 Simulac
oes e Resultados

78

5.1

Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.2

Construcao das Malhas . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.3

5.4

5.2.1

Modelos de Tubos do Trato Vocal . . . . . . . . . . . . . . . . 79

5.2.2

Modelo do Trato Vocal Humano . . . . . . . . . . . . . . . . . 80

Detalhes das Simulacoes . . . . . . . . . . . . . . . . . . . . . . . . . 81


5.3.1

Atributos da Malha . . . . . . . . . . . . . . . . . . . . . . . . 81

5.3.2

Condicao de Estabilidade . . . . . . . . . . . . . . . . . . . . . 82

5.3.3

Sinais de Entrada . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.3.4

Sinais de Sada . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5.3.5

Condicao de Contorno de Espaco Livre . . . . . . . . . . . . . 85

Aplicacao do MLT a Sequencias de Tubos . . . . . . . . . . . . . . . 86


5.4.1

O fator de compensacao da dispersao . . . . . . . . . . . . . . 87

5.4.2

Tubo com diametro 24 mm

. . . . . . . . . . . . . . . . . . . 91

5.4.3

Tubo com diametro 12 mm

. . . . . . . . . . . . . . . . . . . 91

5.4.4

Influencia da localizacao da fonte . . . . . . . . . . . . . . . . 92

ix

5.5

5.4.5

Influencia da discretizacao espacial (L) . . . . . . . . . . . . 93

5.4.6

Concatenacao de 2 tubos formando a vogal /a/ . . . . . . . . 94

Aplicacao do MLT ao Trato Vocal . . . . . . . . . . . . . . . . . . . . 96


5.5.1

Excitacao do sinal de teste na malha do trato vocal . . . . . . 97

5.5.2

Mudando a condicao refletora das paredes . . . . . . . . . . . 101

5.5.3

Excitacao do sinal glotal na malha do trato vocal . . . . . . . 103

5.6

Sobre a validade do fator de compensacao . . . . . . . . . . . . . . . 108

5.7

Comparacao com outros metodos . . . . . . . . . . . . . . . . . . . . 111

5.8

Resumo das simulacoes . . . . . . . . . . . . . . . . . . . . . . . . . . 112

6 Conclus
oes
6.1

113

Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

A C
odigos Auxiliares

117

A.1 Codigo para Duplicacao de Imagens . . . . . . . . . . . . . . . . . . . 117


A.2 Scripts para analise dos resultados do MLT . . . . . . . . . . . . . . . 118
B Manual do Programa ModaVox

131

B.1 Compilacao do Codigo . . . . . . . . . . . . . . . . . . . . . . . . . . 131


B.1.1 O gerador de makefiles CMake . . . . . . . . . . . . . . . . . . 131
B.1.2 Instalacao das bibliotecas Qt, ITK, VTK e TetGen . . . . . . 134
B.1.3 Instalando a biblioteca RedesNeurais . . . . . . . . . . . . . . 134
B.1.4 Compilando o ModaVox . . . . . . . . . . . . . . . . . . . . . 135
B.2 Executando o Programa . . . . . . . . . . . . . . . . . . . . . . . . . 136

B.2.1 Abrindo Arquivos . . . . . . . . . . . . . . . . . . . . . . . . . 136


B.2.2 Removendo Anisotropia em Imagens Medicas 3D . . . . . . . 138
B.2.3 Operacoes sobre a Sessao de Trabalho . . . . . . . . . . . . . . 138
B.2.4 Selecionando Volume de Interesse . . . . . . . . . . . . . . . . 140
B.2.5 Segmentando Imagens . . . . . . . . . . . . . . . . . . . . . . 141
B.2.6 Extraindo e Editando Malhas . . . . . . . . . . . . . . . . . . 144
B.2.7 Aplicando o Metodo das Linhas de Transmissao (MLT) . . . . 147
B.2.8 Salvando Arquivos . . . . . . . . . . . . . . . . . . . . . . . . 152
Bibliografia

153

xi

Lista de Figuras

1.1

Sistema de producao da voz humana. (Adaptada da referencia [6]) . .

1.2

Ciclo de vibracao das cordas vocais. (Adaptada de Titze [8]) . . . . .

1.3

M
usculos e cartilagens da laringe. (Adaptada da referencia [6]) . . . .

1.4

O trato vocal. (Adaptada da referencia [10]) . . . . . . . . . . . . . .

1.5

Modelo de Flanagan e Landgraf. (Adaptada de Titze [8]) . . . . . . .

1.6

Modelo de Ishizaka e Flanagan. . . . . . . . . . . . . . . . . . . . . .

1.7

A onda mucosa se reflete na parte posterior e volta fazendo com que


as cordas vocais se choquem no ponto de contato/impacto. . . . . . .

1.8

Aproximacoes geometricas para as cordas vocais. (a) Referencia [29],


(b) Referencia [18], (c) Referencia [32] e (d) Referencia [31].

1.9

. . . . . 12

Funcao area do trato vocal. . . . . . . . . . . . . . . . . . . . . . . . 13

1.10 Modelo de tubos para o trato vocal. (Adaptada de Titze [8]) . . . . . 15


1.11 Circuito em T equivalente a um tubo cilndrico. . . . . . . . . . . . . 15
1.12 Equivalente eletrico do circuito ac
ustico. . . . . . . . . . . . . . . . . 16
1.13 Equivalente eletrico do trato vocal. (Mokhtari et al. [38]) . . . . . . . 16

xii

1.14 Determinacao da funcao area por IRM. (a) Serrurier [44] e (b) Hannukainen [45]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.15 Cortes sagitais, coronais oblquos e transversais. (Referencia [46]) . . 18
1.16 Aproximacao do trato vocal considerando o palato. (Referencia [59]) . 19
1.17 Exemplos de tratos vocais descritos por um u
nico material. (a) Referencia [54], (b) Referencia [57], (c) Referencia [35] e (d) Referencia
[60]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.18 Modelo de trato vocal considerando o palato. (Dedouch et al. [62]) . 22
2.1

Alinhamento dos spins dos protons. (a) Estado normal. (b) Estado
apos imersao no campo magnetico. . . . . . . . . . . . . . . . . . . . 27

2.2

Imagens volumetricas. (a) Geometricamente isotropica. (b) Geometricamente anisotropica. . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1

Diagrama do modelo fonte-filtro. (Adaptada da referencia [1]) . . . . 33

3.2

Pressao e Fluxo de Ar na posicao L em um tubo. (a) Tubo fechado.


(b) Tubo aberto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3

(a) Concatenacao de dois tubos formando a vogal /a/. (b) Soma em


paralelo das impedancias ac
usticas na juncao. . . . . . . . . . . . . . 42

3.4

Aplicacao 3D do MLT. (a) Propagacao no instante t. (b) Propagacao


no instante t + t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.5

Modelo de No Shunt 3D sem perdas. (a) Representacao em linhas de


transmissao. (b) Circuito equivalente. . . . . . . . . . . . . . . . . . . 44

3.6

Dispersao numerica no MLT. (Adaptada da referencia [67]) . . . . . . 48

xiii

4.1

Estrurutura basica do ModaVox.

. . . . . . . . . . . . . . . . . . . . 56

4.2

Sessao de trabalho do ModaVox. . . . . . . . . . . . . . . . . . . . . . 57

4.3

Removedor de atenuacao. (a) Granulacao da amostragem. (b) Imagem de RM apos a subtracao do perfil de intensidade. . . . . . . . . . 58

4.4

Selecao do volume de interesse. (a) Fatias de RM originais. (b) Fatias


de RM apos a selecao do trato vocal. . . . . . . . . . . . . . . . . . . 59

4.5

Amostragem da imagem por uma vizinhanca 3 3. . . . . . . . . . . 64

4.6

Algoritmo da rede neural. (a) Treinamento. (b) Segmentacao. . . . . 65

4.7

Segmentacoes nos planos Sagital, Axial e Coronal.

4.8

Formacao do volume segmentado. . . . . . . . . . . . . . . . . . . . . 67

4.9

Contorno de uma superfcie interceptando celulas. . . . . . . . . . . . 68

. . . . . . . . . . 66

4.10 Combinacoes possveis de uma superfcie atravessando uma celula


c
ubica. (Adaptada de Hansen e Johnson [117]) . . . . . . . . . . . . . 69
4.11 Tetraedralizacao de malhas. (a) Malha de superfcie. (b) Tetraedralizacao do interior. (Vista em corte mostrando as fatias da imagem
medica 3D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.12 Comparacao entre malhas. (a) Tetraedrica (MEF) e (b) Arestas ortogonais (MLT). Vistas em corte com os planos mostrando o volume
segmentado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.13 Estrutura de um arquivo do ModaVox (*.mvx). . . . . . . . . . . . . 75
4.14 Documentacao do ModaVox em HTML. . . . . . . . . . . . . . . . . 76

xiv

5.1

(a) Sinal de voz real para a vogal /a/. (b) Sinal glotal obtido por
filtragem inversa do sinal em (a). . . . . . . . . . . . . . . . . . . . . 84

5.2

Tubos com diametro 24 mm e comprimento 170 mm. (a) Aberto. (b)


Fechado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.3

Respostas em frequencia compatveis com tubos de comprimento maior.


(Simulacoes nos tubos da Fig. 5.2 com c = 343, 1 m/s). (a) Aberto.
(b) Fechado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.4

Velocidade aparente em 3D. Dependendo da direcao, as distancias


podem ser percorridas pelos pulsos em tempos diferentes. . . . . . . . 89

5.5

Tubos com diametro 24 mm e comprimento 93 mm. (a) Aberto e (b)


Fechado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.6

Respostas em frequencia (Simulacoes nos tubos da Fig. 5.5 com c =


343, 1 m/s). (a) Aberto. (b) Fechado. . . . . . . . . . . . . . . . . . . 90

5.7

Respostas em frequencia (Simulacoes nos tubos da Fig. 5.2 com c =


628, 7307 m/s). (a) Aberto. (b) Fechado. . . . . . . . . . . . . . . . . 91

5.8

Tubos com diametro 12 mm e comprimento 170 mm. (a) Aberto e


(b) Fechado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.9

Respostas em frequencia (Simulacoes nos tubos da Fig. 5.8 com c =


628, 7307 m/s). (a) Aberto. (b) Fechado. . . . . . . . . . . . . . . . . 92

5.10 Tubos com diametro 12 mm e comprimento 170 mm (entrada proxima


`a parede). (a) Aberto e (b) Fechado. . . . . . . . . . . . . . . . . . . 92

xv

5.11 Respostas em frequencia (Simulacoes nos tubos da Fig. 5.10 com


c = 628, 7307 m/s e a entrada junto `a parede). (a) Aberto. (b)
Fechado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.12 Tubos com diametro 12 mm e comprimento 170 mm, considerando
L = 0, 968498 mm. (a) Aberto e (b) Fechado. . . . . . . . . . . . . 93
5.13 Respostas em frequencia (Simulacoes nos tubos da Fig. 5.12 com
L = 0, 968498 mm e c = 628, 7307 m/s). (a) Aberto. (b) Fechado. . 94
5.14 Concatenacao de 2 Tubos formando a vogal /a/. . . . . . . . . . . . . 95
5.15 Concatenacao de 2 tubos para vogal /a/. (a) Impedancia ac
ustica
dada pela Eq. (3.29) em escala logartmica. (b) Resposta em frequencia
(Simulacao com c = 628, 7307 m/s). . . . . . . . . . . . . . . . . . . . 96
5.16 Trato vocal formando a vogal /a/. O plano de corte exibe uma fatia
sagital da sequencia de imagens.

. . . . . . . . . . . . . . . . . . . . 96

5.17 Respostas em frequencia do trato vocal para a Vogal /a/. (Reais vs.
Simulacao pelo MLT). . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.18 Efeito do filtro glotal no modelo fonte-filtro. (a) Sinal glotal como
entrada. (b) Sinal da Eq. (5.3) como entrada. . . . . . . . . . . . . . 99
5.19 Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes rgidas e o sinal da Eq. (5.3) como entrada. (a) Sinal
de sada. (b) Comparacao das FFTs (Real vs. Simulacao MLT). . . . 100
5.20 Malha MLT do trato vocal exibida de forma transl
ucida para visualizacao completa dos pontos de entrada e sada selecionados. . . . . . 100

xvi

5.21 Simulacao MLT na malha do trato vocal considerando c = 628, 7307


m/s, paredes rgidas e o sinal da Eq. (5.3) como entrada. Comparacao
das FFTs das sadas nos pontos: (a) 74796, (b) 74991, (c) 60560 e
(d) 74995. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.22 Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes de tecido mole humano e o sinal da Eq. (5.3) como
entrada. (a) Sinal de sada. (b) Comparacao das FFTs (Real vs.
Simulacao MLT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.23 Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes de tecido mole humano e o sinal glotal da Fig. 5.1-(b)
como entrada. (a) Sinal de sada. (b) Comparacao das FFTs (Real
vs. Simulacao MLT). . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.24 Comparacao no domnio do tempo. As linhas verticais marcam os
perodos fundamentais encontrados pelo algoritmo descrito em [2].
(a) e (b) Sinal de sada da simulacao MLT. (c) e (d) Voz humana. . . 105
5.25 Resposta em frequencia do filtro glotal. . . . . . . . . . . . . . . . . . 106
5.26 (a) Sinal da Fig. 5.23-(a) apos acentuacao do filtro glotal. (b) Comparacao entre as FFTs do sinal de voz real na Fig. 5.1-(a) e o sinal
em (a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

xvii

5.27 Comparacao no domnio do tempo entre o sinal de sada da simulacao


MLT e a voz humana. Os intervalos entre as linhas verticais representam os perodos fundamentais encontrados pelo algoritmo descrito
em [2]. (a) e (b) Sinal de sada da simulacao MLT apos acentuacao
da taxa de reducao harmonica do filtro glotal. (c) e (d) Voz humana. 107
5.28 Impedancia ac
ustica dada pela Eq. (3.29) em escala logartmica para
o modelo de dois tubos (vogal /a/). (a) Considerando a velocidade
do som c = 343, 1 m/s. (b) Considerando a velocidade aparente do
som determinada na Subsecao 5.4.1 (c = 187, 2278 m/s). . . . . . . . 109
5.29 Dados escalares nas malhas MLT. (a) Concatenacao de 2 tubos apos
247 iteracoes em 4 min 26 s, correspondendo a 0,00039286 s de som.
(b) Trato vocal apos 376 iteracoes em 10 min 18 s, correspondendo a
0,00057919 s de som. . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
B.1 Tela de Abertura do ModaVox. . . . . . . . . . . . . . . . . . . . . . 136
B.2 Abrindo Series de Imagens no ModaVox. . . . . . . . . . . . . . . . . 137
B.3 Janela com as Series de Imagens contidas no diretorio. . . . . . . . . 137
B.4 ModaVox pergunta ao usuario se deseja remover anisotropia da imagem.138
B.5 Serie de imagens 3D geometricamente isotropica aberta pelo ModaVox.139
B.6 Ferramenta para selecao do volume de interesse (VOI). . . . . . . . . 140
B.7 Interface da ferramenta de segmentacao por Crescimento de regioes. . 141
B.8 Interface das ferramentas de Segmentacao Manual.

. . . . . . . . . . 142

B.9 Caixa de Ferramenta Segmentacao de Imagens. . . . . . . . . . . . . 144

xviii

B.10 Ferramenta para Extracao/Edicao de Malhas. . . . . . . . . . . . . . 145


B.11 Ferramenta para aplicacao de metodos numericos. . . . . . . . . . . . 147
B.12 Distribuicao da pressao na malha do trato vocal apos 15 iteracoes. . . 151

xix

Lista de Tabelas

5.1

Impedancia ac
ustica de alguns materiais. (Adaptada da referencia
[78]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.2

Resumo das simulacoes. . . . . . . . . . . . . . . . . . . . . . . . . . 112

xx

Captulo 1
Introduc
ao

Um melhor entendimento dos mecanismos do sistema de producao da voz humana envolve diversas areas do conhecimento como, por exemplo, Ac
ustica, Mecanica
Computacional, Biomecanica, Processamento de Sinais, etc. Muita pesquisa tem
sido realizada sobre a modelagem do sistema de producao da voz [1, 2, 3, 4, 5],
cujo funcionamento e complexo em seus diversos componentes, exigindo o desenvolvimento de melhores modelos computacionais para descreve-lo. A opcao por
programacao em codigo aberto permite a construcao de ferramentas eficazes e, ao
mesmo tempo, permite o estudo, o desenvolvimento e a realizacao de melhorias no
codigo por parte dos proprios pesquisadores e estudantes, de modo a acompanhar
os avancos tecnologicos.
Com isso em mente, um aplicativo com codigo aberto, chamado ModaVox
(Modelador da Voz), foi desenvolvido como parte desta tese para estudar a propagacao
ac
ustica em um modelo numerico tridimensional do trato vocal humano reconstrudo

a partir da segmentacao de imagens de ressonancia magnetica. O programa possui


funcionalidades de segmentacao de imagens de tomografia computadorizada (TC)
e de ressonancia magnetica (RM), geracao de malhas para o metodo dos elementos finitos (MEF) e para o metodo das linhas de transmissao (MLT), aplicacao de
valores de contorno e condicoes iniciais nas malhas e aplicacao do MLT.
As secoes deste captulo estao distribudas da seguinte forma: Na secao 1.1, e
feita uma breve apresentacao do processo de producao da voz e nas secoes 1.2 e 1.3
apresenta-se uma descricao resumida de alguns trabalhos anteriores permitindo uma
revisao bibliografica e apresentando os avancos nos metodos de modelagem que vem
sendo usados para estudos das cordas vocais e do trato vocal. A secao 1.4 compara os
metodos numericos utilizados nos estudos de producao da voz. Os outros captulos
do texto estao divididos da seguinte forma: O Captulo 2 descreve as tecnicas de
visualizacao de imagens medicas utilizadas e os motivos da escolha das imagens de
RM para posterior segmentacao e geracao das malhas tridimensionais do trato vocal.
O Captulo 3 descreve a Modelagem da propagacao ac
ustica no trato vocal, incluindo
a formulacao matematica para o MLT. O Captulo 4 descreve o desenvolvimento
do programa ModaVox mostrando detalhes do projeto, como o compilador C++
utilizado, as bibliotecas includas e/ou desenvolvidas, a estrutura do aplicativo, a
geracao de malhas para o MEF e MLT, a geracao da documentacao do codigo e
uma breve descricao das funcionalidades do programa. O Captulo 5 descreve as
simulacoes realizadas aplicando o MLT em diferentes modelos de trato vocal, bem
como os resultados obtidos. Devido a restricoes de tempo e `a maior complexidade
envolvida neste trabalho, a modelagem da movimentacao aerodinamica das cordas
2

vocais, bem como a analise do trato vocal pelo MEF, ainda nao e feita pelo programa
ModaVox, ficando para uma outra oportunidade. No Captulo 6, sao apresentadas
as conclusoes e as sugestoes para trabalhos futuros.

1.1

O sistema de produ
c
ao da voz
A voz humana pode ser entendida em sua forma mais simples como resultado

de um sistema fonte-filtro [1].


No processo de vocalizacao, as cordas vocais sao inicialmente aduzidas (aproximadas) pelos m
usculos larngeos e comecam a vibrar, devido ao fluxo de ar proveniente dos pulmoes, que passa entre elas, conforme ilustra a Fig. 1.1.

Figura 1.1: Sistema de producao da voz humana. (Adaptada da referencia [6])

Este movimento vibratorio ocorre em funcao da elasticidade das cordas vocais,


da tensao dos m
usculos da laringe, e do efeito de Bernoulli1 [7]. A ilustracao
1

Efeito causado pela press


ao criada atr
as do volume de ar que passa atraves da glote e que faz

com que as cordas vocais se fechem primeiro na parte inferior e depois na superior.

na Fig. 1.2 mostra a sequencia de movimentos para um u


nico ciclo vibratorio das
cordas vocais.

Figura 1.2: Ciclo de vibracao das cordas vocais. (Adaptada de Titze [8])

Para cada ciclo vibratorio, as cordas vocais se abrem, devido `a acao da pressao
do ar dos pulmoes. Este fluxo, que passa atraves da glote (espaco entre as cordas
vocais), atinge seu apice e entao a pressao criada atras desse volume de ar produz
o chamado efeito Bernoulli, fazendo com que as cordas vocais se fechem. Estes
ciclos vibratorios se repetem muitas vezes por segundo (dependendo da pessoa e
da tensao aplicada nas cordas vocais) formando o sinal glotal. O n
umero de ciclos por segundo corresponde `a frequencia fundamental da voz (tambem chamada
de pitch). Os pulsos de ar gerados pela vibracao das cordas vocais sofrem a influencia (filtragem) do sistema de ressonancia proporcionado pelos orgaos do trato
vocal (faringe e cavidades oral e nasal). Ha, ainda, a acao dos orgaos do sistema
articulador (lngua, palato mole, maxilar e labios) que modificam as propriedades
de filtragem dos orgaos do sistema de ressonancia sobre o sinal glotal, irradiando o
som para o espaco livre. A taxa atraves da qual as cordas vocais vibram durante a
fonacao pode ser modificada de diversas formas atraves do controle pelos m
usculos
larngeos e pela pressao de ar gerada pelos pulmoes. Durante a conversacao normal, a frequencia fundamental e alterada constantemente, fornecendo informacao

lngustica, atraves de padroes de entonacao que indiquem perguntas, afirmativas


ou o conte
udo emocional do indivduo. Brandao, Cataldo e Leta [2] desenvolveram
um algoritmo para a deteccao da frequencia fundamental de sinais de voz. A Fig.
1.3 ilustra algumas partes da laringe.

Figura 1.3: M
usculos e cartilagens da laringe. (Adaptada da referencia [6])

O trato vocal e formado pela faringe e pelas cavidades oral e nasal, funcionando
como um guia de onda ou filtro ac
ustico que deixa passar o sinal sonoro produzido
pela vibracao das cordas vocais em determinadas frequencias enquanto atenua o
mesmo em outras. Sao chamadas de formantes as componentes de frequencia do
sinal de voz que sao enfatizadas para uma determinada configuracao do trato vocal.
De acordo com a forma que o trato vocal assuma, sao geradas diferentes combinacoes
de frequencias formantes gerando os diferentes sons vocalicos. Para uma descricao
mais detalhada do sistema de producao da voz, pode-se consultar o segundo captulo
da referencia [9]. A Fig. 1.4 ilustra algumas partes do trato vocal.

Figura 1.4: O trato vocal. (Adaptada da referencia [10])

1.2

Estudos anteriores sobre as cordas vocais


Os primeiros modelos do sistema vocal humano foram desenvolvidos por Flana-

gan e Landgraf [11], que representaram a movimentacao das cordas vocais a partir
de modelos mecanicos massa-mola-amortecedor, como ilustrado na Fig. 1.5.

Figura 1.5: Modelo de Flanagan e Landgraf. (Adaptada de Titze [8])

Segundo esses modelos, as equacoes que fornecem a dinamica das cordas vocais
sao dadas por
M x(t) + B x(t)
+ Kx(t) = F (x, t)

(1.1)

onde x(t) e o deslocamento da massa M, B e K sao as constantes de rigidez e


6

elasticidade, respectivamente e F (x, t) e a forca aplicada ao sistema, considerada


como a media entre as pressoes subglotal e supraglotal.
Em 1972, Ishizaka e Flanagan [12] avancando na ideia, sugeriram um modelo
para as cordas vocais, desta vez, composto por duas massas. Tal modelo considera
cada uma das cordas vocais como um sistema de duas massas, ligadas `as paredes da
laringe por duas molas nao lineares S1 e S2 , e ligadas entre si por uma mola linear
KC . O modelo esta esquematizado na Fig. 1.6.

Figura 1.6: Modelo de Ishizaka e Flanagan.

A base deste outro trabalho foi a tentativa de modelar mais fielmente o movimento das cordas vocais atraves de um modelo de duas massas. As massas movem-se
somente na direcao transversal. O movimento das duas cordas vocais e considerado
simetrico, assim, somente e equacionado o movimento de uma delas. Os deslocamentos xj (t) de cada uma das massas sao regidos pelo sistema de equacoes abaixo:

M1 x1 + S1 (x1 ) + B1 (x 1 ) + kc (x1 x2 ) = F1
(1.2)

M2 x2 + S2 (x2 ) + B2 (x 2 ) + kc (x2 x1 ) = F2
onde S1 e S2 sao as relacoes das molas nao-lineares dadas por Sj (x) = Kj x(1+j x2 ),
para j=1,2. Os coeficientes Kj representam a rigidez linear e j sao coeficientes
positivos que caracterizam a nao-linearidade das molas. As forcas F1 e F2 dependem
7

da pressao subglotal, do fluxo glotal e da area da regiao entre as cordas vocais.


Foram propostas modificacoes na forma de onda da pressao dos modelos de
uma [11] e duas [12] massas, fazendo com que ela variasse de forma senoidal [13].
Isto proporcionou melhoras consideraveis na qualidade da voz sintetizada.
Apesar dos modelos massa-mola-amortecedor serem capazes de capturar as
propriedades basicas do movimento das cordas vocais, muitos detalhes desse movimento sao desconsiderados devido `a sua representacao matematica simplificada. As
cordas vocais sao mais espessas na regiao posterior do que na regiao anterior, logo,
sob a acao do fluxo de ar, elas se abrirao primeiro na parte anterior indo em direcao
`a parte posterior, formando uma onda, que e a onda mucosa, a qual percorrera a
extensao das cordas vocais `a medida em que o fluxo de ar e mantido, como indicam
as setas na Fig. 1.7.

Figura 1.7: A onda mucosa se reflete na parte posterior e volta fazendo com que as
cordas vocais se choquem no ponto de contato/impacto.

Apos os modelos simplificados de duas massas, foram construdos modelos


mais complexos visando reproduzir os padroes de vibracao irregulares das cordas
vocais [14, 15, 16, 17, 18, 19]. Berry et al. [16] usaram funcoes empricas ortogonais
8

para determinar os modos espaciais dominantes em um modelo de elementos finitos


das cordas vocais, mostrando que mesmo padroes complexos de vibracao podem ser
explicados por poucos modos de vibracao e, alem disso, os modos de alta ordem
podem ser extrados deste modelo biomecanico em casos de fonacao irregular. Os
estudos com funcoes ortogonais empricas confirmaram e estenderam os resultados
obtidos a partir de modelos teoricos [17]. Titze e Strong [19] propuseram um modelo
com 16 massas. Outros artigos [5, 20] tambem consideraram os padroes de vibracao
irregulares das cordas vocais na modelagem.
Mergell, Herzel e Titze [21] descreveram as irregularidades vocais atraves da
combinacao entre glotografia digital de alta velocidade e modelagem biomecanica.
Porem, as consideracoes feitas em seu modelo ignoraram as variacoes nas propriedades das cordas vocais ao longo da direcao anterior-posterior.
A teoria da dinamica nao linear fornece uma estrutura para a classificacao das
instabilidades vocais [22, 23, 24, 25]. Em varios estudos, atratores2 e bifurcacoes3
tem sido analisados em modelos biomecanicos das cordas vocais [16, 25, 26].
A video-estroboscopia apenas e u
til nos casos em que as cordas vocais vibram de forma quase periodica. Ja a glotografia digital de alta velocidade permite
observacao direta da dinamica da laringe, bem como a analise, em separado, da
vibracao das cordas vocais nos lados esquerdo e direito [27, 28].
Decker e Thomson [29] usaram um modelo de elementos finitos bidimensional
2

Um atrator e um conjunto de valores para o qual a solucao de um sistema dinamico tende ap


os

haver decorrido tempo suficiente.


3

Bifurcaca
o e um ponto do conjunto solucao de um problema descrevendo um sistema dinamico,

no qual passa a haver mais de uma solucao possvel.

baseado na equacao de energia mecanica para tentar predizer a carga aerodinamica


do fluxo de ar entre as cordas vocais. Os resultados obtidos foram, entao, comparados com os resultados da equacao de Navier-Stokes e eles concluram que para
pequenas aberturas glotais as previsoes para pressao intraglotal e do fluxo foram
satisfatorias e para grandes aberturas nao. Porem, os resultados obtidos com base
em modelos bidimensionais nao sao tao confiaveis quando se trata de estudar a
laringe e o trato vocal, porque sao conclusoes extradas com base em modelos simplificados. Por exemplo, as comparacoes acima foram feitas em relacao ao modelo
em elementos finitos da equacao de Navier-Stokes tambem bidimensional. Assim,
e possvel que mesmo os resultados que coincidiram nos dois modelos se revelem
possvel observar
completamente diferentes daqueles medidos em um ser humano. E
ideias interessantes nesses trabalhos do ponto de vista matematico, porem, modelos
muito simplificados nao conseguem recriar o sistema de forma satisfatoria.

Svec
et al. [30] tentaram investigar as propriedades de ressonancia dos tecidos
das cordas vocais excitando-as atraves de um shaker 4 e observando as vibracoes
atraves de laringoscopia. Este metodo e sujeito a varios problemas de imprecisao
devido a dificuldades de implementacao. Por exemplo, quando o shaker e posicionado na parte externa do pescoco e observado por meios de vdeo-estroboscopia,
nao sendo possvel excitar diretamente cada uma das estruturas da laringe. Nao
existe controle para padronizar o ajuste das cordas vocais na posicao neutra, ou
seja, dependendo da tensao exercida nas cordas vocais, suas propriedades dinamicas
4

Um shaker e um equipamento que induz vibracoes mec


anicas em uma determinada estrutura

fsica para determinar, por medicoes atraves de outros instrumentos, seu comportamento vibratorio.

10

sao alteradas. Um outro problema e que mesmo uma pequena quantidade de fluxo
glotal pode influenciar o comportamento das cordas vocais, porem, para o indivduo
examinado, e difcil perceber este fluxo com um shaker vibrando em seu pescoco.
necessario tambem um modelo de colisao e contato entre as cordas vocais
E
para que se possa simular precisamente a sua movimentacao. Gunter [31] desenvolveu um modelo 3D que representa um problema de contato nao linear e aplicou
elementos finitos a uma u
nica corda vocal, considerando a elasticidade linear. Porem,
supos uma linha media, imaginando que a outra corda vocal se comporta exatamente
igual `a primeira. Gunter tambem conclui que as forcas elasticas desempenham um
papel importante na determinacao das variaveis aerodinamicas associadas com a
qualidade vocal. Embora outros trabalhos como este considerem tambem a elasticidade associada com os tecidos, para um maior realismo, e necessario considerar
sua elasticidade em cada ponto da estrutura, e nao considerar o mesmo modulo de
elasticidade para a estrutura inteira.
Dois problemas principais impedem a modelagem precisa das cordas vocais.
O primeiro problema e relativo `a sua forma exata, onde os modelos massa-mola
conseguem fazer simulacoes razoaveis, mas ainda nao sao adequados. O segundo
problema e relativo `a elasticidade dos tecidos, a qual varia para diferentes pontos
das cordas vocais e ainda em funcao das contracoes musculares, o que deveria ser
refletido tambem nos modelos.
Os modelos em elementos finitos envolvendo malhas que simulam a forma
estrutural das cordas vocais atraves de aproximacoes geometricas tambem obtiveram
resultados razoaveis [14, 17, 18, 19, 31, 32], porem esses modelos nao representam a
11

forma com precisao suficiente, nao sendo possvel recriar todos os detalhes. A Fig.
1.8 apresenta alguns modelos geometricos das cordas vocais.

(a)

(b)

(c)

(d)

Figura 1.8: Aproximacoes geometricas para as cordas vocais. (a) Referencia [29],
(b) Referencia [18], (c) Referencia [32] e (d) Referencia [31].

Com as tecnicas de imageamento por ressonancia magnetica (IRM) e possvel


resolver o problema da forma da estrutura na modelagem tridimensional, pois elas
permitem a visualizacao espacial da maioria dos tecidos5 . Assim, e possvel obter
malhas individualizadas para modelagem, restando apenas o problema da determinacao das caractersticas do tecido em cada ponto, o qual pode ser resolvido
atraves da tecnica de imageamento chamada elastografia [33].
A elastografia por ressonancia magnetica (ERM) e uma tecnica que permite
obter as propriedades mecanicas dos tecidos. Ela consiste em provocar ondas mecanicas nos tecidos e usar um equipamento de RM para medir as variacoes na posicao dos
mesmos com base nos deslocamentos observados. Assim, e possvel obter imagens
onde os pixels (ou voxels 6 ) representam a elasticidade em cada ponto dos tecidos.
Certas partes do sistema de producao da voz podem ser melhor modeladas
5

Com excecao dos dentes.

Um voxel, e o elemento de volume em uma imagem tridimensional. Assim como o pixel e um

elemento de
area em uma imagem bidimensional.

12

ao considerarmos o aspecto estocastico, atraves da modelagem de incertezas presentes nessas partes. Isto pode ser feito atraves da associacao de variaveis aleatorias
a parametros do sistema e construndo, para cada variavel aleatoria, uma funcao
densidade de probabilidade de acordo com uma certa estrategia [34]. Nos artigos
das referencias [3, 4] as funcoes densidade de probabilidade foram construdas com
base no Princpio da Maxima Entropia, construindo um sistema dinamico nao-linear
estocastico visando a geracao de sons vocalicos. Seu resultado foi obtido com base
no modelo de duas massas para as cordas vocais e o trato vocal foi representado
pelo modelo de tubos.
A tarefa de modelagem 3D das cordas vocais envolve detalhes como a colisao
das cordas vocais, movimentacao do fluxo de ar, variacao dos carregamentos para
as diferentes posicoes e pontos das cordas vocais, estimacao/medicao precisa dos
valores iniciais e de contorno.

1.3

Estudos anteriores sobre o trato vocal


Analogamente ao caso das cordas vocais, os estudos sobre o trato vocal

tambem partiram de modelos mais simples. A funcao area do trato vocal fornece a
area de secao transversal em relacao ao eixo do trato vocal para cada ponto localizado nesse eixo a uma determinada distancia da glote, Fig. 1.9.

Figura 1.9: Funcao area do trato vocal.


13

Os calculos baseados em modelos unidimensionais dependem das funcoes de


area do trato vocal e da limitacao da faixa de frequencia em um certo valor. Segundo
Motoki [35], a secao transversal do trato vocal deve ser menor que a metade de um
comprimento de onda para que o modelo de onda plana possa ser utilizado. Por
exemplo, se a maxima secao transversal do trato vocal e em torno de 5 cm tem-se
um limite de frequencia em torno de 3,5 kHz que e o limite superior da faixa de
frequencias da voz humana7 . A partir deste valor de frequencia comecam a surgir
modos de propagacao adicionais, nao descritos pelos modelos unidimensionais. Por
isso, para altas frequencias, nao e valido considerar a onda ac
ustica que se propaga
pelo trato vocal como uma onda plana.
Um modelo amplamente utilizado para o trato vocal humano e o modelo KellyLochbaum (KL) [36]. Este modelo, cuja primeira versao foi de Fant [1], e do tipo
unidimensional e aproxima o trato vocal como sendo uma sequencia de tubos, representados por guias de onda digitais. O modelo em [37] apresenta um esquema para
a solucao numerica em tempo real da equacao ac
ustica unidimensional discretizada
em um tubo com secoes transversais variaveis. Sua vantagem sobre o modelo KL
e a possibilidade de realizar mudancas em tempo real no comprimento do trato e
tambem de variar a funcao area.
Existe uma analogia entre as ondas de pressao e as ondas eletricas, tal que
a pressao equivale `a diferenca de potencial, ou tensao eletrica, e o escoamento de
ar, causado pela diferenca de pressao entre dois pontos, equivale `a corrente eletrica,
que surge quando ha diferenca de potencial eletrico entre dois pontos. Assim, nos
7

A faixa de frequencias da voz humana abrange de 0 a 3,5 kHz.

14

primeiros trabalhos, como o de Flanagan e Landgraf [11], era definido um sistema


de equacoes de malha de circuitos eletricos para representar o conjunto de sessoes
cilndricas atraves do qual o trato vocal foi modelado. A sequencia de n tubos
cilndricos, com areas das secoes transversais A1 , A2 , . . . , An , e os comprimentos
dos tubos 1 , 2 , . . . , n , sao mostrados na Fig. 1.10.

Figura 1.10: Modelo de tubos para o trato vocal. (Adaptada de Titze [8])

As secoes cilndricas sao representadas por linhas de transmissao, como ilustrado


na Fig. 1.11.

Figura 1.11: Circuito em T equivalente a um tubo cilndrico.

A irradiacao do som pela boca e modelada como uma impedancia de radiacao,


de forma similar `a modelagem de uma antena em sistemas eletricos, formada por uma
resistencia Rr e por uma indutancia Lr em paralelo. O som sintetizado corresponde
`a diferenca de pressao entre os terminais dessa impedancia.
Modelando matematicamente as funcoes dos quatro grupos do sistema fonador
humano, chegou-se ao circuito equivalente ac
ustico da Fig. 1.12:

15

Figura 1.12: Equivalente eletrico do circuito ac


ustico.
A solucao numerica das equacoes correspondentes ao circuito da Fig. 1.12, para
cada instante de amostragem, gera uma sequencia de valores que representa a voz
sintetizada. Mokhtari et al. [38], construram um modelo de trato vocal em linhas
de transmissao que permite a inclusao de um n
umero indefinido de ramificacoes para
representar reentrancias do trato vocal e do trato nasal, Fig. 1.13.

Figura 1.13: Equivalente eletrico do trato vocal. (Mokhtari et al. [38])


interessante notar que o artigo de Mokhtari demonstra que os metodos baseaE
dos em linhas de transmissao sao compatveis com o problema ac
ustico a ser descrito
no trato vocal. Em [39], os autores representam o trato vocal atraves de malhas
de guias de ondas (ou linhas de transmissao). Modelos 1D e 2D sao comparados
16

chegando-se `a conclusao de que o modelo 2D apresenta precisao similar ao modelo


1D, porem, o modelo 2D apresenta maior realismo. Os autores tambem sugerem
que um modelo em tres dimensoes permitiria uma modelagem mais completa.
A funcao area e importante nas simulacoes 1D do trato vocal e para sntese de
voz. Muitos trabalhos foram dedicados a determinar ou estimar esta funcao. Alguns
por filtragem inversa a partir do sinal de voz [40, 41]. Em [42] foram combinadas
imagens de tomografia com dados ac
usticos e da geometria dos labios procurando
melhorar a confiabilidade na obtencao da funcao area.
Story [43] criou um modelo parametrico para controlar a funcao area do trato
vocal permitindo a simulacao de consoantes e vogais. Conclui dizendo que seu modelo ainda possui algumas limitacoes, e que para configurar os valores dos parametros
que controlam a funcao area em seu modelo e necessario coletar um grande n
umero
de amostras de voz.
A dificuldade em se modelar a complexa estrutura dos orgaos do corpo humano,
especialmente a laringe e o trato vocal, e que as formas aproximadas perdem detalhes
como pequenas deformacoes, protuberancias e assimetrias naturais dos tratos vocais
reais. Visando transpor esta dificuldade e notando o avanco das modernas tecnicas
de analise de imagens por RM e TC, o proximo passo dos pesquisadores foi utilizar a
visualizacao tridimensional proporcionada para gerar, com maior precisao e realismo,
a descricao da estrutura do trato vocal nos modelos, permitindo a sua representacao
com mnima perda de detalhes. Tornou-se possvel, por exemplo, extrair a funcao
area com grande precisao, Fig. 1.14.

17

(a)

(b)

Figura 1.14: Determinacao da funcao area por IRM. (a) Serrurier [44] e (b) Hannukainen [45].
Demolin, Metens e Soquet [46] usaram imagens de RM para obter as areas das
secoes do trato vocal em cortes sagitais, coronais, coronais oblquos e transversais.
Os dados coletados permitem a medicao precisa da area em diferentes pontos do
eixo do trato vocal, como ilustrado na Fig. 1.15.

Figura 1.15: Cortes sagitais, coronais oblquos e transversais. (Referencia [46])

Desse modo, as areas podem ser obtidas durante a emissao de vogais, modelando as diferentes formas que a estrutura do trato vocal pode assumir.
Diversos artigos [47, 48, 49, 50, 51] utilizaram com sucesso as tecnicas de
processamento e analise de imagens de RM para obter informacoes sobre a estrutura
do trato vocal. Entretando, imagens geometricamente anisotropicas (ver Captulo
2) podem influenciar a forma do modelo. Isso pode ser constatado, por exemplo, no
18

trabalho de Clement [52], que calculou os valores das formantes para as vogais /a/,
/i/ e /u/ do idioma frances, atraves das funcoes areas obtidas por IRM concluindo
que, em todos os casos, as formantes calculadas diferiam significativamente das
formantes reais, o que foi atribudo ao uso de fatias com 4 mm de espessura.
Com as IRM, foi possvel definir modelos articulatorios 3D para o trato vocal
[53, 54] e algumas de suas partes componentes: lngua [55, 56, 57, 58], velum [44]
e palato [59]. Vogt [58] desenvolveu uma simulacao em elementos finitos de uma
lngua ativada por m
usculos usando um esquema rigidez-arqueamento que permite
alcancar velocidades de simulacao ate dez vezes o tempo real. Ao fazer isso, porem,
seu modelo perde um pouco em precisao. Engwall [56] criou seus proprios parametros
envolvendo 43 posicoes sustentadas da lngua para o idioma sueco. No idioma Portugues brasileiro tambem existem muitas posicoes sustentadas para a lngua. Porem,
no modelo descrito nesta tese, as simulacoes sao realizadas diretamente na malha
3D sem extrair secoes transversais do trato vocal para criar concatenacoes de tubos
como nos modelos articulatorios. Logo, simular muitas variacoes seria muito complexo, ficando reservado para estudos futuros. Vohradnik et al. [59] construram um
modelo aproximado em elementos finitos dos espacos ac
usticos correspondentes ao
trato vocal e ao trato nasal de um homem adulto. Seu modelo foi criado de acordo
com dados geometricos publicados na literatura, Fig. 1.16.

Figura 1.16: Aproximacao do trato vocal considerando o palato. (Referencia [59])

19

A influencia do palato mole na pron


uncia da vogal /a/ foi estudada usando
analise modal do modelo de elementos finitos. Os resultados da simulacao numerica
ficaram razoavelmente de acordo com as observacoes clnicas, concluindo que as
formantes F1 e F2 sao influenciadas muito pouco pelo aumento da interconexao
entre as cavidades oral e nasal. Por outro lado, as outras formantes oro-nasais F3 e
F4 alteram seus valores significativamente. A alteracao nos valores das formantes e
grande para pequenas aberturas e pequeno para grandes aberturas do palato mole.
Motoki [35] usou o MEF para estudar as caractersticas ac
usticas em um modelo 3D de trato vocal em frequencias acima de 4 KHz para as quais a onda propagante nao pode ser considerada plana. Seus estudos revelam que a existencia de
ramificacoes no trato vocal cria zeros em determinadas frequencias formando fortes
ondas estacionarias nas ramificacoes. Nishimoto e Akagi [60] estimaram as funcoes
de transferencia e as distribuicoes de pressao para modelos de trato vocal 3D com formas distorcidas e com formas simplificadas. Em ambos os casos foram usadas IRM
para obter as formas. As formas distorcidas sao devidas a lesoes orais do proprio
indivduo. Eles concluram seu trabalho dizendo que nao apenas a funcao area mas
tambem as formas da trato vocal influenciam sua funcao de transferencia, ou seja, a
definicao das frequencias formantes. Takano e Honda [61] fizeram um estudo completo da movimentacao da lngua, incluindo os principais m
usculos, envolvidos na
analise de vogais japonesas. Dang J. e Honda [55] construram um modelo articulatorio formado por lngua, mandbula, osso hyoide e as paredes do trato vocal. Em
seu modelo, os tecidos eram representados por pontos de massa interligados por
arestas cujo valor de elasticidade dependia do tipo de tecido. Esses valores, porem,
20

sao relacionados apenas `a movimentacao da malha do modelo e nao `a sintese de voz.


A sntese de voz foi realizada atraves de um modelo unidimensional de guias de ondas digitais, calculado a partir das areas das secoes transversais obtidas para cada
posicao da malha do trato vocal. Devido `a modelagem unidimensional, o tempo
computacional e em torno de 50 vezes o tempo real numa estacao Sun Ultra-30.
A maioria dos modelos 3D [54, 57, 60] considera o trato vocal como uma estrutura constituda de um mesmo material, Fig. 1.17. Isto e compreensvel, devido `a
dificuldade de se obterem os parametros visco-elasticos para cada ponto dos tecidos.

(a)

(b)

(c)

(d)

Figura 1.17: Exemplos de tratos vocais descritos por um u


nico material. (a) Referencia [54], (b) Referencia [57], (c) Referencia [35] e (d) Referencia [60].

O trato vocal humano e composto por diferentes conjuntos de tecidos, os quais


possuem diferentes graus de elasticidade/rigidez, que influenciam na absorcao/reflexao
das ondas ac
usticas em seu interior. Logo, a constituicao das paredes do trato vocal
influi dramaticamente na qualidade auditiva da amostra de voz sintetica.
possvel observar o que foi exposto acima ate mesmo em modelos 3D do
E
trato vocal existentes [54, 62], onde apesar da qualidade da digitalizacao do modelo, baseada em IRM, o fato de nao se considerar a constituicao dos tecidos nos
diferentes pontos das paredes do trato vocal, como tambem a falta de um modelo
21

para os labios, faz com que o som sintetizado nao seja satisfatorio.
Dedouch [62] aplicou o MEF em um modelo de trato vocal obtido a partir de
IRM. Em sua modelagem, mostrada na Fig. 1.18, as paredes do trato tambem foram
consideradas como sendo ac
usticamente rgidas, nao existindo, portanto, absorcao
de som pelas paredes.

Figura 1.18: Modelo de trato vocal considerando o palato. (Dedouch et al. [62])

Em [57], os autores buscam validar o modelo construdo para o trato vocal


comparando as respostas em frequencia correspondentes ao modelo com aquelas
obtidas atraves de analise LPC8 do sinal de voz. Segundo os autores as comparacoes
feitas indicaram que a escala dos articuladores pode estar mal formulada ou com
movimentos incompletos.

1.4

Comparac
ao entre os M
etodos Num
ericos
A aplicacao classica para modelagem ac
ustica da producao da voz e baseada

no Metodo dos Elementos Finitos (MEF) [59, 60, 62, 63]. Entretanto, o Metodo dos
Elementos de Contorno (MEC)9 pode modelar facilmente contornos complexos como
8

Linear Prediction Coding (LPC) e uma tecnica de processamento de sinais que consiste em

gerar um filtro que representa a funcao de transferencia do trato vocal a partir do sinal de voz real.
9

Em ingles e conhecido como Boundary Element Method (BEM).

22

o trato vocal [64]. Alem disso, como no MEC todas as aproximacoes sao restritas `a
superfcie do modelo, e possvel modelar variaveis que mudam de valor rapidamente
com maior precisao que o MEF. Entretanto, as formulacoes do MEC geralmente
produzem matrizes totalmente populadas (com elementos nao nulos), o que aumenta
os requisitos de memoria e a complexidade computacional. Este problema do MEC e
resolvido atraves da metodologia fast multipole [65]. Em ambos os esquemas, MEF
ou MEC, e necessario calcular uma solucao da equacao de Helmholtz de modo a
conhecer o comportamento do campo ac
ustico para cada frequencia inspecionada.
O Metodo das Matrizes de Linhas de Transmissao (MLT) foi proposto por
Johns e Beurle [66], sendo uma implementacao numerica do princpio de Huygens10 ,
e tendo sido aplicado originalmente para simular campos eletromagneticos em geometrias complexas. Entretanto, tambem pode ser aplicado a diferentes problemas de
Engenharia Mecancia [67] e sua adequabilidade a problemas de ac
ustica foi demonstrada em diversos trabalhos [68, 69]. El-Masri et al. [70] usaram o MLT para estudar
os modos mais altos de propagacao que aparecem no trato vocal. Porem, em seu
trabalho, o trato vocal foi modelado como uma sequencia de guias de onda com
secoes retangulares. Katsamanis e Maragos [71], investigaram a possibilidade de
aplicacao do MLT 3D na simulacao do campo ac
ustico para sntese de consoantes
fricativas, considerando as frequencias mais altas do espectro. O MLT e conhecido
tambem como Digital Waveguide Method (DWM) entre alguns pesquisadores. Ele
produz um sinal de sada no domnio do tempo em vez do campo ac
ustico estatico
por componente de frequencia que e fornecido pelo MEF ou MEC. Este sinal de sada
10

O princpio de Huygens diz que a energia se propaga isotropicamente em todas as direcoes.

23

no domnio do tempo pode ser facilmente convertido para o domnio da frequencia


usando o algoritmo da transformada rapida de Fourier (FFT - Fast Fourier Transform). Alem disso, a resposta em frequencia do modelo tambem pode ser obtida
aplicando a tecnica de Linear Prediction Coding (LPC) ao sinal de sada no domnio
do tempo. Outras vantagens do MLT sao a facilidade de implementacao e o fato de
que as condicoes de contorno podem ser facilmente especificadas nos pontos desejados pela simples configuracao dos valores dos coeficientes de transmissao e reflexao
(mais detalhes no Captulo 3). A principal limitacao do MLT e o erro de dispersao
numerica, que acontece porque a velocidade de propagacao de uma onda na malha
depende tanto da frequencia do sinal como da direcao da propagacao, o que gera
erros na representacao da propagacao e o consequente desajuste das frequencias de
ressonancia esperadas. Assim, o grau do erro de dispersao depende em grande parte
da topologia da malha e foi investigado em muitos trabalhos [72, 73]. No trabalho
de Murphy et. al [74] e mencionado que a minimizacao do erro de dispersao pode
ser alcancada atraves do uso de topologias interpoladas ou dodecaedricas para as
malhas. Porem, malhas retilneas uniformes sao mais faceis de se construir e menos
complexas computacionalmente. Outros autores tentaram resolver o problema da
dispersao numerica realizando pre e pos-processamento dos resultados para posterior aplicacao de tecnicas de ajuste de frequencias (em ingles frequency warping
techniques) para corrigir os valores das frequencias de ressonancia [75, 76]. A principal tecnica de minimizacao da dispersao numerica dependente da frequencia no
MLT e configurar a discretizacao do espaco como sendo muito menor do que o comprimento de onda. Entretando, a dispersao numerica dependente da direcao e muito
24

mais difcil de ser compensada pois o efeito se altera em funcao da distancia entre
os nos de origem e destino na malha MLT [77, Cap. 5].
Nesta tese, a malha para o modelo MLT e obtida a partir da segmentacao
de imagens medicas volumetricas usando o programa ModaVox, visando avaliar os
efeitos da forma do trato vocal na vogal /a/ do idioma Portugues brasileiro, na
faixa de frequencias de 0 a 10000 Hz. Alem disso, uma condicao de contorno para
representacao de tecidos moles e aplicada `as paredes da malha do trato vocal e um
fator de compensacao e definido para o valor da velocidade do som, resolvendo o
problema da dispersao numerica dependente da direcao em malhas 3D uniformes.

25

Captulo 2
Imagens M
edicas

2.1

Introduc
ao
Pesquisando os princpios fsicos envolvidos nos diversos exames medicos por

imagens, observa-se que, como todo o metodo baseado em digitalizacao, eles consistem em emitir uma forma de onda sobre o objeto que se deseja digitalizar para em
seguida avaliar a resposta recebida. Os objetos a serem digitalizados, assim como
os tipos de forma de onda, podem variar. Por exemplo, no caso de um scanner
comum, o objeto e uma folha de papel e a forma de onda e a luz que reflete na
folha. Ao ser captada e processada, gera a imagem digital do documento. No caso
da tomografia computadorizada, a forma de onda sao os raios X e os objetos a serem
digitalizados podem ser quaisquer desde que caibam no campo de varredura. No
caso da ultra-sonografia, a forma de onda e sonora, uma onda de pressao, ou onda
ac
ustica. No caso dos exames de ressonancia magnetica, a forma de onda e um sinal
de radiofrequencia atraves de um campo magnetico no qual o objeto fica imerso. A

26

imagem sera sempre construda com base nos valores da forma de onda detectada
apos ter incidido sobre o objeto. Esses valores da energia detectada sao convertidos
em informacoes de cores (tons de cinza), para cada ponto do espaco, gerando a
imagem. Ha, porem, as imagens obtidas por termografia, que sao formadas atraves
da captacao da radiacao infravermelha do espectro eletromagnetico. Neste caso,
a radiacao infravermelha detectada e emitida pelo proprio objeto, sem a necessidade de emissao inicial. Desse modo, no caso de imagens medicas, formas de onda
de energias diferentes, revelam caractersticas diferentes sobre os diferentes tecidos
do corpo humano. Assim, os metodos de obtencao das imagens medicas possuem
vantagens e desvantagens uns sobre os outros, dependendo do tipo de aplicacao.

2.2

Imagens de Resson
ancia Magn
etica
Nos exames de ressonancia magnetica, o corpo fica imerso em um campo

magnetico constante, Fig. 2.1.

(a)

(b)

Figura 2.1: Alinhamento dos spins dos protons. (a) Estado normal. (b) Estado apos
imersao no campo magnetico.

O campo magnetico faz com que os momentos magneticos spinsdos protons


27

que compoem os atomos das moleculas do corpo fiquem alinhados, Fig. 2.1-(b).
Quando um pulso de radiofrequencia (RF) e aplicado ao corpo, os protons dos
atomos que o compoem ficam magnetizados. Isso induz um sinal de ressonancia
magnetica (RM) no receptor. Quando a onda RF e desligada, o sinal RM comeca a
decair devido ao retorno dos protons ao seu estado original. Este retorno e chamado
de processo de relaxamento dos protons. Existem dois processos basicos de relaxamento: um envolve o retorno dos protons ao seu alinhamento original com o campo
magnetico estatico e e caracterizado por uma constante de tempo T1 . O outro processo de relaxamento ocorre devido ao retorno `a condicao normal de desalinhamento
entre os spins dos protons e e caracterizado por uma constante de tempo T2 . Na medida em que o processo de relaxamento ocorre, ocorre tambem o decaimento do sinal
de ressonancia magnetica (RM) o qual e caracterizado pela expressao exponencial
S = S0 et/T1

(2.1)

a qual revela que o sinal S de RM decai exponencialmente no tempo t a partir do


sinal inicial S0 no momento em que foi desligado o sinal de radio frequencia [78].
Essas variacoes, detectadas nas operacoes de ressonancia magnetica, irao constituir
os valores dos pixels em uma imagem de ressonancia magnetica, pois cada tipo de
tecido (ossos, m
usculos, cartilagens, vasos sanguneos, etc.), inclusive o ar, possuira
o seu decaimento caracterstico e, portanto, sua faixa caracterstica de tons de cinza
na imagem formada.
A obtencao de imagens por ressonancia magnetica, tambem chamada de MRI
(Magnetic Resonance Imaging), se tornou uma tecnica amplamente utilizada para
estudos de producao da voz e da fala porque permite que sejam obtidas varias ima28

gens de alta resolucao sem efeitos danosos ao indivduo, como e o caso da tomografia
computadorizada (TC) que utiliza raios-X. A medida em que a tecnologia avanca,
o tempo de obtencao das imagens vai se tornando cada vez menor, permitindo, inclusive, que tecnicas de amostragem sincronizada sejam utilizadas para obtencao de
sequencias de imagens tomograficas para formar animacoes ou filmes [50].

2.2.1

Imagens Volum
etricas

Os exames de ressonancia magnetica podem fornecer uma u


nica imagem,
ou seja, uma u
nica fatia mostrando um corte transversal do corpo do paciente,
ou m
ultiplas imagens mostrando diversas fatias. Quando o espacamento entre as
tomadas de cada fatia e suficientemente reduzido, por exemplo, igual a 1 mm, e
possvel empilhar essas imagens e formar uma imagem volumetrica de um trecho especfico do corpo do paciente. Se o espacamento entre os pixels de cada fatia e igual
ao espacamento entre as fatias, temos uma imagem geometricamente isotropica, caso
contrario temos uma imagem geometricamente anisotropica, Fig 2.2.

(a)

(b)

Figura 2.2: Imagens volumetricas. (a) Geometricamente isotropica. (b) Geometricamente anisotropica.

29

Como sera visto no Cap 4, o programa ModaVox possui funcionalidades para


remover a anisotropia de uma imagem volumetrica, o que sera necessario para a
obtencao de malhas regulares para o metodo das matrizes de linhas de transmissao,
descrito no Cap 3.

2.2.2

Elastografia

A elastografia [79] diz respeito a uma tecnica de imageamento cujo objetivo


e fornecer informacoes sobre a elasticidade dos tecidos. O metodo consiste na
aplicacao de uma forca mecanica aliada ao uso de um dispositivo de imageamento
por ressonancia magnetica para registrar as deformacoes resultantes nos tecidos. A
forca mecanica aplicada pode ocorrer de forma natural como, por exemplo, a movimentacao do sangue ou entao ser aplicada externamente como, por exemplo, com
um dispositivo de ultra-som. Entao, o equipamento de RM captura uma serie de
imagens para registrar o movimento dos tecidos devido `as vibracoes fsicas aplicadas.
Essa serie temporal de imagens e combinada para mapear as distribuicoes espaciais
e temporais das deformacoes. As propriedades materiais dos tecidos sao encontradas
a partir das relacoes entre as forcas aplicadas e as deformacoes detectadas. Com
esta tecnica e possvel obter imagens elastograficas tridimensionais nas quais a cor
de cada pixel/voxel ja representa sua elasticidade ou rigidez. A ideia original era a
deteccao de tumores em tecidos moles, porem, relativamente ao estudo da voz, pode
ser aplicada na determinacao dos valores de elasticidade dos tecidos que compoem
as cordas vocais e o trato vocal.
Esta tecnica e uma promessa na direcao de modelos mais realistas. Entretanto,
30

devido `a dependencia de encontrar locais com essa especialidade de imageamento


medico, alem das restricoes de tempo, ainda nao foi possvel utiliza-la nesta tese.

2.3

O Padr
ao DICOM

O padrao DICOM (Digital Imaging and Communications in Medicine) [80] foi criado
pela NEMA (National Electrical Manufacturers Association) [81] com o objetivo
de compatibilizar o gerenciamento, armazenamento, impressao e transmissao da
informacao de imageamento medico entre equipamentos de diferentes fabricantes. A
especificacao deste padrao consiste na definicao do formato do arquivo e do protocolo
TCP/IP de comunicacao de rede.
O formato de arquivo DICOM consiste numa serie de atributos. Informacoes
relativas ao paciente, o n
umero do equipamento, data do exame, nome do operador
e ate mesmo informacoes sobre a calibracao do equipamento podem ser obtidas em
um arquivo DICOM alem dos dados da imagem medica. Isso garante que as imagens
medicas nao se separem das suas respectivas informacoes de registro. Os dados da
imagem armazenada podem conter m
ultiplas fatias permitindo o armazenamento de
sequencias de animacao ou volumes. Metodos de compressao como JPEG, JPEG
Lossless, JPEG 2000, etc., podem ser usados nos dados da imagem.
A extensao tpica de um arquivo DICOM e (*.dcm), porem muitos aparelhos
de ressonancia magnetica gravam as sequencias de imagens na forma de uma serie de
arquivos sem extensao. Como sera visto no Cap 4, o programa desenvolvido nesta
tese e capaz de identificar e ler os arquivos DICOM em forma de series de imagens,

31

imagens isoladas e volumes. A especificacao completa do padrao DICOM pode ser


encontrada em [81].

32

Captulo 3
Modelagem da propaga
c
ao
ac
ustica no Trato Vocal

3.1

O Modelo Fonte-Filtro

O modelo Fonte-Filtro da producao da voz [1], descrito na Secao 1.1, pode ser
subdividido em tres etapas distintas: fonte, o filtro (trato vocal) e a irradiacao.
Seus efeitos ac
usticos podem ser melhor visualizados atraves do diagrama de blocos
da Fig. 3.1.

Figura 3.1: Diagrama do modelo fonte-filtro. (Adaptada da referencia [1])

O fluxo de ar e modulado pelo movimento vibratorio das cordas vocais. Gracas


33

ao efeito Bernoulli, explicado na Secao 1.1, os pulsos de ar gerados possuem forma


assimetrica (ver Fig. 1.2) devido ao fechamento mais rapido, de modo que o sinal
glotal e formado por uma serie de harmonicos a ser filtrada, na etapa do trato
vocal, gerando o som das vogais. Numa voz normal, a potencia dos harmonicos
do sinal glotal se reduz, em media, a uma taxa de 12 dB por oitava1 . Isso gera
o efeito do filtro glotal, que reduz as altas frequencias. Na etapa de filtragem, a
forma da estrutura do filtro (trato vocal), pode ser modificada, de modo a alterar
suas formantes ou frequencias de ressonancia da estrutura supra-glotal. Para uma
dada forma, o sinal glotal e filtrado criando o som da respectiva vogal. Na etapa de
irradiacao, as baixas frequencias (comprimento de onda maior) sofrem difracao nos
labios, enquanto as altas frequencias (comprimento de onda menor) possuem maior
diretividade, sendo mais suscetveis ao efeito de reflexao. Resumindo, a etapa de
irradiacao amplifica as altas frequencias com ganho medio de 6 dB por oitava. Ja
foi demonstrado [82] que, no modelo fonte-filtro, o trato vocal pode ser considerado
um sistema ac
ustico linear. Logo, pode tambem ser caracterizado por uma funcao
resposta em frequencia. Geralmente nao e reconhecido que a interacao entre a fonte
sonora glotal e o trato vocal tenha um forte efeito sobre a forma de onda do pulso
glotal, particularmente sobre a quantidade de energia de alta frequencia gerada no
instante do fechamento das cordas vocais [83]. O fato de ser possvel obter o sinal
glotal atraves de filtragem inversa garante que o trato vocal pode ser considerado um
filtro ac
ustico linear [84]. Assim, o modelo fonte-filtro representado no diagrama da
1

Uma oitava e uma unidade que representa cada vez que o valor de frequencia de um dado

harmonico dobra.

34

Fig. 3.1 considera a linearidade do trato vocal e a inexistencia da interacao ac


ustica
entre o trato vocal e a fonte sonora glotal. Esses conceitos serao importantes na
interpretacao dos resultados das simulacoes nas Secoes 5.4 e 5.5.

3.2

A Equac
ao de onda
A propagacao de uma onda ac
ustica pode ser aproximada considerando a

propagacao de perturbacoes infinitesimais em um fluido compressvel sem viscosidade [85]. A equacao de onda e fundamental no estudo da ac
ustica e em outras areas
da Engenharia Mecanica. Ela descreve o movimento da onda em um meio atraves
da evolucao da pressao ac
ustica p, ou da velocidade u, da partcula em funcao da
posicao r = (x, y, z) e do tempo t sendo dada por
2 p(r, t)
c2 2 p(r, t) = 0
t2
2 u(r, t)
c2 2 u(r, t) = 0
t2

(3.1)
(3.2)

onde p(r, t), u(r, t), e c sao as perturbacoes na pressao estatica e na velocidade da
partcula de ar, a densidade do ar e a velocidade do som no ar, respectivamente, em
um ponto r(x, y, z) do espaco tridimensional no instante de tempo t. Uma derivacao
completa das Equacoes (3.1) e (3.2) para uma e tres dimensoes pode ser encontrada
na referencia [86].
A velocidade c da propagacao ac
ustica no ar e dada por
r
p0
c=

(3.3)

onde = cp /c e a razao entre os calores especficos do ar a pressao e a volume


constantes, p0 e sao a pressao atmosferica e a densidade do ar, respectivamente,
35

ao nvel do mar a uma temperatura de 20o C. Sob essas condicoes, = 1, 4, p0 =


101237, 1446 Pa, = 1,204 kg/m3 e a velocidade da propagacao ac
ustica no ar e de
343,1 m/s, valor que sera doravante usado nesta tese.
O metodo da separacao de variaveis permite obter a solucao analtica da
equacao de onda na forma p(r, t) = P (r)T (t) onde P (r) e uma funcao que depende apenas da posicao r = (x, y, z) e T (t) uma funcao que depende apenas do
tempo. Assim, a partir da Eq. (3.1), por exemplo, e possvel obter
2 P (r) + k 2 P (r) = 0

(3.4)

d2 T (t)
+ k 2 c2 T (t) = 0
2
dt

(3.5)

onde k = |k| = /c representa o n


umero de onda, sendo a frequencia angular
e c a velocidade do som no ar. A Equacao (3.4) e a equacao de Helmholtz cuja
solucao P (r) e funcao apenas da posicao r e possui solucao analtica para estruturas
retangulares, cilndricas e esfericas [87]. Por outro lado, a Eq. (3.5) e uma equacao
de facil solucao e depende apenas do tempo.
Entretanto, para a intrincada geometria do trato vocal, metodos numericos
sao normalmente utilizados.

3.2.1

Considera
c
oes sobre Temperatura e Viscosidade

Entretanto, se considerarmos que a densidade do ar varia com a temperatura, ou


em funcao do fluxo turbulento no trato vocal, entao a densidade e a velocidade de
propagacao c do som no ar passam a variar em funcao da posicao r. Assim,

36

2 p(r, t)
1
c(r)2 (r)
p(r, t) = 0
2
t
(r)
2 u(r, t)
1
c(r)2 (r)
u(r, t) = 0
2
t
(r)

(3.6)
(3.7)

Porem, as variacoes temperatura do ar no interior do trato vocal, por serem muito


pequenas, podem ser desconsideradas, sendo plausvel considerar a temperatura, e
logo a densidade, constantes durante a propagacao no trato vocal.
Quanto `as variacoes na densidade em funcao do fluxo turbulento no trato
vocal, e necessario considerar a influencia da movimentacao do ar dentro do mesmo
na propagacao da onda sonora. O escoamento de um fluido pode ser laminar ou
turbulento. O fator que determina o tipo de escoamento presente e a razao entre as
forcas de inercia e as forcas viscosas no interior do fluido. Este fator adimensional e
chamado de n
umero de Reynolds sendo dado pela expressao:
R=

V L

(3.8)

onde e a densidade, e a viscosidade, V e L sao a velocidade media e o comprimento percorrido pelo fluido. Para n
umeros de Reynolds ate 2000, o escoamento
e considerado laminar. Entre 2000 e 4000 o escoamento se encontra numa fase de
transicao entre laminar e o turbulento e para n
umeros de Reynolds acima de 4000,
o escoamento e considerado completamente turbulento.
Para o ar no interior do trato vocal, temos que a densidade do ar ao nvel do
mar e de 1,204 kg/m3 , a viscosidde = 1, 836924704747684E5 kg/m-s a 20o C [88]
e a velocidade media do fluxo de ar pode variar de 6,69 a 7,937 m/s durante a fonacao
[89]. Considerando o comprimento medio de um trato vocal adulto, L = 0, 17 m,
37

temos para o ar aproximadamente R = 88438, 30972, o que e muito maior que 4000.
Logo, o ar no trato vocal pode ser considerado um fluido nao viscoso e o seu fluxo
completamente turbulento.
Entretanto, para efeito do estudo da propagacao ac
ustica, a turbulencia do
fluxo de ar que passa pelo trato vocal durante a vocalizacao pode ser desconsiderada,
porque embora a velocidade do fluxo de ar possa chegar a 7,937 m/s em alguns
pontos do trato vocal, este valor de velocidade e muito menor2 que a velocidade de
propagacao do som no ar (343,1 m/s). Assim, a onda sonora atravessa o fluxo de ar
turbulento muito rapidamente, como se o mesmo estivesse parado. Assim, com c e
constantes nas Equacoes (3.6) e (3.7) temos a forma linear nas Equacoes (3.1) e
(3.2).

3.3

Aproxima
c
ao do Trato Vocal por Sequ
encias
de Tubos

Uma forma de validar a aplicacao de um metodo numerico como o MLT (que sera
discutido na Secao 3.4) em uma estrutura complexa como a do trato vocal e aplica-lo
anteriormente em estruturas mais basicas, como um ou mais tubos, cujos resultados
sejam conhecidos. Alem disso, nas pesquisas da voz e da fala, a concatenacao de
tubos e frequentemente utilizada visando relacionar a configuracao da forma do
trato vocal com as respectivas frequencias de ressonancia ou frequencias formantes
2

Para fins praticos muito (menor/maior)significa pelo menos uma ordem de magnitude a

(menos/mais), ou seja, pelo menos 10 vezes (menor/maior).

38

[90]. Assim, concatenacoes de um e dois tubos foram utilizadas para verificacao dos
resultados do MLT.

3.3.1

Estimativa das Frequ


encias de Resson
ancia

Existe uma analogia entre a propagacao de ondas ac


usticas e ondas eletricas, cuja
demonstracao pode ser encontrada na referencia [91]. A pressao e o analogo da
tensao eletrica entre dois pontos e a velocidade da partcula e o da corrente eletrica.
O conceito de impedancia ac
ustica e, tambem, equivalente ao conceito de impedancia
eletrica, sendo definida como a razao entre as solucoes da equacao de onda para
pressao P (z) e para velocidade U(z) ac
usticas em um determinado instante. Essa
razao e dada por
Z(z) =

P (z)
U(z)

(3.9)

Na Figura 3.2, sejam p+ e p as solucoes propagantes da equacao de onda para


pressao nos sentidos z positivo e z negativo, respectivamente. E sejam u+ e u os
seus respectivos analogos para a velocidade da partcula.

(a)

(b)

Figura 3.2: Pressao e Fluxo de Ar na posicao L em um tubo. (a) Tubo fechado. (b)
Tubo aberto.
Temos que

39

p+ = Cp ejz/c

(3.10)

p = Cp ejz/c

(3.11)

Pode-se mostrar, com base na conservacao do momento e da massa, que


p+ = Z 0 u +

(3.12)

p = Z0 u

(3.13)

onde Z0 = c/A e a impedancia caracterstica do tubo, sendo e a densidade do ar,


c e a velocidade do som no ar e A a area da secao transversal do tubo. A pressao e
a velocidade totais da partcula na posicao z de uma secao do tubo sao dadas por
P (z) = p+ + p

(3.14)

U(z) = u+ + u

(3.15)

Para um tubo fechado, Figura 3.2-(a), as pressoes se somam na terminacao.


Entao, P (z) e dado pela Eq. (3.14). Substituindo (3.12) e (3.13) em (3.15), temos
A + A
p p
c
c

(3.16)

c p+ + p
P (z)
=
U(z)
A p+ p

(3.17)

U(z) =
Assim,
Z(z) =

Substituindo (3.10) e (3.11) em (3.17) e fazendo z = L, temos a impedancia


ac
ustica na terminacao direita do tubo da Figura 3.2-(a).

c cos cL

Z(L) = i
A sin cL

(3.18)

As frequencias de ressonancia ocorrem quando Z(L) = 0 (circuito fechado).

Isto apenas ocorre quando L/c for um m


ultiplo mpar de /2, de modo a anular o
cosseno no numerador da Eq. (3.18). Assim,
40


L
= (2 n 1)
c
2
2 fn L

= (2 n 1)
c
2
(2 n 1) c
fn =
4L

(3.19)
(3.20)
(3.21)

As frequencias de ressonancia para um tubo fechado sao dadas pela Eq. (3.21).
Para L = 170 mm, temos f1 = 504, 56 Hz, f2 = 1513, 68 Hz, , f7 = 6559, 26 Hz,
etc.
Para um tubo aberto, Figura 3.2-(b), as pressoes se subtraem na terminacao.
Entao,

P (z) = p+ + (p )


A +
A

U(z) =
p + (p )
c
c

(3.22)
(3.23)

Assim,
Z(z) =

c p+ p
P (z)
=
U(z)
A p+ + p

(3.24)

De modo analogo ao do tubo fechado, para o tubo aberto de mesma area (Fig.
3.2-(b)), temos a impedancia ac
ustica na terminacao z = L.

c sin cL

Z(L) = i
A cos cL

(3.25)

As frequencias de ressonancia ocorrem quando Z(L) = 0 (circuito fechado).

Isto apenas ocorre quando L/c for m


ultiplo inteiro de , de modo a anular o seno
no numerador da Eq. (3.25). Assim,
L
= n
c
2 fn L
= n
c
nc
fn =
2L
41

(3.26)
(3.27)
(3.28)

As frequencias de ressonancia para um tubo aberto sao dadas pela Eq. (3.28).
Para L = 170 mm, temos f1 = 1009, 12 Hz, f2 = 2018, 23 Hz, , f7 = 7063, 82 Hz,
etc.
Para uma concatenacao de 2 tubos, e necessario calcular a funcao de impedancia
Z(z) na juncao entre os dois tubos, Fig. 3.3-(b).

(a)

(b)

Figura 3.3: (a) Concatenacao de dois tubos formando a vogal /a/. (b) Soma em
paralelo das impedancias ac
usticas na juncao.

Assim, Z(z) sera igual `a soma em paralelo de Z(L1 ) e Z(L2 ) com Z(L1 ) para
um tubo fechado e Z(L2 ) para um tubo aberto. O modulo dessa soma e dado por


Z1 (L1 ) Z2 (L2 )
=
Z(z) =
Z2 (L2 ) + Z1 (L1 ) A1 sin



c cos cL1 sin cL2



L1
sin cL2 A2 cos cL2 cos
c




L1
c

(3.29)

onde L1 , L2 , A1 e A2 sao, respectivamente, os comprimentos e areas das secoes


transversais dos segmentos de tubo 1 e 2, = 1,204 kg/m3 e a densidade do ar e
c = 343, 1 m/s e a velocidade do som.
Para a juncao entre duas portas, as frequencias de ressonancia ocorrem quando
mais difcil localizar os valores de frequencia para
Z(L) = (circuito aberto). E
os quais o denominador de Z(z) se anula na Eq. (3.29). Desse modo, de acordo
com a referencia [1], a substituicao das dimensoes L1 = 90 mm, L2 = 80 mm,
A1 = 100 mm2 e A2 = 700 mm2 , e tambem = 2f na Eq. (3.29), fornece uma
42

funcao que pode ser plotada na faixa de frequencias desejada para comparacao com
os resultados da simulacao. As frequencias de ressonancia sao as abscissas dos picos
do grafico. Este procedimento e facilmente extensvel para tres ou mais tubos.

3.4

M
etodo das Linhas de Transmiss
ao (MLT)

3.4.1

Introdu
c
ao

A tecnica do MLT, para resolver a E.D.P. em (3.1), e empregada dividindo-se o


domnio em trechos de linhas de transmissao, os quais juntos formam uma rede, ou
malha, na qual pulsos se propagam [67]. Esses pulsos representam valores da solucao
de pressao p(r, t) ou de velocidade da partcula u(r, t) para a equacao de onda no
domnio do tempo. No modelo descrito nesta tese, a variavel descrita sera a pressao.

3.4.2

Descric
ao do M
etodo

A malha para o MLT 3D e toda formada por pontos e arestas ortogonais, Fig. 3.4.

(a)

(b)

Figura 3.4: Aplicacao 3D do MLT. (a) Propagacao no instante t. (b) Propagacao


no instante t + t.
A cada passo de tempo, os pulsos incidentes sobre os nos (ou pontos) sao
43

provenientes de cada uma das linhas de transmissao `as quais ele esta interligado.
Cada no produz um novo conjunto de pulsos que se torna incidente nos nos adjacentes no passo de tempo seguinte. Para um dado no, a relacao entre os valores dos
pulsos incidentes e dos pulsos espalhados e dada pela matriz de espalhamento da
teoria de linhas de transmissao. Os nos da malha tambem armazenam os valores de
pressao a cada passo do algoritmo. Elementos adicionais como stubs3 podem ser
inseridos para representar as diferentes propriedades dos materiais, em especial as
perdas na propagacao. Porem, devido aos fatores explicados na Subsecao 3.2.1, as
perdas na propagacao ac
ustica no interior do trato vocal podem ser desconsideradas.
Diferentes modelos de espalhamento para os nos da malha podem ser encontrados
em [69, 92, 93]. Porem, o modelo de no do tipo Shunt 3D sem perdas na Fig. 3.5, e
mais simples e funciona bem em problemas de ac
ustica [67].

(a)

(b)

Figura 3.5: Modelo de No Shunt 3D sem perdas. (a) Representacao em linhas de


transmissao. (b) Circuito equivalente.

Devido `a maior familiaridade da notacao de circuitos eletricos, sera mantida


3

Stubss
ao trechos adicionais inseridos numa linha de transmissao para regular seu valor de

imped
ancia.

44

a representacao da pressao p por V (tensao) e da velocidade da partcula u por I


(corrente).
As equacoes de espalhamento podem ser facilmente derivadas a partir do circuito equivalente na Fig. 3.5-(b), que mostra um pulso de pressao V i incidente em
uma das linhas de transmissao de um no N da malha. Pela mesma figura, tambem
se pode ver que
Ii = Ir + It

(3.30)

onde I i , I r e I t sao as correntes incidentes, refletida e transmitida, respectivamente,


no no N. Temos tambem, para a linha de transmissao A N que
I r = I i

(3.31)

onde = (ZT Z)/(ZT + Z) e o coeficiente de reflexao devido `a descontinuidade


entre o valor das impedancias Z e ZT em N. Quando N representa um ponto imerso
em um meio contnuo, neste caso o ar, as impedancias das seis linhas sao iguais a
Z e ZT = Z/5. Alem disso, a corrente em cada uma das cinco linhas em paralelo e
dada por
1 t
I = Ii
5

(3.32)

onde e o coeficiente de transmissao para a mesma juncao em N. Substituindo


I t = VT /ZT e I i = Vi /Z em (3.32), temos
=

VT
Vi

(3.33)

Substituindo (3.31), I t = VT /ZT e I i = Vi /Z, nessa ordem, em (3.30), entao


V i VT
Vi
= +
Z
Z
ZT
ZT
VT
= (1 )
i
V
Z
45

(3.34)
(3.35)

Substituindo (3.33) em (3.35), obtemos a relacao entre os coeficientes de reflexao e de transmissao em uma das linhas de transmissao do no N:
= (1 )

ZT
Z

(3.36)

Como as perdas sao desconsideradas, as impedancias Z sao iguais `a impedancia


caracterstica do ar4 Z0 , e a analise feita acima e a mesma para todas as linhas.
Assim, a corrente total de sada I1S na porta 1 do no N e resultante da soma das
correntes transmitidas pelas outras cinco portas mais a corrente refletida na propria
porta 1.
I1S = I1E + (I2E + I3E + I4E + I5E + I6E )

(3.37)

ou, em termos das pressoes


V1S
Z

V1E
VE VE VE VE VE
+ ( 2 + 3 + 4 + 5 + 6 )
Z
Z
Z
Z
Z
Z

(3.38)

V1S = V1E + (V2E + V3E + V4E + V5E + V6E )

(3.39)

V2S = V2E + (V1E + V3E + V4E + V5E + V6E )

(3.40)

para a porta 2

e para as outras portas relacoes semelhantes para os pulsos de pressao de entrada


e sada no no N podem ser derivadas. Assim, a matriz de espalhamento para o
modelo de no do tipo Shunt 3D e dada por
4

Para os valores de densidade e velocidade do som usados aqui Z0 = 1, 204 343, 1 = 413, 0923

N s/m3 .

46

V1S

V2S


V3S

=

S
V4




V5S


V6S

V1E

V2E

V3E

E
V4

E
V5

V6E

(3.41)

onde = (ZT Z)/(ZT + Z) = 2/3 e = 1/3 para ZT = Z/5 de acordo com


(3.36).
Quanto `as condicoes de contorno, foram aplicadas as mesmas usadas na analise
matematica de linhas de transmissao, segundo a analogia com as ondas ac
usticas.
Assim, se uma superfcie e rgida, entao ela reflete totalmente as ondas p(r, t) de
pressao. Logo, para que haja reflexao total no braco A N na Fig. 3.5-(b), e
necessario que ZT = na Eq. (3.36). Assim, temos = 1 e = 0. Para descrever
uma superfcie que nao oferece resistencia `a propagacao das ondas de pressao, e
necessario que ZT = 0 na Eq. (3.36). Assim, temos = 1 e = 0. E, finalmente,
se temos ZT = Z, entao = 0 e = 1, caracterizando uma superfcie que absorve
completamente a onda de pressao, pois a impedancia esta casada. Entretanto, e
preciso cautela na aplicacao dessa u
ltima condicao, porque ZT pode nao ser igual a
Z para todas as frequencias. Como sera visto na Subsecao 5.3.5, para representar a
extremidade aberta de um tubo, o ideal e aplicar a condicao de contorno = 1 e
= 0.
Para que haja sincronismo entre as entradas e sadas de cada no, suas linhas
47

de transmissao devem ser percorridas pelos pulsos de pressao no mesmo intervalo de


tempo t. Como a velocidade do som c e constante, entao todas as linhas da malha
possvel criar malhas irregulares. Porem, isso
devem ter o mesmo comprimento. E
envolve a utilizacao de stubs, complicando desnecessariamente o problema.
No TLM, a principal tecnica de minimizacao da dispersao numerica dependente
da frequencia e configurar a discretizacao do domnio (L) como sendo muito menor
do que o comprimento de onda () de acordo com a Eq. (3.42).
L
0.1

(3.42)

que define que o menor comprimento de onda que pode ser propagado na malha
deve ser pelo menos 10 vezes maior que L para que nao haja distorcao do sinal
por dispersao numerica dependente da frequencia, como ilustra a Fig. 3.6. Aqui, os
valores de L utilizados foram de 1 mm para as malhas de tubos e 0,968498 mm
para a malha do trato vocal.

Figura 3.6: Dispersao numerica no MLT. (Adaptada da referencia [67])

Na Figura 3.6, cap /c e a razao entre a velocidade real e aparente da propagacao


do som na malha uniforme 3D MLT. Uma vez definidas a discretizacao do espaco
L e a maxima frequencia analisavel de modo a obter mnima dispersao numerica
48

dependente da frequencia, a discretizacao do tempo e dada pela Eq. (3.43):


L
t =
c D
onde c e a velocidade de propagacao do som no ar e

(3.43)

D e a distancia entre os nos de

origem e destino da onda propagante em uma malha MLT 3D retilnea e uniforme.


O fator

D e necessario para compensar o efeito da dispersao numerica dependente

da topologia. Entretanto, e muito difcil definir um valor global para este fator,
porque o fator se altera em funcao da distancia entre os nos de origem e destino.
Este problema sera tratado no Captulo 5.
Para resolver um problema usando o MLT, e necessario fornecer um conjunto
de condicoes de contorno, constantes de material (quando as perdas forem consideradas), e uma condicao inicial de excitacao nos nos desejados. Porem, uma das
vantagens do MLT e a sua facil implementacao. Cada iteracao pode ser dividida em
tres etapas: espalhamento, soma e conexao.
A fase de espalhamento e relativamente simples. Consiste em usar a matriz
de espalhamento da Eq. (3.41) e gerar os valores de sada a partir dos de entrada,
para todos os nos da malha.
Na etapa de soma, o valor da pressao p(r, t) (ou velocidade da partcula u(r, t))
totais em cada no e dado pela soma das correntes das entradas dividida pela soma
das admitancias.

p(r, t) =

6
X

i=1
6
X

IiE
=
Y

2V1E 2V2E 2V3E 2V4E 2V5E 2V6E


+
+
+
+
+
Z
Z
Z
Z
Z
Z


1
1
1
1
1
1
+ + + + +
Z Z Z Z Z Z

i=1

ou
49

(3.44)

1X E
p(r, t) =
V
3 i=1 i

(3.45)

Na etapa de conexao, cada no forma sua entrada para a proxima iteracao a


partir das sadas dos nos adjacentes. Por exemplo, seja um no N2 na posicao (x, y, z)
e sejam N1 e N3 seus vizinhos nas posicoes (x1, y, z) e (x+1, y, z), respectivamente.
Entao para N2 ,
(k+1)

VxE+ (x, y, z) =

(k)

VxS (x + 1, y, z)

(3.46)

(k+1)

VxE (x, y, z) =

(k)

VxS+ (x 1, y, z)

(3.47)

onde k e o n
umero da iteracao, x e x+ representam o sentido do pulso, seja ele de
entrada V E ou de sada V S e as coordenadas indicam se o pulso V pertence a N1 ,
N2 ou N3 . Resumindo, a entrada no sentido x+ de N2 para a iteracao k + 1 e igual `a
sada de N3 no sentido x na iteracao k. Para outras direcoes, o processo e similar.
(k+1)

VyE+ (x, y, z) =

(k)

VyS (x, y + 1, z)

(3.48)

(k+1)

VyE (x, y, z) =

(k)

VyS+ (x, y 1, z)

(3.49)

(k+1)

VzE+ (x, y, z) =

(k)

VzS (x, y, z + 1)

(3.50)

(k+1)

VzE (x, y, z) =

(k)

VzS+ (x, y, z 1)

(3.51)

Embora estas 3 etapas sejam feitas na mesma iteracao, e importante que todos
os nos tenham realizado o espalhamento antes das etapas de soma e conexao, sendo
as duas u
ltimas na ordem indicada. Isso garante o sincronismo dos pulsos e dos
valores entre as iteracoes. Os vetores com os valores dos pulsos e ponteiros para os

50

nos vizinhos fazem parte da estrutura de dados que representa o no MLT, permitindo
rapida conexao e acesso aos valores dos nos vizinhos.

51

Captulo 4
Desenvolvimento do programa
ModaVox

4.1

Introduc
ao

O desenvolvimento de programas de computador aplicados `a Engenharia tem estado restrito `as companhias especializadas, principalmente nos pases em desenvolvimento. Engenheiros capazes de gerar as proprias solucoes computacionais para
os problemas de engenharia sao muito raros. Entretanto, engenheiros sao, por
definicao, desenvolvedores de tecnologia, logo, nao e adequado que se acostumem a
pensar e agir como usuarios ou clientes.
Nos programas de codigo aberto o codigo pode ser verificado, estudado e melhorado. Isso estimula fortemente o raciocnio analtico, a inovacao e a cooperacao; consequentemente melhorando o aprendizado de engenharia. Se estimularmos os cursos
de engenharia a construirem progressivamente seus proprios programas e bibliote-

52

cas em codigo aberto atraves de tarefas/projetos que alunos e professores realizam,


sera possvel obter grandes aplicativos e bibliotecas que se aprimoram constantemente acompanhando os desenvolvimentos tecnologicos mais recentes. Experiencias
de sucesso com projetos humanitarios nos quais os alunos desenvolvem em codigo
aberto [94, 95, 96] demonstraram ser possvel incentivar o estudo de Engenharia e/ou
Computacao, funcionando como um excelente veculo de aprendizado, alcancando
benefcios sociais [94, 96, 97] e desenvolvimento profissional [98].
Com o que foi exposto acima em mente, o programa ModaVox foi desenvolvido
em codigo aberto, objetivando o seu funcionamento como ferramenta de pesquisa e
de ensino gratuita, que acompanha o desenvolvimento da tecnologia.

4.1.1

A linguagem C++

C++ e uma linguagem voltada para computacao de alto desempenho, sendo ideal
para computacao numerica. A orientacao a objetos permite grande flexibilidade no
projeto de algoritmos e de estruturas de dados. Alem disso, tambem e a linguagem
de escolha para a maioria dos projetos em codigo aberto e industriais. Por essas
razoes tambem foi escolhida aqui. Excelentes referencias podem se encontradas em
[99, 100, 101, 102, 103, 104, 105].

4.2

Componentes Utilizados
Nesta secao e feita uma descricao dos componentes utilizados e/ou desenvolvi-

dos na confeccao deste trabalho.

53

4.2.1

O compilador GCC

O GCC (GNU Compiler Collection) e um programa de codigo aberto amplamente difundido [106], que pode ser usado para compilar codigos em diversas
linguagens1 e plataformas. O sistema operacional Linux, por exemplo, usado com
sucesso por diversas empresas, governos e pessoas, e compilado atraves do GCC. O
GCC e gratuito, vem junto com a maioria das distribuicoes Linux, e tambem possui
versoes para plataformas domesticas como o Windows. Assim, e possvel compilar
o codigo escrito em C++ e gerar executaveis em ambos os sistemas.

4.2.2

A biblioteca Qt

A biblioteca Qt [107] possui muitas funcionalidades e foi usada neste trabalho


em sua versao codigo aberto para criar a parte da interface grafica do programa. Ela
fornece uma estrutura de trabalho em C++ para o desenvolvimento de aplicacoes
de interface grafica de alta performance capaz de ser utilizada nas plataformas
Linux/Unix, Mac OS X e Windows bastando apenas recompilar o codigo para cada
totalmente orientada a objetos e facilmente extensvel. Alguns exemuma delas. E
plos de seu uso sao KDE2 e Skyper .

4.2.3

As bibliotecas C++ (ITK e VTK)

As bibliotecas Visualization Toolkitr (VTK) [108] e Insight Toolkitr ITK


[109] sao desenvolvidas em codigo aberto na linguagem de programacao C++ e
1

C, Objective-C, C++, Fortran, Java e Ada

KDE e a interface gr
afica padr
ao na maioria das distribuicoes Linux

54

podem ser usadas e estendidas livremente para fins educativos. ITK e VTK possuem diversas classes projetadas para trabalhar com imagens medicas e visualizacao,
respectivamente, incluindo imagens medicas, elementos finitos, e visualizacao de
dados [110]. A biblioteca ITK foi usada para leitura das imagens DICOM, nos
filtros de crescimento de regioes e na criacao da estrutura que interliga a imagem
aberta com a vizualizacao e pos-processamento dos resultados pela biblioteca VTK.

4.2.4

RedesNeurais

No momento, a biblioteca RedesNeurais contem apenas o mapa auto-organizavel de Kohonen, pois foi implementada, segundo a teoria em [111], especificamente
para a segmentacao de imagens no programa ModaVox. Porem, nada impede seu
uso em outros projetos. Futuramente, outras modalidades de redes neurais serao
acrescentadas.

4.2.5

TetGen

TetGen, desenvolvido por Hang Si [112], e um programa codigo aberto na linguagem C++ usado aqui como uma biblioteca includa no programa ModaVox com
pequenas modificacoes3 . O codigo de TetGen tambem foi devidamente documentado e acompanha esta tese. Tetgen gera tetraedralizacoes de Delaunay sujeitas a
restricoes de qualidade, decompondo um domnio tridimensional em uma malha
tetraedrica com base no contorno ou superfcie deste domnio. Em geral, pode
3

Foi adicionada uma funcao que captura as excecoes e retorna a condicoes de termino, retorna

tambem o progresso atraves de um ponteiro para funcao (function pointer ).

55

ter uma forma complexa com contornos internos que separam diferentes regioes e
buracos. Estas caractersticas tornaram o TetGen bastante adequado para funcionar
como parte integrante do sistema de extracao de malhas tetraedricas do ModaVox.

4.3

Estrutura B
asica do Programa

A estrutura basica do programa ModaVox consiste de dois objetos: a JanelaPrincipal e a SubJanela. Quando o programa se inicia, a JanelaPrincipal e definida e, a
partir da abertura de um arquivo, o usuario inicia uma sessao de trabalho em uma
SubJanela. O usuario pode, entao, acionar comandos e eventos da JanelaPrincipal
para a SubJanela, ou eventos, como os de mouse e os de teclas, diretamente na SubJanela. A SubJanela pode tambem enviar sinais para atualizar valores ou solicitar
funcoes para a JanelaPrincipal, Fig. 4.1.

Figura 4.1: Estrurutura basica do ModaVox.

4.4

Interface Gr
afica

Uma sessao de trabalho do ModaVox e contida em uma SubJanela onde a imagem


medica 2D ou 3D, as segmentacoes e os modelos graficos sao exibidos. Atraves da
JanelaPrincipal, e possvel acionar caixas de ferramentas para:
56

Realizar pre-processamento na imagem antes de segmentar;


Segmentar imagens;
Extrair ou editar malhas, e
Operar nelas definindo condicoes de contorno e executar metodos numericos.
A Figura 4.2 forncece uma visao geral da interface grafica com uma sessao de
trabalho do ModaVox.

Figura 4.2: Sessao de trabalho do ModaVox.

A imagem medica e visualizada atraves dos planos X,Y e Z e muitas operacoes


dependem da posicao desses planos. No entorno da imagem, dividindo a area de tra57

balho, caixas de ferramentas como as que aparecem na Fig. 4.2 podem ser chamadas
para realizar as tarefas descritas a seguir.

4.5

Pr
e-processamento de Imagens M
edicas

4.5.1

Removedor de atenuac
ao

Remove artefatos de atenuacao na imagem medica. A atenuacao em imagens de RM


faz com que determinadas partes aparecam muito escuras enquanto outras muito
claras. Esta funcao ainda nao opera muito bem, tendo sido desenvolvida numa tentativa de melhorar a qualidade da imagem de ressonancia magnetica antes da etapa
de segmentacao. Sua interface permite escolher uma granulacao de amostragem, Fig
4.3-(a).

(a)

(b)

Figura 4.3: Removedor de atenuacao. (a) Granulacao da amostragem. (b) Imagem


de RM apos a subtracao do perfil de intensidade.

A partir dos pontos amostrados, um perfil de intensidade e obtido atraves de


interpolacao e subtrado da imagem original visando equilibrar as intensidades. O
efeito, porem, nao ficou perfeito e restricoes de tempo impediram maiores ajustes.
58

Felizmente, o metodo de segmentacao com redes neurais da Subsecao 4.6.3 foi suficiente para segmentar as imagens do trato vocal com boa qualidade.

4.5.2

Selec
ao de volume de interesse

A partir da demarcacao da posicao dos planos nas direcoes X, Y e Z, e possvel


cortar o volume da imagem medica original gerando um volume menor para uma
regiao mais especfica. A Figura 4.4 mostra a extracao do volume contendo apenas
o trato vocal a partir do volume total de ressoancia magnetica. Tambem e possvel
subamostrar o volume nas direcoes X, Y e Z separadamente.

(a)

(b)

Figura 4.4: Selecao do volume de interesse. (a) Fatias de RM originais. (b) Fatias
de RM apos a selecao do trato vocal.

4.6

Segmenta
c
ao de Imagens
Obtidas as imagens de ressonancia magnetica, a etapa seguinte e a segmentacao

das diversas imagens ou fatias que compoem o volume digitalizado.


Diferentes tecidos podem apresentar a mesma resposta ao equipamento de
ressonancia magnetica, aparecendo na imagem com a mesma faixa de tons de cinza.
59

Existem processos de segmentacao praticamente automaticos, porem, isso depende


muito da especializacao do sistema que analisa as imagens, pois e muito difcil um
programa lidar com todas as variacoes possveis independentemente da aplicacao.
O ModaVox inclui funcoes para segmentacao semi-automatica, porem, para
uma maior precisao final da malha, tambem permite fazer retoques manualmente
na segmentacao das imagens. O grupo de ferramentas de segmentacao de imagens
e formado pelos filtros de crescimento de regioes, pelas ferramentas de segmentacao
manual e pela segmentacao usando redes neurais.

4.6.1

Segmentac
ao por Crescimento de Regi
oes

Esses filtros sao implementacoes da biblioteca ITK e funcionam a partir da selecao


de um pixel inicial (chamado semente) a partir do qual a regiao segmentada vai se
expandindo obedecendo a um criterio de inclusao dos pixels adjacentes. No caso do
Threshold Conectado o criterio e uma faixa de tons de cinza, no caso do Confianca
Conectado, o criterio e o intervalo de confianca em torno do valor medio dos pixels
da regiao. O filtro de reducao de rudo implementa um algoritimo controlado por
uma funcao de curvatura [113]. Seu efeito e reduzir a diferenca de tonalidade entre
os pixels vizinhos, porem preservando as arestas, onde a diferenca de tonalidade
ultrapassa um determinado limiar.

4.6.2

Segmentac
ao manual

Este grupo de ferramentas de segmentacao foi implementado para realizar os retoques que forem necessarios nas segmentacoes.
60

1. Conta-gota: Captura o tom de cinza da fatia segmentada na posicao do plano


selecionado
2. L
apis: Desenha com a cor selecionada da fatia segmentada na posicao do
plano selecionado.
3. Apagar: Semelhante `a funcao do lapis, porem desenha sempre com o tom de
cinza zero.
4. Regi
ao retangular: Demarca uma regiao retangular na fatia segmentada na
posicao do plano selecionado e a pinta com a cor selecionada.
5. Preencher: Preenche uma regiao (4-conectada) com a cor selecionada a partir
de um pixel inicial.
6. Remover tom de cinza da segmentac
ao: Remove o tom de cinza selecionado da imagem segmentada na posicao do plano selecionado.
7. Remover Ilhas: Remove ilhas da imagem segmentada com o n
umero de
possvel remover as ilhas em todas as fatias segmentadas
pixels indicado. E
de uma vez selecionando a opcao todas as fatias.

4.6.3

Segmentac
ao por Redes Neurais

Este grupo de ferramentas de segmentacao consiste no mapa auto-organizavel de


Kohonen e de sua interface. Diferentemente dos filtros de crescimento de regioes,
a capacidade da rede neural de segmentar uma ou mais fatias em sequencia, sem
necessidade de reajuste dos parametros a cada fatia, acelera grandemente o processo
61

de segmentacao de regioes volumetricas [114]. Dependendo da qualidade da imagem


pode ser necessario fazer alguns retoques posteriormente com as ferramentas de segmentacao manual. A classe MapaAutoOrganizavel foi desenvolvida especificamente
para a tarefa de segmentacao e pertence `a biblioteca de redes neurais.
A tecnica de segmentacao se baseia na obtencao de vetores de caractersticas
formados por descritores de textura estatsticos [115] e de co-ocorrencia [116]. Os
descritores estatsticos usados foram: Continuidade, Entropia, Maxima Probabilidade, Media, Uniformidade, Variancia e Momento de Ordem 3.
Continuidade = 1 1/(1 + 2 (z))
Entropia =

p(zi ) log2 p(zi )

(4.1)
(4.2)

Tom de cinza mais provavel = zmax (p(zi ))

(4.3)

Media =

zi p(zi )

(4.4)

Uniformidade(Energia) =

p(zi )2

(4.5)

Variancia(Contraste) =

(zi z)2 p(zi )

(4.6)

Momento de Ordem 3 =

(zi z)3 p(zi )

(4.7)

onde os ndices de somatorio sao referentes aos n2 pixels da vizinhanca n n, zi e o


tom de cinza do i-esimo pixel, p(zi ) e a sua probabilidade dentro da vizinhanca, z e o
tom de cinza medio e (z) e a sua variancia dentro da vizinhanca, respectivamente.
A Equacao (4.3) fornece o tom de cinza mais provavel na vizinhanca em vez do
maior valor de probabilidade. Esta mudanca foi feita para melhorar o efeito deste
descritor.
Os descritores de co-ocorrencia usados foram: Continuidade, Correlacao, En62

tropia, Homogeneidade, Maxima Probabilidade, Uniformidade, Variancia, Momento


de Ordem 3 e Momento Inverso de Ordem 3.
Continuidade = 1 1/(1 + 2 (i, j))
Correlacao =

XX
i

Entropia =
Homogeneidade =

XX
i

(4.9)

p(i, j)log2 p(i, j)

(4.10)

p(i, j)/(1 + |i j|)

(4.11)

XX
i

(i i)(j j)p(i, j)/(i j )

(4.8)

Maxima Probabilidade = max(p(i, j))

(4.12)

XX

p(i, j)2

(4.13)

XX

|i j|2 p(i, j)

(4.14)

Momento de Ordem 3 =

XX

|i j|3 p(i, j)

(4.15)

Momento Inverso de Ordem 3 =

XX

p(i, j)/|i j|3

(4.16)

Uniformidade(Energia) =

Variancia(Contraste) =

onde os ndices de somatorio sao referentes `as n2 combinacoes de tons de cinza da


vizinhanca nn. As variaveis i, j, i e j sao as medias e variancias do tom de cinza
da primeira i e da segunda j componentes do par de co-ocorrencia, respectivamente.
p(i, j) e a sua probabilidade conjunta ou probabilidade de co-ocorrencia e (i, j)
e a sua variancia conjunta. Vetores contendo alguns ou todos os descritores nas
Equacoes (4.1)-(4.16) sao extrados a partir de uma vizinhanca 3 3 em torno de
um pixel de referencia, ao longo da imagem e usados como dados de treinamento
para a rede neural, Fig 4.5.

63

Figura 4.5: Amostragem da imagem por uma vizinhanca 3 3.


Durante a fase de treinamento os vetores de caractersticas sao normalizados
e fornecidos para a rede e sua funcao de treinamento, que implementa aprendizado
competitivo [111]. Tambem e possvel segmentar aplicando m
ultiplos limiares4 usando as faixas de tons de cinza da imagem como entrada para a rede em vez dos
descritores. No u
ltimo ciclo de treinamento, as sadas da rede que indicaram resposta
(neuronios vencedores), sao consideradas representantes das regioes detectadas na
imagem. O algoritmo entao atribui automaticamente rotulos (tons de cinza) para
essas sadas, Fig. 4.6-(a).
Na fase de segmentacao, para cada pixel, a rede neural extrai e classifica um
vetor de descritores de textura a partir da vizinhanca 3 3 em torno do pixel.
Entao, o rotulo (tom de cinza) correspondente `a sada resultante da rede e atribudo
ao pixel, Fig. 4.6-(b).
4

Tecnica mais conhecida como m


ultiplos tresholds.

64

(a)

(b)

Figura 4.6: Algoritmo da rede neural. (a) Treinamento. (b) Segmentacao.


O tempo de treinamento da rede depende do tamanho da imagem e dos
seguintes parametros ajustaveis: n
umero de ciclos de treinamento, n
umero de sadas
da rede, passo de amostragem e quantos e quais descritores serao extrados para cada
vetor do conjunto de treinamento. Como exemplo, para uma fatia 512 512 usando
1000 ciclos de treinamento em uma rede com 20 sadas, passo de amostragem de 4
pixels e a selecao de todos os 16 descritores, o sistema levou 9 minutos e 48 segundos numa maquina Intel 2,66 GHz com 1GB de RAM. Para tempos de treinamento
mais curtos, e possvel aumentar o passo de amostragem para reduzir o conjunto
de treinamento. Entretanto, um passo de amostragem muito grande pode gerar
amostragem insuficiente e uma segmentacao ruim. O treinamento e feito em uma
u
nica fatia e a segmentacao no restante.
Segmentar com a rede neural e muito mais rapido, pois nao e necessario lidar
com o grande conjunto de treinamento, o que envolve fazer o ajuste de pesos da
65

rede para cada um de seus vetores. Na fase de segmentacao o passo de amostragem


e sempre 1. Como exemplo, a mesma fatia 512 512 com a selecao de todos os 16
descritores levou 42 segundos na mesma maquina. Apos a segmentacao de uma imagem de calibracao, e possvel mudar os rotulos associados `as sadas da rede. Assim,
e possvel inibir uma regiao (atribuindo rotulo zero) ou unir duas regioes (atribuindo
o mesmo rotulo). Apos esta configuracao, a segmentacao pode ser aplicada a todas
as outras imagens do mesmo volume. Tambem e possvel segmentar na direcao dos
outros planos, Fig. 4.7.

Figura 4.7: Segmentacoes nos planos Sagital, Axial e Coronal.


A segmentacao de 192 fatias de tamanho 112 192 levou 3 minutos e 18
segundos em uma maquina Intel 2,66 GHz com 1GB of RAM.

4.7

Extra
c
ao/Edi
c
ao de Malhas

4.7.1

Formac
ao do Volume Segmentado

Concludo o processo de segmentacao, as fatias segmentadas podem ser unidas


formando uma imagem volumetrica. Isso permite a extracao de iso-superfcies e/ou
66

malhas para os metodos numericos, Fig. 4.8.

Figura 4.8: Formacao do volume segmentado.

Existem duas modalidades para extracao de malhas no ModaVox:


Extracao de iso-superfcies formadas por triangulos para posterior tetraedralizacao;
Extracao direta de malhas para o metodo das linhas de transmissao
Ambas essas modalidades de extracao de malhas se utilizam do volume segmentado formado pela uniao das fatias da lista de imagens segmentadas em uma
matriz 3D como na Fig. 4.8. A primeira utiliza o algoritmo Marching Cubes para
desenhar a malha de superfcie em torno da regiao com o tom de cinza desejado
no volume segmentado. A segunda aproveita a estrutura em grade 3D da imagem
volumetrica, de modo a obter uma grade 3D formada de pontos e arestas, que acompanha a forma do objeto segmentado na imagem volumetrica e e propcia para a
aplicacao do MLT.

67

4.7.2

Gerac
ao das Iso-superfcies

O Marching Cubes e um algoritmo usado para extrair as iso-superfcies a partir


de uma imagem volumetrica segmentada. Este metodo e tambem o mais conhecido
para alcancar resultados de alta resolucao de forma mais rapida e eficiente [108, 117],
tendo sido introduzido por Lorensen e Cline [118].
O algoritmo considera que, em uma imagem volumetrica de ressonancia magnetica, cada celula e formada por oito voxels e identificada pelos valores maximo
vmax e mnimo vmin dos tons de cinza desses voxels. Apenas serao processadas as
celulas que sao interceptadas pela iso-superfcie, ou seja, dado um valor escalar viso
correspondente ao tom de cinza do objeto delimitado pela iso-superfcie, somente as
celulas para as quais (vmax viso ) e (vmin viso ) serao processadas, Fig. 4.9.

Figura 4.9: Contorno de uma superfcie interceptando celulas.


Para as celulas que sao interceptadas pela iso-superfcie, cada um dos seus 8
voxels representara um vertice que pode estar em dois estados: fora (0) ou dentro (1)
do volume delimitado pela iso-superfcie. O modo como a iso-superfcie intercepta
uma determinada celula c
ubica de 8 voxels pode ser representado de 28 = 256 casos
68

possveis. A Fig. 4.10 mostra essas combinacoes que podem ser reduzidas a 15 casos,
considerando a simetria da celula c
ubica.

Figura 4.10: Combinacoes possveis de uma superfcie atravessando uma celula


c
ubica. (Adaptada de Hansen e Johnson [117])

O algoritmo e iniciado pela selecao do valor escalar (tom de cinza) que representara a iso-superfcie e o interior de seu volume. Ao analisar cada celula,
o algoritmo localiza o caso de ocorrencia (ver Fig. 4.10) em uma tabela e faz a
interpolacao linear para construir o polgono da iso-superfcie global que esta contido
na celula em questao. O algoritmo vai processando celula a celula ate formar uma
iso-superfcie completa, definida em termos de uma malha poligonal, que contorna
o objeto segmentado com o tom de cinza fornecido inicialmente.
Metodos para aceleracao do processo de extracao de iso-superfcies podem ser
encontrados nas referencias [119, 120].

4.7.3

Tetraedralizac
ao

O algoritmo Marching Cubes apenas gera iso-superfcies, que sao cascasrepresentando a forma dos objetos 3D. Para aplicar os metodos numericos como o
dos elementos finitos (MEF) e o das matrizes de linhas de transmissao (MLT), sera
necessario gerar as malhas de tetraedros de modo a solucionar as equacoes nos pontos
69

interiores dos objetos.


Apos a geracao das iso-superfcies descrita na secao anterior, e possvel gerar
malhas de tetraedros para os diferentes volumes, obtidos a partir das imagens
medicas, com vistas `a aplicacao do MEF. O programa utilizado para gerar a tetraedralizacao do interior das iso-superfcies foi o TetGen [112]. O TetGen foi desenvolvido na linguagem C++ e aqui, com pequenas alteracoes, ele faz parte do programa desenvolvido na forma de uma biblioteca.
Para que a tetraedralizacao no interior de uma malha de superfcie funcione,
esta malha deve ser perfeitamente fechada e sem intersecoes. Atendida esta condicao,
e possvel refinar a tetraedralizacao especificando o volume maximo de cada tetraedro, bem como o fator de qualidade5 dos mesmos, Fig 4.11.

(a)

(b)

Figura 4.11: Tetraedralizacao de malhas. (a) Malha de superfcie. (b) Tetraedralizacao do interior. (Vista em corte mostrando as fatias da imagem medica 3D.
5

M
axima relacao raio / aresta permitida para cada tetraedro.

70

4.7.4

Extrac
ao de malhas para o MLT

A extracao de malhas para aplicacao do MLT e relativamente mais facil que a das
malhas tetraedricas, uma vez que a estrutura em grade 3D constituda pelos voxels
do volume segmentado pode ser aproveitada. As arestas sao criadas de modo a
interligar somente os voxels com a segmentacao do objeto para o qual se deseja
extrair a malha. Assim, e possvel obter uma grade 3D formada de pontos e arestas,
que acompanha a forma do objeto segmentado no volume. A Figura 4.12 compara
a malha tetraedrica com a malha em forma de grade 3D do MLT, ambas extradas
para a concatenacao de 2 tubos da Secao 5.4.

(a)

(b)

Figura 4.12: Comparacao entre malhas. (a) Tetraedrica (MEF) e (b) Arestas ortogonais (MLT). Vistas em corte com os planos mostrando o volume segmentado.

Entretanto, a atual implementacao do MLT no projeto ModaVox considera a


propagacao sem perdas e exige, para sincronismo do passo de tempo, que todas as
arestas tenham o mesmo comprimento. Como as arestas da malha sao extradas
interligando os voxels de uma imagem volumetrica segmentada, e importante que
esta imagem seja geometricamente isotropica para garantir que a distancia entre os

71

voxels seja a mesma nas direcoes dos tres planos. O ModaVox e capaz de identificar
se a imagem medica aberta e geometricamente anisotropica e remover esse efeito se
solicitado.

4.7.5

Vizualizac
ao em Corte da malha

Esta funcao permite visualizar um corte da malha no plano ativo, Fig. 4.12.

4.7.6

Simplificac
ao de Iso-superfcies

Reduz o n
umero de triangulos de uma dada percentagem em uma iso-superfcie.

4.7.7

Limpeza de Iso-superfcies

Quando as condicoes da imagem a ser segmentada nao sao muito boas, a etapa de
geracao das iso-superfcies pode gerar falhas como intersecoes e/ou duplicacao de
triangulos. Esta funcao foi criada para varrer uma iso-superfcie eliminando, tanto
quanto possvel, esses defeitos.

4.7.8

Suavizac
ao de Iso-superfcies

Suaviza a disposicao dos triangulos em uma iso-superfcie de maneira a torna-la mais


contnua, sem a aparencia de camadas interligadas por triangulos.

72

4.8

M
etodos Num
ericos

Este grupo de controles define os atributos dos pontos e/ou elementos para a malha
possvel visualizar os pontos ou elementos selecionados na imagem
selecionada. E
a partir da selecao na tabela. Uma vez estabelecidos as variaveis e os valores de
contorno na malha, pode-se aplicar o metodo das matrizes de linhas de transmissao
ou o metodo dos elementos finitos.

4.8.1

M
etodo dos Elementos Finitos

Seria utilizada a implementacao em elemento finitos da biblioteca GetFem++ [121],


porem, devido a restricoes de tempo, `a complexidade da implementacao da entrada
do sinal glotal na malha de elementos finitos, alem do fato de ja haver muitos
trabalhos envolvendo aplicacao de elementos finitos ao trato vocal, a aplicacao
deste metodo ficara para uma outra oportunidade, apesar da extracao de malhas
tetraedricas ter sido desenvolvida. Desse modo, devido `a maior facilidade de implementacao e `a capacidade de simular varias frequencias numa u
nica simulacao, o
metodo das matrizes de linhas de transmissao foi o escolhido para a modelagem do
trato vocal.

4.8.2

M
etodo das Matrizes de Linhas de Transmiss
ao

Este grupo de controles permite a especificacao dos parametros para a aplicacao


do metodo das matrizes de linhas de transmissao. A partir de uma malha TLM
selecionada, sao determinados o comprimento das linhas de transmissao e se este

73

comprimento e regular em toda a malha. Entao, podem ser especificados os valores


da velocidade de propagacao do som no ar e do n
umero de iteracoes, ou do tempo
de simulacao desejado. Um relatorio fornece informacoes sobre a discretizacao do
espaco, do tempo, a maxima frequencia analisavel para a atual discretizacao do
espaco e a dispersao numerica para a frequencia de 4 KHz. O metodo das matrizes
de linhas de transmissao e descrito com detalhes na Secao 3.4.

4.9

Outras Funcionalidades do Programa

Alem das funcionalidades que constam nas caixas de ferramentas, existem ainda
algumas outras. O exame de todo o codigo do programa pode ser feito atraves da
documentacao em html que acompanha esta tese, ver Subsecao 4.10.

4.9.1

Visualizar Fatia Segmentada

Esta funcao exibe uma fatia segmentada, caso uma exista, na posicao do plano
selecionado. Quando acionada mais de uma vez, alterna o esquema de cores da
visualizacao da segmentacao entre HSV e tons de cinza.

4.9.2

Equalizac
ao de Histograma

A equalizacao de histograma [115] permite aumentar o contraste da imagem. O


MadaVox equaliza o histograma de imagens DICOM 2D e 3D.

74

4.9.3

Abrir Arquivos

Abre imagens DICOM, series de imagens DICOM, arquivos (*.png), (*.jpg) e (*.bmp),
e arquivos de modelos do ModaVox (*.mvx).

4.9.4

Salvar Arquivos

Salva imagens DICOM (volumetricas ou fatias), imagens (*.png) e arquivos de modelos do ModaVox (*.mvx).

4.9.5

Estrutura de um arquivo (*.mvx) do ModaVox

A figura 4.13 mostra a estrutura de um arquivo (*.mvx) do ModaVox.

Figura 4.13: Estrutura de um arquivo do ModaVox (*.mvx).

O arquivo de modelos do ModaVox (*.mvx) foi desenvolvido especificamente


para armazenar sessoes de trabalho no ModaVox. Assim, este arquivo contem a
imagem medica aberta inicialmente e, se houver, a lista de segmentacoes feitas a

75

partir de suas fatias, a lista de malhas extradas a partir das segmentacoes e a rede
neural, caso uma tenha sido definida para realizar as segmentacoes.

4.10

O sistema de documenta
c
ao (Doxygen)

Para documentacao de todo o codigo foi utilizada a ferramenta Doxygen [122]. Ela
consiste em um programa, tambem em codigo aberto, que gera a documentacao automatica do codigo fonte do programa a partir dos arquivos *.h e *.cpp encontrados
no diretorio onde o programa estiver sendo desenvolvido, como mostra a Fig. 4.14.

Figura 4.14: Documentacao do ModaVox em HTML.


Os comentarios no formato /** Coment
ario */ colocados acima da definicao
de uma dada funcao ou classe, sao interpretados como textos referentes a essa funcao
76

ou classe. Assim, e possvel gerar documentacao nos formatos HTML, Latex, XML,
etc. onde os comentarios do codigo aparecem na forma de textos explicativos. No
Linux, o comando doxywizard aciona a interface onde podem ser escolhidas opcoes
para a gerar a documentacao do codigo. Selecionadas as opcoes desejadas, como
diretorio de destino, estilo dos diagramas, formato da documentacao, etc; basta
extrair a documentacao.

77

Captulo 5
Simula
c
oes e Resultados

5.1

Introduc
ao

Neste captulo sao apresentados os detalhes das simulacoes e os principais resultados,


obtidos atraves da aplicacao do MLT ao estudo da propagacao ac
ustica em diferentes
modelos tridimensionais do trato vocal humano.

5.2

Constru
c
ao das Malhas

Imagens de ressonancia magnetica (IRM) podem mostrar nitidamente os tecidos


moles que sao relevantes para a producao da voz. As malhas para o MLT sao
construdas por sobre os voxels (Volumetric Picture Elements) que possuem o rotulo
do objeto (ou tom de cinza) em IRM volumetricas segmentadas. Consequentemente,
a malha extrada para o MLT representara o objeto segmentado tao fielmente quanto
importante dizer que a
possvel, dependendo apenas do tamanho dos voxels. E
imagem deve ser geometricamente isotropica para que a malha seja uniforme.
78

5.2.1

Modelos de Tubos do Trato Vocal

O processo de obtencao das malhas para os tubos e realizado em quatro passos:


(i) A sequencia de imagens para a geracao das malhas dos tubos e construda a
partir de um u
nico desenho (aqui, o editor de imagens Kolourpaint [123] foi usado
para desenhar a primeira fatia do tubo); (ii) Esta primeira fatia e salva no formato
DICOM usando o editor de imagens Gimp [124]; (iii) Varias copias1 da imagem
DICOM sao criadas e o programa ModaVox e usado para abrir a sequencia de imagens criada unindo-as em uma imagem volumetrica de um tubo com o comprimento
desejado; (iv) O ModaVox e usado novamente para segmentar as varias fatias da
imagem volumetrica criada, cada uma contendo um u
nico objeto em forma de disco,
e un-las em uma imagem volumetrica segmentada, a partir da qual a malha para o
MLT e extrada.
Para construir a malha para o modelo de dois tubos com segmentos de diametros
diferentes, basta criar duas sequencias de imagens conforme descrito acima. As malhas para os tubos possuem terminacoes nas extremidades abertas para afastar as
aberturas dos tubos das fronteiras da malha que representam a continuacao do
espaco. Isso permite uma modelagem mais precisa do efeito de irradiacao do som
nas aberturas dos tubos. As terminacoes consistem em segmentos de tubo com 7
pixels de comprimento e diametro 4 pixels maior que o do tubo a ser terminado.
Para todos os modelos de tubos a discretizacao do espaco L e igual a 1 mm.
1

O c
odigo C++ para duplicacao das imagens se encontra no apendice.

79

5.2.2

Modelo do Trato Vocal Humano

Nesta tese foi possvel tirar vantagem das ferramentas de segmentacao de imagens
do ModaVox (ver Secao 4.6) e extrair uma malha para o MLT em conformidade
com as dimensoes naturais do trato vocal. A malha do trato vocal foi obtida para a
posicao correspondente `a vogal /a/ do idioma portugues brasileiro.
As imagens de ressonancia magnetica do trato vocal foram obtidas com o
equipamento de ressonancia magnetica da Clnica ProEcho, gentilmente disponibilizado para esta pesquisa pelo Doutor Alair Augusto S.M.D. dos Santos.
O processo de geracao da malha do trato vocal e realizado em quatro passos:
(i) A sequencia 3D de IRM, com tempo de aquisicao de 18 min e 39 seg, e extrada
para a forma da vogal /a/. O indivduo doador das imagens emitiu a vogal /a/
periodicamente, de modo a controlar o trato vocal mantendo-o em uma posicao fixa
durante a extracao da sequencia de imagens, que era originalmente composta de 186
fatias de 512 512 pixels. A sequencia foi extrada usando uma maquina General
Electric, modelo GE Medical Systems HDxt Signa, com forca de campo magnetico
de 1,5 Tesla, utilizando os seguintes parametros: imagem de RM T1, sequencia de
escaneamento gradient recalled (GR), bobina de cabeca de 8 canais (8HRBRAIN),
tempo de eco de 4,744 ms, tempo de repeticao de 10,584 ms, campo de visao (FOV)
48 X 48 cm, com espacamento entre pixels de (0, 9375; 0, 9375) mm e espessura 1
mm, ou seja, uma imagem geometricamente anisotropica; (ii) O volume de interesse (VOI) contendo apenas o trato vocal e extrado a partir do volume original e
sobreamostrado para remover a anisotropia. Assim, as dimensoes finais dos voxels

80

ficaram (0, 968498; 0, 968498; 0, 968498) mm; (iii) Nesta nova imagem 3D geometricamente isotropica, a segmentacao e realizada via rede neural, remocao de ilhas e
alguns ajustes manuais (todas estas operacoes foram realizadas com o programa
ModaVox). A parte dos dentes foi segmentada de forma manual; (iv) Finalmente, a
malha uniforme para o MLT e extrada a partir da imagem 3D segmentada. Para a
malha do modelo do trato vocal, L = 0, 968498 mm devido `a dimensao final dos
voxels apos a remocao da anisotropia.

5.3
5.3.1

Detalhes das Simula


c
oes
Atributos da Malha

No ModaVox, a caixa de ferramentas Metodos Numericos contem tabelas nas quais


podem ser inseridos valores de atributos para pontos e elementos. No caso da
aplicacao do MLT, apenas 2 atributos sao necessarios e somente para os pontos.
Esses atributos sao os valores de pressao(solucao inicial) e de contorno para cada
ponto. Os valores de contorno permitem ao programa saber que condicao aplicar
a cada no, modificando os valores de e na Eq. (3.41) conforme o no pertenca
ao interior (contorno 0), `as suas fronteiras (contorno 1), o no seja um ponto de entrada (contorno 2) ou o no seja uma terminacao/fonteira de espaco livre (contorno
3). Uma funcao, especialmente programada no botao [Inicializa malha], calcula e
atribui aos pontos os contornos 0 e 1, automaticamente. Porem, os contornos 2 e
3 devem ser atribudos aos pontos manualmente, atraves da interface da caixa de
ferramentas de Metodos Numericos do ModaVox.
81

5.3.2

Condic
ao de Estabilidade

Os valores dos coeficientes de reflexao () e de transmissao ( ) para os quais a


solucao se mantem estavel devem ser escolhidos obedecendo `a seguinte regra,

(1 )

=
, 2/3
5
(5.1)

= 1 + ,
< 2/3
onde ambas as equacoes sao iguais para = 2/3, sendo a primeira obtida fazendo
ZT = Z/5 e segunda fazendo ZT = Z(1 + )/(1 ) na Eq. (3.36).

5.3.3

Sinais de Entrada

Os valores de L sao 1 mm para as malhas dos modelos de tubos e 0,968498 mm


para a malha do trato vocal, como explicado na Subsecao 5.2. Logo, de acordo com
a Eq. (3.42), a maxima frequencia que uma componente de um sinal pode ter de
modo a poder viajar atraves da malha MLT e 34310 Hz para as malhas de tubos e
35425 Hz para a malha do trato vocal.
Um dos sinais de entrada e constitudo por 200 componentes de frequencia, de
amplitude unitaria, na faixa de 50 a 10000 Hz. Este sinal foi usado para determinar
a resposta em frequencia nos modelos em tubos e do trato vocal, sendo dado por
entrada =

200
X

cos(2fn t)

(5.2)

n=1

onde f1 = 50 Hz, f2 = 100 Hz, f3 = 150 Hz, , f199 = 9950 Hz, f200 = 10000 Hz.
Entretanto, o algoritmo TLM funciona em termos de iteracoes onde cada i
teracao corresponde a t = L/(c D) segundos. Logo, para gerar o arquivo de
entrada e necessario converter o tempo t na Eq. (5.2) em iteracoes, assim

82

entrada =

200
X

cos(2fn kt)

(5.3)

n=1

onde t, agora discreto, e representado por t vezes o n


umero de iteracoes k. Desse
modo, basta gerar o sinal com duracao suficiente para que o ModaVox execute o
n
umero de iteracoes desejado. Este sinal e salvo em um arquivo (*.dados), a partir
do qual o ModaVox faz a leitura do sinal de entrada para a malha. O arquivo contem
a taxa de amostragem (1/t), o n
umero de amostras e os valores das amostras. A
cada iteracao um valor e lido neste arquivo. Quando a funcao espalhar() e chamada
para um no de entrada, o valor lido configura a entrada para a iteracao em questao.

Segundo a Eq. (5.3), como t = L/(c D), se forem feitas alteracoes nos
valores de L e/ou de c, um novo arquivo com o sinal de entrada com as frequencias
desejadas deve ser gerado para que haja compatibilidade na simulacao.
O outro sinal de entrada usado foi o sinal glotal, o qual foi gerado com a funcao
iaif(), do programa TKK Aparat [125, 126], por filtragem inversa do sinal de voz real
produzido pelo mesmo indivduo cuja malha do trato vocal foi extrada. Apos isso,
o sinal glotal gerado foi sobreamostrado de modo a tornar a sua taxa de amostragem
igual a 1/t, onde t e o intervalo de discretizacao do tempo no MLT. Entao, o
sinal foi armazenado em um arquivo para ser excitado como entrada na malha do
trato vocal pelo programa ModaVox. A Figura 5.1 mostra o sinal da voz humana e
o sinal glotal correspondente, o qual foi usado como entrada apenas para a malha
do trato vocal.

83

(a)

(b)

Figura 5.1: (a) Sinal de voz real para a vogal /a/. (b) Sinal glotal obtido por
filtragem inversa do sinal em (a).
Os sinais de entrada descritos foram excitados nas malhas, um valor por iteracao, no no que representa a origem. Os pulsos que chegam ao no de origem devido
`a reflexao nas paredes dos modelos sao tratados de acordo com a Eq. (3.45) e o
resultado e somado ao valor de entrada atual do no de origem, seguindo a excitacao
padrao de sinais em malhas MLT.

5.3.4

Sinais de Sada

A partir da interface, e possvel selecionar os pontos desejados na malha para registrar os seus valores a cada iteracao. Os valores vao sendo armazenados em arquivos
de sada cujos nomes tem a forma SaidaDoPonto [n
umero do ponto].csv2 . Assim, e possvel analisar posteriormente os valores da solucao nos pontos de interesse.
Para visualizar o grafico da sada da simulacao num dado ponto em funcao do tempo,
basta converter os ndices dos valores armazenados no arquivo de sada do ponto,
multiplicando-os por t. Para visualizar o conte
udo de frequencia do sinal gerado
pela simulacao num dado ponto, basta calcular a transformada rapida de Fourier
(FFT) do sinal contido no arquivo de sada do ponto. A resposta em frequencia
2

No formato (*.csv) os dados s


ao separados por vrgulas, f
acil de abrir em planilhas.

84

do modelo representado pela malha e obtida a partir do calculo dos coeficientes de


predicao linear (LPC - Linear Prediction Coding) para o sinal contido no arquivo
de sada do ponto.
A duracao mnima dos sinais gerados pelas simulacoes foi fixada em 0,2 segundos, pois nesse intervalo de tempo cabem exatamente 10 perodos da componente
do sinal de entrada da Eq. (5.3) com menor frequencia (50 Hz). Desse modo, fica
garantido que todas3 as componentes de frequencia aparecam no espectro obtido
pela FFT e que os tempos de simulacao nao sejam muito longos.

5.3.5

Condic
ao de Contorno de Espaco Livre

Uma das grandes dificuldades enfrentadas neste trabalho foi a determinacao da


condicao de contorno de espaco livre. Essa condicao deve simular a continuidade da
propagacao dos pulsos do MLT para alem dos limites da malha. Assim, os pontos
da fronteira devem estimar um valor que seria devolvido para os pontos do interior,
caso a propagacao continuasse alem do limite do truncamento. Segundo, El-Masri
et. al. [70] excelentes resultados podem ser obtidos atraves da aproximacao
Vyr (Ny , t) = 2, 5Vyr (Ny 1, tt)2Vyr (Ny 2, t2t)+0, 5Vyr (Ny 3, t3t) (5.4)
onde Vyr (Ny , t) e o pulso de pressao refletido no no Ny num instante t numa linha
de transmissao ao longo do eixo y. Entretanto, sua aplicacao se revelou ineficaz
na aplicacao nos modelos de tubos e do trato vocal. Apos varias simulacoes foi
possvel concluir que esta condicao e extremamente instavel. Embora possa ter
3

Inclusive as do sinal glotal cuja mnima frequencia pode chegar a 75 Hz.

85

funcionado bem quando aplicada indistintamente a todas as fronteiras da malha [70],


a existencia de uma ou mais fronteiras com a condicao de contorno refletora ( = 1 e
= 0) provoca perturbacoes naturais na propagacao, devido `as interferencias entre
as frentes de onda, tornando impossvel prever a resposta na fronteira com a Eq.
(5.4). Alem disso, segundo o proprio Saguet [127], a hipotese de continuidade dos
valores do sinal para a interpolacao so e valida para a frente de onda inicial. Apos
a absorcao da frente de onda, surgem pulsos de rapida variacao4 que impossibilitam
qualquer predicao. Sua aplicacao nos modelos de tubos da Secao 5.4 fez a solucao
aumentar indefinidamente.
Os melhores resultados para deteccao de frequencias de ressonancia foram
obtidos fazendo ZT = 0 para os pontos das terminacoes do espaco livre de modo
que = 1 e = 0 segundo a Eq. (3.36).

5.4

Aplica
c
ao do MLT a Sequ
encias de Tubos

Antes de aplicar o MLT `a complexa estrutura do trato vocal, ele sera aplicado
aos modelos de tubos, cujos resultados podem ser comparados com os resultados
analticos. Alem disso, em pesquisas de voz e da fala, os modelos de tubos sao
frequentemente usados em tentativas de se relacionar as configuracoes de forma do
trato vocal com a estrutura resonante representada pelas formantes [90].
4

Esta r
apida variacao e devida `
as interferencias entre as frentes de onda diretas e refletidas.

86

5.4.1

O fator de compensac
ao da dispers
ao

Inicialmente, foram construdos modelos para os tubos simples (aberto e fechado)


consistindo de malhas MLT 3D retilneas e uniformes. Para ambos os modelos,
uma primeira simulacao e realizada sem qualquer correcao na velocidade. Entao, os
valores desajustados da primeira formante nos modelos dos tubos aberto e fechado
foram usados independentemente para determinar a velocidade aparente na malha,
encontrando o mesmo valor em ambos os modelos. A razao entre as velocidades real
e aparente fornece o fator de compensacao. O uso deste fator elimina a dispersao
numerica dependente da topologia em malhas MLT 3D retilneas e uniformes e faz
com que os resultados das simulacoes fornecam os valores corretos para as frequencias
de ressonancia em diferentes modelos, como a concatenacao de dois tubos para a
vogal /a/, e o trato vocal humano. As primeiras simulacoes foram realizadas nas
malhas dos modelos de tubos simples, representando tubos com diametro 24 mm e
comprimento 170 mm, como ilustrado na Fig. 5.2.

(a)

(b)

Figura 5.2: Tubos com diametro 24 mm e comprimento 170 mm. (a) Aberto. (b)
Fechado.
As simulacoes foram realizadas considerando c = 343, 1 m/s para a velocidade
87

do som no ar e D = 1 na Eq. (3.43). As funcoes resposta em frequencia para os


modelos sao mostradas na Fig. 5.3.

(a)

(b)

Figura 5.3: Respostas em frequencia compatveis com tubos de comprimento maior.


(Simulacoes nos tubos da Fig. 5.2 com c = 343, 1 m/s). (a) Aberto. (b) Fechado.

No caso do tubo aberto, as formantes foram: f1 = 550, 67 Hz, f2 = 1101, 34


Hz, etc. Entretanto, os valores deveriam ser f1 = 1009, 12 Hz, f2 = 2018, 23 Hz,
etc., de acordo com a Eq. (5.5), para as formantes do tubo aberto de uma u
nica
secao:
fn =

nc
2L

(5.5)

onde c = 343, 1 m/s e a velocidade do som no ar e L e o comprimento do tubo.


No caso do tubo fechado, os valores obtidos a partir da simulacao foram:
f1 = 275, 335 Hz, f2 = 826, 005 Hz, etc. Entretanto, os valores das formantes
deveriam ser f1 = 504, 55 Hz, f2 = 1513, 67 Hz, etc., de acordo com a Eq. (5.6),
para as formantes do tubo fechado de uma u
nica secao:
fn =

(2n 1)c
.
4L

(5.6)

Em ambos os casos acima, considerando as formantes obtidas a partir das


simulacoes (ver Fig. 5.3) e as equacoes correspondentes para os tubos aberto e
fechado, os modelos de tubos simples paracem ter um comprimento L = 311, 529

88

mm, considerando c = 343, 1 m/s. Isso acontece devido `a estrutura ortogonal uniforme da malha do MLT, na qual as frentes de onda viajam a velocidades diferentes
nas direcoes diagonais [67]. A Figura 5.4 ilustra este processo.

Figura 5.4: Velocidade aparente em 3D. Dependendo da direcao, as distancias podem


ser percorridas pelos pulsos em tempos diferentes.
Os tubos parecem ser mais longos porque a velocidade de propagacao do som
esta mais baixa do que deveria. Desse modo, um fator de compensacao foi proposto:
usando a Eq. (5.5) com o comprimento real do tubo (L = 0, 17 m) e a primeira
formante (f1 = 550, 67 Hz) para a simulacao no tubo aberto (ver Fig. 5.3), e
possvel calcular o valor da velocidade aparente, a qual e dada por c = 187, 2278
m/s. Similarmente, para a malha do tubo fechado, usando a Eq. (5.6) com o
comprimento real do tubo (L = 0, 17 m) e a primeira formante (f1 = 275, 335 Hz)
para a simulacao no tubo fechado (ver Fig. 5.3), fornece c = 187, 2278 m/s para o
valor da velocidade aparente. Assim, os modelos dos tubos simples sao uma maneira
eficiente de determinar um valor global para a velocidade aparente nas simulacoes
em malhas uniformes 3D para o MLT. A razao entre as velocidades real (343,1
m/s) e aparente (187,2278 m/s) fornece o fator de compensacao (1, 8325). Entao,
a velocidade do som pode ser alterada para c = 343, 1 1, 8325 = 628, 7307 m/s,
mantendo o comprimento do tubo com 170 mm. Ou, alternativamente, devido `a
89

linearidade da Eq. (3.43), foi possvel construir uma nova malha para o tubo com
L = 170/1, 8325 = 92, 77 93 mm (Fig. 5.5), mantendo c = 343, 1 m/s. Embora
ambas as alternativas tenham funcionado nas malhas de tubos simples, alterar a
estrutura da malha nao e uma opcao desejavel.

(a)

(b)

Figura 5.5: Tubos com diametro 24 mm e comprimento 93 mm. (a) Aberto e (b)
Fechado.
As simulacoes com os tubos curtos (L = 93 mm) tambem trouxeram as formantes aos valores corretos (Fig. 5.6).

(a)

(b)

Figura 5.6: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.5 com c =
343, 1 m/s). (a) Aberto. (b) Fechado.

Apesar de emprico, o metodo de usar os modelos de tubos simples para afinar


as formantes permite definir um valor global para a velocidade aparente em malhas
MLT 3D retilneas uniformes e a consequente eliminacao da dispersao numerica.
90

5.4.2

Tubo com di
ametro 24 mm

Agora, considerando um tubo de comprimento 170 mm, diametro 24 mm e compensando o valor da velocidade do som (c = 343, 1 1, 8325 = 628, 7307 m/s), as
respostas em frequencia obtidas a partir das simulacoes sao mostradas na Fig. 5.7.

(a)

(b)

Figura 5.7: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.2 com c =
628, 7307 m/s). (a) Aberto. (b) Fechado.

5.4.3

Tubo com di
ametro 12 mm

Embora a primeira simulacao tenha sido no tubo com diametro 24 mm, a maioria
dos testes foi feita na malha do tubo com diametro 12 mm por permitir tempos de
simulacao menores, Fig. 5.8.

(a)

(b)

Figura 5.8: Tubos com diametro 12 mm e comprimento 170 mm. (a) Aberto e (b)
Fechado.

91

As simulacoes para os tubos simples aberto e fechado de diametro 12 mm e


comprimento 170 mm, fornecem as mesmas frequencias de ressonancia dos respectivos tubos de diametro 24 mm, em conformidade com a teoria, Fig. 5.9.

(a)

(b)

Figura 5.9: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.8 com c =
628, 7307 m/s). (a) Aberto. (b) Fechado.

5.4.4

Influ
encia da localizac
ao da fonte

A localizacao da fonte nao afetou as frequencias de ressonancia. Isso foi constatado


colocando a fonte em uma posicao proxima `a parede na entrada dos tubos de 12
mm, como ilustrado na Fig. 5.10.

(a)

(b)

Figura 5.10: Tubos com diametro 12 mm e comprimento 170 mm (entrada proxima


`a parede). (a) Aberto e (b) Fechado.

No caso da fonte colocada proxima `as paredes do tubo, os resultados da simulacao tambem foram compatveis com os resultados analticos para os tubos simples
92

aberto e fechado, como ilustrado na Fig. 5.11.

(a)

(b)

Figura 5.11: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.10 com
c = 628, 7307 m/s e a entrada junto `a parede). (a) Aberto. (b) Fechado.

5.4.5

Influ
encia da discretizac
ao espacial (L)

Para estudar se o efeito da alteracao no valor de L e capaz de influir no fator de


compensacao determinado, foram construdas malhas para os tubos simples (aberto
e fechado) de diametro 12 mm, porem, considerando L = 0, 968498 mm em vez
de 1 mm, como ilustrado na Fig. 5.12.

(a)

(b)

Figura 5.12: Tubos com diametro 12 mm e comprimento 170 mm, considerando


L = 0, 968498 mm. (a) Aberto e (b) Fechado.

Como as imagens sao geradas a partir do desenho de um disco em pixels e


os pixels nao podem ser fracionados, os tubos ficaram com diametro 12 pixels
93

0, 968498 mm = 11, 621976 mm e comprimento dado por (176 fatias de espessura 1


pixel) 0,968498 mm = 170, 455648 mm.
Nos graficos das Figuras 5.13-(a) e (b) e possvel notar que as formantes se
mantem compatveis com as do modelo analtico para os tubos aberto e fechado.

(a)

(b)

Figura 5.13: Respostas em frequencia (Simulacoes nos tubos da Fig. 5.12 com
L = 0, 968498 mm e c = 628, 7307 m/s). (a) Aberto. (b) Fechado.

Este resultado mostra que o fator de compensacao funciona independentemente


de alteracoes no valor de L, desde que a Eq. (3.43) seja considerada na geracao
do sinal de entrada.

5.4.6

Concatenac
ao de 2 tubos formando a vogal /a/

Para validar a metodologia discutida na Subsecao 5.4.1, a mesma sera aplicada na


simulacao para o modelo de dois tubos que forma a vogal /a/. Os valores analticos
das formantes para este modelo sao obtidos calculando o modulo de impedancia
ac
ustica Z(z) na juncao entre os dois tubos de acordo com a Eq. (3.29).
No modelo numerico da concatenacao de dois tubos para a vogal /a/, foram
utilizadas as mesmas medidas do modelo analtico da Subsecao 3.3.1. Assim, o tubo
1 tem comprimento L1 = 90 mm e area A1 = 100 mm2 e o tubo 2 tem comprimento
L2 = 80 mm e area A2 = 700 mm2 . O diametro do tubo 1 e dado por
94

d1 = 2

A1
= 11, 28379167 mm

e o diametro do tubo 2 e dado por


r
A2
= 29, 85410660 mm
d2 = 2

(5.7)

(5.8)

Como as malhas de tubos sao construdas em funcao dos diametros de discos


desenhados no Kolourpaint (ver Subsecao 5.2), para que o tubo tenha um linha de
eixo central, e necessario que o diametro do disco seja um n
umero par de pixels.
Assim, d1 foi aproximado para 12 mm e d2 foi aproximado para 32 mm, de modo
a manter a razao entre os diametros, e consequentemente entre as areas, o mais
inalterada possvel, ou seja,
d2
29, 85410660
32
=
= 2, 645751311 2, 666666667 =
d1
11, 28379167
12

(5.9)

A Figura 5.14 mostra a malha extrada para a concatenacao de dois tubos,


bem como o posicionamento dos pontos de entrada/sada e as terminacoes.

Figura 5.14: Concatenacao de 2 Tubos formando a vogal /a/.


Na Fig. 5.15, para o pico de ressonancia entre 8000 e 9000 Hz, a Eq.(3.29)
assume a forma indeterminada (0/0). Logo, todas as formantes se mostraram com95

patveis com as do grafico analtico. Nesta mesma figura, uma comparacao e feita
entre variaveis diferentes porque apenas os picos de ressonancia estao sendo comparados nos dois graficos.

(a)

(b)

Figura 5.15: Concatenacao de 2 tubos para vogal /a/. (a) Impedancia ac


ustica dada
pela Eq. (3.29) em escala logartmica. (b) Resposta em frequencia (Simulacao com
c = 628, 7307 m/s).

5.5

Aplica
c
ao do MLT ao Trato Vocal

Nesta secao, a simulacao MLT e realizada na malha mostrada na Fig. 5.16.

Figura 5.16: Trato vocal formando a vogal /a/. O plano de corte exibe uma fatia
sagital da sequencia de imagens.

96

Para esta malha, cujo formato se ajusta ao de um trato vocal real pronunciando
a vogal /a/, L = 0, 968498 mm devido `a remocao da anisotropia (como discutido
na Subsecao 5.2.2), e c = 628, 7307 m/s devido ao uso do fator de compensacao
(como discutido na Subsecao 5.4.1).

5.5.1

Excitac
ao do sinal de teste na malha do trato vocal

Para esta simulacao, a entrada considerada para o trato vocal foi dada pela Eq.
(5.3). A validacao dos resultados foi realizada atraves da comparacao do grafico de
resposta em frequencia obtido a partir do sinal de sada da simulacao com os obtidos
a partir de amostras reais da vogal /a/ do mesmo indivduo para o qual as IRM
foram extradas, como ilustrado na Fig. 5.17.

Figura 5.17: Respostas em frequencia do trato vocal para a Vogal /a/. (Reais vs.
Simulacao pelo MLT).

Na Fig. 5.17, duas amostras da vogal /a/ foram gravadas: uma com o indivduo na posicao supino, similar `a posicao mantida no aparelho de ressonancia
magnetica, e outra com o indivduo na posicao vertical. Isso foi feito porque a
posicao do indivduo pode afetar a forma do trato vocal [128]. As amostras de
voz humana tem 1 segundo de duracao, taxa de amostragem de 22050 Hz, quan97

tizacao de 16 bits e foram gravadas numa sala silenciosa com as portas e janelas
fechadas, usando um fone de ouvido com microfone omnidirecional, com faixa de
frequencias de 20 Hz a 20 KHz (Sensibilidade: -58dB 2dB) e impedancia de 2,2
KOhms 15%. O grafico de resposta em frequencia obtido a partir do sinal de
sada da simulacao pelo MLT tem os valores das cinco primeiras formantes muito
compatveis5 com os da voz real gravada com o indivduo na posicao supino. Este
resultado mostra que o grafico da resposta em frequencia da simulacao pelo MLT na
Figura 5.17 esta correto e que o modelo numerico construdo foi capaz de captar ate
mesmo a influencia da gravidade na forma do trato vocal, quando da extracao das
imagens de RM, devido `a posicao supino. Alem disso, as frequencias de ressonancia
mais baixas, devido ao comprimento de onda maior, sao mais suscetveis ao efeito
de difracao, enquanto que as mais elevadas, devido ao comprimento de onda menor,
sao mais suscetveis ao efeito de reflexao. Logo, e mais difcil para as frequencias
de ressonancia mais altas serem compatveis entre diferentes amostras de voz, pois
diferencas mnimas na forma do trato vocal terao um efeito mais forte nessas componentes. Quando paredes totalmente refletoras sao consideradas para o trato vocal, a
largura espectral dos picos de ressonancia se torna mais estreita [77, Cap. 7], o que
tambem pode ser observado na resposta em frequencia para a simulacao MLT na
Fig. 5.17. Entretanto, um modelo realista deve representar paredes que nao sejam
completamente refletoras.
O filtro glotal e o efeito de irradiacao pelos labios foi estudado por Fant [1].
Nos modelos de tubos, este efeito e produzido diretamente pelo formato da malha
5

Com erro percentual abaixo de 5, 55%.

98

nas aberturas dos tubos, e na malha do trato vocal pela forma desta na abertura
da boca. A irradiacao pelos labios causa um efeito passa-alta que e mais forte na
resposta em frequencia para a simulacao MLT na Fig. 5.17. O mesmo efeito tambem
acontece nos resultados para os modelos de tubos, porque como o sinal de entrada
da Eq. (5.3) possui componentes de frequencia com potencia uniforme, o mesmo
nao pode compensar o efeito passa-altas no sinal de sada. Numa voz humana real,
o sinal glotal possui uma taxa de reducao harmonica de 12 dB/Oitava, que permite
compensar o efeito passa-altas causado pela irradiacao pelos labios (Fig. 5.18).

(a)

(b)
Figura 5.18: Efeito do filtro glotal no modelo fonte-filtro. (a) Sinal glotal como
entrada. (b) Sinal da Eq. (5.3) como entrada.

A Figura 5.19-(a) mostra o sinal de sada da simulacao e a Fig. 5.19-(b)


compara a FFT deste sinal de sada com a do sinal de voz real gravado pelo indivduo
na posicao supino. A predominancia das componentes de mais alta frequencia no
sinal de sada se deve `a irradiacao pelos labios.

99

(a)

(b)

Figura 5.19: Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes rgidas e o sinal da Eq. (5.3) como entrada. (a) Sinal de sada. (b)
Comparacao das FFTs (Real vs. Simulacao MLT).
Diferentes pontos de sada (ver Fig. 5.20 e Apendice A.2, pag. 121), apos a
abertura da boca, foram selecionados para gravacao. Apenas o ponto 60560 esta no
mesmo plano do ponto de entrada 59219, sendo que este plano nao e onde se localiza
o eixo de simetria do trato vocal.

Figura 5.20: Malha MLT do trato vocal exibida de forma transl


ucida para visualizacao completa dos pontos de entrada e sada selecionados.

Todos os pontos de sada tiveram resultados praticamente identicos ao mostrado


100

na Fig. 5.19-(b). Isso ocorre, porque, conforme ja constatado na Subsecao 5.4.4 com
os modelos de tubos simples, a posicao dos pontos de entrada e sada relativamente
ao eixo da estrutura nao importa. Assim, todos os graficos com resultados do trato
vocal exibidos doravante sao referentes ao ponto 74796. A Fig. 5.21 mostra as FFTs
para os pontos 60560, 74796, 74991 e 74995.

(a)

(b)

(c)

(d)

Figura 5.21: Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes rgidas e o sinal da Eq. (5.3) como entrada. Comparacao das FFTs
das sadas nos pontos: (a) 74796, (b) 74991, (c) 60560 e (d) 74995.

Como se pode notar na Fig. 5.21, a potencia do sinal e maior nos pontos mais
proximos da boca, porem o valor das formantes permanece inalterado para todos os
pontos de sada.

5.5.2

Mudando a condic
ao refletora das paredes

Para simular as paredes de tecido mole do trato vocal, a condicao de contorno aplicada `as paredes foi mudada para uma que nao fosse completamente refletora. Como
101

os tecidos moles formam a maior parte das paredes do trato vocal, o coeficiente de
reflexao das paredes foi aproximado a partir do valor medio de impedancia ac
ustica
para os tecidos moles humanos, Tab. 5.1. Lembrando que, nesta tese, o valor de
impedancia ac
ustica utilizado para o ar e de 413,0923 N s/m3 .
Tabela 5.1: Impedancia ac
ustica de alguns materiais. (Adaptada da referencia [78]).

Assim, para o modelo do trato, Zparede = 1630000 e ZT = Zparede /5 conforme


o circuito equivalente da Fig. 3.5-(b). O coeficiente de reflexao e dado por
=

ZT Z0
= 0, 9974688987
ZT + Z0

(5.10)

onde Z0 = 413, 0923 N s/m3 e a impedancia ac


ustica do ar. Entao, para as paredes
do trato vocal, = 0, 9974688987 e = 0, 0005062203 conforme a Eq. (5.1).
importante notar que a impedancia caracterstica do ar nao deve ser mudada
E
para Z0 = 628, 7307 1, 204 Ns/m3 , porque o material representado e o ar e a
velocidade e compensada para 628, 7307 m/s de modo que a velocidade aparente na
malha tenha o valor desejado (343,1 m/s).
De acordo com a Fig. 5.22, a representacao da paredes do modelo do trato
vocal como sendo constitudas de tecido mole humano permitiu boa visualizacao do
sinal de sada, tambem no domnio do tempo. Agora, no sinal de sada Fig. 5.22-(a),
e possvel ver os 10 perodos (ver Subsecao 5.3.4) da frequencia fundamental (50 Hz)
do sinal de entrada da Eq. (5.3) no intervalo de 0, 2 segundos. A perda de energia,
102

devida `a representacao das paredes de tecido mole, tambem e clara neste sinal. Na
Figura 5.22-(b), uma comparacao no domnio da frequencia e feita entre o sinal de
sada da simulacao MLT e a voz humana, gravada pelo indivduo na posicao supino.

(a)

(b)

Figura 5.22: Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes de tecido mole humano e o sinal da Eq. (5.3) como entrada. (a) Sinal
de sada. (b) Comparacao das FFTs (Real vs. Simulacao MLT).

5.5.3

Excitac
ao do sinal glotal na malha do trato vocal

Para simular a producao da vogal /a/ na malha do trato vocal, em vez do sinal de
entrada na Eq. (5.3), foi usado como entrada o sinal glotal descrito na Subsecao 5.3.
A mesma condicao de contorno representativa do tecido mole humano da Subsecao
5.5.2 foi aplicada `as paredes do trato vocal. Os resultados sao apresentados na
Fig. 5.23. A Figura 5.23-(b) compara o conte
udo de frequencia do sinal de voz
real na Fig. 5.1-(a) com o do sinal de sada da simulacao MLT na Fig. 5.23-(a),
mostrando que a FFT do sinal de sada da simulacao e praticamente a mesma do
sinal de voz real na faixa de frequencias da voz humana, assegurando a precisao do
modelo desenvolvido e mostrando o efeito positivo do filtro glotal na reducao das

103

componentes de alta frequencia, devido `a compensacao do efeito de irradiacao pelos


labios como explicado na Fig. 5.18.

(a)

(b)

Figura 5.23: Simulacao MLT na malha do trato vocal considerando c = 628, 7307
m/s, paredes de tecido mole humano e o sinal glotal da Fig. 5.1-(b) como entrada.
(a) Sinal de sada. (b) Comparacao das FFTs (Real vs. Simulacao MLT).

Fant e B
aveg
ard [129] constataram que a fossa piriforme (tambem chamada
sino piriforme) introduz um mnimo no espectro da voz humana em torno de 5200 Hz.
Constatacao esta que foi confirmada, por medicoes em seres humanos, no trabalho
de Dang e Honda [130]. Agora, o mesmo mnimo (em torno de 5200 Hz) pode ser
visto nos espectros das FFTs dos sinais de sada das simulacoes MLT na Fig. 5.22(b) e na Fig. 5.23-(b). Alem disso, as quatro primeiras formantes sao praticamente
as mesmas da voz humana. O sinal de sada na Fig. 5.23-(a) possui uma fase
transiente, de 0 ate em torno de 0, 13 segundos, ate o estabelecimento final dos
perodos do sinal de voz simulado. A magnitude do sinal tambem se apresenta baixa
devido ao fracionamento do sinal de entrada atraves da malha MLT. O algoritmo
descrito na Secao 3.4 e uma implementacao direta do MLT com a adicao do fator
de compensacao desenvolvido. De acordo com a Eq. (3.41) os pulsos de pressao

104

sao fracionados durante os espalhamentos atraves dos pontos interiores da malha.


Adicionalmente, quando a condicao de contorno para paredes de tecido mole e usada,
alguma pressao e dissipada atraves das paredes. Assim, apenas para a realizacao de
um teste auditivo informal, o sinal de sada da simulacao MLT, que e mostrado na
Fig. 5.23-(a) em sua forma original, foi multiplicado pelo valor constante de 1000.
Para discutir quantitativamente a similaridade entre os sinais de voz humana
e da simulacao MLT, as frequencias fundamentais de ambos os sinais foram determinadas usando um algoritmo de extracao da frequencia fundamental [2], como
mostrado na Fig. 5.24.

(a)

(b)

(c)

(d)

Figura 5.24: Comparacao no domnio do tempo. As linhas verticais marcam os


perodos fundamentais encontrados pelo algoritmo descrito em [2]. (a) e (b) Sinal
de sada da simulacao MLT. (c) e (d) Voz humana.

O algoritmo de extracao da frequencia fundamental detectou 114,9961 Hz e


114,9453 Hz para as frequencias fundamentais dos sinais de sada da simulacao MLT
e da voz humana, respectivamente. Isso corresponde a uma diferenca de 0,0442 %,
105

que nao pode ser atribuda `a dispersao numerica dependente da frequencia, uma vez
que a frequencia fundamental do sinal de sada da Fig. 5.22-(a) e exatamente 50
Hz. Esta diferenca mnima e devida `a fase transiente do sinal de sada da simulacao
MLT, na qual os perodos nao sao detectados pelo algoritmo.
Como um u
ltimo exemplo, um filtro glotal foi construdo atraves da aplicacao
de LPC ao sinal glotal da Fig. 5.1-(b), e seu grafico de resposta em frequencia e
mostrado na Fig. 5.25.

Figura 5.25: Resposta em frequencia do filtro glotal.

Aplicar este filtro ao sinal da Fig. 5.23-(a) tem o mesmo efeito de aumentar
a taxa de reducao harmonica do sinal glotal e usa-lo como entrada em uma nova
simulacao (ver Fig. 5.18). A Figura 5.26 mostra o resultado.

(a)

(b)

Figura 5.26: (a) Sinal da Fig. 5.23-(a) apos acentuacao do filtro glotal. (b) Comparacao entre as FFTs do sinal de voz real na Fig. 5.1-(a) e o sinal em (a).

Novamente, apenas para a realizacao do teste auditivo informal, o sinal mos106

trado na Fig. 5.26-(a) em sua forma original foi multiplicado pelo valor constante
de 10, devido `a amplificacao adicional do filtro na Fig. 5.25.
A Figura 5.27 compara o sinal de voz simulado da Fig. 5.26-(a) com o sinal
de voz real da Fig. 5.1-(a). Os perodos da frequencia fundamental tambem foram
marcados usando o mesmo algoritmo de extracao da frequencia fundamental [2].

(a)

(b)

(c)

(d)

Figura 5.27: Comparacao no domnio do tempo entre o sinal de sada da simulacao


MLT e a voz humana. Os intervalos entre as linhas verticais representam os perodos
fundamentais encontrados pelo algoritmo descrito em [2]. (a) e (b) Sinal de sada
da simulacao MLT apos acentuacao da taxa de reducao harmonica do filtro glotal.
(c) e (d) Voz humana.

O resultado na Fig. 5.27 mostra que as componentes de frequencia mais


baixas recebem maior amplificacao, fazendo com que os perodos de voz simulada se
tornem ainda mais similares aos perodos da voz real. O algoritmo de extracao da
frequencia fundamental detectou 114,9026 Hz para a voz sintetica, correspondendo
a uma diferenca de 0,0371 % em relacao `a frequencia fundamental da amostra de voz
107

humana (114,9453 Hz). Tambem e possvel observar o perfeito alinhamento entre os


perodos dos sinais de voz real e sintetica, mesmo na fase transiente. Consequentemente, a qualidade auditiva da voz sintetica tambem melhorou, mostrando o efeito
positivo do filtro glotal na supressao das componentes de alta frequencia no sinal de
sada final do modelo.

5.6

Sobre a validade do fator de compensa


c
ao

Uma questao que surge naturalmente quando considerando o metodo desenvolvido


para a correcao da dispersao numerica em modelos 3D MLT e: Como um u
nico fator
de correcao baseado apenas na primeira frequencia de ressonancia, e suficiente para
corrigir a dispersao em todas as frequencias consideradas? A resposta a tal questao
esta no fato de que, nos modelos de concatenacao de tubos para o trato vocal, as
frequencias de ressonancia estao relacionadas: (i) entre si; (ii) `as diferencas entre
as areas das sessoes transversais e aos comprimentos das secoes dos tubos e; (iii) `a
velocidade do som. Por exemplo, as Eqs. (3.28) e (3.21) para os modelos de tubos
simples mostram que as formantes estao relacionadas entre si a partir da primeira.
O modelo de dois tubos e uma combinacao de dois tubos simples com diferentes
areas das sessoes transversais e diferentes comprimentos. Assim, embora o padrao
de ressonancia mude e a sua complexidade aumente, as formantes permanecem relacionadas entre si, como nos tubos simples. Finalmente, a malha do trato vocal
humano pode ser descrita aproximadamente como uma combinacao de infinitos tubos simples. Logo, o padrao de ressonancia tambem muda de acordo com a forma da

108

estrutura, mas as formantes permanecem relacionadas entre si, como nos tubos simples. Para mostrar mais claramente que os valores das formantes estao relacionados
entre si, a velocidade do som foi mudada no modelo analtico de dois tubos para o
trato vocal. Como resultado, as formantes sao reduzidas/aumentadas proporcionalmente conforme a velocidade do som e reduzida/aumentada, como ilustrado na Fig.
5.28.

(a)

(b)
Figura 5.28: Impedancia ac
ustica dada pela Eq. (3.29) em escala logartmica para o
modelo de dois tubos (vogal /a/). (a) Considerando a velocidade do som c = 343, 1
m/s. (b) Considerando a velocidade aparente do som determinada na Subsecao 5.4.1
(c = 187, 2278 m/s).

Na figura acima, a Eq. (3.29) para o modelo de dois tubos foi representada em
dois graficos com diferentes valores para a velocidade do som: o valor real (c = 343, 1
109

m/s) e o valor aparente (c = 187, 2278 m/s) determinado na Subsecao 5.4.1 para
malhas MLT tridimensionais de grade uniforme usando as simulacoes MLT com
os modelos de tubos simples. Este experimento mostra que as formantes estao
relacionadas entre si, sendo reduzidas/aumentadas proporcionalmente conforme o
aumento/reducao na velocidade do som. Note a relacao de proporcionalidade entre
as formantes correspondentes nas Figs. 5.28-(a) e (b) e o fator de compensacao. A
curva de dispersao, mostrada na Fig. 3.6, mostra como ambos os tipos dispersao
numerica foram considerados dos modelos 3D MLT que foram descritos. Ou seja,
para uma dada faixa de frequencias, a discretizacao do espaco (L) e determinada
e a maxima frequencia do sinal de entrada e escolhida de modo que a dispersao
numerica dependente da frequencia seja mnima. Uma vez que a dispersao numerica
dependente da frequencia tenha sido convenientemente minimizada, a velocidade
aparente de propagacao do som na malha MLT e causada apenas pela topologia em
forma de grade 3D uniforme. Logo, a mesma velocidade aparente (c = 187,2278
m/s) e, consequentemente, o mesmo fator de compensacao (1,8325) tambem pode
ser obtido com base no erro de simulacao em qualquer outra das frequencias de
ressonancia (veja Fig. 5.28) relativamente aos valores correspondentes nas formulas
analticas. Os padroes de ressonancia obtidos a partir das simulacoes com o MLT
demonstraram se comportar exatamente da mesma forma em diferentes modelos,
relativamente `as mudancas no parametro da velocidade do som e `a/ao correspondente reducao/aumento das formantes. Sem qualquer correcao, como na Fig. 5.3,
para a primeira simulacao com os modelos de tubo simples, a topologia em grade
3D uniforme altera a velocidade do som, devido `a dispersao numerica dependente da
110

topologia. Entretanto, com aplicacao do fator de compensacao, como na Fig. 5.7,


as formantes sao proporcionalmente aumentadas conforme a dispersao numerica dependente da topologia e compensada.
A discussao acima explicou como um u
nico fator de correcao, baseado apenas
no erro da primeira frequencia de ressonancia, e suficiente para corrigir a dispersao
em todas as frequencias consideradas.

5.7

Comparac
ao com outros m
etodos

No programa ModaVox, as malhas MLT tambem podem exibir os dados escalares,


mostrando a distribuicao de pressao a cada iteracao, como ilustrado na Fig. 5.29.

(a)

(b)

Figura 5.29: Dados escalares nas malhas MLT. (a) Concatenacao de 2 tubos apos
247 iteracoes em 4 min 26 s, correspondendo a 0,00039286 s de som. (b) Trato vocal
apos 376 iteracoes em 10 min 18 s, correspondendo a 0,00057919 s de som.

A simulacao MLT produz um sinal de sada no domnio do tempo, o qual


pode ser facilmente visualizado no domnio da frequencia atraves da FFT, e a partir
do qual a resposta em frequencia pode ser calculada por LPC. Logo, apenas uma
111

simulacao e necessaria para obter a resposta em frequencia da estrutura representada


pela malha. Em comparacao com as solucoes do Metodo dos Elementos Finitos
(MEF) e do Metodo dos Elementos de Contorno (MEC), a distribuicao de pressao na
malha MLT em uma dada iteracao e relativa a todas as componentes de frequencia do
sinal que estiver sendo excitado na malha. No caso do MEF ou do MEC, uma dada
distribuicao de pressao e relativa a uma u
nica frequencia, por representar a solucao
da equacao de Helmholtz. O algoritmo do MLT e mais facilmente paralelizavel que
o do MEF e do MEC, uma vez que a lista de nos que compoe a malha MLT e mais
facilmente divisvel em partes do que os grandes sistemas lineares gerados pelo MEF
e pelo MEC.

5.8

Resumo das simula


c
oes

Um computador com processador de 2,66 GHz e 1GB de RAM foi usado para realizar
as simulacoes, as quais se encontram resumidas na Tab. 5.2.
Tabela 5.2: Resumo das simulacoes.

112

Captulo 6
Conclus
oes
Esta tese contribuiu [131] com a criacao de uma importante ferramenta de modelagem numerica da propagacao ac
ustica do trato vocal.
O modelo numerico desenvolvido nesta tese e capaz de determinar as frequencias
de ressonancia ac
ustica em dutos complexos. No caso do trato vocal humano, as
formantes do modelo se mostraram compatveis com as da amostra gravada com
o indivduo na posicao supino, na qual as imagens de RM foram extradas. Alem
disso, as simulacoes MLT com a condicao de contorno para tecidos moles na paredes
do trato vocal puderam mostrar o mnimo espectral em torno de 5200 Hz, que e
causado pela influencia da fossa piriforme, de acordo com trabalhos anteriores. O
modelo tambem foi capaz de simular a voz humana com caractersticas reais, a partir
do uso do sinal glotal como entrada, confirmando a sua precisao.
Os resultados das simulacoes nos modelos 3D para concatenacoes de tubos e
para o trato vocal mostraram que o modelo fonte-filtro linear e perfeitamente valido,
contrariando trabalhos [11] que suspeitaram que a separacao entre fonte sonora e

113

trato vocal poderia levar a erros significativos na estimativa da qualidade vocal.


Alem disso, as simulacoes mostraram tambem que nao e a primeira formante do
trato vocal que e atenuada devido `a interacao ac
ustica entre glote e trato vocal,
como mencionado por Rothenberg [83], mas sim que as formantes mais altas e que
sao amplificadas em relacao `a primeira pelo efeito de irradiacao, o qual deve ser compensado pela taxa de reducao harmonica do sinal glotal para melhoria da qualidade
do sinal de voz.
Obviamente, na medida em que a frequencia fundamental se aproxima do valor
como, por
da primeira formante ocorrerao alteracoes na resposta em frequencia. E
exemplo, simular um experimento de analise de vibracoes onde a estrutura e submetida a frequencias de excitacao iguais ou superiores a` primeira frequencia de ressonancia. Nesse caso, os resultados mostrariam uma funcao resposta em frequencia
incompatvel com a realidade da estrutura, com a segunda ressonancia como sendo a
primeira, a terceira como sendo a segunda, etc. Fato este que nao altera a linearidade
da estrutura do trato vocal ou do modelo de tubos.
O fator de compensacao desenvolvido (1, 8325) foi aplicado a simulacoes em
diferentes modelos e os resultados mostraram que seu uso melhora na eficacia e precisao do MLT, que mapeou corretamente as frequencias de resonancia das diferentes
estruturas analisadas, eliminando a dispersao numerica dependente da topologia em
malhas 3D retilneas uniformes.
Uma tecnica de extracao de malhas para modelos MLT tridimensionais de alta
qualidade foi desenvolvida na presente tese. Sendo que este problema ainda nao
havia sido abordado por nenhum outro trabalho.
114

O MLT pode gerar, numa u


nica simulacao, um sinal de sada no domnio
do tempo, a partir do qual a resposta em frequencia pode ser obtida para toda
a faixa de frequencias contida no sinal de entrada. A mesma metodologia pode
ser aplicada a outras estruturas complexas, que nao sejam necessariamente o trato
vocal, para determinar suas caractersticas de ressonancia ac
ustica. Tambem pode,
por exemplo, ser usado para determinar os modos de vibracao em pecas, bastando,
para isso, gerar a malha, aplicar os valores de impedancia ac
ustica adequados para
a determinacao dos coeficientes de transmissao e de reflexao nos pontos do contorno
e aplicar o sinal de entrada, formado pelas componentes de frequencia que se deseja
excitar na estrutura.
O fato do ModaVox ser em codigo aberto, aliado `a sua natureza multidisciplinar, e bastante favoravel, pois permite que estudantes das diversas areas envolvidas possam, futuramente, utilizar e contribuir com o projeto, aprimorando as
diferentes funcionalidades do programa e criando novas. Assim, nao somente um
modelo numerico de alta qualidade foi criado, mas tambem uma ferramenta de
pesquisa flexvel, capaz de acompanhar os desenvolvimentos tecnologicos futuros.

6.1

Trabalhos Futuros

O modelos com malhas nao uniformes, apesar de reduzirem a complexidade computacional, dificultam a aplicacao do fator de compensacao, pois seria mais difcil
determinar este fator para cada trecho de malha diferente. Alem disso, o uso de
malhas uniformes descreve melhor a continuidade tridimensional do espaco. Como

115

foi visto na Subsecao 5.5.3, a consideracao da composicao das paredes do trato vocal
revelou elevada importancia na percepcao auditiva da amostra de voz gerada. Uma
forma de aumentar ainda mais o realismo do sinal de voz gerado pelo modelo e
usar imagens obtidas por elastografia para determinar as diferentes caractersticas
de reflexao dos tecidos e, consequentemente, dos pontos da malha que compoem as
paredes do trato vocal. Assim, em vez de usar o valor medio de impedancia ac
ustica
para o tecido mole em todas as paredes, seriam configurados valores individuais para
cada regiao (dentes, cartilagens, mucosas, etc). Isso permitira estudos ainda mais
avancados envolvendo, por exemplo, a propagacao do som atraves dos tecidos do
pescoco, a influencia do envelhecimento dos tecidos, etc.

116

Ap
endice A
C
odigos Auxiliares

A.1

C
odigo para Duplicac
ao de Imagens

O exemplo abaixo mostra como duplicar as fatias DICOM criadas com o GIMP,
gerando a sequencia de imagens a ser trabalhada posteriormente pelo ModaVox
para extracao de malhas c
ubicas e/ou tetraedricas para concatenacoes de tubos.
/** copia_imagens.cpp */
/** EXEMPLO DA GERAC
~
AO DA SEQU^
ENCIA DE IMAGENS DICOM PARA A CONCATENAC
~
AO DE 2
TUBOS COM TERMINAC
~
AO */
#include
#include
#include
#include

<iostream>
<string>
<sstream>
<cstdlib>

using namespace std;


int main()
{
stringstream ss;
/** Lembrando que para que haja, n dist^
ancias entre fatias s~
ao

117

necess
arias n+1 fatias. */
for (int i=1;i<=178;i++)
{
if (
{ ss
else
{ ss
else
{ ss

i <= 90 )
// Para o trecho com di^
ametro 12
<< "cp DiscoDiametro12.dcm tuboA_" << i << ".dcm"; }
if ( (i > 90) && ( i <= 172 ) )
// Para o trecho com di^
ametro 32
<< "cp DiscoDiametro32.dcm tuboB_" << i << ".dcm"; }
// Para a termina
c~
ao di^
ametro 36
<< "cp DiscoDiametro36.dcm tuboC_" << i << ".dcm"; }

/** Executa o comando Linux criado na stringstream ss, copiando as imagens


com os nomes numerados em fun
c~
ao da itera
c~
ao i */
system( ss.str().c_str() );
/** Esvazia a string para a itera
c~
ao seguinte */
ss.str("");
}
return 0;
}

O codigo acima e facilmente compilado com o comando


g++ copia_imagens.cpp -o copia_imagens

E entao, executando
./copia_imagens

no diretorio contendo as imagens iniciais DiscoDiametro12.dcm, DiscoDiametro32.dcm


e DiscoDiametro36.dcm, para criar a sequencia de imagens.

A.2

Scripts para an
alise dos resultados do MLT

Os scripts a seguir correspondem aos arquivos (*.m) do MATLABr , as instrucoes


nesses arquivos abrem os arquivos (*.csv) gerados pelo ModaVox e exibem os graficos
nos domnios do tempo, da frequencia e tambem o grafico da resposta em frequencia.
% DemonstracaoResultadosTLM.m
% Script para analisar os resultados das simula
c~
oes do MLT
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

118

clear all
dx = 0.001; % Valor da discretiza
c~
ao da malha em metros para os tubos
c = 343.1; % Valor da velocidade do som em (m/s) (a princ
pio)
% Diret
orios com os arquivos das simula
c~
oes
% =========================================
tubo_aberto_terminacao_Rho_n1_t0_2d24 =
..\tuboD24\tubo_aberto_terminacao_Rho_n1_t0_2\;
tubo_fechado_terminacao_Rho_n1_t0_2d24 =
..\tuboD24\tubo_fechado_terminacao_Rho_n1_t0_2\;
tubo_aberto_reduzido_terminacao_Rho_n1_t0_2d24 =
..\tuboD24\tubo_aberto_reduzido_terminacao_Rho_n1_t0_2\;
tubo_fechado_reduzido_terminacao_Rho_n1_t0_2d24 =
..\tuboD24\tubo_fechado_reduzido_terminacao_Rho_n1_t0_2\;
TuboDuplo_Saida_Rho_n1_vel628_t0_2 =
..\tuboDuplo\TuboDuplo_Saida_Rho_n1_vel628_t0_2\;
tubo_aberto_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_aberto_vel628_Rho_n1_t0_2\;
tubo_fechado_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_fechado_vel628_Rho_n1_t0_2\;
tubo_aberto_vel628_Rho_n1_t0_2d24 =
..\tuboD24\tubo_aberto_vel628_Rho_n1_t0_2\;
tubo_fechado_vel628_Rho_n1_t0_2d24 =
..\tuboD24\tubo_fechado_vel628_Rho_n1_t0_2\;
tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498 =
..\tuboD12_Dx0_968498mm\tubo_aberto_terminacao_vel628_Rho_n1_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498 =
..\tuboD12_Dx0_968498mm\tubo_fechado_terminacao_vel628_Rho_n1_t0_2\;
tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_aberto_terminacao_vel628_Rho_n1_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_fechado_terminacao_vel628_Rho_n1_t0_2\;
tubo_aberto_terminacao_vel628_Rho_n1_t0_2d24 =
..\tuboD24\tubo_aberto_terminacao_vel628_Rho_n1_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_t0_2d24 =
..\tuboD24\tubo_fechado_terminacao_vel628_Rho_n1_t0_2\;
tubo_aberto_terminacao_vel628_Rho_n1_fonte_no_canto1690_t0_2d12 =
..\tuboD12\tubo_aberto_terminacao_vel628_Rho_n1_fonte_no_canto1690_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_fonte_no_canto230_t0_2d12 =
..\tuboD12\tubo_fechado_terminacao_vel628_Rho_n1_fonte_no_canto230_t0_2\;
TuboDuplo_terminacao_Rho_n1_vel628_t0_2 =
..\tuboDuplo\TuboDuplo_terminacao_Rho_n1_vel628_t0_2\;
TratoVocal_SinalDeEntradaVel628_Dx0_968498mm_t0_2 =
..\TratoVocal\TratoVocal_SinalDeEntradaVel628_Dx0_968498mm_t0_2\;

119

TratoVocal_Sinal_GlotalVel628_Dx0_968498mm_t0_2 =
..\TratoVocal\TratoVocal_Sinal_GlotalVel628_Dx0_968498mm_t0_2\;
TratoVocal_SinalDeEntradaVel628_Dx0_968498mmParede_TecidoMoleRho0_997_t0_2 =
..\TratoVocal\TratoVocal_SinalDeEntradaVel628_Dx0_968498mmParede_TecidoMoleRho0_997_t0_2\;
TratoVocal_Sinal_GlotalVel628_Dx0_968498mmParede_TecidoRho0_997Mole_t0_2 =
..\TratoVocal\TratoVocal_Sinal_GlotalVel628_Dx0_968498mmParede_TecidoRho0_997Mole_t0_2\;
TratoVocal_Sinal_GlotalParede_TecidoMole_t1 =
..\TratoVocal\TratoVocal_Sinal_GlotalParede_TecidoMole_t1\;
tubo_fechado_terminacao_Dipolo_vel628_Rho_n1_t0_2d12 =
..\tuboD12\tubo_fechado_terminacao_Dipolo_vel628_Rho_n1_t0_2\;
tubo_fechado_terminacao_vel628_Rho_n1_ParedeTecidoMoleRho0_997Tau0_0005_t0_2d12 =
..\tuboD12\tubo_fechado_terminacao_vel628_Rho_n1_ParedeTecidoMoleRho0_997Tau0_0005_t0_2\;
% A seguir as configura
c~
oes das vari
aveis para cada Simula
c~
ao
% ===========================================================
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%

TUBO ABERTO COM TERMINACAO D12 FONTE NO CANTO 1690 vel 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_fonte_no_canto1690_t0_2d12;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_fonte_no_canto1690_t0_2d12;
ponto1 = 1690;
ponto2 = 24934;
===================================================================
TUBO FECHADO COM TERMINACAO D12 FONTE NO CANTO 230 vel 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_terminacao_vel628_Rho_n1_fonte_no_canto230_t0_2d12;
diretorio2 = tubo_fechado_terminacao_vel628_Rho_n1_fonte_no_canto230_t0_2d12;
ponto1 = 230;
ponto2 = 23359;
===================================================================
TUBO ABERTO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12;
ponto1 = 1644;
ponto2 = 24934;
===================================================================
TUBO FECHADO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12;

120

%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%

ponto1 = 138;
ponto2 = 23359;
ponto2 = 24215;
===================================================================
DIPOLO TUBO ABERTO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12;
ponto1 = 1644;
ponto2 = 24934;
===================================================================
DIPOLO TUBO FECHADO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_terminacao_Dipolo_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_fechado_terminacao_Dipolo_vel628_Rho_n1_t0_2d12;
ponto1 = 138;
ponto2 = 23359;
ponto2 = 24215;
===================================================================
ParedeTecidoMole TUBO FECHADO COM TERMINAC
~
AO D12 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA] [RHO = 0.997 TAU= 0.000506 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 =
tubo_fechado_terminacao_vel628_Rho_n1_ParedeTecidoMoleRho0_997Tau0_0005_t0_2d12;
diretorio2 =
tubo_fechado_terminacao_vel628_Rho_n1_ParedeTecidoMoleRho0_997Tau0_0005_t0_2d12;
ponto1 = 138;
ponto2 = 23359;
ponto2 = 24215;
===================================================================
TUBO ABERTO D12 VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_aberto_vel628_Rho_n1_t0_2d12;
ponto1 = 138;
ponto2 = 23496;
===================================================================
TUBO FECHADO D12 VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_vel628_Rho_n1_t0_2d12;
diretorio2 = tubo_fechado_vel628_Rho_n1_t0_2d12;
ponto1 = 138;
ponto2 = 23496;
===================================================================
TUBO ABERTO D24 VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;

121

%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%

diretorio1 = tubo_aberto_vel628_Rho_n1_t0_2d24;
diretorio2 = tubo_aberto_vel628_Rho_n1_t0_2d24;
ponto1 = 490;
ponto2 = 83864;
===================================================================
TUBO FECHADO D24 VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_vel628_Rho_n1_t0_2d24;
diretorio2 = tubo_fechado_vel628_Rho_n1_t0_2d24;
ponto1 = 490;
ponto2 = 83864;
===================================================================
TUBO ABERTO REDUZIDO D24 COM TERMINAC
~
AO [RHO = -1 NA PARTE ABERTA]
===================================================================
diretorio1 = tubo_aberto_reduzido_terminacao_Rho_n1_t0_2d24;
diretorio2 = tubo_aberto_reduzido_terminacao_Rho_n1_t0_2d24;
ponto1 = 4900;
ponto2 = 50377;
ponto2 = 52949;
===================================================================
TUBO FECHADO REDUZIDO D24 COM TERMINAC
~
AO [RHO = -1 NA PARTE ABERTA]
===================================================================
diretorio1 = tubo_fechado_reduzido_terminacao_Rho_n1_t0_2d24;
diretorio2 = tubo_fechado_reduzido_terminacao_Rho_n1_t0_2d24;
ponto1 = 490;
ponto2 = 45722;
% ponto2 = 48294;
===================================================================
TUBO ABERTO D24 COM TERMINAC
~
AO VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d24;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d24;
ponto1 = 4900;
ponto2 = 88030;
===================================================================
TUBO FECHADO D24 COM TERMINAC
~
AO VELOCIDADE 628.7307
[RHO = -1 NA PARTE ABERTA]
===================================================================
c = 628.7307;
diretorio1 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d24;
diretorio2 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d24;
ponto1 = 490;
ponto2 = 83375;
===================================================================
TUBO ABERTO COM TERMINAC
~
AO D12 com dx = 0.968498 mm
VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
===================================================================
dx = 0.000968498;
c = 628.7307;
diretorio1 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498;
diretorio2 = tubo_aberto_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498;

122

% ponto1 = 1644;
% ponto2 = 25756;
% ===================================================================
% TUBO FECHADO COM TERMINAC
~
AO D12 com dx = 0.968498 mm
% VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
% ===================================================================
% dx = 0.000968498;
% c = 628.7307;
% diretorio1 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498;
% diretorio2 = tubo_fechado_terminacao_vel628_Rho_n1_t0_2d12Dx0_968498;
% ponto1 = 138;
% ponto2 = 24181;
% ===================================================================
% TUBO DUPLO VELOCIDADE 628.7307
% (1 TUBO FECHADO + 1 TUBO ABERTO) [RHO = -1 NA PARTE ABERTA]
% ===================================================================
%
c = 628.7307;
%
diretorio1 = TuboDuplo_Saida_Rho_n1_vel628_t0_2;
%
diretorio2 = TuboDuplo_Saida_Rho_n1_vel628_t0_2;
%
ponto1 = 138;
%
ponto2 = 81641;
% pontos perto da borda
% ponto2 = 81656;
% ponto2 = 81986;
% ===================================================================
% TUBO DUPLO COM TERMINAC
~
AO VELOCIDADE 628.7307
(1 TUBO FECHADO + 1 TUBO ABERTO) [RHO = -1 NA PARTE ABERTA]
% ===================================================================
% c = 628.7307;
% diretorio1 = TuboDuplo_terminacao_Rho_n1_vel628_t0_2;
% diretorio2 = TuboDuplo_terminacao_Rho_n1_vel628_t0_2;
% ponto1 = 138;
% ponto2 = 81641;
% ===================================================================
% Tubo Aberto termina
c~
ao D24 vel 343.1 primeira simula
c~
ao
% ===================================================================
% diretorio1 = tubo_aberto_terminacao_Rho_n1_t0_2d24;
% diretorio2 = tubo_aberto_terminacao_Rho_n1_t0_2d24;
% ponto1 = 4900;
% ponto2 = 88030;
% ===================================================================
% Tubo Fechado termina
c~
ao D24 vel 343.1 primeira simula
c~
ao
% ===================================================================
% diretorio1 = tubo_fechado_terminacao_Rho_n1_t0_2d24;
% diretorio2 = tubo_fechado_terminacao_Rho_n1_t0_2d24;
% ponto1 = 490;
% ponto2 = 83375;
% ===================================================================
% TRATO VOCAL VELOCIDADE 628.7307 [RHO = -1 NA PARTE ABERTA]
% ===================================================================
%
dx = 0.000968498;
%
c = 628.7307;
%
diretorio1 = TratoVocal_SinalDeEntradaVel628_Dx0_968498mm_t0_2;
%
diretorio2 = TratoVocal_SinalDeEntradaVel628_Dx0_968498mm_t0_2;

123

%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%
%

ponto1 = 59219;
ponto2 = 60560;
ponto2 = 74796;
ponto2 = 74991;
ponto2 = 74995;
===================================================================
TRATO VOCAL VELOCIDADE 628.7307 SINAL ENTRADA
[RHO = -1 NA PARTE ABERTA] [RHO = 0.997 tau = 0.0005 NAS PAREDES]
===================================================================
dx = 0.000968498;
c = 628.7307;
diretorio1 =
TratoVocal_SinalDeEntradaVel628_Dx0_968498mmParede_TecidoMoleRho0_997_t0_2;
diretorio2 =
TratoVocal_SinalDeEntradaVel628_Dx0_968498mmParede_TecidoMoleRho0_997_t0_2;
ponto1 = 59219;
%
ponto2 = 60560;
ponto2 = 74796;
ponto2 = 74991;
ponto2 = 74995;
===================================================================
TRATO VOCAL VELOCIDADE 628.7307 SINAL GLOTAL
[RHO = -1 NA PARTE ABERTA] [RHO = 0.997 tau = 0.0005 NAS PAREDES]
===================================================================
dx = 0.000968498;
c = 628.7307;
diretorio1 =
TratoVocal_Sinal_GlotalVel628_Dx0_968498mmParede_TecidoRho0_997Mole_t0_2;
diretorio2 =
TratoVocal_Sinal_GlotalVel628_Dx0_968498mmParede_TecidoRho0_997Mole_t0_2;
%

% Mesma simula
c~
ao com a dura
c~
ao de 0.976 segundos
diretorio1 = TratoVocal_Sinal_GlotalParede_TecidoMole_t1;
diretorio2 = TratoVocal_Sinal_GlotalParede_TecidoMole_t1;
ponto1 = 59219;
% ponto1 entrada
% ponto2 = 60560; % ponto2 saidas
ponto2 = 74796;
% ponto2 = 74991;
% ponto2 = 74995;
==================================================================
TRATO VOCAL VELOCIDADE 628.7307 SINAL GLOTAL APARAT
[RHO = -1 NA PARTE ABERTA]
===================================================================
dx = 0.000968498;
c = 628.7307;
diretorio1 = TratoVocal_Sinal_GlotalVel628_Dx0_968498mm_t0_2;
diretorio2 = TratoVocal_Sinal_GlotalVel628_Dx0_968498mm_t0_2;
ponto1 =
% ponto2
ponto2 =
% ponto2

59219;
= 60560;
74796;
= 74991;

124

%
%
%
%
%
%

% ponto2 = 74995;
===================================================================
Conforme o teste acima que tenha sido descomentado, os arquivos (*.csv)
s~
ao lidos e os gr
aficos no tempo na FFT e a resposta em frequencia
s~
ao plotados
===================================================================

% Leitura do
M1 = csvread(
% Leitura do
M2 = csvread(
A0 = M1(:,1);
A = M2(:,1);

ponto de entrada na malha


[diretorio1 SaidaDoPonto_ ponto1 .csv]);
ponto de saida na malha
[diretorio2 SaidaDoPonto_ ponto2 .csv]);

% Determinando a taxa de amostragem segundo os par^


ametros do MLT
taxa = (dx/c)^(-1);
% Determinando a escala de tempo
t1 = 1:length( M1(:,1) );
t1 = (t1-1)/taxa;
t2 = 1:length( M2(:,1) );
t2 = (t2-1)/taxa;
figure(WindowStyle,normal,Name,Compara
c~
ao,Visible,on);
plot(t1,A0,r,t2,A,b);
title([SaidaDoPonto\_ ponto1 vs SaidaDoPonto\_ ponto2],FontSize,9);
ylabel(Press~
ao (Pa),Fontsize,11);
xlabel(tempo (segundos),Fontsize,11); grid on;% zoom xon;
legend(diretorio1,diretorio2,1);
figure(WindowStyle,normal,Name,diretorio1,Visible,on);
plot(t1,A0);
title([SaidaDoPonto\_ ponto1],FontSize,9);
xlabel(tempo (segundos),Fontsize,11); grid on;
figure(WindowStyle,normal,Name,diretorio2,Visible,on,NumberTitle,off);
plot(t2,A); title([SaidaDoPonto\_ ponto2],FontSize,9);
xlabel(tempo (segundos),Fontsize,11);
grid on; zoom xon;
% Mostra as FFTs da entrada e da saida
[amp1,freq1] = calcula_FFT(A0,1,c,dx,[diretorio1 SaidaDoPonto_ ponto1 .csv] );
[amp2,freq2] = calcula_FFT(A,1,c,dx,[diretorio2 SaidaDoPonto_ ponto2 .csv] );
% Determina os coeficientes LPC e plota a resposta em frequ^
encia
% a partir do sinal original das itera
c~
oes do MLT
% ===============================================================
% Limitando para plotar somente at
e 10000 Hz
aux = find(freq1>10000);
% Determinando os coeficientes LPC
a = lpc(A,floor(length(A)/50));
[h,fv] = freqz(1,a,length(A),taxa);
% Limitando para plotar somente at
e 10000 Hz

125

aux2 = find(fv>10000);
figure(WindowStyle,normal,Name,Resposta em Frequencia (LPC),Visible,on);
plot(fv(1:aux2(1)),10*log10(abs(h(1:aux2(1)))))
title([Resposta em Frequencia ( diretorio1 )],FontSize,9);
ylabel(Magnitude (dB),Fontsize,11);
xlabel(frequ^
encia (Hz),Fontsize,11);
grid on;
% A partir daqui, como exemplo, um filtro glotal
e constru
do a partir da
% aplica
c~
ao de LPC ao sinal glotal e usado para filtrar o sinal
% sa
do das itera
c~
oes do MLT
%===================================================
% Contru
c~
ao do Filtro Glotal
%===================================================
ag = gera_filtro_glotal();
%===================================================
% Primeira aplica
c~
ao do Filtro Glotal ao sinal do arquivo
%===================================================
A1 = filter(1,ag,A);
%===================================================
% Segunda aplica
c~
ao do Filtro Glotal ao sinal do arquivo
%===================================================
A2 = filter(1,ag,A1);
wavplay(A0,taxa) % Som do sinal de entrada
wavplay(A*1000,taxa) % Som do sinal original das itera
c~
os do MLT
wavplay(A1*10,taxa) % Som do sinal de sa
da ap
os uma aplica
c~
ao do filtro glotal
wavplay(A2,taxa) % Som do sinal de sa
da ap
os duas aplica
c~
oes do filtro glotal
% =========================================================================
% Plotagem primeira filtragem FFT e Resposta em Frequencia
% =========================================================================
calcula_FFT(A1,1,c,dx,[diretorio2 SaidaDoPonto_ ponto2 .csv] );
figure(WindowStyle,normal,Name,diretorio2,Visible,on,NumberTitle,off);
plot(t2,A1);
title([SaidaDoPonto\_ ponto2 (ap
os filtragem)],FontSize,9);
xlabel(tempo (segundos),Fontsize,11); grid on; zoom xon;
a = lpc(A1,floor(length(A1)/50));
[h2,fv2] = freqz(1,a,length(A1),taxa);
aux2 = find(fv>10000);
titulo = Resposta em Frequencia (LPC) - Sinal compensado;
figure(WindowStyle,normal,Name,titulo,Visible,on);
plot(fv2(1:aux2(1)),10*log10(abs(h2(1:aux2(1)))))
title([Resposta em Frequencia ( diretorio1 )],FontSize,9);
ylabel(Magnitude (dB),Fontsize,11);
xlabel(frequ^
encia (Hz),Fontsize,11);
grid on;
% =========================================================================
% Plotagem segunda filtragem FFT e Resposta em Frequencia
% =========================================================================

126

calcula_FFT(A2,1,c,dx,[diretorio2 SaidaDoPonto_ ponto2 .csv] );


figure(WindowStyle,normal,Name,diretorio2,Visible,on,NumberTitle,off);
plot(t2,A2); title([SaidaDoPonto\_ ponto2 (ap
os filtragem)],FontSize,9);
xlabel(tempo (segundos),Fontsize,11); grid on; zoom xon;
a = lpc(A2,floor(length(A2)/50));
[h2,fv2] = freqz(1,a,length(A2),taxa);
aux2 = find(fv>10000);
titulo = Resposta em Frequencia (LPC) - Sinal compensado;
figure(WindowStyle,normal,Name,titulo,Visible,on);
plot(fv2(1:aux2(1)),10*log10(abs(h2(1:aux2(1)))))
title([Resposta em Frequencia ( diretorio1 )],FontSize,9);
ylabel(Magnitude (dB),Fontsize,11);
xlabel(frequ^
encia (Hz),Fontsize,11);
grid on;
% =========================================================================
% Passos para convers~
ao da taxa de amostragem para 44100 visando a grava
c~
ao
% do resultado em arquivo de som (*.wav) - Descomentar para gravar
% O passo
e a raz~
ao entre as taxas de amostragem do sinal do MLT (1/dt) e
% da taxa 44100 sem a parte decimal
% passo = 14; % tubos
% passo = 15; % trato vocal
% A_Salvo = A(1:passo:end);
% A1_Salvo = A1(1:passo:end);
% A2_Salvo = A2(1:passo:end);
% wavwrite(A_Salvo,44100,32,Nome_da_Simulacao.wav);
% wavwrite(A1_Salvo,44100,32,Nome_da_Simulacao_Filtrado.wav);
% wavwrite(A2_Salvo,44100,32,Nome_da_Simulacao_Filtrado2X.wav);
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% calcula_FFT.m
% Fun
c~
ao para calcular a FFT a partir de um arquivo (*.csv) gerado pelo ModaVox
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
function [amp,freq] = calcula_FFT(saida,Fs,c,dx,titulo)
format long g
% PARAMETROS:
% saida = vetor contendo a leitura do arquivo (*.csv)
% Fs = taxa de amostragem
% c = velocidade do som (m/s);
% dx = comprimento da aresta da malha (discretiza
c~
ao espacial)
% titulo = titulo do gr
afico a ser plotado pela fun
c~
ao
% RETORNA:
% Os Vetores amp e freq com os valores da amplitude e
% frequencia para plotagem do gr
afico da FFT fora da fun
c~
ao
% Aqui Fs = 1 pois o vetor saida s~
ao os valores do sinal
% de saida da malha em indices (sem escala de tempo) a taxa
% de amostragem real
e 1/dt = c/dx = 343100 Hz
Ts = 1/Fs;
N = length(saida);
b = abs(fft(saida));

127

Pb = 10*log10(b);
fp = Pb(1:floor(N/2)+1)*Ts;
% Escala de frequencias gerada com base nos indices do vetor saida
f = Fs*(0:floor(N/2))/N;
% Convertendo escala de frequencias de indices para os valores
% reais de frequencia c/dx = 1/dt = taxa de amostragem real do
% sinal de saida coletado diretamente no ponto da malha.
f = f*(c/dx);
amp = fp;
freq = f;
% Limitando para plotar somente at
e 10000 Hz
aux = find(f>10000);
figure(WindowStyle,normal,Name,FFT,Visible,on,NumberTitle,off);
plot(f(1:aux(1)),fp(1:aux(1)));
title(titulo,FontSize,9)
ylabel(Pot^
encia (dB),FontSize,11);
xlabel(frequ^
encia (Hz),Fontsize,11);
zoom xon
grid on
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

No codigo a seguir, a funcao calcula f0() foi desenvolvida durante a dissertacao de Mestrado [9]. A tecnica utilizada em seu algoritmo tambem pode ser
vista na referencia [2].
% gera_sinal_glotal.m
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
function [t,y,tg,gfluxo_interp,taxa_interp] =
gera_sinal_glotal(NomeArq,inicio,fim,dx,c,NomeArqGerado)
% Gera o sinal glotal a partir do arquivo de som
% PARAMETROS:
% NomeArq = Nome do arquivo de som (*.wav) a ser aberto.
% inicio e fim = definem o trecho do arquivo de som a ser tratado
% dx = comprimento da aresta da malha (discretiza
c~
ao espacial)
% c = velocidade do som (m/s);
% NomeArqGerado = Nome do arquivo (*.dados) a ser criado contendo o sinal glotal
% RETORNA:
% t = Escala de tempo do trecho do sinal original
% y = Valores de magnitude do Trecho do sinal original
% tg = Escala de tempo do trecho do sinal glotal interpolado
% gfluxo_interp = Valores de magnitude do Trecho do sinal glotal interpolado
% taxa_interp = taxa de amostragem ap
os a interpola
c~
ao
% ==================================================
format long g
[y, taxa, bits] = wavread(NomeArq);

128

y = y(:,1);

% no caso de arquivos stereo so interessa a primeira coluna

t1 = inicio;
% t1 e t2 sao o intervalo de exibicao do arquivo
t2 = fim;
comp_y = length(y);
duracao = comp_y/taxa;
% Configura
c~
ao do trecho do arquivo de som a ser tratado
% ===========================================================
if t1 <= 0.00001
%Se t1 for menor que o valor que torna N1 = 0
N1 = 1;
%N1 nao pode ser 0 ( [N1 N2] no waveread )
t1 = 0;
%forcar t1 = 0 (limite minimo)
else
% ajusta posicao de leitura no arquivo
N1 = floor(t1*taxa);
end
if t2 > duracao
%Se t2 for maior que a duracao do arquivo
% ajusta posicao de leitura no arquivo (ultima posicao)
N2 = comp_y;
t2 = duracao;
else
% ajusta posicao de leitura no arquivo (posicao escolhida)
N2 = floor(t2*taxa);
end
y = y(N1:N2);
t = (0:(length(y)-1))*(1/taxa);
% Meu c
alculo da f0 (De acordo com o trabalho do Mestrado)
% ===========================================================
f0 = calcula_f0(NomeArq, 75, 0.3, 0.01, 6, 0.75, 0.1, 2)
%Op
c~
oes do programa Aparat
opts = struct(f0, f0,p, 32, arfunc, lpc);
% f0 - frequ^
encia fundamental
% p - ordem do modelo para o trato vocal
% arfunc - AR-modelling technique used in IAIF. Available functions:
% * lpc - Linear Prediction
% Fun
c~
ao do programa Aparat que obt
em o sinal glotal
gfluxo = iaif(y,taxa,opts);
t = (0:length(gfluxo)-1)/taxa;
% Interpola
c~
ao do sinal glotal
dt = dx/c;
taxa_interp = 1/dt;
% Retorna t1 e gfluxo_interp para verifica
c~
ao fora da fun
c~
ao
tg = t(1):1/taxa_interp:t(end);
gfluxo_interp = interp1(t,gfluxo,tg);
% Defini
c~
ao da matriz que vai para o arquivo (*.dados)
% O c
odigo C++ vai ler:
%
1) a taxa de amostragem do sinal glotal interpolado

129

%
2) o n
umero de amostras (para saber quando parar) e
%
3) os valores de magnitude das amostras
C = [taxa_interp length(gfluxo_interp) gfluxo_interp];
% Salva os valores de C na vertical
csvwrite( NomeArqGerado, C );
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% gera_filtro_glotal.m
% Fun
c~
ao para calcular os coeficientes LPC partir do sinal glotal
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
function a = gera_filtro_glotal()
% PARAMETROS:
% Nenhum
% RETORNA:
% O vetor com os coeficientes LPC para o filtro criado
% a partir do sinal glotal.
% ==================================================
[t,y,t1,gfluxo_interp,taxa_interp] = gera_sinal_glotal(
..\Vogal_a_Supino.wav,
0,
0.2,
0.000968498,
628.7307,
..\TratoVocal\SinalGlotalVel628_Dx0_968498mm.dados);
% Remove o inicio do arquivo para o sinal come
car exatamente
% no in
cio de um per
odo
% ===========================================================
gfluxo_interp = gfluxo_interp(14486:end);
% Filtro da glote
a = lpc(gfluxo_interp,floor(length(gfluxo_interp)/100));
[h,fv] = freqz(1,a,length(gfluxo_interp),taxa_interp);
aux2 = find(fv>10000);
figure(WindowStyle,normal,Name,Resposta em Frequencia (LPC),Visible,on);
plot(fv(1:aux2(1)),10*log10(abs(h(1:aux2(1)))));
title([Resposta em Frequencia ( Sinal Glotal )],FontSize,9);
ylabel(Magnitude (dB),Fontsize,11);
xlabel(frequ^
encia (Hz),Fontsize,11);
grid on;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

130

Ap
endice B
Manual do Programa ModaVox

B.1
B.1.1

Compilac
ao do C
odigo
O gerador de makefiles CMake

Um makefile e um arquivo de texto contendo um roteiro com instrucoes de compilacao em sequencia para o compilador (GCC). O CMake [132] gera o makefile a
partir de um conjunto de instrucoes, com as localizacoes dos arquivos a serem includos e das bibliotecas. Estas instrucoes ficam contidas em um arquivo chamado
CMakeLists.txt. Para o ModaVox, o arquivo CMakeLists.txt e mostrado abaixo:
# Arquivo CMakeLists.txt
cmake_minimum_required(VERSION 2.4)
PROJECT(MODAVOX)
# INCLUIR PACOTE VTK
# =============================================================
FIND_PACKAGE(VTK)
IF(NOT VTK_DIR)
MESSAGE(FATAL_ERROR
"Please set VTK_DIR.")
ELSE(NOT VTK_DIR)
INCLUDE(${VTK_USE_FILE})
ENDIF(NOT VTK_DIR)
# INCLUIR PACOTE ITK
# =============================================================

131

FIND_PACKAGE(ITK)
IF(ITK_FOUND)
INCLUDE(${ITK_USE_FILE})
ELSE(ITK_FOUND)
MESSAGE(FATAL_ERROR
"ITK not found. Please set ITK_DIR.")
ENDIF(ITK_FOUND)
# CONFIGURAR QT
# =============================================================
SET(QT_MOC_EXECUTABLE ${VTK_QT_MOC_EXECUTABLE} CACHE FILEPATH "")
SET(QT_UIC_EXECUTABLE ${VTK_QT_UIC_EXECUTABLE} CACHE FILEPATH "")
SET(QT_QMAKE_EXECUTABLE ${VTK_QT_QMAKE_EXECUTABLE} CACHE FILEPATH "")
SET(DESIRED_QT_VERSION ${VTK_DESIRED_QT_VERSION} CACHE FILEPATH "")
FIND_PACKAGE(Qt4)
IF(QT_USE_FILE)
INCLUDE(${QT_USE_FILE})
ELSE(QT_USE_FILE)
SET(QT_LIBRARIES ${QT_QT_LIBRARY})
ENDIF(QT_USE_FILE)
IF(CMAKE_HOST_UNIX)
SET( REDES_NEURAIS_INCLUDE_DIR /drive_c/RedesNeurais )
SET( TETGEN_INCLUDE_DIR /drive_c/tetgen1.4.2 )
ENDIF(CMAKE_HOST_UNIX)
IF(CMAKE_HOST_WIN32)
SET( REDES_NEURAIS_INCLUDE_DIR C:/RedesNeurais )
SET( TETGEN_INCLUDE_DIR C:/tetgen1.4.2 )
message ( "REDES_NEURAIS_INCLUDE_DIR = " ${REDES_NEURAIS_INCLUDE_DIR} )
ENDIF(CMAKE_HOST_WIN32)
DOS E DAS BIBLIOTECAS
# LOCALIZAC
~
OES DOS ARQUIVOS A SEREM INCLUI
# ===============================================================
INCLUDE_DIRECTORIES (
${QT_INCLUDE_DIR}
${CMAKE_CURRENT_BINARY_DIR}
${CMAKE_CURRENT_SOURCE_DIR}
${REDES_NEURAIS_INCLUDE_DIR}
${TETGEN_INCLUDE_DIR} )
# CONFIGURAR PROJETO QT
# =============================================================
IF(DESIRED_QT_VERSION MATCHES 4)
# SOURCES, HEADERS , UIS e RCCS
# =============================================================
SET(SRCS main.cpp JanelaPrincipal.cpp SubJanela.cpp JanelaSobre.cpp
QVTKMostrador.cpp JanelaSeries.cpp JanelaMapaCores.cpp Filtro.cpp Imagem.cpp
Malha.cpp MatrizDeCoocorrencia.cpp JanelaCores.cpp TLM.cpp)

132

SET(HEADERS JanelaPrincipal.h SubJanela.h JanelaSobre.h QVTKMostrador.h


JanelaSeries.h JanelaMapaCores.h Filtro.h Imagem.h Malha.h
MatrizDeCoocorrencia.h JanelaCores.h TLM.h)
SET(UIS JanelaPrincipal.ui SubJanela.ui JanelaSobre.ui JanelaSeries.ui
JanelaMapaCores.ui JanelaCores.ui)
SET(RCCS icones.qrc)
# UI_HEADERS e MOCS
# =============================================================
QT4_ADD_RESOURCES(RCC_SRCS ${RCCS})
QT4_WRAP_UI( UI_HEADERS ${UIS})
QT4_WRAP_CPP( MOC_SRCS ${HEADERS} )
# DEFINICOES
# =============================================================
ADD_DEFINITIONS(-DQT_GUI_LIBS -DQT_CORE_LIB -DQT3_SUPPORT)
# DEPENDENCIAS
# =============================================================
SET_SOURCE_FILES_PROPERTIES(${SRCS}
PROPERTIES OBJECT_DEPENDS "${UI_HEADERS}")
ENDIF(DESIRED_QT_VERSION MATCHES 4)
VEL
# ADICIONAR AS SOURCES AO EXECUTA
# =============================================================
ADD_EXECUTABLE( ModaVox WIN32 ${SRCS} ${MOC_SRCS} ${RCC_SRCS} )
# LINKAR AS LIBS NECESSARIAS AO EXECUT
AVEL
TARGET_LINK_LIBRARIES( ModaVox
QVTK
${QT_LIBRARIES}
vtkRendering
vtkWidgets
vtkGraphics
vtkIO
vtkCommon
ITKNumerics
ITKIO
ITKBasicFilters
RedesNeurais
TetGen )

Como e possvel notar a compilacao do codigo envolve a inclusao de quatro bibliotecas open source alem da de biblioteca RedesNeurais, que contem, por enquanto,
apenas o mapa auto-organizavel de Kohonen pois foi programada especificamente
para a segmentacao das imagens no ModaVox. A instalacao dessas bibliotecas sera
133

descrita nas subsecoes seguintes.

B.1.2

Instalac
ao das bibliotecas Qt, ITK, VTK e TetGen

Os pacotes com as bibliotecas nas versoes utilizadas na confeccao do ModaVox


seguem junto com os arquivos do programa para maior comodidade. As instrucoes
para instalacao dessas bibliotecas se encontram nos respectivos pacotes ou nas referencias [107, 108, 109, 112].

B.1.3

Instalando a biblioteca RedesNeurais

Para a biblioteca RedesNeurais, o arquivo CMakeLists.txt e mostrado abaixo:


# Arquivo CMakeLists.txt
cmake_minimum_required(VERSION 2.4)
# Projeto que compila a lib de Redes Neurais
PROJECT(RedesNeurais)
DOS E DAS BIBLIOTECAS
# LOCALIZAC
~
OES DOS ARQUIVOS A SEREM INCLUI
# ===============================================================
INCLUDE_DIRECTORIES(
${CMAKE_CURRENT_BINARY_DIR}
${CMAKE_CURRENT_SOURCE_DIR} )
` BIBLIOTECA
# ADICIONAR AS SOURCES A
# =============================================================
ADD_LIBRARY( RedesNeurais RedeNeural.cpp MapaAutoOrganizavel.cpp )

Compilando a biblioteca RedesNeurais


Para gerar o makefile basta executar o CMake, indicando o diretorio onde se encontra
o arquivo CMakeLists.txt e o diretorio onde o makefile sera gerado. Por exemplo,
ccmake /drive_c/RedesNeurais /drive_c/RedesNeurais/RedesNeuraisLinux

134

vai usar o arquivo CMakeLists.txt acima, no diretorio /drive c/RedesNeurais


e gerar o makefile no diretorio /drive c/RedesNeurais/RedesNeuraisLinux. Em
seguida, basta digitar
make

no diretorio /drive c/RedesNeurais/RedesNeuraisLinux para iniciar a compilacao que vai criar a biblioteca libRedesNeurais.a. Este arquivo deve, entao, ser
copiado para /usr/local/lib/ ou adicionado `a variavel $PATH do sistema operacional.

B.1.4

Compilando o ModaVox

Para gerar o makefile basta executar o CMake, indicando o diretorio onde se encontra
o arquivo CMakeLists.txt referente ao ModaVox e o diretorio onde o makefile sera
gerado. Por exemplo,
ccmake /drive_c/ModaVox /drive_c/ModaVox/ModaVoxLinux

vai usar o arquivo CMakeLists.txt no diretorio /drive c/ModaVox e gerar o


makefile no diretorio /drive c/ModaVox/ModaVoxLinux. Em seguida, basta digitar
make

no diretorio /drive c/ModaVox/ModaVoxLinux para iniciar a compilacao do executavel.

135

B.2

Executando o Programa

Nesta secao, serao descritos os procedimentos basicos para operacao do ModaVox, o


programa que foi desenvolvido nesta tese. Para executar o programa, basta clicar no
executavel ou digitar ./ModaVox na linha de comando no diretorio onde se encontra
o executavel. A tela de abertura, conforme ilustrado na Fig. B.1, e exibida durante
7 segundos.

Figura B.1: Tela de Abertura do ModaVox.

B.2.1

Abrindo Arquivos

O ModaVox abre imagens DICOM 2D e 3D, series de imagens DICOM, arquivos


(*.png), (*.jpg) e (*.bmp), e arquivos de modelos do ModaVox (*.mvx). Acione o
botao

para selecionar o tipo de arquivo, como ilustrado na Fig. B.2.


136

Figura B.2: Abrindo Series de Imagens no ModaVox.


Como exemplo, sera ilustrada a abertura da serie de imagens original, da qual o
volume contendo o trato vocal foi extrado. Na janela Abrir Arquivo, basta selecionar
a opcao S
erie de Imagens M
edicas (*), selecionar qualquer arquivo do diretorio
e clicar OK. Entao, a janela Abrir Series de Imagens sera exibida com todas as
series de imagens DICOM disponveis no diretorio atual (ver Fig. B.3).

Figura B.3: Janela com as Series de Imagens contidas no diretorio.

137

Na Figura B.3, os dados relativos ao cabecalho DICOM sao exibidos nas colunas da tabela que contem a lista de series. Selecionando a serie desejada e clicando
em OK, as fatias serao carregadas no visualizador (SubJanela) unidas na forma de
um volume 3D.

B.2.2

Removendo Anisotropia em Imagens M


edicas 3D

Quando uma imagem medica (gerada no equipamento medico) e aberta, o ModaVox


verifica se o espacamento entre pixels e igual `a espessura da fatia, ou seja se a imagem
e geometricamente anisotropica. Caso seja, o usuario e perguntado se deseja remover
a anisotropia da imagem, como ilustrado na Fig. B.4.

Figura B.4: ModaVox pergunta ao usuario se deseja remover anisotropia da imagem.

B.2.3

Operac
oes sobre a Sess
ao de Trabalho

Com a imagem 3D aberta (ver Fig. B.5), o Plano Ativo e indicado pelo contorno
verde e permite ao usuario navegar pelas fatias do volume 3D, uma a uma. Isso
e feito usando as teclas Page Down e Page Up. Para alternar a selecao entre os 3

138

planos basta usar as teclas x, y ou z. Use Shif t + x, Shif t + y ou Shif t + z para


ocultar/exibir cada plano.

Figura B.5: Serie de imagens 3D geometricamente isotropica aberta pelo ModaVox.

A opacidade dos planos pode ser reduzida de 1 (total) a 0, usando a tecla P .


Para aumentar a opacidade use Shif t + P .
O brilho e o contraste da imagem podem ser modificados usando as teclas
Shif t + P age Up ou Shif t + P age Down e Alt + P age Up ou Alt + P age Down,
respectivamente. Note que o brilho e o contraste sao para toda a imagem volumetrica
aberta. Logo, a mesma alteracao vale para os 3 planos.
A magnificacao (Zoom) da visualizacao e modificada usando as teclas Ctrl +
P age Up para

ou Ctrl + P age Down para


139

A cor do fundo da sessao de trabalho pode ser modificada acessando Exibir


Cor do Fundo.

B.2.4

Selecionando Volume de Interesse

Para selecionar o volume de interesse, acesse as guias Imagem Pre-processamento


para fazer aparecer a caixa de ferramentas Pre-processamento. Para fazer com que
ela se encaixe na JanelaPrincipal de dois cliques no seu ttulo. A seguir, dentro desta
caixa de ferramentas acesse a Volume de Interesse. Ativando os 3 planos, um de
cada vez, demarque os trechos nas direcoes X, Y e Z que irao limitar o novo volume
a ser extrado e clique em extrair, Fig. B.6.

Figura B.6: Ferramenta para selecao do volume de interesse (VOI).

140

B.2.5

Segmentando Imagens

Para selecionar o volume de interesse, acesse as guias Imagem Segmentacao para


fazer aparecer a caixa de ferramentas Segmentacao de Imagens (ver Fig. B.7).

Figura B.7: Interface da ferramenta de segmentacao por Crescimento de regioes.

Visualizac
ao das Segmentac
oes
Na Figura B.7, o botao

exibe ou oculta o campo Imagem, com informacoes

sobre as fatias do volume, o botao

mostra a segmentacao no plano ativo caso

exista uma. Se acionado novamente, exibe a mesma segmentacao com o esquema de


cores modificado para HSV (Hue Saturation Value). Os botoes
navegar pelas fatias segmentadas uma a uma.
141

permitem

Segmentac
ao por Crescimento de Regi
oes
Ainda na Fig B.7, para segmentar usando crescimento de regioes, selecione o filtro (threshold conectado ou confianca conectado), as sementes1 , o nome e o rotulo
(tom de cinza) da nova regiao que sera criada na fatia segmentada. As caixas dos
parametros exibem textos explicativos quando o mouse passa sobre eles.

Segmentac
ao Manual
Este grupo de ferramentas de segmentacao foi implementado para realizar os retoques que forem necessarios nas segmentacoes (ver Fig. B.8).

Figura B.8: Interface das ferramentas de Segmentacao Manual.


1

Sementes s
ao os voxels a partir dos quais o algoritmo se inicia.

142

Captura o tom de cinza da fatia segmentada na posicao do plano selecionado.

Desenha com o tom de cinza indicado na caixa Cor na fatia segmentada


que se encontra na posicao do plano selecionado.

Semelhante `a funcao do lapis, porem desenha sempre com o tom de cinza


zero (preto).

Demarca uma regiao retangular na fatia segmentada na posicao do plano


selecionado e a pinta com o tom de cinza selecionado.

Preenche uma regiao (4-conectada) com o tom de cinza selecionado a partir


de um pixel inicial. Pode ser utilizado com a opcao Em todas as fatias.

Remove o tom de cinza selecionado da imagem segmentada na posicao do


plano selecionado.

Remove ilhas da imagem segmentada com o n


umero

de pixels indicado na variavel Area.


Pode ser utilizado com a opcao Em todas
as fatias.

Segmentac
ao por Redes Neurais
A Figura B.9 mostra a interface de redes neurais. Para segmentar usando o mapa
auto organizavel, e necessario selecionar alguns descritores de textura2 . A opcao
2

Para a imagem 3D do trato vocal os melhores descritores foram Continuidade, Media e Entropia

estatsticos.

143

Faixas pode ser utilizada para que o programa ignore os descritores e segmente
aplicando m
ultiplos thresholds, dividindo os nveis de cinza da imagem num dado
n
umero de faixas. Em seguida clicar em Treinar. Os botoes Relatorio e Mapa de
Cores servem para exibir o relatorio do treinamento da rede e os tons de cinza das
regioes detectadas, respectivamente.

Figura B.9: Caixa de Ferramenta Segmentacao de Imagens.

B.2.6

Extraindo e Editando Malhas

Apos a segmentacao, para extrair as malhas o usuario deve acessar as guias Imagem
Extracao / Edicao de Malhas, para fazer surgir a caixa de ferramentas ilustrada
na Fig. B.10.
144

Figura B.10: Ferramenta para Extracao/Edicao de Malhas.


Extraindo Malhas para o MEF
O primeiro passo para extrair uma malha e selecionar o tom de cinza do volume
segmentado por sobre o qual a malha sera criada. No caso da segmentacao na Fig.
B.10, sera a regiao com o tom 232 (o mais claro, que representa o desenho 3D do
3

trato vocal). Em seguida clicar no botao


iso-superfcie. Acione o botao

. O ModaVox, entao, cria uma

para remover os possveis triangulos du-

plicados e intercessoes entre os mesmos. Clique em

para suavizar a malha

de superfcie. Para tetraedralizar o interior da malha, acesse a guia Tetraedralizacao


3

Verificar a caixa TLM pois a mesma n


ao deve estar selecionada.

145

e clique em
e clique em

. Para refinar a malha basta reduzir a valor da variavel alpha 4


novamente.

Extraindo Malhas para o MLT


O procedimento para extracao de malhas para o MLT e identico ao anterior ate
o ponto onde se deve clicar no botao Extrair. Aqui, a opcao

deve estar

selecionada para indicar que uma malha vai ser extrada para o metodo das linhas
de transmissao.

Operac
oes sobre as Malhas
Segue abaixo a descricao dos controles da caixa de ferramentas Extracao / Edicao
de Malhas:

Exibe o relatorio sobre a malha selecionada. Informa o n


umero de
pontos, o n
umero de elementos e atributos.

Mostra a malha selecionada.

Oculta a malha selecionada.

Extrai uma malha de superfcie formada por triangulos ou uma


malha para o MLT de acordo com a opcao

Reconstroi uma malha MLT alterando o comprimento L das arestas.


Permite alterar a cor da malha.

Define o volume maximo permitido para cada tetraedro.

146

Gera uma visualizacao em corte para a malha selecionada na posicao do


plano ativo.

Desfaz o corte retornando `a visualizacao completa da malha selecionada.

Remove a malha selecionada.

B.2.7

Aplicando o M
etodo das Linhas de Transmiss
ao (MLT)

Apos a geracao da malha para o MLT, acesse as guias Malha Metodos Numericos,
como ilustrado na Fig. B.11.

Figura B.11: Ferramenta para aplicacao de metodos numericos.

147

Atribundo condic
oes de contorno aos Pontos
Para inserir um novo atributo relativo aos pontos da malha, selecione a guia Pontos
relativa ao campo Valores de Contorno e escreva, por exemplo, Pressaono campo
chamado Variavel e clique no botao

. Uma coluna com o nome Pressaosera

criada na tabela da guia Pontos. Os valores da coluna sao todos inicializados para
zero e correspondem aos ndices da lista de pontos na malha. Para remover uma
coluna, selecione qualquer elemento da mesma e clique no botao

. Tambem e

possvel aplicar condicoes aos elementos. Porem, nao sera necessario aqui. Em
seguida, clique no botao

para detectar os limites da malha auto-

maticamente. Isso criara a coluna Contornoao lado da coluna Pressao(ver Fig.


B.11). Os valores da coluna Contornosao inicializados para 0 caso o ponto seja
interior `a malha e para 1 caso o ponto faca parte dos limites da malha.
Ao selecionar um ponto na tabela, um octaedro regular e desenhado no ambiente grafico indicando a posicao na malha relativa ao ponto5 . Tambem e possvel
selecionar m
ultiplos pontos sendo que os mesmos aparecem igualmente indicados na
malha. A seguir, a descricao dos outros botoes da interface Metodos Numericos:

Atribui o valor escalar contido no campo Valor aos pontos selecionados.

Colore a malha com os valores escalares relacionados `a coluna selecionada na tabela Pontos.

Oculta os valores escalares retornando a malha `a sua cor original.

Pode ser necess


ario usar a ferramenta Zoom para ver a indicacao na malha.

148

Quando ha muitos pontos selecionados na tabela, este botao desmarca os pontos cujo valor escalar seja o mesmo contido no campo Valor.
Transfere os ndices dos pontos selecionados na tabela para a caixa

Sada(s) em. Nesta caixa ficam os ndices dos pontos pontos cujas sadas serao
registradas no decorrer das iteracoes do metodo.

Exibe o relatorio relativo ao MLT sobre a malha selecionada.


Informa o nome da malha, o comprimento L das linhas de transmissao, o
passo de tempo t, a maxima frequencia analizavel para o L utilizado e se
a relacao L/ (onde e o comprimento de onda em metros) e menor que
0.1, atendendo ao criterio de minimizacao da dispersao numerica.

Inicia as iteracoes do MLT para os parametros configurados


na interface.

Quando selecionada, esta opcao faz com que a malha seja


colorida com os valores escalares da pressao a cada iteracao do algoritmo do
MLT.

Configurando a aplicac
ao do MLT
Os passos para configuracao dos parametros para aplicacao do MLT sao descritos a
seguir. A interface pode ser vista na Fig. B.11.
1. Na guia TLM, selecione o arquivo com o sinal de entrada na caixa Entrada
glotal.
149

2. Selecione ou digite, na caixa Sada(s) em, os ndices dos pontos da malha para
os quais a sada do algoritmo MLT sera coletada a cada iteracao. No diretorio
em que o ModaVox estiver sendo executado serao criados arquivos de nomes
SaidaDoPonto [indice1].csv, SaidaDoPonto [indice2].csv, etc.
3. Digite o valor da velocidade do som. Para malhas uniformes o valor 628.7307
m/s deve ser usado de acordo com o fator de correcao da velocidade proposto
no Captulo 3.
4. Na caixa Tempo gerado, digite o tempo em segundos da amostra de som a
ser gerada. O n
umero de iteracoes na caixa Iteracoes e calculado automaticamente. Digitando primeiro o n
umero de iteracoes, o tempo de som gerado
tambem e calculado automaticamente.
5. Digite os valores desejados para as variaveis e referentes `as condicoes de
contorno das paredes do trato e das sadas para o espaco livre na malha do
trato. Os valores padrao sao para paredes totalmente rgidas com = 1 e
= 0, e a condicao de espaco livre com = 1 e = 0.
6. A opcao

pode ser selecionada para acompanhar a progressao

do algoritmo na malha pela visualizacao dos valores escalares da pressao a cada


iteracao. Porem, e recomendavel nao selecionar esta opcao para um n
umero
de iteracoes muito grande para nao aumentar o tempo de computacao.
7. Finalmente, clique no botao

para iniciar a computacao.

150

Os arquivos (*.csv) gerados durante a computacao das iteracoes podem ser


abertos em planilhas. A sada de um dado ponto em um arquivo (*.csv) corresponde
a um sinal no tempo, que pode ser visualizado no domnio da frequencia atraves da
FFT (Fast Fourier Transform) e a partir do qual a resposta em frequencia pode
ser obtida atraves de LPC (Linear Prediction Coeficients). Devido `as restricoes
de tempo, ainda nao foram implementadas a FFT e LPC no ModaVox. Por isso,
elas foram aplicadas ao conte
udo dos arquivos (*.csv) atraves de scripts (*.m) no
MATLABr (ver Apendice A.2).
Visualizar distribuicao de pressao em todos os pontos da malha, em um u
nico
instante de tempo, nao possui tanta utilidade quanto a visualizacao de um u
nico
ponto em todos os instantes, como descrito no paragrafo acima. Apesar disso, a Fig.
B.12 mostra a distribuicao de pressao na malha apos 15 iteracoes.

Figura B.12: Distribuicao da pressao na malha do trato vocal apos 15 iteracoes.

151

B.2.8

Salvando Arquivos

O ModaVox pode salvar imagens DICOM (volumetricas ou fatias), imagens (*.png) e


arquivos de modelos do ModaVox (*.mvx). O tipo de arquivo (*.mvx) foi criado para
armazenar uma sessao de trabalho do ModaVox, com a imagem medica aberta e,
caso existam, a rede neural treinada, a lista de imagens segmentadas e a(s) malha(s)
com seus atributos. Basta clicar no botao

152

Bibliografia
[1] Fant G., The Acoustic Theory of Speech Production, 2nd ed.

Mouton, The

Hague, pp. 66, 1970.


[2] Brandao A. S., Cataldo E., and Leta F. R., Um novo metodo usando autocorrelacao para extracao da freq
uencia fundamental em sinais de voz, Tendencias
em Matematica Aplicada e Computacional (TEMA), vol. 8, no. 2, pp. 191200,
2007.
[3] Cataldo E., Soize C., Sampaio R., and Desceliers C., Probabilistic modeling
of a nonlinear dynamical system used for producing voice, Computational
Mechanics, vol. 43, no. 2, pp. 265275, 2009.
[4] Cataldo E., Sampaio R., Lucero J., and Soize C., Modeling random uncertainties in voice production using a parametric approach, Mechanics Research
Communications, vol. 35, no. 7, pp. 454459, 2008.
[5] Lucero J. C., Oscillation hysteresis in a two-mass model of the vocal folds,
Journal of Sound and Vibration, vol. 282, no. 3-5, pp. 12471254, 2005.
153

[6] Gould

W.

J.

(2011)

The

voice

foundation.

[Online].

Disponvel:

http://www.voicefoundation.org/ (Acesso em: 25/02/2011)


[7] van den Berg J. W., Zantema J. T., and Doornenbal P., On the air resistance
and the bernoulli effect of the human larynx, Journal of the Acoustical Society
of America, vol. 29, no. 5, pp. 626631, 1957.
[8] Titze I. R., Principles of Voice Production.

Englewood Cliffs, New Jersey:

Prentice-Hall, 1994.
[9] Brandao A. S., Classificacao de vozes naturais e de vozes sintetizadas atraves
de modelos mecanicos de laringe e de trato vocal usando redes neurais, Dissertacao de Mestrado, Universidade Federal Fluminense, Niteroi-RJ, Fevereiro
2006.
[10] DAlessandro M. P. (1995) Anatomy atlases: A digital library of anatomy
information. [Online]. Disponvel: http://www.anatomyatlases.org (Acesso
em: 18/01/2008)
[11] Flanagan J. and Landgraf L., Self-oscillating source for vocal-tract synthesizers, IEEE Transactions on Audio and Eletroacoustics, vol. 16, no. 1, pp.
5764, 1968.
[12] Ishizaka K. and Flanagan J. L., Synthesis of voiced sounds from two-mass
model of the vocal cords, Bell System Technical Journal, vol. 51, pp. 1233
1268, 1972.

154

[13] Cataldo E., Leta F. R., Lucero J., and Nicolato L., Synthesis of voiced sounds
using low-dimensional models of the vocal cords and time-varying subglottal
pressure, Mechanics Research Communications, vol. 33, no. 2, pp. 250260,
2006.
[14] Alipour F., Berry D. A., and Titze I. R., A finite-element model of vocal-fold
vibration, Journal of the Acoustical Society of America, vol. 108, no. 6, pp.
30033012, 2000.
[15] Alipour F. and Titze I. R., Elastic models of vocal fold tissues, Journal of
the Acoustical Society of America, vol. 90, no. 3, pp. 13261331, 1991.
[16] Berry D. A., Herzel H., Titze I. R., and Krischer K., Interpretation of biomechanical simulations of normal and chaotic vocal fold oscillations with empirical eigenfunctions, Journal of the Acoustical Society of America, vol. 95,
no. 6, pp. 35953604, 1994.
[17] Berry D. A. and Titze I. R., Normal modes in a continuum model of vocal
fold tissues, Journal of the Acoustical Society of America, vol. 100, no. 5, pp.
33453354, 1996.
[18] Rosa M. O., Laringe digital, Tese de Doutorado, Escola de Engenharia de
Sao Carlos, USP, Sao Paulo, 2002.
[19] Titze I. R. and Strong W. J., Normal modes in vocal cord tissues, Journal
of the Acoustical Society of America, vol. 57, no. 3, pp. 736744, 1975.

155

[20] Story B. H. and Titze I. R., Voice simulation with a body-cover model of the
vocal folds, Journal of the Acoustical Society of America, vol. 97, no. 2, pp.
12491260, 1995.
[21] Mergell P., Herzel H., and Titze I. R., Irregular vocal fold vibration - highspeed observation and modeling, Journal of the Acoustical Society of America, vol. 108, no. 6, pp. 29963002, 2000.
[22] Herzel H., Bifurcations and chaos in voice signals, Applied Mechanics Review, vol. 46, no. 7, pp. 399413, 1993.
[23] Herzel H., Berry D., Titze I., and Steinecke I., Nonlinear dynamics of the
voice: Signal analysis and biomechanical modeling, Chaos, vol. 5, no. 1, pp.
3034, 1995.
[24] Lucero J. C., A theoretical study of the hysteresis phenomenon at vocal fold
oscillation onset-offset, Journal of the Acoustical Society of America, vol. 105,
no. 1, pp. 423431, 1999.
[25] Steinecke I. and Herzel H., Bifurcations in an asymmetric vocal-fold model,
Journal of the Acoustical Society of America, vol. 97, no. 3, pp. 18741884,
1995.
[26] Lucero J. C. and Gotoh T., On the threshold pressure and the minimum
sustaining pressure in the vocal fold oscillation, Journal of the Acoustical
Society of Japan, vol. 14, pp. 213214, 1993.

156

[27] Eysholdt U., Tigges M., Wittenberg T., and Proschel U., Direct evaluation
of high- speed recordings of vocal fold vibrations, Folia Phoniatrica et Logopedica, vol. 48, no. 4, pp. 163170, 1996.
[28] Hammarberg B., High-speed observations of diplophonic phonation, in Vocal
Fold Physiology: Voice Quality Control.

ch. 21, San Diego, Ca: Singular

Publishing Group, 1 ed., 1995, pp. 343345.


[29] Decker G. Z. and Thomson S. L., Computational simulations of vocal fold
vibration: Bernoulli versus navier-stokes, Journal of Voice, vol. 21, no. 3, pp.
273284, 2007.

[30] Svec
J. G., Horacek J., Sram
F., and Vesely J., Resonance properties of
the vocal folds: In vivo laryngoscopic investigation of the externally excited
laryngeal vibrations, Journal of the Acoustical Society of America, vol. 108,
no. 4, pp. 13971407, 2000.
[31] Gunter H. E., A mechanical model of vocal-fold collision with high spatial
and temporal resolution, Journal of the Acoustical Society of America, vol.
113, no. 2, pp. 9941000, 2003.
[32] Lobo A. and OMalley M., Towards a biomechanical model of the larynx, in The Fourth International Conference on Spoken Language Processing,
Philadelphia, 1996.

157

[33] Parker K. J., Taylor L. S., Gracewski S., and Rubens D. J., A unified view
of imaging the elastic properties of tissue, Journal of the Acoustical Society
of America, vol. 117, no. 5, pp. 27052712, 2005.
[34] Klir G. J., Uncertainty and Information - Foundations of Generalized Information Theory. Hoboken, New Jersey: John Wiley & Sons, Inc., 2006.
[35] Motoki K., Three-dimensional acoustic field in vocal-tract, Acoustical Science and Technology, vol. 23, no. 4, pp. 207212, 2002.
[36] Kelly K. L. and Lochbaum C. C., Speech synthesis, in Proceedings of 4th
International Congress on Acoustics, Paper G42, 1962, pp. 14.
[37] Doel K. V. D. and Ascher U. M., Real-time numerical solution of websters
equation on a nonuniform grid, IEEE Transactions on Audio, Speech & Language Processing, vol. 16, no. 6, pp. 11631172, 2008.
[38] Mokhtari P., Takemoto H., and Kitamura T., Single-matrix formulation of
a time domain acoustic model of the vocal tract with side branches, Speech
Communication, vol. 50, no. 3, pp. 179190, 2008.
[39] Mullen J., Howard D. M., and Murphy D. T., Acoustical simulations of the
human vocal tract using the 1d and 2d digital waveguide software model,
in Proceedings of the 7th International Conference on Digital Audio Effects
(DAFX-04), Naples, Italy, 2004, pp. 311314.

158

[40] Wakita H., Direct estimation of the vocal tract shape by inverse filtering of
acoustic speech waveforms, IEEE Transactions on Audio and Electroacoustics, vol. 21, no. 5, pp. 417427, 1973.
[41] , Estimation of vocal-tract shapes from acoustical analysis of the speech
wave: The state of the art, IEEE Transactions on Acoustics, Speech and
Signal Processing, vol. 27, no. 3, pp. 281285, 1979.
[42] Beautemps D., Badin P., and Laboissi`ere R., Deriving vocal-tract area functions from midsagittal profiles and formant frequencies: A new model for
vowels and fricative consonants based on experimental data, Speech Communication, vol. 16, no. 1, pp. 2747, 1995.
[43] Story B. H., A parametric model of the vocal tract area function for vowel
and consonant simulation, Journal of the Acoustical Society of America, vol.
117, no. 5, pp. 32313254, 2005.
[44] Serrurier A. and Badin P., Towards a 3d articulatory model of velum based
on mri and ct images, ZAS Papers in Linguistics, vol. 40, pp. 195211, 2005.
[45] Hannukainen A., Lukkari T., Malinen J., and Palo P., Formants and vowel
sounds by the finite element method, in The Phonetics Symposium, Helsinki,
2006, pp. 2433.
[46] Demolin D., Metens T., and Soquet A., Three-dimensional measurement of
the vocal tract by mri, in The Fourth International Conference on Spoken
Language Processing (ICSLP96), Philadelphia, 1996.
159

[47] Baer T., Gore J. C., Gracco L. C., and Nye P. W., Analysis of vocal tract
shape and dimensions using magnetic resonance imaging: Vowels, Journal of
the Acoustical Society of America, vol. 90, no. 2, pp. 799828, 1991.
[48] Greenwood A. R., Goodyear C. C., and Martin P. A., Measurements of vocal
tract shapes using magnetic resonance imaging, IEE Proceedings Communications, vol. 139, no. 6, pp. 553560, 1992.
[49] Story B. H., Titze I. R., and Hoffman E. A., Vocal tract area functions from
magnetic resonance imaging, Journal of the Acoustical Society of America,
vol. 100, no. 1, pp. 537554, 1996.
[50] Takemoto H., Honda K., Masaki S., Shimada Y., and Fujimoto I., Measurement of temporal changes in vocal tract area function from 3d cine-mri data,
Journal of the Acoustical Society of America, vol. 119, no. 2, pp. 10371049,
2006.
[51] Yang C. S. and Kasuya H., Accurate measurement of vocal tract shapes from
magnectic resonance images of child, female and male subjects, in Proceedings
of the 3rd International Conference on Spoken Language Processing, (ICSLP
94), Yokohama, Japan, 1994, pp. 623626.
[52] Clement P., Hans S., Hartl D. M., Maeda S., Vaissi`ere J., and Brasnu D., Vocal tract area function for vowels using three-dimensional magnetic resonance
imaging. a preliminary study, Journal of Voice, vol. 21, no. 5, pp. 522530,
2007.

160

[53] Engwall O., Vocal tract modeling in 3d, Speech, Music and Hearing - Quarterly Progress and Status Report, vol. 40, no. 1-2, pp. 031038, 1999.
[54] Vogt F., Guenther O., Hannam A., van den Doel K., Lloyd J., Vilhan L.,
Chander R., Lam J., Wilson C., Tait K., Derrick D., Wilson I., Jaeger C., Gick
B., Vatikiotis-Bateson E., and Fels S., Artisynth: Designing a modular 3d
articulatory speech synthesizer, Journal of the Acoustical Society of America,
vol. 117, no. 4, pp. 25422542, 2005.
[55] Dang J. and Honda K., Speech production of vowel sequences using a physiological articulatory model, in International Conference on Spoken Language
Processing (ICSLP98), 1998.
[56] Engwall O., A 3d tongue model based on mri data, in Proceedings of 6th
International Conference on Spoken Language Processing (ICSLP-2000), Beijing, China, 2000, pp. 901904.
[57] Lu X. B., Bier P. J., and Thorpe C. W., A time-varying three-dimensional
model of the vocal tract, in Proceedings of the 11th Australian International
Conference on Speech Science & Technology, University of Auckland, New
Zealand, 2006.
[58] Vogt F., Lloyd J. E., Buchaillard S., Perrier P., Chabanas M., Payan Y., and
Fels S. S., Efficient 3d finite element modeling of a muscle-activated tongue,
in Proceedings of ISBMS 06, ser. Lecture Notes in Computer Science, vol.
4072. Springer, 2006, pp. 1928.

161


[59] Vohradnik M., Dedouch K., Vokral J., and Svec
J. G., Finite element model
of supraglottal space in cleft palate, in International Federation of Otorhinolaryngological Societies, International Congress Series, vol. 1240, 2003, pp.
11451149.
[60] Nishimoto H. and Akagi M., Effects of complicated vocal tract shapes on vocal tract transfer functions, in International Workshop on Nonlinear Circuits
and Signal Processing (NCSP06), Hawaii-USA, 2006, pp. 114117.
[61] Takano S. and Honda K., An mri analysis of the extrinsic tongue muscles
during vowel production, Speech Communication, vol. 49, no. 1, pp. 4958,
2007.
y L., Finite element modelling
[62] Dedouch K., Horacek J., Vampola T., and Cern
of male vocal tract with consideration of cleft palate, in Forum Acusticum,
Special Issue of the Revista de Acustica, vol. XXXIII (3-4), Sevilla, 2002.
[63] Matsuzaki H. and Motoki K., A finite-element method analysis of acoustic
characteristics of the vocal tract with the nasal cavity during phonation of
japanese /a/, Journal of the Acoustical Society of America, vol. 120, no. 5,
pp. 33713371, 2006.
[64] Kagawa Y., Shimoyama R., Yamabuchi T., Murai T., and Takarada K.,
Boundary element models of the vocal tract and radiation field and their
response characteristics, Journal of Sound and Vibration, vol. 157, no. 3, pp.
385403, 1992.

162

[65] Bapat M. S., Shen L., and Liu Y. J., Adaptive fast multipole boundary element method for three-dimensional half-space acoustic wave problems, Engineering Analysis with Boundary Elements, vol. 33, no. 8-9, pp. 11131123,
2009.
[66] Johns P. B. and Beurle R. L., Numerical solution of two-dimensional scattering problems using a transmission-line matrix, in Proceedings of IEE, vol.
118, 1971, pp. 12031209.
[67] Cogan D., OConnor W., and Pulko S., Transmission Line Matrix in Computational Mechanics.

Boca Raton, Florida, pp. 102104: CRC Press, Taylor

& Francis Group, 2006.


[68] Scott I. and de Cogan D., An improved transmission line matrix model for
the 2d ideal wedge benchmark problem, Journal of Sound and Vibration, vol.
311, no. 3-5, pp. 12131227, 2008.
[69] Port J. A. and Morente J. A., A three-dimensional symmetrical condensed
tlm node for acoustics, Journal of Sound and Vibration, vol. 241, no. 2, pp.
207222, 2001.
[70] El-Masri S., Pelorson X., Saguet P., and Badin P., Development of the transmission line matrix method in acoustics. application to higher modes in the
vocal tract and other complex ducts. International Journal of Numerical
Modelling, vol. 11, no. 3, pp. 133151, 1998.

163

[71] Katsamanis A. and Maragos P., A fricative synthesis investigations using


the transmission line matrix method, Journal of the Acoustical Society of
America, vol. 123, no. 5, pp. 37413741, 2008.
[72] Fontana F. and Rocchesso D., Signal-theoretic characterization of waveguide
mesh geometries for models of two-dimensional wave propagation in elastic
media, IEEE Transactions on Speech Audio Processing, vol. 9, no. 2, pp.
152161, 2001.
[73] Campos G. R. and Howard D. M., On the computational efficiency of different
waveguide mesh topologies for room acoustic simulation, IEEE Transactions
Speech Audio Processing, vol. 13, no. 5, pp. 10631072, 2005.
[74] Murphy D., Kelloniemi A., Mullen J., and Shelley S., Acoustic modeling
using the digital waveguide mesh, IEEE Signal Processing Magazine, vol. 24,
no. 2, pp. 5566, 2007.
[75] Savioja L. and Valimaki V., Interpolated rectangular 3-d digital waveguide
mesh algorithms with frequency warping, IEEE Transactions Speech Audio
Processing, vol. 11, no. 6, pp. 783789, 2003.
[76] Fontana F., Computation of linear filter networks containing delay-free loops,
with an application to the waveguide mesh, IEEE Transactions Speech Audio
Processing, vol. 13, no. 5, pp. 774782, 2003.

164

[77] Speed M. D. A., Modelling sound propagation in the vocal tract with a threedimensional digital waveguide mesh, Dissertacao de Mestrado, University of
York, Heslington, June 2008.
[78] Hendee W. R. and Ritenour E. R., Medical Imaging Physics, 4th ed.

New

York, pp. 312: Wiley-Liss, 2002.


[79] Ophir J., Kallel F., Varghese T., Bertrand M., Cespedes I., and Ponnekanti
H., Elastography: A systems approach, International Journal of Imaging
Systems and Technology, vol. 8, pp. 89103, 1997.
[80] Clunie D. A., DICOM Structured Reporting, 1st ed.

PixelMed Publishing,

2000.
[81] NEMA - National electrical manufacturers association. (1926) [Online].
Disponvel: http://www.nema.org/ (Acesso em 13/05/2008)
[82] Rothenberg M., A new inverse-filtering technique for deriving the glottal air
flow waveform during voicing, Journal of the Acoustical Society of America,
vol. 53, no. 6, pp. 16321645, 1973.
[83] , Acoustic interaction between the glottal source and the vocal tract, in
Proceedings of the Vocal Fold Physiology Conference, vol. 1. Kurume, Japan:
University of Tokyo Press, January 1980, pp. 305328.
[84] , The source-filter model lives (if you are careful), in Proceedings of the
37th Annual Symposium of the Voice Foundation, May 2008.

165

[85] Lai W. M., Rubin D., and Krempl E., Introduction to Continuum Mechanics,
3rd ed. Butterworth-Heinemann, 1996.
[86] Beranek L. L., Acoustics. New York, pp. 16-22: Acoustical Society of America,
1986.
[87] Ballanis C. A., Advanced Engineering Electromagnetics. New York, pp. 116120: John Wiley & Sons, 1989.
[88] LMNO Engineering, Research, and Software, Ltd. (2003) Gas viscosity calculator. [Online]. Disponvel: http://www.lmnoeng.com/Flow/GasViscosity.htm
(Acesso em 23/05/2008)
[89] Rothenberg M., The breath-stream dynamics of simple-released plosive production, Bibliotheca Phonetica, vol. 6, pp. 2433, 1968.
[90] Rabiner L. R. and Schafer R. W., Digital Processing of Speech Signals.

En-

glewood Cliffs, New Jersey, Chp. 3: Prentice-Hall, 1978.


[91] Royer D. and Dieulesaint E., Elastic Waves in Solids 1 - Free and Guided
Propagation. Berlin, Heidelberg, pp. 29-32: Springer-Verlag, 2000.
[92] Salama I. and Riad S. M., Tfdtlm - a new computationally efficient frequencydomain transmission-line-matrix method, IEEE Transactions on Microwave
Theory and Techniques, vol. 48, no. 7, pp. 10891097, 2000.

166

[93] Salama I., Tfdtlm: A new computationally efficient frequency domain tlm
based on transient analysis techniques, Tese de Doutorado, Virginia State
University, Blacksburg, Chp. 2, September 1997.
[94] Ellis H. J., Morelli R. A., and Hislop G. W., Support for educating software engineers through humanitarian open source projects, in 21st IEEECS Conference on Software Engineering Education and Training Workshop
(CSEETW 08), Charleston, 2008, pp. 14.
[95] Ellis H. J., Morelli R. A., de Lanerolle T. R., and Hislop G. W., Holistic software engineering education based on a humanitarian open source project, in
20th Conference on Software Engineering Education & Training (CSEET07),
Dublin, Ireland, 2007, pp. 327335.
[96] Ellis H. J., Morelli R. A., and Hislop G. W., Work in progress - challenges
to educating students within the community of open source software for humanity, in 38th Annual Frontiers in Education Conference (FIE), Saratoga
Springs-NY, 2008, pp. S3H7 S3H8.
[97] Osaki M., Hiraga M., and Kunii T. L., Work in progress - the fundamental
research of cyberworlds: Social impacts of open-source education, in Proceedings 35th Annual Conference on Frontiers in Education (FIE05), Indianapolis, IN, 2005, pp. F3EF3E.
[98] Spinellis D., Open source and professional advancement, IEEE Software,
vol. 23, no. 5, pp. 7071, 2006.

167

[99] Bulka D. and Mayhew D., Efficient C++ Performance Programming Techniques. Addison Wesley, 1999.
[100] Cogswell J., Diggins C., Stephens R., and Turkanis J., C++ Cookbook.
OReilly, 2005.
[101] Hubbard J. R., Schaums Outline of Theory and Problems of Programming
with C++, 2nd ed. New York: McGraw-Hill, 2000.
[102] Josuttis N. M., The C++ Standard Library: A Tutorial and Reference, 1st ed.
Addison Wesley Longman, Inc., 1999.
[103] Liberty J. (1998) Teach yourself c++ in 21 days. [Online]. Disponvel:
http://newdata.box.sk/bx/c/htm/fm.htm (Acesso em 03/01/2008)
[104] Schildt H., C++:

The Complete Reference, 3rd ed.

New York:

Osborne/McGraw-Hill, 1998.
[105] Shtern V., Core C++ A Software Engineering Approach, 1st ed. Englewood
Cliffs, New Jersey: Prentice-Hall, 2000.
[106] Griffith A., GCC: The Complete Reference. New York: McGraw-Hill, 2002.
[107] Blanchette J. and Summerfield M., C++ GUI Programming with Qt 4. Englewood Cliffs, New Jersey: Prentice-Hall, 2006.
[108] Schroeder W., Martin K., and Lorensen B., The Visualization Toolkit: An
Object-Oriented Approach to 3-D Graphics, 3rd ed. Kitware, Inc., 2002.

168

[109] Ibanez L. and Schroeder W., The ITK Software Guide 2.4, 2nd ed. Kitware,
Inc., 2005.
[110] Adaime L. M., Aplicacao do visualization toolkit para pos-processamento de
analises pelo metodo dos elementos finitos, Dissertacao de Mestrado, Universidade Federal do Parana, Curitiba, 2005.
[111] Haykin S., Neural Networks: A Comprehensive Foundation, 2nd ed.

Engle-

wood Cliffs, New Jersey: Prentice-Hall, 1998.


[112] Si H. (2002) Tetgen:

A quality tetrahedral mesh generator. [Online].

Disponvel: http://tetgen.berlios.de (Acesso em: 20/01/2008)


[113] Sethian J. A., Level Set Methods and Fast Marching Methods, 2nd ed. Cambridge University Press, 1999.
[114] Leta F. R., Brandao A. S., and Cataldo E., Semi-automatic segmentation of
mr and ct image sequences using a self-organizing map and texture descriptors, in Proceedings of the 18th International Conference on Systems, Signals
and Image Processing (IWSSIP), Sarajevo, 2011, pp. 16.
[115] Gonzalez R. C. and Woods R. E., Digital Image Processing, 2nd ed.

Engle-

wood Cliffs, New Jersey: Prentice-Hall, 2002.


[116] Haralick R. M., Shanmugam K., and Dinstein I., Textural features for image
classification, IEEE Transactions on Systems, Man, and Cybernetics, vol. 3,
no. 6, pp. 610621, 1973.

169

[117] Hansen C. D. and Johnson C., The Visualization Handbook, 1st ed. Elsevier
Inc., 2005.
[118] Lorensen W. E. and Cline H. E., Marching cubes: A high resolution 3d surface
construction algorithm, ACM SIGGRAPH Computer Graphics, vol. 21, no. 4,
pp. 163169, 1987.
[119] Livnat Y., Han-Wei S., and Johnson C. R., A near optimal isosurface extraction algorithm using the span space, IEEE Transactions on Visualization and
Computer Graphics, vol. 2, no. 2, p. 184, 1996.
[120] Parker S., Shirley P., Livnat Y., Hansen C., and pike Sloan P., Interactive
ray tracing for isosurface rendering, in Proceedings of IEEE Visualization 98
(VIS 98), 1998, pp. 233238.
[121] Renard Y. (1999) Getfem++: An open-source finite element library. [Online].
Disponvel:

http://download.gna.org/getfem/html/homepage/index.html

(Acesso em 19/06/2008)
[122] van Heesch D. (1997) Doxygen - source code documentation generator
tool. [Online]. Disponvel: http://www.stack.nl/dimitri/doxygen/index.html
(Acesso em 13/10/2009)
[123] Dang C. (2003) Kolourpaint is a free, easy-to-use paint program for
kde. [Online]. Disponvel: http://kolourpaint.sourceforge.net/ (Acesso em
16/10/2006)

170

[124] Mattis P. and Kimball S. (1995) Gnu image manipulation program. [Online].
Disponvel: http://www.gimp.org/ (Acesso em 13/05/2007)
[125] Airas M., Pulakka H., Backstrom T., and Alku P., A toolkit for voice inverse
filtering and parametrisation, in Proceedings of the 9th European Conference
on Speech Communication and Technology (Interspeech2005 - Eurospeech),
September 2005, pp. 21452148.
[126] . (2005) Tkk aparat: Voice source analysis and parametrization toolkit.
[Online]. Disponvel:

http://sourceforge.net/projects/aparat/ (Acesso em

07/08/2009)
[127] Ndagljimana F., Saguet P., and Bouthinon M., Application of the tlm method
to slot antenna analysis a new absorbing boundary for the tlm method, in
20th European Microwave Conference, vol. 2, 1990, pp. 14951500.
[128] Kitamura T., Takemoto H., Honda K., Shimada Y., Fujimoto I., Shakudo Y.,
Masaki S., Kuroda K., Oku-uchi N., and Senda M., Difference in vocal tract
shape between up right and supine postures: Observations by an open-type
mr scanner, Acoustical Science and Technology, vol. 26, pp. 465468, 2005.
[129] Fant G. and B
aveg
ard M., Parametric model of vt area functions: vowels
and consonants. Speech, Music and Hearing - Quarterly Progress and Status
Report, vol. 38, no. 1, pp. 001020, 1997.

171

[130] Dang J. and Honda K., Acoustic characteristics of the piriform fossa in models
and humans, Journal of the Acoustical Society of America, vol. 101, no. 1,
pp. 456465, 1997.
[131] Brandao A. S., Cataldo E., and Leta F. R., Metodo de lnea de transmision
aplicado a la ac
ustica del tracto vocal a traves de un modelo 3d reconstruido,
Informacion Tecnologica, vol. 23, no. 2, em impressao, 2012.
[132] Martin K. and Hoffman B., Mastering CMake, 4th ed. Kitware, Inc., 2006.

172

You might also like