You are on page 1of 176

Universidade Federal de Campina Grande Centro de Engenharia Eltrica e Informtica Departamento de Engenharia Eltrica COPELE - Programa de Ps-Graduao em Engenharia

Eltrica

Tese de Doutorado

Anlise Dinmica No Linear de Sinais de Voz para Deteco de Patologias Larngeas

Washington Csar de Almeida Costa

Campina Grande PB 09 de novembro de 2012

Universidade Federal de Campina Grande Centro de Engenharia Eltrica e Informtica Departamento de Engenharia Eltrica COPELE - Programa de Ps-Graduao em Engenharia Eltrica

Anlise Dinmica No Linear de Sinais de Voz para Deteco de Patologias Larngeas

Washington Csar de Almeida Costa

Tese de Doutorado submetida COPELE - Programa de Ps-Graduao em Engenharia Eltrica da Universidade Federal de Campina Grande como parte dos requisitos necessrios para obteno do grau de Doutor em Cincias no Domnio da Engenharia Eltrica.

rea de Concentrao: Processamento da Informao/Comunicaes.

Prof. D.Sc. Francisco Marcos de Assis Prof. Dr.-Ing. Benedito G. Aguiar Neto Orientadores

Campina Grande PB, Paraba, Brasil Washington Csar de Almeida Costa

minha esposa Silvana, s minhas lhas Isabella e Ana Luza e aos meus lhos Eduardo e Daniel.

Agradecimentos
A Deus, inteligncia suprema, causa primria de todas as coisas; Aos meus pais que me oportunizaram esta existncia no mundo dos homens; A minha av Joaninha (in memorian) pelo amor a mim dedicado durante todo o tempo que durou a nossa convivncia; Ao meu tio Flvio e a minha tia Terezinha pelo patrocnio de meus estudos, e por acreditarem que a educao o caminho mais seguro para as conquistas do ser humano; minha esposa Silvana por iluminar os meus caminhos e tambm pelo apoio, ajuda, compreenso, carinho, pacincia e amor; Ao professor Benedito Aguiar por acreditar que eu daria "conta do recado" e pela orientao acadmica; Ao professor Francisco Marcos por aceitar participar da minha orientao acadmica e pela oportunidade que me foi dada em aproveitar seus conhecimentos valiosos e necessrios execuo deste trabalho; Ao professor Antonio Marcos Moreira do Departamento de Estatstica, do campus Joo Pessoa, da Universidade Federal da Paraba, por sua prestimosa ajuda; Aos professores examinadores que zeram parte das minhas bancas de qualicao e/ou de defesa de tese, pelas valiosas sugestes, que contriburam para o enriquecimento deste trabalho de pesquisa; Aos meus colegas de pesquisa e ps-graduao do Iquanta que me receberam de braos abertos. Em especial, agradeo a Ello pelo esprito de ajuda sempre presente. Angela Matias, secretria da COPELE, pela presteza e dedicao junto ao Programa de Ps-graduao em Engenharia Eltrica da UFCG; Ao Instituto Federal de Educao, Cincia e Tecnologia da Paraba e Universidade Federal de Campina Grande pela oportunidade de completar minha formao acadmica.

A chave para compreender a aleatoriedade e toda a matemtica no ser capaz de intuir imediatamente a resposta para qualquer problema, e sim possuir as ferramentas para encontrar a soluo. LEONARD MLODINOW

Resumo
Patologias na laringe podem afetar a qualidade vocal, prejudicando a comunicao humana. As tcnicas objetivas tradicionais para o diagnstico dessas patologias fazem uso de exames considerados invasivos, causando certo desconforto ao paciente. Anlise acstica, utilizando tcnicas de processamento digital de sinais de voz, pode ser utilizada para o desenvolvimento de ferramentas no invasivas de auxlio ao diagnstico de patologias larngeas. A preciso do diagnstico, contudo, depende da escolha das caractersticas e parmetros da fala que melhor representem a desordem vocal provocada por uma determinada patologia. Este trabalho trata da caracterizao e da classicao de sinais de vozes saudveis e vozes afetadas por diferentes patologias larngeas (edema, paralisia e ndulos nas pregas vocais), por meio da anlise dinmica no linear (e teoria do caos), como tambm por meio da anlise de quanticao de recorrncia. No processo de caracterizao investigado, por meio de testes estatsticos, o potencial de cada caracterstica em discriminar os tipos de sinais de voz considerados. Para a classicao empregada a tcnica de anlise discriminante com as funes linear ou quadrtica, com validao cruzada, sendo considerado um intervalo de conana de 95% para as mdias das taxas de acurcia do classicador. A partir da combinao de caractersticas dos conjuntos das medidas de anlise no linear (MNL) e das medidas de quanticao de recorrncia (MQR), as mdias da taxa de acurcia obtidas variaram nos intervalos de conana: [95,44%; 100%] para a classicao entre vozes saudveis e patolgicas; [94,75%; 100%] entre vozes saudveis e afetadas por edema, e entre saudveis e ndulos. Para a classicao entre saudvel e paralisia, obteve-se uma acurcia de 100% . Tambm so avaliados os efeitos do uso de vetores hbridos formados por caractersticas MNL, MQR e coecientes extrados da anlise preditiva linear (LPC). Neste caso, as taxas de acurcia variaram nos intervalos de conana: [95,02%; 97,62%] na discriminao entre vozes afetadas por paralisia e edema; [98,29%; 99,93%] para paralisia versus ndulos e [97,98%; 99,84%] para edema versus ndulos. Os resultados encontrados indicam que o mtodo utilizado promissor, podendo ser empregado no desenvolvimento de uma ferramenta computacional para apoio ao diagnstico de patologias larngeas. Palavras-chaves: Processamento Digital, Sinais de Voz, Anlise No Linear, Patologias da Laringe.

Abstract
Laryngeal pathologies may affect the voice quality, harming human communication. The traditional objective techniques for diagnosing these pathologies make use of exams, considered invasive, causing discomfort to the patient. Acoustic analysis, using digital speech signal processing techniques, can be used for the development of non-invasive tools in order to aid laryngeal diseases diagnosis. The accuracy of diagnosis, however, depends on the choice of parameters and the speech characteristics that better represent the voice disorder caused by a given pathology. This work deals with the characterization and classication of healthy voice signals and voices affected by different laryngeal diseases (edema, paralysis and vocal fold nodules), by means of nonlinear dynamic analysis (and chaos theory) as well as recurrence quantication analysis. In the characterization process, the potential of each feature is investigated to discriminate the types of voice signals considered, by means of statistical tests. For the classication, the technique of discriminant analysis is employed with linear or quadratic functions, with cross-validation. A 95% condence level was considered for the average of accuracy rates of the classier performance. From the feature combination of the set of nonlinear analysis measures (MNL) and the quantication recurrence measures (MQR), the average of accuracy rates varied in the following condence intervals: [95.44%; 100%] for healthy and pathological classication; [94.75%; 100%] between healthy and edema voices, and also between healthy and nodules. The accuracy rate was 100% between healthy and paralysis. We also evaluated the effects of using hybrid vectors formed by MNL, MQR and linear predictive coding (LPC) coefcients. In this case, the accuracy rates ranged in the condence intervals: [95.02%; 97.62%] in the paralysis versus edema voices discrimination; [98.29%; 99.93%] for paralysis versus nodules and [97.98%; 99.84%] for edema versus nodules. Obtained results indicate that the used method is promising and it can even be used to develop a computational tool to support diagnosis of laryngeal diseases. Key-words: Digital processing, Speech signals, Nonlinear Analysis, Laryngeal pathologies.

Sumrio

1 Introduo 1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Objetivos da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Organizao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Sistema de Produo da Voz e Patologias da Laringe 2.1 Anatomia e Fisiologia do Sistema de Produo da Fala . . 2.1.1 A Laringe . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Estrutura Anatmica da Prega Vocal . . . . . . . . 2.2 Mecanismo de Produo da Fala . . . . . . . . . . . . . . 2.3 Modelo Linear Discreto no Tempo para a Produo da Fala 2.4 Patologias da Laringe . . . . . . . . . . . . . . . . . . . . 2.4.1 Edema de Reinke . . . . . . . . . . . . . . . . . . 2.4.2 Ndulos nas Pregas Vocais . . . . . . . . . . . . . 2.4.3 Paralisia nas Pregas Vocais . . . . . . . . . . . . . 2.5 Evidncias de No Linearidade e Caos na Voz . . . . . . .

1 1 4 4 6 6 7 9 10 11 12 13 14 15 16 21 22 23 23 24 25 25 26 27 28 29 30 30

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

3 Fundamentao Terica 3.1 Reconstruo do Atrator a partir de uma Srie Temporal . . . . . . 3.1.1 Mtodo das Coordenadas Defasadas . . . . . . . . . . . . . 3.1.2 A Escolha do Passo de Reconstruo (tempo de defasagem) 3.1.3 A Escolha da Dimenso de Imerso . . . . . . . . . . . . . 3.2 Medidas da Anlise Dinmica No Linear . . . . . . . . . . . . . . 3.2.1 Expoentes de Lyapunov . . . . . . . . . . . . . . . . . . . 3.2.2 Dimenso Fractal . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Dimenso de Capacidade e Dimenso de Hausdorff . . . . . 3.2.4 Dimenso de Correlao . . . . . . . . . . . . . . . . . . . 3.2.5 Entropia de Shannon . . . . . . . . . . . . . . . . . . . . . 3.2.6 Entropia de Rnyi . . . . . . . . . . . . . . . . . . . . . . 3.2.7 Entropia de Kolmogorov-Sinai . . . . . . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

ix 3.2.8 Entropia de Correlao . . . . . . . . . . . . . 3.2.9 Entropia Aproximada . . . . . . . . . . . . . . 3.2.10 Entropia de Tsallis . . . . . . . . . . . . . . . . 3.2.11 Expoente de Hurst . . . . . . . . . . . . . . . . Grcos de Recorrncia e suas Medidas de Quanticao 3.3.1 Taxa de Recorrncia . . . . . . . . . . . . . . . 3.3.2 Determinismo . . . . . . . . . . . . . . . . . . 3.3.3 Entropia . . . . . . . . . . . . . . . . . . . . . 3.3.4 Comprimento Mximo das Estruturas Diagonais 3.3.5 Tendncia . . . . . . . . . . . . . . . . . . . . 3.3.6 Laminaridade . . . . . . . . . . . . . . . . . . 3.3.7 Tempo de Permanncia . . . . . . . . . . . . . 3.3.8 Comprimento Mximo das Estruturas Verticais . O Uso de Testes Estatsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 32 32 33 34 36 37 37 37 38 39 39 39 39

3.3

3.4

4 Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia 4.1 Metodologia Aplicada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 A Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Aspectos Metodolgicos . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Reconstruo da Dinmica do Sistema Vocal . . . . . . . . . . . . . . . . . . 4.3 Medidas da Anlise Dinmica No Linear (MNL) . . . . . . . . . . . . . . . . 4.3.1 Dimenso de Correlao (D2 ) . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Entropia de Correlao (K2 ) . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Entropia de Shannon (H1 ) . . . . . . . . . . . . . . . . . . . . . . . . 4.3.4 Entropia Aproximada (ApEn) . . . . . . . . . . . . . . . . . . . . . . 4.3.5 Entropia de Tsallis (Hq ) . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.6 Maior Expoente de Lyapunov (1 ) . . . . . . . . . . . . . . . . . . . . 4.3.7 Primeiro Mnimo da Funo de Informao Mtua (FMMI ) . . . . . . 4.3.8 Expoente de Hurst (H ) . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Resumo dos Resultados do Processo de Caracterizao - Medidas No Lineares (MNL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Medidas de Quanticao de Recorrncia (MQR) . . . . . . . . . . . . . . . . 4.5.1 Determinismo (DET ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Comprimento Mximo das Linhas Diagonais (Lmax ) . . . . . . . . . . 4.5.3 Entropia da Distribuio de Frequncias dos Comprimentos das Linhas Diagonais (ENTR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.4 Tendncia (TREND) . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.5 Laminaridade (LAM ) . . . . . . . . . . . . . . . . . . . . . . . . . . .

42 42 42 44 45 48 48 52 54 57 59 61 63 65 68 69 72 75 77 80 82

x 4.5.6 Comprimento Mximo das Linhas Verticais (Vmax ) . . . . . . . . . . . 4.5.7 Tempo de Permanncia . . . . . . . . . . . . . . . . . . . . . . . . . . Resumo dos Resultados do Processo de Caracterizao - Medidas de Quanticao de Recorrncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 86 88

4.6

5 Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia 90 5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2 Classicao de Vozes Saudveis versus Patolgicas . . . . . . . . . . . . . . 93 5.2.1 Caractersticas Avaliadas Individualmente . . . . . . . . . . . . . . . . 93 5.2.2 Caractersticas Avaliadas de Forma Combinada . . . . . . . . . . . . . 94 5.3 Classicao de Vozes Saudveis versus Vozes com Edema nas Pregas Vocais . 96 5.3.1 Caractersticas Avaliadas Individualmente . . . . . . . . . . . . . . . . 96 5.3.2 Caractersticas Avaliadas de Forma Combinada . . . . . . . . . . . . . 97 5.4 Classicao de Vozes Saudveis versus Vozes com Paralisia nas Pregas Vocais 99 5.4.1 Caractersticas Avaliadas Individualmente . . . . . . . . . . . . . . . . 99 5.4.2 Caractersticas Avaliadas de Forma Combinada . . . . . . . . . . . . . 100 5.5 Classicao de Vozes Saudveis versus Vozes com Ndulos nas Pregas Vocais 103 5.5.1 Caractersticas Avaliadas Individualmente . . . . . . . . . . . . . . . . 103 5.5.2 Caractersticas Avaliadas de Forma Combinada . . . . . . . . . . . . . 104 5.6 Classicao de Vozes Patolgicas - Paralisia versus Edema . . . . . . . . . . 106 5.6.1 Caractersticas Avaliadas Individualmente . . . . . . . . . . . . . . . . 106 5.6.2 Caractersticas Avaliadas de Forma Combinada . . . . . . . . . . . . . 107 5.7 Classicao de Vozes Patolgicas - Paralisia versus Ndulo . . . . . . . . . . 109 5.7.1 Caractersticas Avaliadas Individualmente . . . . . . . . . . . . . . . . 109 5.7.2 Caractersticas Avaliadas de Forma Combinada . . . . . . . . . . . . . 110 5.8 Classicao de Vozes Patolgicas - Edema versus Ndulo . . . . . . . . . . . 113 5.8.1 Caractersticas Avaliadas Individualmente . . . . . . . . . . . . . . . . 113 5.8.2 Caractersticas Avaliadas de Forma Combinada . . . . . . . . . . . . . 114 5.9 Intervalos de Conana para a Mdia . . . . . . . . . . . . . . . . . . . . . . . 116 5.9.1 A Desigualdade de Chebyshev . . . . . . . . . . . . . . . . . . . . . . 116 5.10 Resumo dos Resultados do Processo de Classicao . . . . . . . . . . . . . . 117 5.11 Combinando Anlise Linear e Anlise No Linear . . . . . . . . . . . . . . . . 118 5.11.1 Classicao Saudvel x Patolgica . . . . . . . . . . . . . . . . . . . 118 5.11.2 Classicao Saudvel x Edema . . . . . . . . . . . . . . . . . . . . . 120 5.11.3 Classicao Saudvel x Paralisia . . . . . . . . . . . . . . . . . . . . 122 5.11.4 Classicao Saudvel x Ndulo . . . . . . . . . . . . . . . . . . . . . 123 5.11.5 Classicao Paralisia x Edema . . . . . . . . . . . . . . . . . . . . . 125 5.11.6 Classicao Paralisia x Ndulo . . . . . . . . . . . . . . . . . . . . . 127

xi 5.11.7 Classicao Edema x Ndulo . . . . . . . . . . . . . . . . . . . . . . 128 5.12 Discusso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6 Trabalhos Correlatos e Estado da Arte 132 6.1 Caracterizao dos Sons da Fala . . . . . . . . . . . . . . . . . . . . . . . . . 132 6.2 Anlise No Linear de Vozes Saudveis e Patolgicas . . . . . . . . . . . . . . 133 7 Concluses e Sugestes 7.1 Introduo . . . . . . . . . . . . . . 7.2 Sumrio da Pesquisa . . . . . . . . 7.3 Aspectos Relevantes dos Resultados 7.4 Contribuies da Pesquisa . . . . . 7.5 Sugestes para Trabalhos Futuros . Referncias Bibliogrcas 138 138 138 140 141 141 143

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

Lista de Figuras

2.1 2.2 2.3 2.4

Diagrama esquemtico do mecanismo de produo da fala [1]. . . . . . . . . . Vista posterior da laringe [2]. . . . . . . . . . . . . . . . . . . . . . . . . . . . Pregas vocais saudveis (a) Abduo e (b) Aduo [3]. . . . . . . . . . . . . . Desenho esquemtico da arquitetura histolgica da prega vocal do adulto, em seo coronal [4]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Modelo simplicado do mecanismo de produo da fala (adaptado de [1]). . . . 2.6 Modelo linear discreto no tempo para a produo da fala (adaptado de [1]). . . 2.7 Edema de Reinke (a) unilateral e (b) bilateral [3], [5]. . . . . . . . . . . . . . . 2.8 Edema de Reinke severo [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Pregas vocais com ndulos: (a) abduo; (b) aduo [3]. . . . . . . . . . . . . 2.10 Prega vocal direita paralisada: (a) abduo; (b) aduo [3]. . . . . . . . . . . . 2.11 (a) Interpretao clssica da propagao do som atravs do sistema vocal. (b) Interpretao da dinmica no linear de uidos para a propagao do som ao longo do sistema vocal [1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.12 Formas de ondas para sinais de voz: (a) tipo 1; (b) tipo 2; e (c) tipo 3 [6]. . . . . 3.1 3.2 Rudo branco (a) Srie temporal, (b) Retrato de fase e (c) Grco de recorrncia; T = 1.000, m = 3, = 1 e = 0, 1 (norma euclidiana). . . . . . . . . . . . . Sinal senoidal (a) Srie temporal, (b) Retrato de fase e (c) Grco de recorrncia; T = 1.000, m = 2, = 4 e = 0, 1 (norma euclidiana). . . . . . . . . . .

7 8 8 9 10 11 13 14 15 16

17 19

36 36

4.1 4.2 4.3 4.4

Fluxograma representativo da metodologia aplicada visando a classicao dos sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Reconstruo do atrator da vogal sustentada /ah/ em um intervalo de 32 ms. Parmetros: T = 800 amostras, m = 3 e (a) = 1, (b) = 5 e (c) = 10. . . . . 46 Funo de Informao Mtua e a determinao do passo de reconstruo "ideal"para um segmento de 32 ms da vogal sustentada /ah/. . . . . . . . . . . . . . . . . . 46 Histogramas dos valores mdios de obtidos para os sinais de vozes (a) saudveis e (b) patolgicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

xiii 4.5 4.6 Histogramas dos valores mdios de m obtidos para os sinais de vozes (a) saudveis e (b) patolgicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comportamento dos valores da dimenso de correlao para um segmento de 32 ms para um dos sinais de voz saudvel em funo da dimenso de imerso e do valor de , em que as curvas correspondem as diferentes dimenses de imerso (m = 4,..,10) de baixo para cima, respectivamente. . . . . . . . . . . . Comportamento dos valores da dimenso de correlao para um segmento de 32 ms para um dos sinais de voz com paralisia em funo da dimenso de imerso e do valor de , em que as curvas correspondem as diferentes dimenses de imerso (m = 4,..,10) de baixo para cima, respectivamente. . . . . . . . . . . . Distribuio dos valores mdios da dimenso de correlao para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL). . . . . . . . . . . . . . . . . . . . Distribuio dos valores mdios da dimenso de correlao para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comportamento dos valores da entropia de correlao para um segmento de 32 ms para um dos sinais de voz saudvel em funo da dimenso de imerso e do valor de , em que as curvas correspondem as diferentes dimenses de imerso (m = 4,..,10) de baixo para cima, respectivamente. . . . . . . . . . . . . . . . . Distribuio dos valores mdios da entropia de correlao para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL). . . . . . . . . . . . . . . . . . . . Distribuio dos valores mdios da entropia de correlao para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuio dos valores mdios da entropia de Shannon para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL). . . . . . . . . . . . . . . . . . . . Distribuio dos valores mdios da entropia de Shannon para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuio dos valores mdios da entropia aproximada para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL). . . . . . . . . . . . . . . . . . . . Distribuio dos valores mdios da entropia aproximada para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuio dos valores mdios da entropia de Tsallis para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL). . . . . . . . . . . . . . . . . . . . . . Distribuio dos valores mdios da entropia de Tsallis para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). Comportamento de S ( ) em funo do nmero de iteraes, de e de m. . . .

47

48

4.7

49 50

4.8 4.9

51

4.10

52 53

4.11 4.12

54 55

4.13 4.14

56 57

4.15 4.16

58 59 60 61

4.17 4.18 4.19

xiv 4.20 Distribuio dos valores mdios do maior expoente de Lyapunov para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL). . . . . . . . . . . . . . . . . 4.21 Distribuio dos valores mdios do maior expoente de Lyapunov para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.22 Distribuio dos valores mdios do primeiro mnimo da funo de informao mtua para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL). . . . . 4.23 Distribuio dos valores mdios do primeiro mnimo da funo de informao mtua para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). . . . . . . . . . . . . . . . . . . . . . . . . . 4.24 Estimao do expoente de Hurst para um sinal de voz saudvel. . . . . . . . . . 4.25 Distribuio dos valores do expoente de Hurst para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL). . . . . . . . . . . . . . . . . . . . . . . . . 4.26 Distribuio dos valores mdios do expoente de Hurst para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). 4.27 Histogramas dos valores de obtidos para os sinais de vozes (a) saudveis e (b) patolgicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.28 Histogramas dos valores de m obtidos para os sinais de vozes (a) saudveis e (b) patolgicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.29 Sinal de voz saudvel (a) srie temporal, (b) projeo bidimensional do atrator (c) grco de recorrncia; m = 3, = 4, = 0,1 (norma euclidiana) . . . . . . 4.30 Sinal de voz patolgica (edema) (a) srie temporal, (b) projeo bidimensional do atrator (c) grco de recorrncia; m = 3, = 9, = 0,1 (norma euclidiana) . 4.31 Sinal de voz patolgica (ndulos) (a) srie temporal, (b) projeo bidimensional do atrator (c) grco de recorrncia; m = 3, = 8, = 0,1 (norma euclidiana) . 4.32 Sinal de voz patolgica (paralisia) (a) srie temporal, (b) projeo bidimensional do atrator (c) grco de recorrncia; m = 3, = 17, = 0,1 (norma euclidiana) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.33 Distribuies dos valores do maior raio para sinais de vozes (a) saudveis e (b) patolgicas para uma taxa de recorrncia menor ou igual a 1%. . . . . . . . . . 4.34 Distribuies dos valores do maior raio para sinais de vozes (a) saudveis e (b) patolgicas para uma taxa de recorrncia menor ou igual a 5%. . . . . . . . . . 4.35 Distribuies dos valores de DET para sinais de vozes saudveis (SDL) e patolgicas (PTL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.36 Distribuies dos valores de Lmax para sinais de vozes saudveis (SDL) e patolgicas (PTL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.37 Distribuies dos valores da medida entropia para sinais de vozes saudveis (SDL) e patolgicas (PTL). . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

62 64

64 66 66 67 69 70 71 71 71

72 73 74 75 76 78

xv 4.38 Distribuies dos valores da medida Trend para sinais de vozes saudveis (SDL) e patolgicas (PTL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.39 Distribuies dos valores da medida laminaridade para sinais de vozes saudveis (SDL) e patolgicas (PTL). . . . . . . . . . . . . . . . . . . . . . . . . . 4.40 Distribuies dos valores da medida Vmax para sinais de vozes saudveis (SDL) e patolgicas (PTL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.41 Distribuies dos valores da medida Traptime (TT ) para sinais de vozes saudveis (SDL) e patolgicas (PTL). . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 5.17 5.18 5.19 5.20 5.21 5.22 5.23 5.24 5.25 5.26 5.27 5.28 5.29 5.30 Acurcia Mdia Mxima - Saudvel x Patolgica (MNL) . . . . Acurcia Mdia Mxima - Saudvel x Patolgica (MQR) . . . . Acurcia Mdia Mxima - Saudvel x Patolgica (MNL e MQR) Acurcia Mdia Mxima - Saudvel x Edema (MNL) . . . . . . Acurcia Mdia Mxima - Saudvel x Edema (MQR) . . . . . . Acurcia Mdia Mxima - Saudvel x Edema (MNL e MQR) . . Acurcia Mdia Mxima - Saudvel x Paralisia (MNL) . . . . . Acurcia Mdia Mxima - Saudvel x Paralisia (MQR) . . . . . Acurcia Mdia Mxima - Saudvel x Paralisia (MNL e MQR) . Acurcia Mdia Mxima - Saudvel x Ndulo (MNL) . . . . . . Acurcia Mdia Mxima - Saudvel x Ndulo (MQR) . . . . . . Acurcia Mdia Mxima - Saudvel x Ndulo (MNL e MQR) . Acurcia Mdia Mxima - Paralisia x Edema (MNL) . . . . . . Acurcia Mdia Mxima - Paralisia x Edema (MQR) . . . . . . Acurcia Mdia Mxima - Paralisia x Edema (MNL e MQR) . . Acurcia Mdia Mxima - Paralisia x Ndulo (MNL) . . . . . . Acurcia Mdia Mxima - Paralisia x Ndulo (MQR) . . . . . . Acurcia Mdia Mxima - Paralisia x Ndulo (MNL e MQR) . . Acurcia Mdia Mxima - Edema x Ndulo (MNL) . . . . . . . Acurcia Mdia Mxima - Edema x Ndulo (MQR) . . . . . . . Acurcia Mdia Mxima - Edema x Ndulo (MNL e MQR) . . Acurcia Mdia - Saudvel x Patolgica . . . . . . . . . . . . . Acurcia Mdia - Saudvel x Patolgica . . . . . . . . . . . . . Acurcia Mdia - Saudvel x Edema . . . . . . . . . . . . . . . Acurcia Mdia - Saudvel x Edema . . . . . . . . . . . . . . . Acurcia Mdia - Saudvel x Paralisia . . . . . . . . . . . . . . Acurcia Mdia - Saudvel x Ndulo . . . . . . . . . . . . . . . Acurcia Mdia - Saudvel x Ndulo . . . . . . . . . . . . . . . Acurcia Mdia - Paralisia x Edema . . . . . . . . . . . . . . . Acurcia Mdia - Paralisia x Edema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

80 82 84 86 94 95 96 98 98 99 101 102 102 104 105 106 107 108 109 111 112 112 114 115 115 119 120 121 122 123 124 125 126 127

xvi 5.31 5.32 5.33 5.34 Acurcia Mdia - Paralisia x Ndulo Acurcia Mdia - Paralisia x Ndulo Acurcia Mdia - Edema x Ndulo . Acurcia Mdia - Edema x Ndulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 129 130 130

Lista de Tabelas

4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 4.18 4.19 4.20 4.21 4.22 4.23 4.24 4.25 4.26 4.27

Mdia e desvio padro da dimenso de correlao. . . . . . . . . . . . . . . . Mdia e desvio padro da dimenso de correlao - separao das patologias. . Valor-p - dimenso de correlao - separao das patologias. . . . . . . . . . . Mdia e desvio padro para a entropia de correlao. . . . . . . . . . . . . . . Mdia e desvio padro da entropia de correlao - separao das patologias. . . Valor-p - entropia de correlao - separao das patologias. . . . . . . . . . . . Mdia e desvio padro para a entropia de Shannon. . . . . . . . . . . . . . . . Mdia e desvio padro da entropia de Shannon - separao das patologias. . . . Valor-p - entropia de Shannon - separao das patologias. . . . . . . . . . . . . Mdia e desvio padro para a entropia aproximada. . . . . . . . . . . . . . . . Mdia e desvio padro da entropia aproximada - separao das patologias. . . . Valor-p - entropia aproximada - separao das patologias. . . . . . . . . . . . . Mdia e desvio padro para a entropia de Tsallis (q = 0, 5). . . . . . . . . . . . Mdia e desvio padro da entropia de Tsallis - separao das patologias. . . . . Valor-p - entropia aproximada - separao das patologias. . . . . . . . . . . . . Mdia e desvio padro para o maior expoente de Lyapunov. . . . . . . . . . . . Mdia e desvio padro do maior expoente de Lyapunov - separao das patologias. Valor-p - maior expoente de Lyapunov - separao das patologias. . . . . . . . Mdia e desvio padro para o primeiro mnimo da funo de informao mtua. Mdia e desvio padro do primeiro mnimo da funo de informao mtua separao das patologias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Valor-p - FMMI - separao das patologias. . . . . . . . . . . . . . . . . . . . Mdia e desvio padro para o expoente de Hurst. . . . . . . . . . . . . . . . . Mdia e desvio padro do expoente de Hurst - separao das patologias. . . . . Valor-p - Expoente de Hurst - separao das patologias. . . . . . . . . . . . . . Potencial discriminativo das medidas da anlise dinmica no linear. . . . . . . Mdia e desvio padro para DET . . . . . . . . . . . . . . . . . . . . . . . . . Mdia e desvio padro para DET - separao das patologias. . . . . . . . . . .

50 51 51 53 54 54 55 56 56 57 58 58 59 60 61 61 63 63 63 65 65 66 67 68 68 73 74

xviii 4.28 Potencial estatstico da caracterstica DET na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.29 Mdia e desvio padro para Lmax . . . . . . . . . . . . . . . . . . . . . . . . . 4.30 Mdia e desvio padro para Lmax - separao das patologias. . . . . . . . . . . 4.31 Potencial estatstico da caracterstica Lmax na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.32 Mdia e desvio padro para ENTR. . . . . . . . . . . . . . . . . . . . . . . . . 4.33 Mdia e desvio padro para ENTR - separao das patologias. . . . . . . . . . 4.34 Potencial estatstico da caracterstica ENTR na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.35 Mdia e desvio padro para TREND. . . . . . . . . . . . . . . . . . . . . . . . 4.36 Mdia e desvio padro para TREND - separao das patologias. . . . . . . . . . 4.37 Potencial estatstico da caracterstica ENTR na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.38 Potencial estatstico da caracterstica ENTR na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.39 Mdia e desvio padro para LAM. . . . . . . . . . . . . . . . . . . . . . . . . 4.40 Mdia e desvio padro para LAM - separao das patologias. . . . . . . . . . . 4.41 Potencial estatstico da caracterstica LAM na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.42 Potencial estatstico da caracterstica LAM na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.43 Mdia e desvio padro para Vmax . . . . . . . . . . . . . . . . . . . . . . . . . 4.44 Mdia e desvio padro para Vmax - separao das patologias. . . . . . . . . . . 4.45 Potencial estatstico da caracterstica Vmax na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.46 Mdia e desvio padro para TT. . . . . . . . . . . . . . . . . . . . . . . . . . . 4.47 Mdia e desvio padro para TT - separao das patologias. . . . . . . . . . . . 4.48 Potencial estatstico da caracterstica TT na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.49 Potencial estatstico da caracterstica TT na discriminao entre grupos de sinais de voz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.50 Potencial discriminativo das medidas de quanticao de recorrncia. . . . . . 5.1 5.2 5.3 Matriz de confuso em um teste de deteco da presena/ausncia de doena. . Taxas de classicao (%) Saudvel x Patolgica - MNL avaliadas individualmente (QDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Saudvel x Patolgica - MQR avaliadas individualmente (QDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75 76 77 77 78 79 79 80 81 81 81 82 83 83 83 84 85 85 86 87 87 87 88 91 93 93

xix 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 5.17 5.18 5.19 5.20 5.21 5.22 5.23 5.24 5.25 5.26 5.27 5.28 5.29 Taxas de classicao (%) Saudvel x Edema - MNL avaliadas individualmente (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Saudvel x Edema - MQR avaliadas individualmente (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Saudvel x Paralisia - MNL avaliadas individualmente (QDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Saudvel x Paralisia - MQR avaliadas individualmente (QDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Saudvel x Ndulo - MNL avaliadas individualmente (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Saudvel x Ndulo - MQR avaliadas individualmente (QDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Paralisia x Edema - MNL avaliadas individualmente (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Paralisia x Edema - MQR avaliadas individualmente (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Paralisia x Ndulo - MNL avaliadas individualmente (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Paralisia x Ndulo - MQR avaliadas individualmente (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Edema x Ndulo - MNL avaliadas individualmente (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Edema x Ndulo - MQR avaliadas individualmente (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Intervalos de conana para a acurcia do sistema de classicao dos sinais de voz analisados (nvel de conana de 95%). . . . . . . . . . . . . . . . . . . . Taxas de classicao (%) Saudvel x Patolgica - LPC e Lmax (LDA) . . . . . Taxas de classicao (%) Saudvel x Patolgica - LPC+MNL+MQR (LDA) . Taxas de classicao (%) Saudvel x Edema - LPC e D2 (QDA) . . . . . . . . Taxas de classicao (%) Saudvel x Edema - LPC+MNL+MQR (QDA) . . . Taxas de classicao (%) Saudvel x Paralisia - LPC e Lmax (LDA) . . . . . . Taxas de classicao (%) Saudvel x Ndulo - LPC e H (QDA) . . . . . . . . Taxas de classicao (%) Saudvel x Ndulo - LPC+MNL+MQR (QDA) . . . Taxas de classicao (%) Paralisia x Edema - LPC e FMMI (QDA) . . . . . . Taxas de classicao (%) Paralisia x Edema - LPC+MNL+MQR (QDA) . . . Taxas de classicao (%) Paralisia x Ndulo - LPC e D2 (QDA) . . . . . . . . Taxas de classicao (%) Paralisia x Ndulo - LPC+MNL+MQR (QDA) . . . Taxas de classicao (%) Edema x Ndulo - LPC e D2 (QDA) . . . . . . . . . Taxas de classicao (%) Edema x Ndulo - LPC+MNL+MQR (QDA) . . . .

97 97 100 100 103 103 106 107 110 110 113 113 117 119 120 121 122 122 123 124 125 126 127 128 129 130

Lista de Siglas
ABVL - Academia Brasileira de Laringologia e Voz APQ - Amplitude Perturbation Quocient - Nvel de perturbao de amplitude CRP - Cross Recurrence Plot CSLP - Camada supercial da lmina prpria EDM - Voz com edema nas pregas vocais EEG - Eletroencefalograma EER - Taxa de erro igual (Equal Error Rate) EMG - Eletromiograa GMM - Gaussian Mixture Models - Modelos de misturas gaussianas GRBAS - Escala de avaliao vocal perceptiva no nvel gltico (G - grau de rouquido, R - aspereza, B - soprosidade, A - astenia, S - tenso) HMM - Hidden Markov Models - Modelos de Markov Escondidos HNR - Harmonic-to-noise ration - Relao harmnico rudo LDA - Linear Discriminant Analysis - Anlise de discriminante linear LPC - Linear Predictive Coding - Codicao por predio linear MEEI - Massachusetts Eye and Ear Inrmary Voice and Speech MFCC - Mel Frequency Cepstral Coefcients - Coecentes cepstrais na escala mel de frequncia MLP - Multi-Layer Percepton MNL - Medidas da Dinmica No Linear MQR - Medidas de Quanticao de Recorrncia NDL - Voz com ndulos nas pregas vocais PPQ - Pitch Perturbation Quocient - Nvel de perturbao do pitch PRL - Voz com paralisia nas pregas vocais PTL - Voz patolgica QDA - Quadractic Discriminant Analysis - Anlise discriminante quadrtica RP - Recurrence Plot - Grco de recorrncia RPDE - Entropia da densidade de probabilidade de recorrncia RQA - Recurrence Quantication Analysis SDL - Voz saudvel

xxi SNR - Signal-to-noise ratio - Relao sinal-rudo SPSS - Statistical Package for the Social Sciences SVM - Support Vector Machine - Mquinas de Vetores de Suporte TISEAN - Time Series Analysis VRA - Visual Recurrence Analysis

Lista de Smbolos
{xi } - Srie temporal i - Vetores m-dimensionais da srie temporal m - Dimenso de imerso - Passo de reconstruo ou tempo de defasagem x(t) - Sinal no domnio do tempo x(t + ) - Verso de x(t) defasada de I ( ) - Funo de informao mtua i d - Dimenso do espao de fases real dos vetores D0 - Dimenso de Hausdorff do atrator S ( ) - Fator de crescimento (stretching factor) T - Nmero de pontos da srie temporal M - Nmero de vizinhos prximos i , j , ) - Distncia (euclidiana) entre os pontos i e j d( D - Dimenso de Capacidade ou dimenso do atrator N () - Nmero de volumes cheios D2 - Dimenso de correlao q () - Frao de pontos do atrator N - Nmero de pontos do atrator ou nmero de estados C () - Integral de correlao H1 - Entropia de Shannon I () - Entropia de Rnyi de ordem pi - Probabilidade do evento i K - Entropia de Kolmogorov-Sinai i - Expoentes de Lyapunov positivos K2 - Entropia de Correlao ApEn - Entropia aproximada Hq - entropia de Tsallis R - Distncia percorrida por uma partcula aleatria - Desvio padro da amostra H - Expoente de Hurst

xxiii E - Dimenso euclidiana m, Ri,j - Denio para grco de recorrncia i ; - Raio da vizinhana (threshold) no ponto () - Funo de Heaviside REC - Taxa de recorrncia ou percentual de recorrncia P (l) - Distribuio de frequncia dos comprimentos das estruturas diagonais l - Comprimentos das estruturas diagonais no grco de recorrncia (RP) DET - Determinismo em um RP lmin - Nmero mnimo de estruturas diagonais EN T R - Entropia de Shannon da distribuio de frequncia dos comprimentos das linhas diagonais em um RP L - Comprimento mdio das linhas diagonais em um RP Lmax - Comprimento mximo das estruturas diagonais DIV - Divergncia T REN D - Tendncia: coeciente de regresso linear sobre a densidade dos pontos de recorrncia das diagonais paralelas em relao a diagonal principal em um RP LAM - Laminaridade: razo entre os pontos de recorrncia que formam as linhas verticais e todo o conjunto de pontos recorrentes vmin - Tamanho mnimo com que se deseja computar uma estrutura vertical T T - Traptime ou Trapping Time - Tempo de permanncia em um estado Vmax - Comprimento mximo das estruturas verticais presentes no grco de recorrncia - Mdia P - Valor p em um teste de hipteses - Constante de Boltzmann k1 - Constante da entropia de Tsallis Nl - Nmero total de linhas diagonais computadas no RP Nv - Nmero total de linhas verticais computadas no RP

C APTULO 1

Introduo
A voz uma emisso acstica voluntria, considerada principal ferramenta de comunicao humana [4]. Ela serve como a melodia da nossa fala e fornece informaes de nossos sentimentos, expresso, inteno e estado de esprito [7]. Alm disso, a voz essencial para o exerccio de algumas prosses tais como radialistas, reprteres, apresentadores de televiso, cantores e professores. A partir da anlise da voz possvel extrair informaes sobre a sade geral e bemestar de um indivduo. Alm de nos revelar quem somos e como nos sentimos, a voz fornece considerveis percepes sobre a estrutura e funo de certas partes do corpo [8]. A voz uma ferramenta de grande complexidade e possui inmeros fatores envolvidos na sua produo. As estruturas anatmicas e os processos siolgicos envolvidos no complexo sistema de produo da fala so responsveis pelos diversos fonemas emitidos e, consequentemente, carregam informaes sobre suas formas, siologia e dinmica [4]. Para uma boa produo vocal necessria uma voz saudvel. A qualidade vocal relacionase com o timbre, a frequncia, a amplitude e a composio dos harmnicos da onda sonora produzida, bem como, com o modo de vibrao das pregas vogais, o tamanho e o formato do trato vocal, a tenso e o tnus das paredes farngeas, podendo ser modicada por fatores anatmicos ou patolgicos [9].

1.1 Motivao
H uma grande variedade de doenas relacionadas laringe que causam modicaes na voz. Essas patologias podem ser tanto de origem orgnica como ndulos, cistos ou edemas, quanto de origem neurolgica, tal como paralisia nas pregas vocais [10, 11]. Algumas dessas patologias como plipos, ndulos e edemas de Reinke, por exemplo, ocorrem, principalmente, devido a hbitos sociais no-saudveis - como tabagismo e alcoolismo - e ao abuso vocal. No caso de paralisia, as principais causas incluem traumas cirrgicos ou acidentais, doena cardiovascular e doenas neurolgicas [7].

Introduo

Estudos realizados indicam que as patologias ndulos, edema de Reinke e paralisia nas pregas vocais esto entre as patologias de maior incidncia em adultos, tanto do gnero masculino quanto do gnero feminino. No Reino Unido, por exemplo, cerca de 2,5 milhes de pessoas tm alguma desordem na comunicao, sendo que em cerca de 800 mil, a desordem severa, prejudicando a produo da fala [12]. No Brasil, em um estudo realizado em 2003, de 45 mil brasileiros, 25% apresentaram problemas na laringe [13]. Na pesquisa aparecem, com maior prevalncia, prossionais que trabalham com a voz, tais como: professores, telefonistas, cantores, atores, leiloeiros, polticos, religiosos, atendentes de telemarketing e bancrios. Entretanto, a literatura cientca praticamente unnime em apontar os professores como o grupo mais vulnervel [14]. O acompanhamento na melhoria da qualidade vocal, bem como o auxlio ao diagnstico mdico de patologias larngeas, podem ser levados a efeito por meio de uma anlise acstica dos sinais de voz, utilizando programas computacionais de fcil acesso e baixo custo. Os mtodos de avaliao acstica so no invasivos quando comparados aos exames tradicionais, possibilitando, ainda, um tratamento distncia - caso em que a voz do paciente pode ser, por exemplo, gravada em um computador pessoal e enviada para um mdico em outra localidade, e este avaliar a qualidade da voz, efetuar pr-diagnstico de patologias larngeas, bem como a evoluo de um tratamento medicamentoso ou ps-cirrgico. Dessa forma, o interesse em pesquisas para o desenvolvimento de ferramentas de auxlio ao diagnstico de patologias larngeas, bem como de apoio fonoterpico, tem aumentado nos ltimos anos. Para que um sistema computacional de auxlio a diagnsticos possa ser implementado com ecincia, ou seja, com altas taxas de acerto na discriminao de vozes afetadas por algum tipo de patologia, um dos aspectos primordiais a escolha das caractersticas ou parmetros que representem signicativamente as desordens na fala introduzidas por uma determinada patologia. As tcnicas acsticas empregadas para discriminao entre vozes saudveis e patolgicas geralmente so baseadas na anlise linear do modelo de produo de fala ou em tcnicas de anlise dinmica no linear. No primeiro caso, considerando um modelo linear de produo de fala, possvel representar, de forma geral, o sistema de produo de voz como um sistema fonte-ltro, no qual as pregas vocais so consideradas a fonte sonora e o trato vocal, o ltro. O sinal resultante o sinal acstico da voz [15]. Vrias pesquisas tm sido realizadas utilizando tcnicas baseadas no modelo linear de produo da fala, por meio de medidas paramtricas ou no-paramtricas, tais como: Codicao por Predio Linear, Anlise Cepstral e suas derivadas (coecientes cepstrais, deltacepstrais, cepstrais ponderados e delta-cepstrais ponderados), Mel-cepstral (delta mel e deltadelta mel) com aplicaes em sistemas de reconhecimento de fala e de locutor, melhoramento do sinal de voz, classicao de vozes patolgicas, entre outras [1624].

Introduo

Medies detalhadas sobre a estrutura do uxo de ar na parte frontal do trato vocal mostram a presena de padres de uxo distintos, o que est em discordncia com o uxo de ar de forma laminar assumida na teoria fonte-ltro para a produo da fala. Existem vrias no linearidades envolvidas na vibrao das pregas vocais e na gerao da onda glotal [25]. Estas incluem efeitos devidos s fortes foras de restaurao na coliso das pregas vocais, turbulncia no uxo de ar devido a uma constrio do trato vocal durante a produo de sons surdos, e ao acoplamento no linear entre a fonte e o trato vocal durante a pronncia de alguns sons sonoros [26]. Devido a tais fatores, os mtodos clssicos de anlise de dados baseados em um modelo linear tm sido enriquecidos com novos mtodos que so derivados da teoria dos sistemas dinmicos no lineares [6]. Do ponto de vista dos sistemas dinmicos, um sinal de voz pode ser considerado como uma observao do sistema de produo da fala, que pode ser usada para revelar e modelar sua dinmica usando as tcnicas no lineares. Ao longo das ltimas duas dcadas, pesquisas relacionadas aos mecanismos de produo da voz tm sido realizadas considerando as tcnicas da dinmica no linear e da teoria do caos com objetivos variados, dentre os quais podem ser destacados: classicao de fonemas [27], reconhecimento automtico de locutor [28], discriminao entre vozes saudveis e patolgicas, diagnstico de patologias larngeas e avaliao de efeitos de tratamentos clnicos [6, 2932]. Vrios outros mtodos de anlise tm tentado estimar medidas e propriedades no lineares de processos naturais. Os grcos de recorrncia [33] tm surgido, nas duas ltimas dcadas, como mais uma tcnica de anlise no linear para o estudo da dinmica de sistemas dissipativos. Embora pequenas perturbaes em tais sistemas causem divergncia exponencialmente crescente entre os estados, aps algum tempo o sistema retorna a um estado que arbitrariamente prximo a um estado precedente e passa por uma evoluo similar. Os grcos de recorrncia permitem visualizar o comportamento recorrente dos sistemas dinmicos de baixa ou de alta dimensionalidade. Os grcos de recorrncia exibem padres caractersticos de pequena e grande escala presentes nos comportamentos tpicos dos sistemas dinmicos. Entretanto, as estruturas apresentadas nos grcos de recorrncia nem sempre so de fcil interpretao podendo, numa anlise subjetiva, levar a diferentes resultados. Como forma de quanticar o comportamento do sistema sob anlise, facilitando a anlise dos dados e tornando-a mais convel, Zbilut e Webber [34] desenvolveram a anlise de quanticao de recorrncia baseada em um conjunto de medidas objetivas a partir dos grcos de recorrncia. A anlise de recorrncia tem sido empregada em diferentes reas, tais como sistemas biolgicos - incluindo dados de eletromiograa (EMG) [35], gravaes de Eletroencefalograma (EEG) intracranial [36], anlise de mecanismos de deglutio traqueal e de sons pulmonares [37, 38], Cincias da Terra [39], Finanas [40], redes de computadores [41] e avaliao de desempenho de algoritmos de predio de sries temporais [42]. Recentemente, mas ainda pouco explorada, tem sido aplicada em sinais de voz [4345].

Introduo

1.2 Objetivos da Pesquisa


Esta pesquisa realizada tendo como principal objetivo a identicao de um conjunto de caractersticas, obtidas a partir de medidas relacionadas com a anlise dinmica no linear, que seja capaz de caracterizar e discriminar, de forma eciente, sinais de vozes saudveis e vozes afetadas por edema de Reinke, ndulos ou paralisia nas pregas vocais. Para tanto, analisado o comportamento de sinais de voz por meio de medidas convencionais da anlise dinmica no linear (MNL) tais como: Expoentes de Lyapunov, Dimenso de Correlao, Primeiro mnimo da funo de informao mtua, Expoente de Hurst, alm de medidas de entropia (Tsallis, Shannon, Aproximada e Entropia de Correlao). Os sinais tambm so analisados de forma quantitativa por meio das medidas de quanticao de recorrncia (MQR), extradas dos grcos de recorrncia, a saber: Taxa de recorrncia, Determinismo, Entropia, Comprimento mximo das estruturas diagonais, Tendncia, laminaridade, Comprimento mdio das estruturas verticais e Comprimento mximo das estruturas verticais.

1.3 Organizao do Trabalho


Os demais captulos que compem este trabalho esto estruturados como descrito a seguir. No Captulo 2, so apresentados os conceitos bsicos sobre o sistema de produo da voz. Em seguida, contextualizada a produo da voz segundo a Teoria do Caos. Na sequncia, apresentado um quadro demonstrativo sobre o grau de incidncia de patologias na laringe nos seres humanos, com destaque para edema de Reinke, ndulos e paralisia nas pregas vocais. No Captulo 3, so abordados os conceitos bsicos referentes anlise no linear de sries temporais. A reconstruo da dinmica do sistema explicada a partir da tcnica dos atrasos temporais e as invariantes do sistema so ento descritas. Tambm so apresentadas outras medidas de anlise no domnio do tempo, inclusive as medidas de quanticao de recorrncia. No Captulo 4, so apresentados os resultados da caracterizao acstica para os grupos de vozes analisados, utilizando as medidas da anlise no linear (MNL) e as medidas de quanticao de recorrncia (MQR). So apresentados, ainda, o potencial de cada uma dessas medidas, a partir da realizao de testes estatsticos, na tarefa de discriminar sinais de vozes saudveis e vozes afetadas por diferentes patologias na laringe. No Captulo 5, so apresentados os resultados obtidos na etapa de classicao dos sinais de voz. Inicialmente, so apresentados os resultados do processo de classicao utilizando as medidas dos conjuntos MNL e MQR, de forma individual e em seguida de forma combinada. Tambm so apresentados os resultados obtidos por meio do uso de vetores hbridos formados pela combinao de caractersticas dos conjuntos MNL e MQR e de coecientes extrados da anlise de predio linear (LPC).

Introduo

No Captulo 6, so apresentados os resultados de vrios trabalhos encontrados na literatura que utilizam a anlise no linear, seja na caracterizao dos sons da fala, seja na discriminao de vozes patolgicas. No Captulo 7, so apresentadas as concluses da pesquisa e sugestes para trabalhos futuros.

C APTULO 2

Sistema de Produo da Voz e Patologias da Laringe


Voz, articulao e linguagem so os elementos mais importantes da produo da fala. Quando uma desordem associada a qualquer um desses elementos est presente, a habilidade para se comunicar pode se tornar comprometida. Voz o elemento da fala que fornece ao locutor o sinal vibratrio sobre o qual a fala transportada [7]. Ela serve como a melodia da nossa fala e fornece informaes de nossos sentimentos, expresso, inteno e estado de esprito para nossos pensamentos articulados diariamente. A voz, portanto, pode levar muita informao sobre a sade geral e bem-estar de um indivduo [8]. Neste captulo realizada uma breve explanao sobre a produo da voz, das causas das desordens vocais e das patologias da funo vocal. Mais particularmente, so destacadas duas patologias de origem orgnica: edema de Reinke e ndulos vocais, e uma de origem neurolgica: paralisia nas pregas vocais, e os efeitos que as mesmas causam na qualidade vocal.

2.1 Anatomia e Fisiologia do Sistema de Produo da Fala


O estudo da anatomia e siologia do mecanismo de produo da fala de fundamental importncia para a formatao de modelos fsicos e matemticos que sirvam de base para a construo de sistemas de reconhecimento, sntese e codicao de voz. Assim como, permite compreender o processo da fonao normal e patolgica e reconhecer o impacto de leses especcas na produo vocal [4]. A fala o resultado da ao de um conjunto de estruturas anatmicas que formam um sistema verstil e intricado para produo de sons, cujas partes mais intimamente associadas produo so os pulmes, a traqueia, a laringe, a faringe e as cavidades oral e nasal (Figura 2.1). A fala produzida a partir da liberao de ar dos pulmes para o trato vocal, formado basicamente por cavidades e rgos articuladores que comea na abertura entre as pregas vocais e termina nos lbios. A principal funo do trato vocal modular a onda sonora que vem das

Sistema de Produo da Voz e Patologias da Laringe

Figura 2.1 Diagrama esquemtico do mecanismo de produo da fala [1].

pregas vocais e promover constries para a gerao de certos tipos de som. O som, que se origina na laringe como um tom fundamental, modicado por vrias cmaras de ressonncia acima e abaixo desta, para, nalmente ser convertido em fala por ao da faringe, lngua, palato, lbios e estruturas relacionadas.

2.1.1

A Laringe

A laringe (Figura 2.2) situa-se no pescoo, sendo conectada inferiormente traqueia e superiormente abre-se na faringe. O esqueleto da laringe formado por cartilagens, msculos, membranas e mucosa1 . A laringe como um todo divide-se em trs espaos: supraglote, glote e infraglote. A glote o espao entre as pregas vocais. O som da voz produzido na glote, sendo imediatamente acrescido de ressonncia na prpria supraglote [4]. A maior e mais importante cartilagem da laringe, em respeito fonao, a cartilagem tireidea. Essa cartilagem possui o formato de um escudo, sendo composta de duas lminas laterais, de forma quadrangular, e dois pares de cornos posteriores. O ngulo de unio entre as lminas direita e esquerda, chamado de proeminncia larngea, varia de acordo com o sexo. Na populao masculina, observa-se um ngulo de aproximadamente 90 e na populao feminina o ngulo mais aberto, com cerca de 120 . Esta variao responsvel pela denio do tamanho das pregas vocais e contribui na denio da frequncia vocal emitida [4].
1 tipo de membrana umidicada por secrees glandulares, que recobre cavidades orgnicas em contato direto ou indireto com o meio exterior.

Sistema de Produo da Voz e Patologias da Laringe

Figura 2.2 Vista posterior da laringe [2].

As funes bsicas da laringe, em ordem de importncia so proteo, respirao e fonao. Na funo de proteo a laringe atua como esfncter2 evitando a entrada de qualquer coisa, exceto o ar, ao pulmo. Na funo de respirao, as pregas vocais abduzem ativamente durante o movimento respiratrio, contribuindo para regular a troca gasosa com o pulmo e a manuteno do equilbrio cido-base. Na funo de fonao, as mudanas de tenso e longitude das pregas vocais, ampliao da abertura gltica e a intensidade do esforo respiratrio provocam variaes no tom da voz, tom esse que resulta da vibrao das pregas vocais [46]. Na Figura 2.3 so ilustrados os processos de (a) abduo (afastamento) e (b) aduo (fechamento) das pregas vocais (saudveis).

(a)

(b)

Figura 2.3 Pregas vocais saudveis (a) Abduo e (b) Aduo [3].
Estrutura muscular que contorna um orifcio ou canal natural, permitindo sua abertura ou fechamento, podendo ser constitudo de bras musculares lisas e/ou estriadas.
2

Sistema de Produo da Voz e Patologias da Laringe

2.1.2

Estrutura Anatmica da Prega Vocal

Segundo o modelo anatmico proposto por Hirano e Sato [47], conhecido como Modelo Corpo-Cobertura (Figura 2.4), as pregas vocais so duas dobras de msculo e mucosa que se estendem horizontalmente na laringe, xando-se anteriormente na face interna da cartilagem tireidea e posteriormente cartilagem aritenidea (Figura 2.2), cobrindo-a de mucosa. Para a funo fonatria, o conceito mais importante que as pregas vocais so uma estrutura multilaminada, em que cada camada apresenta propriedades mecnicas diferentes. De um modo geral, a prega vocal composta de mucosa e msculo. A mucosa divide-se em epitlio e lmina prpria [4]. A lmina prpria possui trs camadas baseadas nas propriedades mecnicas da prega vocal: supercial, intermediria e profunda, com diferena crescente em rigidez. O epitlio e a camada supercial da lmina prpria constituem a cobertura da prega vocal. As camadas intermediria e profunda formam a transio, o msculo vocal compe o corpo. O epitlio como uma na cpsula vibratria capaz de conter a prega vocal durante a fonao. A camada supercial da lmina prpria tambm conhecida como espao de Reinke. Ela uma camada frouxa e exvel e com poucos elementos, como se fosse uma gelatina, que vibra intensamente durante a fonao, deslocando-se acentuadamente [4].

Figura 2.4 Desenho esquemtico da arquitetura histolgica da prega vocal do adulto, em seo coronal [4].

A mucosa da prega vocal vibra em uma velocidade muito acelerada. A frequncia da vibrao da mucosa ocorre em cerca de 100 Hz no homem, enquanto que na mulher esta frequncia , em mdia, de 200 Hz [4]. Qualquer modicao (como algum traumatismo ou doena) que torne a mucosa mais rgida resultar em uma menor vibrao da prega vocal e, consequentemente, diculdades na fonao. O aumento de sua espessura ou uma maior acidez do tecido tambm gera problemas nos movimentos das pregas vocais (como no edema de Reinke, por exemplo). Em termos patolgicos, a lmina prpria (e em particular, a sua camada supercial) o "lar" de leses como ndulos e plipos. Isso ocorre dada a proximidade da superfcie das

Sistema de Produo da Voz e Patologias da Laringe

10

pregas vocais verdadeiras onde exigncias mecnicas extremas da vibrao das pregas vocais acabam produzindo esses crescimentos orgnicos [25].

2.2 Mecanismo de Produo da Fala


O sistema de produo da fala pode ser pensado em termos de uma operao de ltragem acstica [1]. Na Figura 2.5 apresentado um modelo simplicado de produo da fala, tambm denominado sistema fonte-ltro, em que as pregas vocais so consideradas a fonte sonora e o trato vocal, o ltro. Nesse modelo, as sadas produzem ondas acsticas que representam a fala. O ar conduzido para fora dos pulmes pela traqueia, passando pela laringe, onde esto as pregas vocais.

Figura 2.5 Modelo simplicado do mecanismo de produo da fala (adaptado de [1]).

no espao compreendido entre as pregas vocais, ou glote, que o uxo contnuo de ar dos pulmes geralmente transformado em vibraes rpidas e audveis durante a fala. Isso feito pelo fechamento das pregas vocais, que causa um aumento gradativo da presso atrs delas, que acaba por fazer com que elas se abram repentinamente, liberando a presso, para ento tornarem a se fechar. O intervalo de tempo entre sucessivas aberturas das pregas vocais chamado de perodo fundamental (perodo de pitch), T0 , enquanto a taxa de vibrao chamada de frequncia fundamental da fonao, F0 = 1/T0 . Esse processo produz uma sequncia de pulsos cuja frequncia controlada pela presso do ar e pela tenso e comprimento das pregas vocais (frequncia fundamental). Os sons assim produzidos so chamados de vozeados, ou

Sistema de Produo da Voz e Patologias da Laringe

11

sonoros, que normalmente incluem as vogais; caso contrrio, so chamados no-vozeados, ou surdos [15].

2.3 Modelo Linear Discreto no Tempo para a Produo da Fala


Na Figura 2.6 mostrado um modelo linear, discreto no tempo, para a produo da fala. Esse modelo procura representar o processo de produo da fala baseado nas caractersticas do prprio sinal de voz. Apesar do fato de no apresentar qualquer hiptese de no linearidade no acoplamento dos subsistemas do modelo, este sistema produz razovel qualidade para propsitos de codicao da fala [1].

Figura 2.6 Modelo linear discreto no tempo para a produo da fala (adaptado de [1]).

No modelo apresentado na Figura 2.6, o modelo do trato vocal V(z) e o modelo de radiao R(z) so excitados por um sinal glotal u(n). Durante a produo de sons surdos, a fonte de excitao modelada por um gerador de rudo aleatrio com espectro plano e um controle de ganho An . Durante os perodos de atividade de voz sonora, a excitao usa uma estimativa do perodo de pitch para gerar um trem de impulsos na entrada de um ltro digital G(z) que simula o efeito de pulsos glotais, que so devidamente selecionados e aplicados ao trato vocal, aps um controle de ganho Av [19]. A funo de transferncia do trato vocal V(z) pode ser modelada como, V (z ) = H0 , N 1 bk z k
k=1

(2.1)

em que H0 representa um termo de ganho geral e bk so chamados coecientes do ltro.

Sistema de Produo da Voz e Patologias da Laringe

12

Muito embora esse modelo seja inadequado para representar certas classes de fonemas - como por exemplo, aqueles que requerem mais de uma fonte de excitao, como o caso dos sons fricativos sonoros /z/ e /v/ - ele frequentemente usado para modelar todos os tipos de sons possveis devido coerncia dos mtodos analticos que seguem esse modelo, e a resultados de desempenho satisfatrios em diversas aplicaes como codicao, sntese e reconhecimento [1].

2.4 Patologias da Laringe


Alteraes na voz podem ou no estar associadas a uma patologia orgnica ou fsica. A produo de uma voz varivel e irregular pode ser a primeira manifestao de um distrbio neurolgico. Por outro lado, um problema orgnico srio, como cncer em fase inicial, pode no produzir qualquer alterao perceptvel na qualidade da voz. Como exemplos de doenas por fatores neurolgicos, que causam distrbios na voz, podem ser citadas: doena cerebrovascular, paralisia cerebral, paralisia da prega vocal, reuxo, parkinsonismo e esclerose mltipla. Quanto s doenas orgnicas que causam distrbios na voz esto: laringite crnica, plipo de prega vocal, ndulos vocais e edema de Reinke [48]. Patologias na laringe incluem aquelas que causam qualquer alterao na estrutura histolgica das pregas vocais. Mudanas nas camadas da mucosa ou no corpo do msculo da prega vocal afetam a massa, o tamanho, a rigidez, a exibilidade e a tenso do mecanismo de vibrao e podem afetar o padro de fechamento glotal durante a fonao. Qualquer uma destas mudanas nas pregas vocais pode alterar a qualidade vocal, a frequncia de vibrao das pregas vocais (frequncia fundamental ou seu correlato perceptual - pitch) e a intensidade. A busca por mtodos que proporcionem uma avaliao de desordens vocais causadas por patologias larngeas um assunto de grande interesse econmico e social. A comunidade cientca procura, cada vez mais, proporcionar ferramentas de apoio ao diagnstico mdico de patologias larngeas que sejam ecazes no pr-diagnstico, bem como no acompanhamento de tratamentos medicamentosos e de terapias vocais. A deteco precoce da patologia pode aumentar signicativamente a ecincia dos tratamentos mdicos. Entretanto, a escolha das caractersticas adequadas que representem as desordens vocais associadas a patologia, ainda um campo de estudo em aberto. Muito se tem investigado em discriminar vozes afetadas por patologias larngeas de vozes saudveis. Mas, muito pouco, ainda, em se tratando da identicao de parmetros acsticos que melhor discriminem uma patologia especca dentre outras. Mtodos tradicionais de avaliao e diagnstico de doenas da laringe so realizados, em geral, por meio da escuta da voz do paciente e da inspeo visual das pregas vocais por exames de videolaringoscopia, com tica telescpica ou bra tica acoplados a um sistema de vdeo. Tais mtodos, no entanto, requerem um prossional experiente e, em alguns casos, so considerados invasivos, causando certo desconforto ao paciente. Tcnicas de processamento digital de sinais tm sido aplicadas nos ltimos anos para o desenvolvimento de sistemas de

Sistema de Produo da Voz e Patologias da Laringe

13

auxilio ao diagnstico mdico. A anlise acstica pode ser usada como ferramenta no invasiva de apoio ao diagnstico mdico e acompanhamento de tratamentos e terapias vocais, de forma objetiva. Essa ferramenta no substitui os mtodos tradicionais, mas pode auxiliar no diagnstico, reduzindo a quantidade de exames videolaringoscpicos, podendo, ainda, ser efetuado distncia. Entre as patologias da laringe, que afetam particularmente as pregas vocais, so consideradas nesta pesquisa duas de origem orgnica: edema de Reinke e ndulos, e uma de origem neurolgica: paralisia nas pregas vocais.

2.4.1

Edema de Reinke

O edema de Reinke caracteriza-se pela expanso, aumento e inchao das pregas vocais e pelo acmulo de lquido ou material gelatinoso (ou ainda semi-slido) na camada supercial da lmina prpria (espao de Reinke) das pregas vocais. As pregas vocais cam enormes com um edema claro e transparente, pobre em vasos e com o aspecto anatmico da regio gltica completamente modicado [49], [50]. O edema inicial translcido, passando a ser mais consistente e avermelhado com o passar do tempo [4]. O edema de Reinke pode ser unilateral, quando confere prega vocal uma imagem de fuso (edema fusiforme) ou bilateral, Figura 2.7a e Figura 2.7b, respectivamente. Com o crescimento progressivo do edema, pode haver uma obstruo completa da glote, com consequente asxia, num estgio mais avanado [48].

(a)

(b)

Figura 2.7 Edema de Reinke (a) unilateral e (b) bilateral [3], [5].

A incidncia de edemas maior nas mulheres que atingiram entre 50 e 70 anos de idade. Entretanto, encontra-se nos dois sexos e uma doena de idade adulta. A causa irritativa o abuso vocal e, especialmente, o tabagismo [48]. Quando o edema de Reinke severo (Figura 2.8), as grandes bolsas de lquido podem oscilar para dentro e para fora, produzindo uma voz rouca, obstrutiva e roncada durante o sono [48]. No edema de Reinke de longa data, alguns pacientes sofrem de disfonia que, dife-

Sistema de Produo da Voz e Patologias da Laringe

14

rente de qualquer tumor benigno de pregas vocais, de um timbre mais baixo, como produzido por pregas vocais mais cidas.

Figura 2.8 Edema de Reinke severo [3].

Na anlise acstica, o dado comumente observado uma frequncia fundamental mais baixa que a esperada para sexo e idade. Em um estudo realizado com sinais de voz da vogal sustentada /a/ com edema, foi observado que a frequncia fundamental para um grupo de 32 mulheres com edema varia em torno de 160 Hz, enquanto para um grupo de 11 homens, varia em torno de 90 Hz. Para as vozes saudveis, os valores femininos variam em torno de 240 Hz, enquanto os masculinos variam em torno de 140 Hz [19]. Os valores de shimmer (medida da variao na amplitude de um sinal de voz) apresentamse geralmente bastante elevados, caracterstica dos movimentos mais lentos da vibrao das pregas vocais e do rudo espectral, devido rouquido. A proporo harmnico-rudo pode apresentar valores dentro da normalidade, porm a energia de rudo gltico est aumentada. H uma variao no tempo de fonao, podendo ser mais longo, quando o edema mais severo ou mais curto em casos de edemas discretos e muito cidos [4].

2.4.2

Ndulos nas Pregas Vocais

Os ndulos vocais so protuberncias crnicas na extremidade livre e superfcie inferior das pregas vocais. Os ndulos so sempre bilaterais e podem variar em tamanho, simetria e colorao. Eles representam uma degenerao inamatria da camada supercial da lmina prpria com brose e edema associadas, que interferem na produo da voz [49], [48]. Na Figura 2.9 apresentado o caso de uma paciente de 36 anos, no fumante, mas com histrico de abuso vocal. Pode-se observar na Fig. 2.9b o fechamento incompleto da glote devido presena dos ndulos bilaterais. Os ndulos vocais so as leses benignas mais comuns das pregas vocais, tanto em crianas como em adultos. Nas crianas constituem 80% das causas de distrbios da voz [48]. Nos adultos, so mais comuns em mulheres do que em homens, principalmente em prossionais que usam a voz em demasia. O comportamento vocal inadequado por mau uso e abuso vocal seria o principal motivo que poderia levar formao de ndulos [4].

Sistema de Produo da Voz e Patologias da Laringe

15

(a)

(b)

Figura 2.9 Pregas vocais com ndulos: (a) abduo; (b) aduo [3].

A massa aumentada dos ndulos nas pregas vocais contribui para uma altura de voz mais grave e maior periodicidade (julgada como rouquido). Isso leva a um tipo de voz soprosa, montona, que, muitas vezes, parece carecer de ressonncia apropriada. As caractersticas acsticas dos ndulos apresentam jitter (medida da variao na frequncia fundamental de um sinal de voz) e shimmer elevados. Outro fato so as evidncias de rudo no espectro, de cuja intensidade depende a severidade da rouquido e o tamanho da leso [50].

2.4.3

Paralisia nas Pregas Vocais

Paralisia das pregas vocais pode ser o resultado acidental de vrias cirurgias comuns. Estas incluem o corao e as operaes de pulmo. Paralisia da prega vocal no necessariamente um sinal de que o nervo foi cortado. O nervo tambm pode parar de funcionar se esticado ou comprimido, e s vezes depois de um simples manuseio. Por esta razo uma das pregas vocais pode ser paralisada aps mesmo as cirurgias mais simples. Finalmente, ramos do nervo tambm pode ser danicados pela colocao do tubo de respirao durante a anestesia geral [7]. A paralisia pode ser unilateral ou bilateral, podendo ser encontrada em lactantes, crianas e adultos. Podem ser ainda completas ou incompletas (paresia), aproximando ou afastando as pregas vocais numa maior ou menor amplitude [49]. Os sintomas perceptuais mais comuns da paralisia unilateral so a soprosidade e a rouquido. Ocasionalmente, a diplofonia pode estar presente. A causa principal da paralisia bilateral das pregas vocais em adultos tem sido a tireoidectomia. Entre outras causas, podem ser citadas, ainda, doenas malignas do pescoo ou mediastino, ps-intubao endotraqueal, trauma cervical, doena neurolgica ou alguma causa desconhecida. Na Figura 2.10 est representada a prega vocal paralisada (paralisia unilateral direita). A prega vocal do lado direito da foto foi paralisada aps uma cirurgia de tireide. No lado direito da foto mostrada a tentativa de fechamento das pregas durante a fonao (Figura 2.10b). No entanto, no ocorre um fechamento completo. Isso contribui para uma voz suave e sussurrada.

Sistema de Produo da Voz e Patologias da Laringe

16

(a)

(b)

Figura 2.10 Prega vocal direita paralisada: (a) abduo; (b) aduo [3].

2.5 Evidncias de No Linearidade e Caos na Voz


So diversas as teorias que tentam explicar o funcionamento do sistema de produo da fala, entre as quais, a Teoria Fonte-Filtro (Figuras 2.5 e 2.6) a que tem sido mais investigada nas diversas reas do processamento digital de sinais de voz. Nesse caso, o modelo admitido ser a concatenao de subsistemas lineares (fonte, trato vocal e radiao nos lbios) sem perdas de acoplamento entre eles. Por exemplo, um nico fonema sonoro, como uma vogal, pode ser representado como o produto de trs funes de transferncia, como mostrado a seguir: S () = U ()H ()R(), (2.2)

em que U () representa a excitao da fonte, H () a dinmica do trato vocal, e R() os efeitos de radiao. Outra suposio feita na abordagem clssica que o som da voz se propaga como uma onda plana, em que assumido que quando as pregas vocais se afastam, uma onda de presso uniforme, que representa o som, produzida e se propaga uniformemente atravs do trato vocal at os lbios (Figura 2.11a). Entretanto, estudos [25, 5153] sugerem que uma dinmica no linear de uidos (Figura 2.11b) parece ser uma abordagem mais realstica para caracterizar a propagao do som atravs do sistema vocal. Neste caso, os vrtices localizados nas falsas pregas vocais fornecem a excitao necessria da fonte durante a fase de fechamento das pregas vocais [1]. Apesar das condies restritivas adotadas pelo modelo fonte-ltro, tem-se que, para muitas aplicaes do processamento digital de fala, como a codicao, sntese, e reconhecimento, um bom desempenho pode ser conseguido com um modelo que reete as caractersticas gerais de padres de tempo e articulatrios, bem como as propriedades de variao da frequncia. Por outro lado, mtodos mais detalhados de modelagem de produo de fala, com base em caractersticas fsicas reais, so necessrios para reas como anlise do movimento das pregas vocais, efeitos de uma patologia sobre a produo da fala, e outras reas de aplicao [1].

Sistema de Produo da Voz e Patologias da Laringe

17

(a)

(b)

Figura 2.11 (a) Interpretao clssica da propagao do som atravs do sistema vocal. (b) Interpretao da dinmica no linear de uidos para a propagao do som ao longo do sistema vocal [1].

Antes de aplicar tcnicas no lineares, tais como aquelas inspiradas na teoria do caos, a fenmenos dinmicos que ocorrem na natureza, necessrio primeiro perguntar se a utilizao de tais tcnicas avanadas justicada pelos dados. Enquanto muitos processos na natureza parecem muito improvveis, a priori, serem lineares, a possvel natureza no linear pode no ser evidente em aspectos especcos da sua dinmica. O fato de que um sistema contenha componentes no lineares no implica, necessariamente, que esta no linearidade tambm se reita em um sinal especco obtido a partir desse sistema [54]. No caso particular da voz, diversos trabalhos tm identicado inuncia das no linearidades presentes no sistema de produo vocal a partir da anlise do prprio sinal de voz [45, 55]. Uma investigao acerca dos pressupostos de um sistema linear invariante no tempo sejam mantidos para todos os sons da fala, apesar das mudanas nos formantes (para diferentes vogais) ou na fonte de energia acstica (rudo acstico em consoantes e vibrao das pregas vocais em vogais), foi realizada por Max A. Little [56]. Para tanto, ele utilizou uma tcnica baseada na construo de sries sintticas ou substitutas (surrogate data) [57]. As sries substitutas so originadas a partir das sries originais, de maneira que estas sries substitutas conservem algumas propriedades da srie original, tais como a distribuio de probabilidade dos dados, espectro de potncia, ou as duas caractersticas anteriores, mas perdem

Sistema de Produo da Voz e Patologias da Laringe

18

caractersticas de no linearidade que possam estar presentes na srie original [58]. O princpio que rege as sries sintticas est baseado na gerao de um certo nmero de realizaes do sinal original que so especicamente projetadas para atender a uma dada hiptese pr-estabelecida. No caso do trabalho de Little, a hiptese colocada foi a de que a srie temporal original (sinal de voz) tratava-se de um processo estocstico gaussiano, linear e de mdia zero. Os testes foram aplicados em trs diferentes classes de sinais de voz: vogais obtidas de indivduos saudveis, vogais sustentadas e consoantes de sujeitos com diferentes desordens vocais. Os sinais avaliados foram obtidos de duas bases de dados: a base de dados TIMIT [59] e base de dados da Kay Elemetrics [60] - a mesma utilizada nesta pesquisa. Desses dois bancos de dados, foram selecionados 28 sinais da base TIMIT e 26 sinais da base da Kay. Para cada um dos sinais utilizados foram construdas 19 sries substitutas. Os testes estatsticos foram realizados considerando o comportamento da funo de informao mtua como discriminante estatstico e um nvel de signicncia de 90%. Os resultados obtidos indicaram que para a maioria dos sons voclicos, tanto saudveis como patolgicos, a hiptese de que tais sinais tenham sido gerados a partir de um sistema linear pode ser rejeitada, e que modelos no lineares, estocsticos ou determinsticos, podem ser mais conveis. Por outro lado, no caso de sons consonantais fricativos saudveis e algumas vozes patolgicas (caso da voz soprosa) no se pode descartar o modelo linear. Titze et al. [61] defendem a presena da teoria do caos na produo da voz. Segundo eles, a laringe, particularmente, as pregas vocais e o uxo areo transgltico, representariam um sistema adequado anlise com base nessa teoria. Um sistema, para ser considerado catico, deve apresentar as seguintes propriedades: ser um sistema no linear; determinstico; imprevisvel e altamente sensvel aos fatores de controle, o que signica que uma mnima alterao em suas condies iniciais pode provocar enormes mudanas nos resultados nais. Ao longo das ltimas duas dcadas, observaes em modelos computacionais para as pregas vocais, experimentos com laringes aps cirurgia, e anlise dinmica no linear tm apontado para a existncia de caos na produo da voz [6]. Como observado por vrios pesquisadores, as no linearidades dos mecanismos da fonte da voz (por exemplo, a relao no linear do uxo de presso na glote, as curvas no lineares de esforo dos tecidos das pregas vocais e as no linearidades associadas com as colises das pregas vocais) so fatores que sugerem a presena de caos na voz. Titze et al. [61] propuseram melhorar o entendimento das desordens vocais com conceitos e mtodos de anlise dinmica. Desde ento, pesquisadores tm aplicado essas novas ferramentas para estudar condies anormais associadas a patologias da laringe, diferenciar vozes saudveis de patolgicas, diagnosticar patologias e avaliar os efeitos dos tratamentos clnicos [6]. O modelo detalhado do processo de produo da fala deve levar em considerao, entre outros aspectos, a variao temporal da forma do trato vocal, as ressonncias associadas sua siologia, as perdas devido ao atrito viscoso nas paredes internas do trato vocal, a suavidade dessas paredes internas, a radiao do som nos lbios, o acoplamento nasal e a exibilidade

Sistema de Produo da Voz e Patologias da Laringe

19

associada vibrao das pregas vocais [26]. Alguns dos fatores responsveis pelo processo de produo da fala so adequadamente modelados por um sistema que combina uma fonte de excitao peridica e outra de rudo branco, aplicadas a um ltro digital variante no tempo [15]. Entretanto, outros fatores so desconsiderados nesse modelo, pela simples diculdade ou at impossibilidade de descrev-los em termos de combinaes de sinais, ltros digitais, ou equaes diferenciais. A teoria dos sistemas dinmicos no lineares e a teoria do caos oferecem tcnicas para a anlise de sinais mesmo quando no se sabe, ou no conhecido, o modelo detalhado do mecanismo de produo desses sinais. A anlise por meio dessas teorias procura avaliar a dinmica do sinal e, assumindo-se que tais amostras provm de um sistema dinmico no linear, medidas qualitativas podem ser obtidas desse sistema. Essas medidas no fornecem informaes precisas quanto ao modelo do processo de produo do sinal avaliado, isto , o modelo analtico ainda inacessvel. Entretanto, pode-se aferir a respeito de suas caractersticas qualitativas, como o nmero de graus de liberdade que esse modelo apresenta, a taxa de perda de informao do modelo relativamente s condies iniciais, ou a estabilidade local de sua trajetria no espao de fases. Segundo Titze [8] possvel classicar qualitativamente os sinais de voz em trs tipos: tipo 1, tipo 2 e tipo 3 (Fig. 2.12). Os sinais considerados do primeiro tipo so quase-peridicos, os sinais do tipo 2 contm fortes modulaes ou sub-harmnicos, e os sinais do terceiro tipo so irregulares e aperidicos.

Figura 2.12 Formas de ondas para sinais de voz: (a) tipo 1; (b) tipo 2; e (c) tipo 3 [6].

Geralmente, a complexidade de um sinal de voz afeta a aplicabilidade de mtodos de anlise tradicionais. Tem sido sugerido que jitter e shimmer, por exemplo, duas medidas de perturbao acstica tradicionalmente usadas, so adequadas apenas para sinais do primeiro tipo (quase-peridicos) [6]. Medidas de perturbao tais como jitter e shimmer pressupem,

Sistema de Produo da Voz e Patologias da Laringe

20

por denio, quase-periodicidade, e assim sua utilidade pode no ser eciente para sinais do segundo e do terceiro tipos. Estudos examinando a conabilidade e aplicabilidade de jitter e shimmer tm encontrado grandes variaes e pouca conabilidade quando se analisa vozes desordenadas ou vozes aperidicas e sugerem que mtodos de anlise de dinmica no linear representam discriminadores mais teis de vozes irregulares [6]. Mtodo baseados na viso espectrogrca e na anlise perceptual tm sido recomendadas para os sinais do tipo 2 e tipo 3, respectivamente. Embora a avaliao perceptual da funo vocal seja simples, a inerente subjetividade dos julgamentos a torna potencialmente no convel e tambm difcil de ser quanticada. Fatores que contribuem para as inconsistncias da avaliao perceptual incluem diferenas nos padres entre os indexadores (estimadores) de um sinal de voz e diferenas em como os ouvintes focalizam suas atenes sobre os vrios aspectos da voz. Alm disso, tanto a avaliao perceptual como a viso espectrogrca podem falhar em detectar quantitativamente sutis mudanas na funo vocal. Devido limitao dos mtodos de anlise tradicional, medidas objetivas complementares que analisem sinais vocais quase-peridicos e aperidicos so desejveis [6]. Mtodos de dinmica no linear podem analisar quantitativamente atividades irregulares ou caticas. Pesquisas de atividades caticas em sistemas siolgicos sugerem que mudanas nas medidas dinmicas no lineares podem indicar estados de disfunes patosiolgicas. Os resultados encontrados indicam que a teoria do caos e mtodos de dinmica no linear podem potencialmente ser aplicados para diagnosticar desordens siolgicas e avaliar os efeitos dos tratamentos clnicos [62]. Os efeitos que as patologias larngeas causam na qualidade vocal devem ser traduzidos nas caractersticas do sinal de voz a serem observadas na anlise acstica para ns de diagnstico e/ou de terapia vocal. As desordens vocais associadas s patologias devem ocasionar mudanas de comportamento nas caractersticas ou parmetros temporais e espectrais do sinal de voz. A abordagem empregada para a observao da voz e as desordens vocais associadas, deve extrair as caractersticas mais adequadas para representar a patologia. Uma caracterstica pode servir para representar bem e discriminar uma voz saudvel de uma voz patolgica pode ser sensvel para uma dada patologia e no ser para outra. Como tambm pode discriminar entre voz saudvel e voz patolgica, mas no conseguir separar uma patologia da outra. No existe, ainda, na literatura, um consenso sobre qual(is) medida(s) (so) a(s) mais adequada(s) para representar essa ou aquela patologia. Esse ainda um campo em aberto e bastante promissor. Para a implementao de uma ferramenta de anlise acstica eciente, a escolha das caractersticas mais apropriadas para as patologias a serem pesquisadas, bem como a escolha do classicador pode inuenciar de forma decisiva no resultado nal de classicao obtido. No prximo captulo so abordados os fundamentos das tcnicas baseadas na teoria do caos, alm de outras medidas relacionadas aos sistemas dinmicos no lineares, visando a sua aplicao na discriminao entre sinais de vozes saudveis e vozes patolgicas.

C APTULO 3

Fundamentao Terica
A anlise dinmica de sinais pode ser feita por meio de uma modelagem matemtica ou por meio da anlise de sries temporais. A primeira tcnica implica na tentativa de se construir um modelo que possa ser usado para se obter informaes teis associadas produo do fenmeno em estudo. Por outro lado, a anlise de sries temporais considera simplesmente uma srie temporal escalar, em geral, associada com uma aquisio experimental para entender o comportamento dinmico do sistema. O ponto essencial dessa anlise que uma srie temporal contm informaes sobre variveis no observveis do sistema, o que permite a reconstruo do espao de estados [63]. Segundo Kantz e Schreiber [64], a ligao mais direta entre a teoria do caos e o mundo real a anlise de dados de sries temporais, nos termos da dinmica no linear. devido, principalmente, ao desenvolvimento de uma base matemtica coerente para a descrio do caos em dinmicas determinsticas no lineares que se tem dado uma signicativa ateno anlise dinmica no linear e ao modelamento determinstico dos dados de uma srie temporal [26,65]. Uma srie temporal um conjunto discreto numervel de valores de uma varivel de estado de um sistema dinmico [66]. Algumas das diculdades encontradas no estudo da dinmica associada a sries temporais experimentais esto ligadas ao no conhecimento das equaes que regem o sistema de produo dessas sries. A inevitvel presena de rudo em sinais experimentais torna o seu estudo ainda mais difcil, podendo acarretar interpretaes incorretas dos resultados. Por exemplo, caos determinstico, processos estocsticos e processos multiperidicos com perodos incomensurveis do origem a sries temporais irregulares e aperidicas que parecem, primeira vista, caticas [67]. Dessa forma, o uso de tcnicas adequadas extremamente importante para a anlise de sries temporais. Os processos regulares (peridicos, multi-peridicos ou quase-peridicos) podem ser identicados a partir de mtodos tradicionais de anlise de sinais experimentais, como por exemplo: a anlise do espectro de potncias e da funo de autocorrelao. Por outro lado, a anlise baseada nessas tcnicas no permite, em geral, a distino entre uma dinmica catica determinstica e comportamento estocstico. Vrios procedimentos tm sido desenvolvidos

Fundamentao Terica

22

com essa nalidade, inclusive nos casos em que no se sabe (ou no possvel) modelar ou descrever a dinmica em termos de equaes diferenciais ou mapas [67]. O comportamento complexo de uma srie temporal, que pode inicialmente ser confundido como "aleatrio"ou "rudo branco", em uma segunda anlise, na verdade, pode ser determinstico. Embora este determinismo no leve a uma predio innita, pode-se construir modelos determinsticos no lineares dessas sries temporais mais complexas e se fazer predies a curtos intervalos de tempo, as quais podem no ser possveis com um modelo linear. Quando se deseja determinar se a dinmica que deu origem a uma srie temporal determinstica (ou no), h de se lanar mo de outros mtodos. Se for determinstica, pode-se ter condies de desenvolver um modelo capaz de descrever a dinmica. No caso de comportamento estocstico, ao contrrio, trata-se de um processo a muitos graus de liberdade, caso em que s se pode esperar uma descrio estatstica do sistema [67]. A resposta para a questo referente distino se uma srie temporal realmente aleatria (do ponto de vista da no-predio) ou se aperidica, mas catica (e portanto preditiva) dada pela estimao de invariantes tais como dimenso, entropia e expoentes de Lyapunov. Enquanto a denio das invariantes dinmicas refere-se ao sistema dinmico em questo, suas estimativas a partir da srie temporal tornam-se possveis por meio de um conjunto de teoremas formulados por Takens [68]. Efetivamente, esses teoremas estabelecem que as invariantes dinmicas estimadas das sries temporais observadas a partir da reconstruo de sua trajetria no espao de estados usando coordenadas defasadas sero as mesmas do sistema dinmico em anlise sob certas condies.

3.1 Reconstruo do Atrator a partir de uma Srie Temporal

De uma maneira geral, um experimento no mede todas as variveis de estado do sistema e, usualmente, tem-se disponvel a evoluo no tempo de apenas uma varivel observvel, representado por uma srie temporal, x(t), que representa a trajetria de um dado sistema dinmico. Dessa forma, interessante analisar o sistema dinmico a partir dessa srie temporal o que feito a partir de tcnicas de reconstruo do espao de estados [66]. A idia bsica da reconstruo do espao de estados est calcada no fato de que a histria temporal de um sinal contm informaes sobre as variveis de estado no observveis que podem ser usadas para prever um estado presente. Toda a dinmica do sistema est contida em uma srie temporal associada a uma varivel de estado [66]. Para que se possam analisar as propriedades de um possvel atrator associado a uma srie temporal com comportamento catico determinstico necessrio em primeiro lugar reconstruir tal atrator num espao de fases de dimenso adequada [67]. Este espao reconstrudo apresenta

Fundamentao Terica

23

uma suave variao de coordenada em relao ao espao original, preservando os invariantes geomtricos do sistema, tais como, a dimenso do atrator e os expoentes de Lyapunov [66]. Entre os mtodos sugeridos para a reconstruo do espao de estados, o mtodo das coordenadas defasadas [68, 69] o mtodo citado na literatura como o mais adequado, e por isso, foi escolhido para ser utilizado neste trabalho.

3.1.1

Mtodo das Coordenadas Defasadas

A tcnica de reconstruo do espao de estados baseada no teorema da imerso de Takens [68]. Este teorema permite reconstruir um espao de estado m-dimensional similar ao espao de estado original, d-dimensional, a partir de uma nica varivel de estado, a varivel i m-dimensionais so reconstrudos a partir da srie temporal medida [66]. Assim, vetores {xi }, em que xi = x(ti ), i = 1, ..., T , e de suas m-1 verses defasadas no tempo, i = {x(ti ), x(ti + ), x(ti + 2 ), . . . , x(ti + (m 1) )}, (3.1)

em que m a chamada dimenso de imerso e o passo de reconstruo ou tempo de defasagem [67]. O mtodo de Takens tambm chamado mtodo dos atrasos temporais e permite a reconstruo do atrator. Embora o atrator reconstrudo no seja idntico ao original, pode-se demonstrar que as propriedades topolgicas so preservadas (difeomorsmo). Alm disso, a srie temporal de uma nica varivel suciente para a reconstruo desde que a dimenso de imerso seja sucientemente grande [68].

3.1.2

A Escolha do Passo de Reconstruo (tempo de defasagem)

Para um nmero innito de pontos e na ausncia de rudo, a escolha do passo de reconstruo , na grande maioria dos casos, arbitrria [68]. Entretanto, as sries temporais experimentais so nitas, usualmente contaminadas com rudo externo e obtidas com o uso de ltros. Nessa situao a reconstruo depende, e muito, da escolha correta do passo [67]. Se o passo for muito pequeno, x(t) e x(t + ) tero praticamente o mesmo valor. Como conseqncia, um atrator reconstrudo em um espao bidimensional com um passo de 1 2 , reconstruo menor do que o adequado ca comprimido em torno da diagonal, j que ou seja, esse atrator apresentar uma dependncia linear entre as variveis do sistema. Por outro lado, como a trajetria real est restrita a um volume nito do espao de fases, o passo no pode ser muito grande, sob pena dos vetores reconstrudos serem completamente no-correlacionados cobrindo todo o espao de fases [67]. O mtodo baseado na funo de informao mtua [70] o mtodo utilizado neste trabalho, por ser recomendado na literatura como o mais ecaz, para a determinao do tempo de defasagem ou passo de reconstruo.

Fundamentao Terica

24

O Mtodo da Informao Mtua Mdia O mtodo da informao mtua mdia foi proposto por A. M. Fraser e H. L. Swinney [70]. Segundo este mtodo, ao se escolher o passo , em que o intervalo de tempo que minimiza a informao mtua contida em vetores vizinhos ao longo de sua evoluo, pode-se garantir a reconstruo de vetores com o menor nvel de informao redundante (linearmente independentes), mas ainda correlacionados. A teoria da informao procura identicar o quanto de informao se pode ter de uma medida realizada em um determinado instante de tempo t, quando se observa outra medida, do mesmo sinal, em um tempo posterior t + . A informao mtua mdia fornece as mesmas informaes que a funo de autocorrelao fornece em sistemas lineares sendo, na realidade, um tipo de generalizao para sistemas no lineares [66]. A partir de um histograma de b intervalos de classe (bins), criado para estimar a distribuio de probabilidade dos dados de um sinal x(t), a informao mtua mdia entre x(t) e sua verso defasada x(t + ) dada por I ( ) =
b b i=1 j =1

[ Pi,j (x(t), x(t + ))log2

] Pi,j (x(t), x(t + )) , Pi (x(t))Pj (x(t + ))

(3.2)

em que Pi (x(t)) a probabilidade de que o sinal x(t) assuma um valor dentro do i-simo intervalo do histograma, Pj (x(t + )) a probabilidade de que x(t + ) esteja no j-simo intervalo e Pi,j (x(t), x(t + )) a probabilidade de que, simultaneamente, x(t) esteja no isimo intervalo e x(t + ) no j-simo intervalo [64]. Tem-se ainda que I (t) 0. Se x(t) e x(t + ) so iguais, ento I ( ) mximo. Por outro lado, se x(t) e x(t + ) so completamente independentes, ento o argumento do termo logartmico a unidade e I (t) = 0. Fraser e Swinney [70] estabelecem que o valor do tempo de defasagem ideal corresponde ao primeiro mnimo local, quando este existir, da funo de informao mtua mdia I ( ). Desta forma, ao traar I ( ) versus , a melhor defasagem corresponde ao valor de no primeiro mnimo local. Com isso, garante-se que o espao de estados reconstrudo seja topologicamente equivalente ao espao de estados do sistema dinmico original [66].

3.1.3

A Escolha da Dimenso de Imerso

A dimenso m do espao de fases reconstrudo no necessariamente idntica dimenso d do espao de fases real dos vetores que representam a dinmica do sistema fsico. Em geral necessrio reconstruir-se o atrator em espaos de fases com dimenso sucientemente elevada (m 2D0 + 1, onde D0 a dimenso de Hausdorff [71] do atrator) para que se tenha segurana com relao aos resultados; caso contrrio, o atrator aparecer dobrado sobre si mesmo como numa projeo. Desta forma, pontos inicialmente distantes tornam-se prximos,

Fundamentao Terica

25

fazendo com que a estatstica da medida invariante associada ao atrator reconstrudo seja distorcida. Muitas vezes, porm, dependendo das caractersticas do atrator, uma reconstruo num espao de dimenso bem menor que 2D0 + 1 j suciente para revelar a sua estrutura mtrica. Como no se sabe a priori qual a dimenso de Hausdorff do atrator associado a uma srie de dados experimentais, uma razovel dose de experimentao e de bom senso, torna-se necessria ao interpretar-se os resultados obtidos [67]. Dentre os mtodos utilizados para a determinao da dimenso mnima de imerso, o Mtodo das Falsas Vizinhanas ou Mtodo dos Falsos Vizinhos Prximos [72] o mtodo que oferece os melhores resultados e, por isso, tem sido o mais utilizado na literatura, inclusive neste trabalho. Mtodo dos Falsos Vizinhos Prximos O mtodo dos Falsos Vizinhos Prximos sugerido por Kennel et al. [72], foi desenvolvido baseado na busca de uma dimenso mnima onde no ocorra cruzamento da rbita consigo mesma. Assim, a partir da projeo do sistema em uma determinada dimenso, vericado se um vizinho "verdadeiro" ou "falso", comparando com uma projeo em uma dimenso maior. Desta forma, um falso vizinho um ponto do sinal que s corresponde a um vizinho devido a observao das rbitas em um espao muito pequeno, d < m. Quando o espao est imerso em uma dimenso d m, todos os pontos vizinhos de todas as rbitas so vizinhos verdadeiros [66]. Sendo assim, proposto, como mtodo para determinar a dimenso mnima necessria para imergir um atrator, contar o nmero de falsos vizinhos para cada um dos seus pontos. Quando o nmero de falsos vizinhos cai a zero, o atrator ter sido sucientemente "desdobrado" e possvel, portanto, identicar a menor dimenso de imerso capaz de represent-lo adequadamente.

3.2 Medidas da Anlise Dinmica No Linear


So as seguintes as medidas da anlise dinmica no linear utilizadas neste trabalho: a dimenso de correlao, a entropia de correlao e o maior expoente de Lyapunov, alm da entropia de Shannon, a entropia de Tsallis, a entropia aproximada, o valor do primeiro mnimo da funo de informao mtua e o expoente de Hurst.

3.2.1

Expoentes de Lyapunov

Os expoentes de Lyapunov esto relacionados taxa mdia de divergncia ou de convergncia exponencial de rbitas vizinhas no espao de fase. Geralmente, um sistema contendo pelo menos um expoente de Lyapunov positivo denido como catico, por outro lado, um sistema sem nenhum expoente positivo regular [6].

Fundamentao Terica

26

Um sistema com um expoente de Lyapunov positivo apresenta instabilidade local e extrema sensibilidade s condies iniciais. Em outras palavras, qualquer mudana no estado do sistema ser exponencialmente amplicada, o que resultar em uma sada totalmente diferente. Quando o sistema dinmico possui um modelo matemtico estabelecido que permita a sua linearizao em torno de uma determinada trajetria, os expoentes de Lyapunov podem ser calculados com preciso a partir do algoritmo de Wolf et al. [73]. Por outro lado, a determinao desses componentes a partir de um sinal experimental bem mais complicada. Uma das diculdades no clculo dos expoentes de Lyapunov associados s sries temporais experimentais reside no desconhecimento das matrizes Jacobianas ou derivadas associadas dinmica [66]. Entre os mtodos existentes para a determinao dos expoentes de Lyapunov a partir de uma srie temporal o mais utilizado conhecido como o mtodo das trajetrias ou mtodo direto [73]. A idia bsica do mtodo das trajetrias est relacionada com a evoluo da distncia, no espao tangente, de duas trajetrias inicialmente muito prximas. O algoritmo proposto por Kantz [74] para a determinao do maior expoente de Lyapunov est baseado no mtodo das trajetrias e avalia a seguinte quantidade [75]: (M ) N 1 i , j ; ) , S ( ) = ln d( N i=1 j =1 (3.3)

em que S ( ) chamado de fator de crescimento (stretching factor), N o nmero de pontos i um ponto de referncia e j um ponto vizinho de i , M o nmero de no espao de fase, i , j , ) a distncia euclidiana entre os vizinhos prximos, o ndice relativo ao tempo e d( i e j . pontos Se a srie temporal sob anlise produzida a partir de um sistema dinmico no linear apresentando um expoente de Lyapunov positivo, haver uma inclinao positiva da funo S ( ) que corresponder ao mximo expoente de Lyapunov [75].

3.2.2

Dimenso Fractal

De uma maneira geral, sistemas dinmicos que exibem comportamento catico apresentam trajetrias no espao de estados que convergem para um atrator estranho. Hausdorff [71] forneceu uma denio rigorosa de dimenso fractal, que corresponde a uma propriedade bsica de um atrator. A estranheza de um atrator catico est associada com sua dimenso fractal, como uma aluso ao termo fracionrio, caracterizando uma dimenso no inteira. Pode-se dizer que a dimenso fornece o valor da informao necessria para especicar a posio de um ponto no atrator com certa preciso. A dimenso , tambm, um limite inferior do nmero de variveis necessrias para descrever a dinmica do sistema [66]. Assim, quanto mais complexo for o sistema, maior ser o valor de dimenso do mesmo, o que signica que mais variveis de estado so necessrias para descrever sua dinmica [76].

Fundamentao Terica

27

Existem muitas maneiras de se quanticar ou denir a dimenso fractal. Farmer et al. [77] denem a dimenso basicamente em dois grupos. Um grupo depende somente de propriedades geomtricas, chamado de dimenso fractal ou dimenso mtrica, e outro grupo, que depende no s de propriedades geomtricas, mas de propriedades probabilsticas, chamado de dimenso da medida natural ou dimenso probabilstica. As propriedades complexas dos atratores estranhos tornam a determinao da dimenso do atrator um problema no trivial. Uma denio geomtrica intuitiva para a dimenso pode ser entendida como sendo o expoente que expressa a escala ou graduao de uma grandeza (volume, massa, medida de informao) com o seu tamanho (distncia): grandeza tamanhoD . Assim, a denio de dimenso usualmente dada como uma equao da forma [66]: D= lim log(grandeza) , log(tamanho) (3.4)

tamanho0

em que o limite para tamanho 0 feito para garantir uma invarincia sobre uma suave mudana de coordenadas. O mesmo tambm implica que a dimenso seja uma quantidade local, fazendo com que denies globais para a dimenso requeiram algum tipo de mdia. As variaes da grandeza e do tamanho caracterizam os diferentes medidores de dimenso. A dimenso de Hausdorff e a de capacidade so exemplos de dimenses mtricas, enquanto a de correlao um exemplo de dimenses probabilsticas.

3.2.3

Dimenso de Capacidade e Dimenso de Hausdorff

A dimenso de capacidade ou mtodo das caixas (ou ainda, de contagem das caixas) foi originalmente denida por Kolmogorov e corresponde a uma das formas mais simples de se determinar a dimenso do atrator. Este mtodo consiste em determinar quantos volumes elementares ou caixas, de tamanho , so necessrios para cobrir todo o conjunto de pontos do atrator no espao de estados [66]. De uma maneira geral, para um atrator de dimenso D tem-se que o nmero de volumes elementares necessrios para conter todos os pontos inversamente proporcional a D , isto , N () 1 , D (3.5)

em que N () o nmero de volumes cheios. A relao dada pela Equao 3.5 vlida para a maioria dos conjuntos fractais, exceto se D for menor do que 1 [78]. Por analogia com os casos clssicos, pode-se interpretar D como uma dimenso, geralmente chamada de dimenso de capacidade ou dimenso de caixa do atrator. Uma denio equivalente : D = lim logN () , 0 log(1/) (3.6)

Fundamentao Terica

28

a dimenso D ento determinada pela inclinao da curva formada por N () versus em um grco log-log. A dimenso de capacidade pode ser vista como uma simplicao da dimenso de Hausdorff, D0 , que exige que N () seja o nmero mnimo de caixas de lado necessrio para cobrir todo o atrator, ou seja, h de se escolher o modo particular pelo qual se dividir o espao de fases em caixas. Na prtica a otimizao requerida pela dimenso de Hausdorff inexequvel na maioria dos casos, apresentando certa diculdade de implementao [67]. Farmer et. al. [77] mostraram que a dimenso de capacidade e a dimenso de Hausdorff so geralmente iguais, mas rigorosamente D Do .

3.2.4

Dimenso de Correlao

A dimenso de correlao, D2 , corresponde a um tipo de dimenso probabilstica e representa uma das formas mais populares de se calcular a dimenso do atrator. Muitos atratores estranhos no so homogneos, de maneira que algumas de suas regies so mais visitadas do que outras. As dimenses do tipo probabilstica levam em considerao as no-homogeneidades do atrator e se baseiam na frequncia relativa fi com que cada caixa i visitada. A frequncia fi denida como Ni , (3.7) N N sendo N o nmero total de pontos que pertencem ao atrator e Ni o nmero de pontos na i-sima caixa. A dimenso de correlao mede a probabilidade de se encontrar um par aleatrio de pontos dentro de um determinado volume elementar e denida da seguinte forma, fi = lim
N ()

log D2 = lim
0

i=1

(fi )2 , (3.8)

log()

em que o termo (fi )2 representa a frequncia relativa com que dois pontos de um atrator estejam dentro da i-sima caixa de tamanho [79]. A partir da estimativa da dimenso de correlao, o caos determinstico pode ser distinguido do rudo branco aleatrio: o clculo de D2 do rudo branco no converge com o aumento da dimenso de imerso m, por outro lado, a estimativa de D2 para um sistema catico converge para um valor nito [6]. Grassberger e Procaccia [80] desenvolveram um algoritmo para o clculo da dimenso de correlao, em que a probabilidade de se ter dois pontos do atrator numa caixa de lado

Fundamentao Terica

29

aproximada pela probabilidade de que a distncia entre dois pontos seja menor que . Esse algoritmo fornece um limite inferior e um valor aproximado para a dimenso fractal [67]. Seja qi () a frao de pontos do atrator que est dentro de uma hiper-esfera de raio , i (i-simo vetor de imerso m-dimensional). Essa frao expressa pela centrada no ponto relao: N 1 i j ), ( (3.9) qi () = N j =1 sendo N o nmero de pontos no atrator. A funo degrau (x) tal que = 1 se x 0, e = 0 se x < 0. Dene-se a integral de correlao C () como: C () = ou ainda [67], 1 qi (), lim N N i=1
N N N

(3.10)

1 i j ). ( C () = 2 lim N N i=1 j =1

(3.11)

Para regies de escala sucientemente pequenas e quando a dimenso de imerso m maior do que a dimenso de capacidade do atrator, tem-se que C () D2 . (3.12)

Uma vez que no se conhece a dimenso de capacidade do atrator a priori, o valor da dimenso de correlao estimado numa regio de convergncia dos valores de D2 quando se varia m (dimenso de imerso). A dimenso de correlao ento calculada, para cada valor de m, como logC () D2 lim , (3.13) 0 log() ou seja, D2 a inclinao de uma reta denida pelo grco logC () log(), para um valor innitesimal de .

3.2.5

Entropia de Shannon

Numa primeira aproximao, a entropia pode ser associada desordem e ausncia de regulao do comportamento de determinado sistema. Essa desordem proporcional quantidade de estados diferentes do sistema. Assim, a entropia crescente medida que a quantidade de trajetrias possveis cresce com a complexidade do sistema.

Fundamentao Terica

30

Dado um determinado sinal, a entropia de Shannon denida como [81] H1 =


M i=1

pi log2 (pi ),

(3.14)

em que pi a probabilidade de que o sinal pertena a um intervalo i, e M , o nmero de parties em seu espao de fase. A entropia H1 a medida de informao necessria para localizar um sistema em um determinado estado, signicando que H1 a medida da incerteza sobre o sistema fsico [82].

3.2.6

Entropia de Rnyi

A entropia de Rnyi, uma generalizao da entropia de Shannon, uma famlia de funcionais para quanticao da diversidade, incerteza ou aleatoriedade de um sistema. A entropia de Rnyi de ordem , para > 0 denida como [83] I
()

(M ) 1 = log pi , 1 i=1

(3.15)

em que pi a probabilidade do evento i .

3.2.7

Entropia de Kolmogorov-Sinai

Uma entropia de Kolmogorov-Sinai no nula, positiva e nita condio suciente para a ocorrncia de caos determinstico [6, 67]. Como consequncia, a estimativa dessa entropia importante para se determinar se o sistema dinmico estudado apresenta dinmica catica. A entropia de Kolmogorov-Sinai (K ) denida como a taxa mdia de criao de informao no sistema (ou a taxa mdia de perda de informao do observador), isto , K = lim lim lim 1 p(i1 , . . . , im )lnp(i1 , . . . , im ), 0 0 m m i ,...,i
1 m

(3.16)

em que p(i1 , . . . , im ) a probabilidade conjunta de se observar o sistema na caixa i1 em t = 0, i2 em t = . . . e im em t = m quando se divide o espao de fases em caixas de hiper-volume m [67]. Num processo regular, pontos inicialmente prximos continuam assim ao longo da trajetria engendrada pela dinmica associada. Nenhuma informao adicional produzida no sistema e a quantidade de informao do observador no alterada. Consequentemente deve-se esperar uma entropia associada nula, isto , Kregular = 0. Num processo aleatrio (estocstico), ao contrrio, pontos inicialmente prximos so distribudos com igual probabilidade para qualquer nova posio consistente com os vnculos

Fundamentao Terica

31

do sistema. Assim, existe gerao de informao assintoticamente innita no sistema, ou seja, Kestocstico . Para processos caticos, devido dependncia as condies iniciais, pontos inicialmente adjacentes separam-se exponencialmente com a evoluo temporal. Existe gerao de informa o no sistema e a entropia nita e positiva, isto , 0 < K < i , em que os i so os expoentes de Lyapunov positivos.

3.2.8

Entropia de Correlao

As primeiras tentativas de clculo da entropia de Kolmogorov-Sinai (K ) baseavam-se na sua denio, que, alm da difcil implementao, apresentavam resultados muitas vezes insatisfatrios [67]. A abordagem mais adequada para se estimar a entropia de Kolmogorov-Sinai foi proposta por Grassberger e Procaccia [80] e baseia-se no clculo da integral de correlao C () (Equao 3.11). A partir da Equao 3.16 possvel generalizar o conceito de entropia, denindo as entropias generalizadas de Rnyi de ordem q como [67] Kq = lim lim lim 1 1 ln [p(i1 , . . . , im )]q . 0 0 m m q 1 i ,...,i
1 m

(3.17)

Pode-se demonstrar que K1 K e que vale a desigualdade Kq Kq se q < q . Em particular K2 K e K2 , conhecida como entropia de segunda ordem ou entropia de correlao, fornece um limite inferior para a entropia de Kolmogorov-Sinai. O procedimento de Grassberger-Procaccia permite estimar K2 a partir das integrais de correlao C () (Equao 3.11) calculadas para dimenses de imerso m sucessivas, ou seja, Cm () e Cm+1 (), da seguinte forma: [ ] 1 Cm () K2 () = ln , Cm+1 () (3.18)

em que o passo utilizado na reconstruo [67]. Para se estimar K2 , calcula-se o valor mdio da Equao 3.18 para diversos valores de (pequenos) na regio linear dos grcos de ln Cm () ln(). medida que m cresce esse valor mdio converge para K2 . Uma outra possibilidade traar o grco da Equao 3.18 em funo de m para diferentes valores de ; observa-se o comportamento assinttico para m grande e pequeno.

Fundamentao Terica

32

3.2.9

Entropia Aproximada

A entropia aproximada, ApEn, uma medida da informao condicional mdia gerada por pontos divergentes numa trajetria no espao de fase [84]. Considerando valores xos para m e a entropia aproximada denida como [85]: ApEn(m, ) = m () = [ m ] () m+1 () , e
N 1 log qi (), N i=1

(3.19) (3.20)

em que qi () denida pela Equao 3.9 e N o nmero de vetores do atrator reconstrudo em uma dimenso de imerso mnima m. A capacidade de discriminar mudanas de complexidade a partir de uma quantidade relativamente pequena de dados faculta a aplicao da ApEn em uma variedade de contextos, incluindo processos determinsticos, caticos e estocsticos [85]. Embora a medida da entropia aproximada no seja uma medida de caos, ela quantica a regularidade do processo de imerso em sries temporais [82].

3.2.10 Entropia de Tsallis


Em meados de 1870, ao associar uma varivel macroscpia (entropia) a conceitos microscpicos, Boltzmann deu incio a formulao da Mecnica Estatstica. Segundo Boltzmann, a medida da desordem B na distribuio dos estados de um sistema sob os microestados permitidos pode ser estimada como [86]: B = lnW, (3.21) em que conhecida como a constante de Boltzmann e W o nmero total de estados microscpicos relativos ao estado macroscpico do sistema. Nesta denio de Boltzmann, a entropia vista como o grau de desordem de um sistema. Na medida em que o nmero de microestados possveis do sistema aumenta, a sua entropia tambm aumenta indicando que existem mais conguraes possveis para aquele sistema e que as molculas deste sistema esto mais dispersas (mais desorganizadas) [58]. A entropia de Tsallis uma generalizao da entropia de Boltzmann e denida como [87]: 1 Hq = k 1
W i=1

pq i , (3.22)

q1

em que q R caracteriza a generalizao, k1 uma constante positiva que dene a unidade em que a entropia medida e {pi } so as probabilidades associadas com as W (W N)

Fundamentao Terica

33

conguraes possveis do sistema. A entropia de Boltzmann encontrada quando, no limite, q 1 [88]. A principal caracterstica da entropia de Tsallis a sua no aditividade [88]. Isto , a informao contida em um sistema composto no a simples soma da informao dos subsistemas que o compem. As entropias de Shannon e de Boltzmann apresentam a aditividade como uma de suas caractersticas. A ideia principal da utilizao da entropia de Tsallis vericar a contribuio do parmetro entrpico (q ) na avaliao de caractersticas no extensivas (interaes no lineares) presentes na dinmica das sries temporais [58].

3.2.11 Expoente de Hurst


O expoente ou parmetro de Hurst (H ), tambm denominado de grau de dependncia temporal ou de escala, de um processo estocstico denido pela taxa de decaimento da funo coecente de auto-correlao (k ) quando k . Esta medida foi identicada e denida por Harold Edwin Hurst [89] segundo observaes de fenmenos da natureza realizadas durante seu trabalho de dimensionamento de reservatrios de gua no rio Nilo. Esta medida foi posteriormente designada na literatura como parmetro de Hurst. Considerando um sinal de voz representado pelo processo estocstico X (t) com varincia nita e funo autocorrelao denida por (k ) = Cov [X (t), X (t + k )] , V ar[X (t)] k = 0, 1, 2, . . . (3.23)

em que (k ) toma valores na faixa [1, 1] e limk (k ) = 0. O comportamento assinttico da funo (k ) dado por (k ) H (2H 1)k 2(H 1) (3.24)

que uma funo de variao lenta no innito e H (0 < H < 1) o expoente da funo autocorrelao [90]. Os processos estocsticos podem ser classicados segundo o valor de H como, Processos anti-persistentes - 0 < H < 1 . Nestes processos, a funo autocorrelao 2 negativa, em particular, k= (k ) = 0. Processos com dependncia ou memria de curto alcance (Short-Range-Dependence 1 SRD1 ) - H = 2 . A funo autocorrelao (k ) apresenta decaimento exponencial para zero tal que k= (k ) = c, onde c > 0 uma constante nita. Processos com dependncia ou memria de longo alcance. (Long-Range-Dependence LRD) - 1 < H < 1. A funo (k ) apresenta decaimento lento indicando dependncia 2 mesmo entre amostras distantes. Neste caso, temos k= (k ) = .
1

Processos Markovianos e Movimento Browniano puro so exemplos de processos SRD.

Fundamentao Terica

34

Estatstica R/S A estatstica R/S [89] [91] foi proposta por Harold Edwin Hurst para estimao do parmetro de Hurst. Considere uma sequncia de amostras aleatrias {Xi } com somas parciais Y (n) = n n 2 2 2 2 i=1 Xi e varincia amostral S (n) = (1/n) i=1 Xi (1/n) Y (n) . A estatstica R/S dada por

R(n)/S (n) =

1 [ max (Y (t) (t/n)Y (n)) min (Y (t) (t/n)Y (n))], 0tn S (n) 0tn

(3.25)

Verica-se que E [R(n)/S (n)] C1 nH para n , onde C1 uma constante positiva. Considerando-se uma sequncia de tamanho N , devemos subdivid-la em K blocos de tamanho N/K . Para valores de n < N/K so obtidas K estimativas de R(n)/S (n) calculadas em cada bloco. Caso n seja maior que o tamanho do bloco (n > N/K ) obtm-se tantos valores de R(n)/S (n) quanto possvel, partindo-se dos pontos iniciais de cada bloco. O valor do parmetro H pode ser estimado atravs de regresso linear sobre os pontos obtidos, em um grco log-log de R(n)/S (n) versus n.

3.3 Grcos de Recorrncia e suas Medidas de Quanticao


Nas ltimas dcadas, os mtodos clssicos de anlise de dados baseados em modelo linear tm sido enriquecidos com novos mtodos que so derivados da teoria do caos. Vrios mtodos de anlise tm tentado estimar medidas e propriedades no lineares de processos naturais. Entretanto, a maioria dos mtodos da anlise no linear exigem sries um tanto longas ou estacionaridade [92]. Behrman e Baken [93] mostraram que no estacionariedade, rudo e um comprimento nito do sinal podem afetar a dimenso de correlao de dados de eletroglotograa (EGG). Recentemente, outro mtodo baseado na anlise no linear de dados tem sido usado: os Grcos de Recorrncia (ou Recurrence Plots - RP) criados como mtodo de anlise de sistemas dinmicos por Eckmannet al. [33]. A ideia de recorrncia surgiu no sculo XIX, a partir do Teorema da Recorrncia, do fsico e lsofo francs J. H. Poincar (1890). Recorrncia uma propriedade fundamental dos sistemas dinmicos dissipativos e a principal vantagem dos grcos de recorrncia a possibilidade do uso dessa tcnica para anlise de sries curtas e no-estacionrias [92, 94]. O primeiro passo para a construo do grco de recorrncia de uma srie temporal de comprimento T a imerso dessa srie em um espao m-dimensional, em geral, por meio do mtodo dos atrasos temporais [68]. Nesse mtodo so criadas m 1 cpias defasadas de , 2

Fundamentao Terica

35

, ..., (m 1) amostras, a partir de cada sinal de voz disponvel. Da so construdos N vetores (Eq. 3.1), de dimenso m, representativos da dinmica do sistema em anlise no espao de fase. De acordo com a denio originalmente dada em [33], o grco de recorrncia uma matriz N N (matriz grca), em que N o nmero de vetores (estados do sistema) de dimenso m, preenchida por pontos brancos e pretos. O ponto preto, chamado de ponto recorrente, colocado na matriz de recorrncia nas coordenadas (i, j ) somente se a distncia d(i, j ) nos instantes n = i e n = j (entre o estado corrente do sistema e o estado a ser comparado) for menor que certa distncia (raio) , xada no centro do estado corrente. Uma denio alternativa comumente utilizada para o Grco de Recorrncia dada por [92]: m Rm, (3.26) i,j = ( i j ), i R , i , j = 1 . . . N , em que: i considerados; N o nmero de estados i ; o raio da vizinhana (threshold) no ponto a norma da vizinhana, comumente a norma euclidiana; () a funo de Heaviside; m a dimenso de imerso (graus de liberdade). Pontos isolados, linhas diagonais, como tambm linhas verticais e horizontais (e a combinao destas para formar estruturas variadas) so estruturas tpicas presentes nos grcos de recorrncia [94]. A anlise visual dos grcos de recorrncia fornece resultados de forma qualitativa. Por exemplo, processos com comportamento estocstico tendem a no apresentar estruturas diagonais (Figura 3.1). Por outro lado, processos determinsticos causam diagonais mais longas e menos pontos de recorrncia isolados (Figura 3.2). Objetivando quanticar a dinmica de um sistema no linear, Webber Jr. e Zbilut desenvolveram medidas de complexidade, as chamadas Medidas de Quanticao de Recorrncia [34, 95]. As medidas inicialmente propostas - a taxa de recorrncia, o determinismo, o comprimento mximo das linhas diagonais, a entropia de Shannon da distribuio de frequncias dos comprimentos das linhas diagonais e a tendncia - esto relacionadas a densidade dos pontos de recorrncia e as estruturas diagonais presentes nos grcos de recorrncia. Posteriormente, Marwan [92] props outras trs medidas de recorrncia, desta vez baseadas nas estruturas verticais (ou horizontais), so elas: a laminaridade, o tempo de permanncia e o comprimento mximo das estruturas verticais.

Fundamentao Terica
2 0 2

36

100

200

300

400

500

600

700

800

900

(a)
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.2 0.4 0.6 0.8 1 900 800 700 600 500 400 300 200 100 200 400 600 800

(b)

(c)

Figura 3.1 Rudo branco (a) Srie temporal, (b) Retrato de fase e (c) Grco de recorrncia; T = 1.000, m = 3, = 1 e = 0, 1 (norma euclidiana).
2 0 2 1 100 200 300 400 500 600 700 800 900

(a)
900 800 700 600

0.5

500 400

0.5

300 200 100

0.5

0.5

(b)

200

400

(c)

600

800

Figura 3.2 Sinal senoidal (a) Srie temporal, (b) Retrato de fase e (c) Grco de recorrncia; T = 1.000, m = 2, = 4 e = 0, 1 (norma euclidiana).

3.3.1

Taxa de Recorrncia

A taxa de recorrncia ou percentual de recorrncia (REC) quantica a porcentagem de pontos de recorrncia presentes no grco de recorrncia dentro de um raio especicado, , e denida como N 1 m, REC = 2 R . (3.27) N i,j =1 i,j ;i=j

Fundamentao Terica

37

A REC varia na faixa de 0% (nenhuma recorrncia) a 100% (todos os pontos so recorrentes). Para uma implementao adequada das medidas de recorrncia necessrio que a matriz de recorrncia seja esparsa (REC < 5%), caso contrrio, vetores distantes podem ser, erroneamente, considerados vizinhos [96].

3.3.2

Determinismo

A razo entre o nmero de pontos de recorrncia que formam as estruturas diagonais e todos os pontos de recorrncia introduzida como uma medida chamada determinismo (DET ), que est relacionada com a previsibilidade do sistema e denida como:
N

l P (l) , Rm, i,j (3.28)

DET =

l=lmin N i,j

em que P (l) representa a distribuio de frequncia dos comprimentos l das estruturas diagonais no RP e lmin o nmero mnimo de estruturas diagonais que se deseja contabilizar dentro do grco de recorrncia. Quando o percentual de determinismo igual a 0% nenhuma linha diagonal formada no grco de recorrncia (sistemas estocsticos), linhas curtas no RP indicam um sistema catico (DET > 0) e a presena de linhas longas caracteriza um sistema peridico (DET = 100%).

3.3.3

Entropia

Refere-se entropia de Shannon da distribuio de frequncia dos comprimentos das linhas diagonais. Ela reete a complexidade da estrutura determinstica no sistema. EN T R =
N l=lmin

p(l)lnp(l), em que

(3.29)

p(l) =

P (l) N P (l)
l=lmin

(3.30)

3.3.4

Comprimento Mximo das Estruturas Diagonais

As estruturas diagonais mostram a distncia em que um segmento da trajetria est em relao a outro segmento da mesma trajetria em outro instante de tempo. Assim, estas linhas informam sobre a divergncia dos segmentos da trajetria.

Fundamentao Terica

38

O comprimento mdio das linhas diagonais, L, denido como o tempo mdio que dois segmentos de uma trajetria esto prximos um do outro e pode ser interpretado como o tempo mdio de predio. O valor de L calculado da seguinte forma:
N

l P (l) . P (l) (3.31)

L=

l=lmin N l=lmin

A anlise de quanticao de recorrncia utiliza o comprimento mximo das estruturas diagonais (ou sua inversa, a divergncia), ao invs do comprimento mdio. Assim, Lmax = max({li ; i = 1 . . . Nl }), (3.32)

em que Nl o nmero total de linhas diagonais. O inverso do mximo comprimento das diagonais Lmax denido como sendo a divergncia (DIV), ou seja, 1 DIV = . (3.33) Lmax A divergncia uma medida do quo rapidamente trajetrias paralelas divergem uma da outra. Assim, quanto menor o valor de Lmax mais divergente so as trajetrias do sistema analisado.

3.3.5

Tendncia

A medida de quanticao chamada de tendncia (TREND) um coeciente de regresso linear sobre a densidade dos pontos de recorrncia das diagonais paralelas a diagonal principal (linha de identidade). Essa medida fornece informaes a respeito da no-estacionaridade do processo e denida por:
N

/2)(RECi RECi ) (i N
N i=1

T REN D =

i=1

(3.34) /2)2 (i N

deve ser cerca de dez vezes a ordem de magnitude do tempo de autocorrelaem que N N o [92]. A medida TREND calculada como a inclinao da reta que melhor se ajusta aos valores do percentual de recorrncia calculados a partir de valores inteiros de distncia tomadas em relao a diagonal central. Neste caso, se a densidade dos pontos de recorrncia permanecer aproximadamente constante ao longo do RP, TREND tender a zero. Se a densidade diminui

Fundamentao Terica

39

quando se afasta da diagonal central, a TREND ser negativa. Caso contrrio, se a densidade aumenta, a TREND ser positiva. Valores de TREND prximos de zero podem ser usados para determinar se o sistema estacionrio no tempo, valores diferentes de zero podem ser usados para determinar se o sistema est no regime transitrio [96].

3.3.6

Laminaridade

denida como a razo entre os pontos de recorrncia que formam as linhas verticais e todo o conjunto de pontos recorrentes. Representa a ocorrncia de estados laminares sem, contudo, descrever o comprimento destas fases laminares, assim: N LAM =
v =vmin v P N m, i,j Ri,j

(v )

(3.35)

em que vmin o tamanho mnimo com que se deseja computar uma estrutura vertical.

3.3.7

Tempo de Permanncia

O comprimento mdio das estruturas verticais chamado de tempo de permanncia em um estado (trapping time), e denido como N TT =
v =vmin v P (v ) . N (v ) P v =vmin

(3.36)

A medida TT contm informao acerca da quantidade e do comprimento das estruturas verticais no RP. Ela mede o tempo mdio que o sistema permanece em um estado especco.

3.3.8

Comprimento Mximo das Estruturas Verticais

O comprimento mximo das estruturas verticais presentes no grco de recorrncia calculado de forma anloga medida Lmax , Eq.(3.33), ou seja, Vmax = max({Vl ; l = 1 . . . Nv }), em que Nv o nmero total de linhas verticais. (3.37)

3.4 O Uso de Testes Estatsticos


O uso de testes estatsticos em uma pesquisa tem por objetivo fornecer um carter cientco s concluses auferidas a partir dos resultados obtidos nos experimentos realizados. Para chegar a uma deciso objetiva sobre se uma determinada hiptese conrmada, ou no, por um

Fundamentao Terica

40

conjunto de dados, preciso ter um procedimento objetivo para aceitar ou rejeitar uma hiptese estabelecida [97] . Dois pontos importantes que devem ser observados para se ter conabilidade nos resultados obtidos de um teste estatstico so a escolha adequada do tipo de teste estatstico e o nvel de signicncia () a ser adotado. De uma forma geral, os testes de hiptese so classicados em dois tipos: paramtricos e no paramtricos. Os testes paramtricos utilizam o pressuposto que os dados disponveis formam uma amostra aleatria de uma (ou de mais de uma) populao cuja distribuio a normal. Por outro lado, os testes no paramtricos no necessitam de suposies sobre o tipo de distribuio da populao a qual pertencem os dados da amostra utilizada. Em geral, os procedimentos no-paramtricos no utilizam todas as informaes proporcionadas pela amostra. Como resultado, um teste no-paramtrico ser menos eciente que o procedimento paramtrico correspondente quando a populao em anlise a normal . Esta perda de ecincia reetida por uma exigncia de uma amostra de tamanho maior para o processo no paramtrico do que seria exigido pelo procedimento paramtrico correspondente, de modo a se obter o mesmo poder de teste. Por outro lado, esta perda de ecincia geralmente no grande, e muitas vezes a diferena no tamanho da amostra muito pequena. Quando as distribuies sob estudo no esto prximas da normal, os mtodos no paramtricos tm muito a oferecer. Eles costumam oferecer melhoria considervel em relao aos mtodos paramtricos [98]. Geralmente, se os dois mtodos paramtricos e no paramtricos so aplicveis a um determinado problema, deve ser usado o procedimento paramtrico por ser mais eciente . No entanto, os pressupostos para uso dos mtodos paramtricos podem ser difceis ou impossveis de justicar [98]. O nvel de signicncia () deve ser estabelecido antes do experimento ser realizado e corresponde ao risco que se corre de rejeitar uma hiptese verdadeira. o limite que se toma como base para armar que um certo desvio decorrente do acaso ou no. So comumente utilizados como estatisticamente signicativos os nveis = 0, 05 e = 0, 01, ou seja, 5% e 1%, respectivamente. A partir de um nvel de signicncia convencionado () os desvios so devidos lei do acaso e o resultado considerado no signicativo. Existem dois tipos de erros que podem ser cometidos ao chegar a uma deciso sobre uma hiptese. O primeiro, chamado erro do tipo I, envolve a rejeio da hiptese quando ela , de fato, verdadeira. O segundo, chamado erro do tipo II, envolve no rejeitar a hiptese quando, de fato, ela falsa. Em um teste de hiptese, o nvel de signicncia () a sua probabilidade mxima permissvel para cometer um erro tipo I. A probabilidade de ocorrncia de um erro tipo II denotado por . Se a hiptese nula for verdadeira, um valor P (ou valor de probabilidade) de um teste de hiptese a probabilidade de se obter uma estatstica amostral com valores to extremos ou

Fundamentao Terica

41

mais extremos do que aquela determinada a partir dos dados da amostra. Para usar um valor P para chegar a uma concluso em um teste de hiptese, preciso comparar o valor P com o nvel de signicncia (). Se P , ento a hiptese nula deve ser rejeitada. Se P > , a hiptese nula no pode ser rejeitada [99]. Com o propsito de analisar o comportamento das desordens vocais que as patologias edema, ndulos e paralisia nas dobras vocais provocam no sinal de voz, no captulo a seguir, mostrada uma caracterizao estatstica dessas patologias por meio das medidas da anlise dinmica no linear (MNL) e das medidas de quanticao de recorrncia (MQR).

C APTULO 4

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia


Neste captulo apresentada a metodologia aplicada nos experimentos computacionais realizados neste trabalho. Tambm so apresentados os valores experimentais obtidos para a caracterizao dos sinais de vozes saudveis e patolgicas por meio das seguintes medidas associadas teoria dos sistemas no lineares: Dimenso de correlao, entropia de correlao, maior expoente de Lyapunov, entropia de Shannon, entropia de Tsallis, entropia aproximada, o valor do primeiro mnimo da funo de informao mtua e o expoente Hurst. Alm disso, so apresentados os resultados obtidos considerando as seguintes medidas de quanticao de recorrncia: Taxa de recorrncia, determinismo, comprimento mximo das estruturas diagonais, entropia da distribuio de frequncias dos comprimentos das linhas diagonais, tendncia, laminaridade, comprimento mximo das estruturas verticais e tempo de permanncia em um estado. So apresentados, ainda, os resultados dos testes estatsticos que procuram evidenciar o potencial discriminativo de cada uma dessas caractersticas, no sentido de caracterizar sinais de vozes saudveis e patolgicas.

4.1 Metodologia Aplicada


A metodologia aplicada nas simulaes computacionais realizadas nesta pesquisa pode ser sintetizada na Figura 4.1.

4.1.1

A Base de Dados

Os sinais de voz utilizados para as avaliaes realizadas neste trabalho fazem parte de um banco de dados comercial, o Disordered Voice Database, Modelo 4337, desenvolvido por

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

43

Figura 4.1 Fluxograma representativo da metodologia aplicada visando a classicao dos sinais de voz.

Massachusetts Eye and Ear Inrmary (MEEI) Voice and Speech Lab. [60]. Este banco de dados vem sendo empregado em pesquisas de mbito internacional envolvendo anlise acstica de vozes desordenadas e na discriminao entre vozes saudveis e patolgicas [32, 100102]. A base de dados inclui amostras de pacientes com uma ampla variedade de patologias orgnicas, neurolgicas, psicognicas e traumticas, entre outras disfonias. Ela contm mais de 1.400 sinais de voz, gravados a partir de 700 locutores, sendo pronncias da vogal sustentada /ah/ - com 53 arquivos de locutores com voz saudvel e 657 sinais de vozes patolgicas -, alm de gravaes de 12 segundos de voz contnua da sentena "Rainbow Passage" de todos os locutores. Todos os arquivos de sinais e informaes clnicas para as vozes patolgicas foram coletadas e estruturadas no laboratrio MEEI. Praticamente todos os pacientes tiveram extensa anlise da funo vocal incluindo estroboscopia, anlise aerodinmica e anlise acstica. Todas as amostras foram coletadas em um ambiente controlado (baixo rudo ambiente, a distncia constante do microfone, com 16 bits por amostra, e frequncias de amostragem de 25 kHz (sinais de vozes patolgicas) e 50 kHz (sinais de vozes saudveis).

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

44

4.1.2

Aspectos Metodolgicos

Do banco de dados utilizado, foram inicialmente selecionados 171 sinais de vozes da vogal sustentada /ah/, sendo 53 sinais de vozes saudveis e 118 de vozes afetadas por algum tipo de patologia nas pregas vocais (45 com edema, 55 com paralisia e 18 com ndulos). Vogais sustentadas so comumente utilizadas em experimentos semelhantes em virtude do sistema de produo da voz usar a maior parte de seus mecanismos (por exemplo, uxo de ar glotal constante e vibrao contnua das pregas vocais) na pronncia deste tipo de som. Assim, vrios tipos de anomalias desses mecanismos podem ser detectados [32]. Os sinais de vozes saudveis, originalmente amostrados a uma taxa de 50.000 amostras/s, foram sub-amostrados a 25.000 amostras/s para equiparar o nmero de amostras aos sinais patolgicos. Algumas das caractersticas, dentre as que fazem parte do conjunto das medidas de dinmica no linear (MNL), foram extradas diretamente da srie temporal que representa o sinal de voz. Esse conjunto de caractersticas formado pela entropia de Shannon, o primeiro mnimo da funo de informao mtua, a entropia de Tsallis e o expoente de Hurst, est representado na Figura 4.1 como MNL (I). As demais caractersticas que fazem parte do conjunto das medidas de dinmica no linear, representado na Figura 4.1 como MNL (II), ou seja, a dimenso de correlao, a entropia de correlao, a entropia aproximada e o maior expoente de Lyapunov, bem como o conjunto de todas as medidas de quanticao de recorrncia, representado na Figura 4.1 como MQR, foram extradas aps a aplicao do processo de imerso (embedding) de cada um dos sinais de voz em um espao de fases adequado, por meio da reconstruo dos estados do sistema que os produziu , utilizando o mtodo dos atrasos temporais (seco sec:atrator). Como ferramentas para extrao das medidas so empregados os seguintes softwares: TISEAN - Time Series Analysis v. 3.01 [103], o Visual Recurrence Analysis (VRA) [104], o RQA (Recurrence Quantication Analysis) [105], o CRP (Cross Recurrence Plot) [106], alm de elaborao de rotinas (scripts) e uso de funes pr-denidas no ambiente Matlabv.7.9. Todas as caractersticas do conjunto das medidas no lineares foram obtidas a partir da segmentao do sinal analisado, procurando-se ter o mximo nmero de amostras em cada segmento, porm, levando-se tambm em considerao o intervalo de tempo em que o sinal de voz admitido com sendo estacionrio (16-32 ms). Assim, cada sinal segmentado em 30 quadros de 800 amostras (sem sobreposio) usando uma janela retangular. As medidas de quanticao de recorrncia foram obtidas a partir de um nico quadro de 10.000 amostras (entre 100 ms e 500 ms) de cada um dos sinais selecionados da base de dados. A extrao das medidas da anlise dinmica no linear foi realizada por meio de programas desenvolvidos no ambiente Matlabv.7.9, como tambm, com o auxlio do pacote de rotinas TISEAN (Time Series Analysis) v. 3.01 [103] que implementam em software os algorit-

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

45

mos bsicos referentes ao clculo dessas medidas. Este pacote de rotinas tem sido utilizado em diversos trabalhos presentes na literatura especializada em dinmica no linear [32, 107109]. As medidas de quanticao de recorrncia foram obtidas a partir do pacote de rotinas RQA (Recurrence Quantication Analysis) [105]. Aps a extrao de todas as caractersticas consideradas neste trabalho, foram efetuados testes de hipteses estatsticos, por meio do software Statistical Package for the Social Sciences - SPSS Statistics, verso 19.0, com o intuito de validar as concluses a respeito do potencial discriminativo de cada medida no sentido de discriminar os sinais de voz analisados. Em todos os testes estatsticos realizados foi considerado um nvel de signicncia de 5%. Aps a etapa da anlise estatstica, realizada a classicao dos sinais como saudveis ou patolgicos - e entre sinais de vozes apresentando diferentes patologias - empregando a tcnica da anlise de discriminante. Neste trabalho, empregam-se a anlise de discriminante linear (LDA) e a anlise discriminante quadrtica (QDA). Inicialmente, feita a classicao com cada uma das medidas consideradas individualmente e depois, com o objetivo de melhorar os resultados individuais, as medidas so combinadas entre elas duas a duas, trs a trs, quatro a quatro, e assim por diante at ser tomado o conjunto formado por todas as caractersticas. Tambm realizada a classicao dos sinais de voz por meio da formao de vetores hbridos, combinando as caractersticas dos conjuntos MNL e MQR e vetores de coecientes obtidos por meio da anlise LPC - Codicao por Predio Linear.

4.2 Reconstruo da Dinmica do Sistema Vocal


A tcnica de reconstruo do espao de estados, baseada no teorema de imerso [68], permite reconstruir um espao de estados m-dimensional similar ao espao de estados original, d-dimensional, a partir de uma nica varivel de estado, no caso, o prprio sinal de voz. A determinao eciente dos parmetros de reconstruo (tempo de defasagem, , e dimenso de imerso, m) de extrema importncia para a identicao dos invariantes geomtricos. A partir da reconstruo do espao de fases dos sinais analisados realizada a extrao das medidas de dinmica no linear. O mtodo utilizado para obteno do tempo de defasagem utilizado neste trabalho est baseado na funo de informao mtua [70]. Na Figura 4.2 est ilustrada uma projeo bidimensional de um atrator tridimensional (m = 3) reconstrudo a partir de 800 amostras de um dos sinais de voz saudvel analisados. No caso apresentado na Figura 4.2a foi utilizando um passo de reconstruo, = 1, bem menor que o adequado. Na Figura 4.2b, o atrator foi reconstrudo utilizando um passo de reconstruo "ideal", = 5, obtido com o uso da funo de informao mtua. Na Figura 4.2c o atrator foi reconstrudo usando um passo bem maior que o adequado ( = 10). Na Figura 4.3 est ilustrado o comportamento da funo de informao mtua, I ( ) em funo de , para o mesmo segmento do sinal cujo atrator est mostrado na Figura 4.2. A seta

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

46

(a) = 1

(b) = 5

(c) = 10

Figura 4.2 Reconstruo do atrator da vogal sustentada /ah/ em um intervalo de 32 ms. Parmetros: T = 800 amostras, m = 3 e (a) = 1, (b) = 5 e (c) = 10.

indica o ponto onde ocorre o primeiro mnimo da funo e assim a determinao do passo de reconstruo "ideal"para este segmento ( = 5).

Figura 4.3 Funo de Informao Mtua e a determinao do passo de reconstruo "ideal"para um segmento de 32 ms da vogal sustentada /ah/.

Na Figura 4.4 esto apresentados os histogramas dos valores mdios do passo de reconstruo obtidos para cada um dos 53 sinais de vozes saudveis (Fig. 4.4a) e 118 sinais de vozes patolgicas (Fig. 4.4b) calculados em segmentos de 32 ms. Foi observado que, para os sinais de vozes saudveis analisados h uma predominncia dos valores de 8 (94,3%). Por outro lado, para os sinais de vozes patolgicas observa-se que > 8 para 50,8% dos casos.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

47

(a) Vozes Saudveis

(b) Vozes Patolgicas

Figura 4.4 Histogramas dos valores mdios de obtidos para os sinais de vozes (a) saudveis e (b) patolgicas.

O mtodo dos falsos vizinhos prximos [72] foi utilizado neste trabalho para determinao da dimenso mnima de imerso, m. Na Figura 4.5 esto apresentados os histogramas dos valores mdios da dimenso de imerso mnima, m, para os sinais de vozes saudveis e patolgicas analisadas, respectivamente.

(a) Vozes Saudveis

(b) Vozes Patolgicas

Figura 4.5 Histogramas dos valores mdios de m obtidos para os sinais de vozes (a) saudveis e (b) patolgicas.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

48

possvel observar que os sinais de vozes patolgicas (Fig. 4.5b) necessitam, em geral, de uma maior dimenso de imerso quando comparados aos sinais de vozes saudveis (Fig. 4.5a). Para as vozes saudveis analisadas o mximo valor encontrado para a dimenso de imerso foi igual a 5 e m 4 para 94,3% dos sinais. Para as vozes patolgicas foi observado valores de m > 4 para 59,1% dos casos.

4.3 Medidas da Anlise Dinmica No Linear (MNL)


Neste trabalho so calculadas as seguintes medidas da anlise dinmica no linear: a dimenso de correlao, a entropia de correlao e o maior expoente de Lyapunov, alm da entropia de Shannon, a entropia de Tsallis, a entropia aproximada, o valor do primeiro mnimo da funo de informao mtua e o expoente de Hurst visando a caracterizao de sinais de vozes saudveis e patolgicas.

4.3.1

Dimenso de Correlao (D2 )

Na Figura 4.6 apresentado o comportamento da dimenso de correlao, D2 (denida na seo 3.2.4 na pgina 28), em funo de m e de , para um segmento de 32 ms de um sinal de voz saudvel.

Figura 4.6 Comportamento dos valores da dimenso de correlao para um segmento de 32 ms para um dos sinais de voz saudvel em funo da dimenso de imerso e do valor de , em que as curvas correspondem as diferentes dimenses de imerso (m = 4,..,10) de baixo para cima, respectivamente.

A partir da inspeo visual do comportamento dos valores da dimenso de correlao em funo de m (variando de 4 a 10) e de levada a efeito a determinao do valor de que oferece o menor coeciente de variao entre as curvas dentro de um intervalo de convergncia.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

49

O valor de D2 para o segmento estimado como sendo a mdia dos valores obtidos de cada curva para este valor de . A dimenso de correlao do sinal tomada como sendo a mdia calculada sob todos os 30 quadros considerados. No caso do segmento ilustrado na Figura 4.6, o quadrado sobreposto ao grco indica os valores encontrados ( = 0,034 e D2 = 1,47). Durante os experimentos foi observado que a regio de convergncia no se apresenta de maneira clara para todos os sinais, nem mesmo para todos os segmentos do mesmo sinal. Em relao aos sinais de vozes patolgicas, para cerca de 47% dos sinais afetados por paralisia, 26% com edema e 17% com ndulos, no foi possvel a constatao visual de uma regio de convergncia para estimao da dimenso de correlao. Na Figura 4.7 est ilustrado um exemplo desse fato. Nesses casos, tais sinais foram descartados para o clculo da medida da dimenso de correlao. Portanto, dos 118 sinais de vozes patolgicas inicialmente considerados, apenas 74 sinais de pacientes com algum tipo de patologia na laringe (31 com edema de Reinke, 28 com paralisia e 15 com ndulos) foram efetivamente avaliados para essa medida.

Figura 4.7 Comportamento dos valores da dimenso de correlao para um segmento de 32 ms para um dos sinais de voz com paralisia em funo da dimenso de imerso e do valor de , em que as curvas correspondem as diferentes dimenses de imerso (m = 4,..,10) de baixo para cima, respectivamente.

Na Figura 4.8 est ilustrada a distribuio dos valores mdios da dimenso de correlao para os 53 sinais de vozes saudveis (SDL) e 74 sinais de vozes patolgicas (PTL) utilizados nos experimentos. Os sinais de vozes patolgicas so: 28 com paralisia, 31 com edema e 15 com ndulos. No grco de caixas (boxplot) apresentado na Figura 4.8 a linha interior em cada caixa (retngulo) indica o valor da mediana, as bases do retngulo mostram o 25-simo e o 75-simo percentil, os traos horizontais exteriores s caixas (whiskers) delimitam as extremidades do intervalo dos dados quando no h pontos fora de uma determinada faixa de valores e os pequenos crculos acima destas so valores atpicos (outliers). Da Figura 4.8 pode ser observada uma maior variabilidade nos valores da dimenso de correlao dos sinais de vozes patolgicas em relao aos sinais de vozes saudveis. Pode ser

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

50

Figura 4.8 Distribuio dos valores mdios da dimenso de correlao para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL).

observada ainda uma distribuio aproximadamente simtrica dos valores de D2 para as vozes saudveis em contraste a uma distribuio claramente assimtrica dos valores de D2 para as vozes patolgicas. Na Tabela 4.1 esto apresentados os valores da mdia () e do desvio padro ( ) da medida de dimenso de correlao para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.1 Mdia e desvio padro da dimenso de correlao.
Medida D2 Voz Saudvel 1,62 0,14 Voz Patolgica 2,09 0,35 < 0,001 Valor-p

Como podem ser observados a partir da Tabela 4.1, os resultados sugerem como caracterstica dos sinais de voz analisados uma dinmica de baixa dimenso (D2 < 3), tanto no caso da voz saudvel como para a maioria dos sinais de vozes patolgicas. Alm disso, a anlise dos resultados apresentados na Tabela 4.1 sugere diferenas estatsticas entre os dois grupos. Aps a realizao do teste no-paramtrico U de Mann-Whitney [97], os resultados revelaram que o grupo de vozes patolgicas apresentam valores de dimenso de correlao signicativamente diferentes dos valores de D2 para o grupo de vozes saudveis. Isto um indicador de uma estrutura geomtrica mais complexa em uma voz patolgica. Na Figura 4.9 est ilustrada a distribuio dos valores mdios da dimenso de correlao para os mesmos sinais considerados na anlise anterior, porm feita uma estraticao dos sinais de vozes patolgicas pelo tipo de patologia apresentada, ou seja, paralisia (PRL), edema (EDM) e ndulos (NDL). Na Tabela 4.2 esto apresentados os valores da mdia () e do desvio padro ( ) da medida de dimenso de correlao para os sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

51

Figura 4.9 Distribuio dos valores mdios da dimenso de correlao para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). Tabela 4.2 Mdia e desvio padro da dimenso de correlao - separao das patologias.
D2 Saudvel 1,62 0,14 Tipo de Voz Paralisia 2,20 0,43 Edema 2,07 0,30 Ndulo 1,95 0,26

A m de testar as possveis diferenas estatsticas entre os quatro grupos de vozes foi realizado o teste no-paramtrico de Kruskal-Wallis [97], seguido do teste de Mann-Witney para uma comparao dois a dois entre os grupos. A aplicao do teste ANOVA no-paramtrico revelou a existncia de diferenas estatsticas signicativas nos valores de D2 entre, pelo menos, dois dos grupos analisados (P < 0, 001). Os resultados obtidos a partir do teste de MannWitney esto apresentados na Tabela 4.3.
Tabela 4.3 Valor-p - dimenso de correlao - separao das patologias.
D2 Paralisia Saudvel Paralisia Edema P < 0,001 Tipo de Voz Edema P < 0,001 P = 0,347 Ndulo P < 0,001 P = 0,036 P = 0,178

A aplicao do teste de Mann-Witnney revelou diferenas estatsticas signicativas para os valores da dimenso de correlao entre o grupo de vozes saudveis e cada um dos trs grupos de vozes patolgicas. Os resultados do teste apontaram ainda uma diferena signicativa entre os valores de D2 do grupo dos sinais afetados por paralisia e aqueles do grupo de vozes afetadas por ndulos. Entretanto, os valores da dimenso de correlao entre o grupo de vozes afetadas por edema e os outros dois grupos de vozes patolgicas (paralisia e ndulos) no apresentaram diferenas estatsticas para um nvel de signicncia de 0,05.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

52

4.3.2

Entropia de Correlao (K2 )

Na Figura 4.10 apresentado o comportamento da entropia de correlao, K2 (denida na seo 3.2.8 na pgina 31), em funo de m e de , para um segmento de 32 ms de um sinal de voz patolgico (com ndulos). A m de se estimar o valor de K2 em cada segmento do sinal so consideradas as curvas com os valores da entropia de correlao para diferentes dimenses de imerso, com m variando de 4 a 10 e diferentes valores de . A partir da inspeo visual do comportamento dos valores da entropia de correlao em funo de m, e de , levada a efeito a determinao do valor de que oferece o menor coeciente de variao entre as curvas dentro de um intervalo de convergncia (novamente, nem sempre presente em todos os sinais analisados). O valor de K2 para o segmento estimado como sendo a mdia dos valores obtidos de cada curva para esse valor de . A entropia de correlao do sinal tomada como sendo a mdia calculada sob todos os 30 segmentos do sinal sob anlise. No caso do segmento ilustrado na Figura 4.10, o quadrado sobreposto ao grco indica os valores encontrados ( = 0,031 e K2 = 0,184).

Figura 4.10 Comportamento dos valores da entropia de correlao para um segmento de 32 ms para um dos sinais de voz saudvel em funo da dimenso de imerso e do valor de , em que as curvas correspondem as diferentes dimenses de imerso (m = 4,..,10) de baixo para cima, respectivamente.

Na Figura 4.11 est ilustrada a distribuio dos valores mdios da entropia de correlao para os 53 sinais de vozes saudveis (SDL) e 74 sinais de vozes patolgicas (PTL) utilizados nos experimentos. Da Figura 4.11 pode-se perceber uma maior variabilidade nos valores da entropia de correlao dos sinais de vozes patolgicas em relao aos sinais de vozes saudveis. Entretanto, pode-se vericar uma leve assimetria na distribuio dos valores de K2 para os sinais saudveis em contraste com uma distribuio aproximadamente simtrica dos valores desta medida para os sinais patolgicos. O sinal (+) indica a presena de um valor atpico na distribuio dos valores de K2 para as vozes saudveis.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

53

Figura 4.11 Distribuio dos valores mdios da entropia de correlao para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL).

Na Tabela 4.4 esto apresentados os valores da mdia () e do desvio padro ( ) da medida de entropia de correlao para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.4 Mdia e desvio padro para a entropia de correlao.
Medida K2 Voz Saudvel 0,016 0,004 Voz Patolgica 0,017 0,005 0,214 Valor-p

Como podem ser vericados com base na Tabela 4.4, os resultados sugerem como caracterstica dos sinais de voz analisados a quase coincidncia dos valores das mdias e dos desvios padro entre os dois grupos de sinais analisados. Aps a realizao do teste de Mann-Whitney para amostras independentes, os resultados revelaram que a diferena entre os valores de K2 entre os grupos saudvel e patolgico no-signicativa. Assim, pode-se dizer que, segundo os dados disponveis, a entropia de correlao tem valores iguais para ambos os grupos. Na Figura 4.12 est ilustrada a distribuio dos valores mdios da entropia de correlao para os sinais de vozes saudveis (SDL) e os sinais de vozes patolgicas discriminadas pelo tipo de patologia, ou seja, paralisia (PRL), edema (EDM) e ndulos (NDL). Na Tabela 4.5 esto apresentados os valores da mdia () e do desvio padro ( ) da medida de entropia de correlao para os sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos. A m de testar as possveis diferenas entre as mdias dos valores de K2 dos quatro grupos de vozes foi realizado o teste estatstico no-paramtrico de Kruskal-Wallis. Os resultados revelaram a existncia de uma diferena estatsticas signicativa entre, pelo menos, dois dos quatro grupos analisados (P = 0, 018). Os resultados obtidos a partir da aplicao do teste de Mann-Witney para comparao dois a dois entre os grupos esto apresentados na Tabela 4.6.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

54

Figura 4.12 Distribuio dos valores mdios da entropia de correlao para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). Tabela 4.5 Mdia e desvio padro da entropia de correlao - separao das patologias.
K2 Saudvel 0,016 0,004 Tipo de Voz Paralisia 0,015 0,006 Edema 0,018 0,005 Ndulo 0,019 0,003

Tabela 4.6 Valor-p - entropia de correlao - separao das patologias.


K2 Paralisia Saudvel Paralisia Edema P = 0,348 Tipo de Voz Edema P = 0,174 P = 0,093 Ndulo P = 0,005 P = 0,019 P = 0,117

Como concluso, a entropia de correlao no oferece, a princpio, um poder discriminativo entre vozes saudveis e vozes afetadas por paralisia ou edema. Entretanto, h diferenas estatsticas signicativas para os valores de K2 entre os grupos de vozes saudveis e vozes com ndulos, e tambm entre este ltimo e o de vozes com paralisia.

4.3.3

Entropia de Shannon (H1 )

A entropia de Shannon, H1 (denida na seo 3.2.5 na pgina 29), foi calculada considerando intervalos de 32 ms (800 amostras) do sinal analisado. A entropia de Shannon atribuda ao sinal ento tomada como a mdia desta medida calculada sob todos os 30 segmentos considerados.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

55

Na Figura 4.13 est ilustrada a distribuio dos valores mdios da entropia de Shannon para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos.

Figura 4.13 Distribuio dos valores mdios da entropia de Shannon para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL).

Na Tabela 4.7 esto apresentados os valores da mdia () e do desvio padro ( ) da entropia de Sahnnon para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.7 Mdia e desvio padro para a entropia de Shannon.
Medida H1 Voz Saudvel 2,51 0,09 Voz Patolgica 2,38 0,17 < 0,001 Valor-p

Aps a realizao do teste t [110] para duas amostras independentes, os resultados indicam diferenas estatsticas signicativas entre as mdias dos dois grupos analisados. Assim, a entropia de Shannon pode ser utilizada, em potencial, como uma medida de discriminao entre vozes saudveis e patolgicas. Na Figura 4.14 est ilustrada a distribuio dos valores mdios da entropia de Shannon para os sinais de vozes saudveis (SDL) e os sinais de vozes patolgicas discriminadas pelo tipo de patologia, ou seja, paralisia (PRL), edema (EDM) e ndulos (NDL). Na Tabela 4.8 esto apresentados os valores da mdia () e do desvio padro ( ) da entropia de Shannon para os sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos. A m de testar as possveis diferenas estatsticas entre os quatro grupos de vozes foi realizado o teste paramtrico de anlise de varincia (ANOVA) [110] que indicou a existncia de diferenas estatsticas signicativas (P < 0, 001) envolvendo, pelo menos, dois dos quatro

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

56

Figura 4.14 Distribuio dos valores mdios da entropia de Shannon para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). Tabela 4.8 Mdia e desvio padro da entropia de Shannon - separao das patologias.
H1 Saudvel 2,51 0,09 Tipo de Voz Paralisia 2,41 0,15 Edema 2,36 0,20 Ndulo 2,36 0,18

grupos analisados. Os resultados obtidos a partir da aplicao do teste de Dunnett (T3) para uma comparao dois a dois entre os grupos esto apresentados na Tabela 4.9.
Tabela 4.9 Valor-p - entropia de Shannon - separao das patologias.
H1 Paralisia Saudvel Paralisia Edema P = 0,001 Tipo de Voz Edema P < 0,001 P = 0,644 Ndulo P = 0,022 P = 0,902 P = 1,000

A anlise dos resultados apresentados na Tabela 4.9 indica diferenas estatsticas signicativas dos valores da entropia de Shannon entre o grupo de vozes saudveis e cada um dos trs grupos de vozes patolgicas. Entretanto, os testes revelaram no haver evidncias estatsticas para o uso da entropia de Shannon no sentido de diferenciar entre os grupos de vozes patolgicas. Como concluso, a entropia de Shannon pode ser usada, em potencial, como um discriminativo entre vozes saudveis e as patologias da laringe consideradas neste trabalho, mas no para diferenciar entre os diferentes tipos de patologia.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

57

4.3.4

Entropia Aproximada (ApEn)

Na Figura 4.15 est ilustrada a distribuio dos valores mdios da entropia aproximada, ApEn (denida na seo 3.2.9 na pgina 32), para os 53 sinais de vozes saudveis (SDL) e 93 sinais de vozes patolgicas (PTL) utilizados nos experimentos.

Figura 4.15 Distribuio dos valores mdios da entropia aproximada para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL).

Na Tabela 4.10 esto apresentados os valores da mdia () e do desvio padro ( ) da entropia aproximada para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.10 Mdia e desvio padro para a entropia aproximada.
Medida ApEn Voz Saudvel 0,198 0,050 Voz Patolgica 0,215 0,087 0,148 Valor-p

A aplicao do teste t revelou no haver diferenas estatsticas signicativas entre as mdias dos dois grupos analisados. Assim, a entropia aproximada no apresenta, em potencial, poder discriminativo entre vozes saudveis e patolgicas. Na Figura 4.16 est ilustrada a distribuio dos valores mdios da entropia aproximada para os sinais de vozes saudveis (SDL) e os sinais de vozes patolgicas discriminadas pelo tipo de patologia, ou seja, paralisia (PRL), edema (EDM) e ndulos (NDL). Na Tabela 4.11 esto apresentados os valores da mdia () e do desvio padro ( ) para a entropia aproximada dos sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos. A aplicao do teste ANOVA de um caminho revelou a existncia de diferena estatsticas signicativa entre as mdias de, pelo menos, dois dos grupos analisados (P = 0, 010).

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

58

Figura 4.16 Distribuio dos valores mdios da entropia aproximada para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL). Tabela 4.11 Mdia e desvio padro da entropia aproximada - separao das patologias.
Tipo de Voz ApEn Saudvel 0,198 0,050 Paralisia 0,185 0,091 Edema 0,235 0,087 Ndulo 0,232 0,056

Diante deste fato, foi aplicado o teste post hoc de Dunnett (T 3) para a comparao de mltiplas mdias. Os resultados esto apresentados na Tabela 4.12.
Tabela 4.12 Valor-p - entropia aproximada - separao das patologias.
ApEn Paralisia Saudvel Paralisia Edema P = 0,961 Tipo de Voz Edema P = 0,100 P = 0,086 Ndulo P = 0,239 P = 0,160 P = 1,000

Aps o teste a aplicao do teste post hoc de Dunnett (T3), os resultados revelaram no existir diferenas estatsticas signicativas entre quaisquer dos grupos considerados. A aparente contradio entre o resultado fornecido pelo teste anterior (ANOVA) e os resultados apresentados pelo teste de Dunnett (T3), pode ser explicado considerando que, caso as varincias entre os grupos fossem estatsticas iguais, outros testes post hoc seriam adequados, como por exemplo, o teste de Tukey que revelaria diferena estatsticas signicativa entre os grupos de vozes com paralisia e com edema (P = 0, 017).

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

59

4.3.5

Entropia de Tsallis (Hq )

Aps experimentos realizados utilizando a entropia de Tsallis, Hq (denida na seo 3.2.10 na pgina 32), com diferentes valores do parmetro q , Falco et al. [111] relatam que, os resultados mais satisfatrios na discriminao entre vozes saudveis e patolgicas foram obtidos com o valor q = 0, 5. Por isso, neste trabalho, tambm foi adotado esse mesmo valor de q para o clculo de Hq . Na Figura 4.17 est ilustrada a distribuio dos valores mdios da entropia de Tsallis, Hq , para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos.

Figura 4.17 Distribuio dos valores mdios da entropia de Tsallis para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL).

Na Tabela 4.13 esto apresentados os valores da mdia () e do desvio padro ( ) da entropia de Tsallis para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.13 Mdia e desvio padro para a entropia de Tsallis (q = 0, 5).
Medida Hq Voz Saudvel 7,93 0,29 Voz Patolgica 7,57 0,50 < 0,001 Valor-p

Aps a realizao do teste no-paramtrico U de Mann-Whitney, os resultados indicam que o grupo de vozes saudveis apresenta valores da entropia de Tsallis signicativamente diferentes dos valores desta medida para o grupo de vozes patolgicas. Assim, a entropia de Tsallis pode ser utilizada, em potencial, como uma medida de discriminao entre vozes saudveis e patolgicas.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

60

Na Figura 4.18 est ilustrada a distribuio dos valores mdios da entropia de Tsallis para os sinais de vozes saudveis (SDL) e os sinais de vozes patolgicas discriminadas pelo tipo de patologia, ou seja, paralisia (PRL), edema (EDM) e ndulos (NDL).

Figura 4.18 Distribuio dos valores mdios da entropia de Tsallis para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL).

Na Tabela 4.14 esto apresentados os valores da mdia () e do desvio padro ( ) para a entropia de Tsallis dos sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos.
Tabela 4.14 Mdia e desvio padro da entropia de Tsallis - separao das patologias.
Hq Saudvel 7,93 0,29 Tipo de Voz Paralisia 7,63 0,45 Edema 7,51 0,57 Ndulo 7,54 0,50

A m de testar as possveis diferenas dos valores da entropia de Tsallis entre os quatro grupos de vozes foi realizado o teste ANOVA no paramtrico de Kruskal-Wallis, que indicou a existncia de diferenas estatsticas signicativas (P < 0,001) envolvendo, pelo menos, dois dos grupos analisados. Na Tabela 4.15 esto apresentados os resultados da aplicao do teste estatstico de Mann-Whitney para a comparao dois a dois entre os grupos. Aps a aplicao do teste de Mann-Whitney, os resultados revelaram diferenas signicativas dos valores da entropia de Tsallis entre o grupo de vozes saudveis e os trs grupos de vozes patolgicas. Entretanto, no houve diferenas estatsticas signicativas entre os grupos de vozes patolgicas.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

61

Tabela 4.15 Valor-p - entropia aproximada - separao das patologias.


Hq Paralisia Saudvel Paralisia Edema P < 0,001 Tipo de Voz Edema P < 0,001 P = 0,377 Ndulo P = 0,002 P = 0,450 P = 0,994

4.3.6

Maior Expoente de Lyapunov (1 )

Na Figura 4.19 est ilustrado o comportamento de S ( ) (Eq.3.3) em funo do nmero de iteraes , para trs diferentes valores de e m variando de 4 a 8. A linha reta representa a inclinao mdia das curvas mostradas e sua inclinao a estimao para o maior expoente de Lyapunov, 1 (denido na seo 3.2.1 na pgina 25).

Figura 4.19 Comportamento de S ( ) em funo do nmero de iteraes, de e de m.

Na Figura 4.20 est ilustrada a distribuio dos valores mdios do maior expoente de Lyapunov, 1 , para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos. Na Tabela 4.16 esto apresentados os valores da mdia () e do desvio padro ( ) do maior expoente de Lyapunov para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.16 Mdia e desvio padro para o maior expoente de Lyapunov.
Medida 1 Voz Saudvel 0,0067 0,0024 Voz Patolgica 0,0080 0,0030 0,006 Valor-p

Aps a realizao do teste U no-paramtrico de Mann-Whitney, foi vericado que h diferenas estatsticas signicativas dos valores do maior expoente de Lyapunov entre os grupos de vozes saudveis e patolgicas. A partir dos resultados fornecidos pelo teste estatstico

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

62

Figura 4.20 Distribuio dos valores mdios do maior expoente de Lyapunov para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL).

realizado pode-se dizer que, segundo os dados disponveis, a medida do maior expoente de Lyapunov tem valores diferentes para os dois grupos. Sendo, a princpio, uma medida de discriminao entre vozes saudveis e patolgicas. Na Figura 4.21 est ilustrada a distribuio dos valores mdios do maior expoente de Lyapunov para os sinais de vozes saudveis (SDL) e os sinais de vozes patolgicas discriminadas pelo tipo de patologia, ou seja, paralisia (PRL), edema (EDM) e ndulos (NDL).

Figura 4.21 Distribuio dos valores mdios do maior expoente de Lyapunov para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL).

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

63

Na Tabela 4.17 esto apresentados os valores da mdia () e do desvio padro ( ) para o maior expoente de Lyapunov dos sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos.
Tabela 4.17 Mdia e desvio padro do maior expoente de Lyapunov - separao das patologias.
1 Saudvel 0,0067 0,0024 Tipo de Voz Paralisia 0,0074 0,0037 Edema 0,0075 0,0027 Ndulo 0,0072 0,0024

Aps aplicao do teste no-paramtrico de Kruskal-Wallis foi observado que h diferenas estatsticas signicativas entre, pelo menos, dois dos dos quatro grupos analisados (P = 0, 035). Os resultados obtidos aps a aplicao do teste de Mann-Whitney para comparao estatstica dois a dois entre os grupos esto apresentados na Tabela 4.18.
Tabela 4.18 Valor-p - maior expoente de Lyapunov - separao das patologias.
1 Paralisia Saudvel Paralisia Edema P = 0,010 Tipo de Voz Edema P = 0,016 P = 0,806 Ndulo P = 0,362 P = 0,318 P = 0,349

De acordo com os resultados encontrados e para os dados disponveis possvel concluir que a medida do maior expoente de Lyapunov tem, a princpio, o poder de discriminar entre vozes saudveis e patolgicas afetadas por paralisia ou edema nas pregas vocais. Entretanto, o teste aplicado revelou que no h diferenas estatsticas signicativas entre os grupos de vozes saudveis e com ndulos, nem entre os grupos de sinais apresentando diferentes patologias.

4.3.7

Primeiro Mnimo da Funo de Informao Mtua (FMMI)

Na Figura 4.22 est ilustrada a distribuio dos valores mdios do primeiro mnimo da funo de informao mtua, FMMI (denido na seo 3.1.2 na pgina 24), para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos. Na Tabela 4.19 esto apresentados os valores da mdia () e do desvio padro ( ) do primeiro mnimo da funo de informao mtua para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.19 Mdia e desvio padro para o primeiro mnimo da funo de informao mtua.
Medida FMMI Voz Saudvel 0,581 0,153 Voz Patolgica 0,441 0,202 P < 0,001 Valor-p

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

64

Figura 4.22 Distribuio dos valores mdios do primeiro mnimo da funo de informao mtua para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL).

Aps a realizao do teste t para amostras independentes, foi vericado que h evidncias estatsticas para armar que a diferena entre as mdias dos grupos saudvel e patolgico signicativa. Assim, o valor do primeiro mnimo da funo de informao mtua pode ser utilizado, em potencial, como uma medida de discriminao entre vozes saudveis e patolgicas.

Figura 4.23 Distribuio dos valores mdios do primeiro mnimo da funo de informao mtua para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL).

Na Figura 4.23 est ilustrada a distribuio dos valores mdios do primeiro mnimo da funo de informao mtua para os sinais de vozes saudveis (SDL) e os sinais de vozes patolgicas discriminadas pelo tipo de patologia, ou seja, paralisia (PRL), edema (EDM) e ndulos (NDL). Na Tabela 4.20 esto apresentados os valores da mdia () e do desvio padro ( ) para o primeiro mnimo da funo de informao mtua dos sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos. A m de testar as possveis diferenas entre as mdias dos quatro grupos de vozes foi realizado o teste estatstico ANOVA no paramtrico de Kruskal-Wallis, que indicou a existncia de diferenas estatsticas signicativas (P < 0, 001) envolvendo, pelo menos, dois dos

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

65

Tabela 4.20 Mdia e desvio padro do primeiro mnimo da funo de informao mtua - separao das patologias.
Tipo de Voz FMMI Saudvel 0,580 0,153 Paralisia 0,368 0,182 Edema 0,492 0,205 Ndulo 0,536 0,180

grupos analisados. Os resultados obtidos aps a aplicao do teste de Mann-Whitney para uma comparao dois a dois entre os grupos esto apresentados na Tabela 4.21.
Tabela 4.21 Valor-p - FMMI - separao das patologias.
FMMI Paralisia Saudvel Paralisia Edema P < 0,001 Tipo de Voz Edema P = 0,002 P = 0,001 Ndulo P = 0,239 P = 0,001 P = 0,257

Os resultados apresentados na Tabela 4.21 revelaram diferenas signicativas dos valores do primeiro mnimo da funo de informao mtua entre o grupo de vozes saudveis e os grupos de vozes afetadas por paralisia e por edema. H diferenas estatsticas signicativas entre o grupo de vozes afetadas com paralisia e os grupos de vozes com edema e com ndulos. Assim, possvel concluir que a medida do primeiro mnimo da funo de informao mtua pode ser utilizada para diferenciar vozes saudveis de vozes afetadas por paralisia e por edema. Entretanto, essa medida no se mostrou capaz de evidenciar diferenas estatsticas signicativas entre vozes saudveis e vozes patolgicas afetadas por ndulos.

4.3.8

Expoente de Hurst (H)

Na Figura 4.24 est ilustrada a estimao do expoente de Hurst, H (denido na seo 3.2.11 na pgina 33), dado pela inclinao do segmento entre as retas de declividade 1/2 e 1, para um segmento de 32 ms (800 amostras) de um sinal de voz saudvel. Para esse segmento o valor estimado foi de H = 0, 6254.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

66

Figura 4.24 Estimao do expoente de Hurst para um sinal de voz saudvel.

Na Figura 4.25 est ilustrada a distribuio dos valores mdios do expoente de Hurst para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos.
1 0.9 0.8

Expoente de Hurst

0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 SDL PTL

Figura 4.25 Distribuio dos valores do expoente de Hurst para sinais de vozes saudveis (SDL) e vozes patolgicas (PTL).

Na Tabela 4.22 esto apresentados os valores da mdia () e do desvio padro ( ) do expoente de Hurst para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.22 Mdia e desvio padro para o expoente de Hurst.
Medida H Voz Saudvel 0,527 0,124 Voz Patolgica 0,830 0,162 P < 0,001 Valor-p

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

67

A partir da realizao do teste t para amostras independentes, foi vericado que h evidncias estatsticas para armar que a diferena entre as mdias dos grupos saudvel e patolgico signicativa. Na Figura 4.26 est ilustrada a distribuio dos valores mdios do expoente de Hurst para os sinais de vozes saudveis (SDL) e os sinais de vozes patolgicas discriminadas pelo tipo de patologia, ou seja, paralisia (PRL), edema (EDM) e ndulos (NDL).
1 0.9 0.8

Expoente de Hurst

0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 SDL PRL EDM NDL

Figura 4.26 Distribuio dos valores mdios do expoente de Hurst para sinais de vozes saudveis (SDL) e patolgicas com paralisia (PRL), edema (EDM) e ndulos (NDL).

Na Tabela 4.23 esto apresentados os valores da mdia () e do desvio padro ( ) para o expoente de Hurst dos sinais de vozes saudveis e dos sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos.
Tabela 4.23 Mdia e desvio padro do expoente de Hurst - separao das patologias.
H Saudvel 0,527 0,124 Tipo de Voz Paralisia 0,844 0,173 Edema 0,802 0,158 Ndulo 0,857 0,130

A aplicao do teste ANOVA de um caminho revelou a existncia de diferenas estatsticas signicativas entre as mdias de, pelo menos, dois dos grupos analisados (P < 0, 001). Diante deste fato, foi aplicado o teste post hoc de Tukey para a comparao de mltiplas mdias [110]. Os resultados esto apresentados na Tabela 4.24. Aps o teste post hoc aplicado, os resultados revelaram existirem diferenas estatsticas signicativas entre a mdia do grupo de vozes saudveis e as mdias dos trs grupos de vozes patolgicas (P < 0, 001). Por outro, os resultados mostraram no existirem diferenas estatsticas signicativas entre os trs diferentes grupos de vozes patolgicas.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

68

Tabela 4.24 Valor-p - Expoente de Hurst - separao das patologias.


H Paralisia Saudvel Paralisia Edema P < 0,001 Tipo de Voz Edema P < 0,001 P = 0,517 Ndulo P < 0,001 P = 0,988 P = 0,560

4.4 Resumo dos Resultados do Processo de Caracterizao Medidas No Lineares (MNL)


Na Tabela 4.25 est apresentado o resumo dos resultados obtidos a partir dos testes estatsticos realizados, visando identicar o potencial discriminativo de cada uma das medidas de anlise no linear (MNL) avaliadas neste trabalho, na caracterizao de sinais de vozes saudveis e patolgicas. Os campos marcados com x representam os casos em que foram vericadas diferenas estatsticas signicativas entre os grupos analisados, considerando-se um nvel de signicncia igual a 5%.
Tabela 4.25 Potencial discriminativo das medidas da anlise dinmica no linear.
Medidas SDL x PTL SDL x PRL SDL x EDM SDL x NDL PRL x EDM PRL x NDL EDM x NDL D2 x x x x x Medidas da anlise dinmica no linear K2 H1 ApEn Hq 1 FMMI x x x x x x x x x x x x x x x x x x

H x x x x

A Dimenso de Correlao (D2 ) e o Primeiro Mnimo da Funo de Informao Mtua (FMMI ) so as medidas que apresentaram potencial discriminativo para a maior parte dos casos analisados. A maior parte das medidas consideradas sugere diferenas estatisticamente signicativas entre sinais de vozes saudveis e vozes patolgicas, quando se agrupam as patologias numa mesma classe, ou em classes distintas. Entretanto, a grande diculdade est na identicao de medidas que apresentem potencial discriminativo entre vozes afetadas por diferentes patologias. Na discriminao entre edema e ndulos, por exemplo, nenhuma das medidas da anlise no linear investigadas apresentou potencial discriminativo entre essas patologias, com os testes estatsticos aplicados.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

69

4.5 Medidas de Quanticao de Recorrncia (MQR)


O objetivo principal desta seo investigar a aplicao das medidas de quanticao de recorrncia (MQR) na caracterizao de sinais de vozes saudveis e vozes patolgicas. As medidas avaliadas so as seguintes: determinismo, comprimento mximo das linhas diagonais, entropia da distribuio de frequncias dos comprimentos das linhas diagonais, tendncia, laminaridade, comprimento mximo das linhas verticais e tempo de permanncia em um estado. Do banco de dados disponvel [60] foram utilizados 171 sinais de vozes da vogal sustentada /ah/, sendo 53 sinais de vozes saudveis e 118 de vozes afetadas por algum tipo de patologia nas pregas vogais (45 com edema, 55 com paralisia e 18 com ndulos). Para efeito de anlise dos sinais foi considerado um bloco nico de 10.000 amostras (400 ms), extradas na faixa entre 100 ms e 500 ms, visando excluir os efeitos iniciais presentes no processo de gravao. O primeiro passo realizado foi a determinao dos parmetros de imerso ( e m) visando a obteno dos vetores responsveis pela reconstruo do espao de estados do sistema de produo da voz. Neste caso, foi utilizado o software Visual Recurrence Analysis (VRA) [104] para a obteno dos valores ideais destes parmetros. O VRA utiliza o mtodo que estima o valor ideal de como sendo o primeiro mnimo da funo de informao mtua [70] e o mtodo baseado na determinao dos falsos vizinhos prximos [112] para a determinao da dimenso de imerso mnima. Na Figura 4.27 esto apresentados os histogramas dos valores do passo de reconstruo calculados para um segmento de 400 ms de cada um dos (a) 53 sinais de vozes saudveis e (b) 118 sinais de vozes patolgicas.

(a) Vozes Saudveis

(b) Vozes Patolgicas

Figura 4.27 Histogramas dos valores de obtidos para os sinais de vozes (a) saudveis e (b) patolgicas.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

70

Como pode ser observado, para os sinais de vozes saudveis h uma predominncia do valor de = 6 (26,4%), alm disso, tem-se que 9 para 88,70% dos casos. Por outro lado, para os sinais de vozes patolgicas h uma predominncia do valor de = 7 (20,3%) e 9 para 54,2% dos casos. Na Figura 4.28 esto apresentados os histogramas dos valores da dimenso de imerso mnima para os sinais de vozes (a) saudveis e (b) patolgicas analisadas. Para as vozes saudveis o valor predominante de m = 4 ocorreu para 58,5% dos sinais. Para as vozes patolgicas o valor m = 3 ocorreu com maior frequncia, para 41,5% dos casos.

(a) Vozes Saudveis

(b) Vozes Patolgicas

Figura 4.28 Histogramas dos valores de m obtidos para os sinais de vozes (a) saudveis e (b) patolgicas.

Aps a determinao dos parmetros de imerso do sinal, um total de N = 10.000 (m 1) vetores m-dimensionais so construdos para cada sinal. Nas Figuras 4.29 a 4.32 esto apresentados exemplos dos grcos de recorrncia representando a vogal sustentada /ah/ para um segmento de 40 ms de um sinal de voz (a) saudvel, (b) afetada por edema, (c) com ndulos e (d) com paralisia nas dobras vocais, respectivamente. Pode ser observado diferenas nas estruturas presentes em cada sinal analisado. Realizado o processo de imerso, o pacote de rotinas RQA - software13.1 [105] utilizado para obteno dos parmetros e medidas de quanticao relativas anlise de recorrncia. Aps a determinao dos vetores representativos da dinmica do sinal de voz, uma matriz de distncias ento formada calculando-se a norma euclidiana entre eles. A etapa seguinte a escolha do limiar de distncia (ou raio), , a m de se construir a matriz de recorrncia. No software RQA o valor do raio sempre relativo mxima distncia entre os vetores (Maxdist). Quanto maior o raio, mais ampla a vizinhana para se determinar a recorrncia dos estados de um sistema. Assim, caso o valor do limiar de distncia seja xado muito alto, algumas medidas como a taxa de recorrncia e o determinismo tendero a saturar em 100%.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia


0.5 0 0.5 100 200 300 400 500 600 700 800 900

71

(a)
0.2 0.15 0.1 0.05 0 0.05 0.1 0.15 0.2 0.1 0 0.1 0.2 900 800 700 600 500 400 300 200 100 200 400 600 800

(b)

(c)

Figura 4.29 Sinal de voz saudvel (a) srie temporal, (b) projeo bidimensional do atrator (c) grco de recorrncia; m = 3, = 4, = 0,1 (norma euclidiana)
0.5 0 0.5 100 200 300 400 500 600 900 800 700 0.1 0 0.1 0.2 0.3 0.4 0.2 0 0.2 0.4 600 500 400 300 200 100 200 400 600 800 700 800 900

(a)
0.3 0.2

(b)

(c)

Figura 4.30 Sinal de voz patolgica (edema) (a) srie temporal, (b) projeo bidimensional do atrator (c) grco de recorrncia; m = 3, = 9, = 0,1 (norma euclidiana)
0.5 0 0.5 100 200 300 400 500 600 700 800 900

(a)
0.4 0.3 0.2 0.1 0 0.1 0.2 0.2 0 0.2 0.4 900 800 700 600 500 400 300 200 100 200 400 600 800

(b)

(c)

Figura 4.31 Sinal de voz patolgica (ndulos) (a) srie temporal, (b) projeo bidimensional do atrator (c) grco de recorrncia; m = 3, = 8, = 0,1 (norma euclidiana)

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia


0.5 0 0.5 100 200 300 400 500 600 700 800 900

72

(a)
0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0 0.5 900 800 700 600 500 400 300 200 100 200 400 600 800

(b)

(c)

Figura 4.32 Sinal de voz patolgica (paralisia) (a) srie temporal, (b) projeo bidimensional do atrator (c) grco de recorrncia; m = 3, = 17, = 0,1 (norma euclidiana)

Portanto, o valor escolhido para o raio deve ser baixo, mas no to baixo a ponto de levar a taxa de recorrncia a se aproximar de zero [105]. Entre os trs diferentes procedimentos propostos por Webber e Zbilut [113] para a determinao adequada do raio, o mtodo escolhido para ser utilizado neste trabalho est baseado na obteno de um valor para este parmetro que assegure a manuteno de uma baixa taxa de recorrncia (tipicamente menor ou igual a 5%). A taxa de recorrncia, REC (denida na seo 3.3.1 na pgina 36), quantica a porcentagem de pontos de recorrncia dentro do raio especicado. Nos experimentos computacionais realizados foi investigado o comportamento do limiar de distncia de modo que a taxa de recorrncia mxima estivesse abaixo de (ou igual a) cinco diferentes patamares, ou seja, 1%, 2%, 3%, 4% e 5%. Na Figura 4.33 esto apresentadas as distribuies dos valores do maior raio que mantm uma taxa de recorrncia menor ou igual a 1%. Como pode ser observado, neste caso, h uma maior concentrao dos valores do raio na faixa entre 3% a 5% da mxima distncia entre os vetores (Maxdist), tanto para vozes saudveis ( = 4; = 1,13) como para vozes patolgicas ( = 5; = 2,63) . Na medida em que permitido uma taxa de recorrncia maior os valores do raio aparecem mais largamente distribudos, numa faixa de valores superior ao caso anterior, para ambos os grupos de sinais. No caso da taxa de recorrncia mxima ser de 5% (Figura 4.34), tem-se que ( = 11; = 2,64) para as vozes saudveis e ( = 10 ; = 3,41) no caso das vozes patolgicas.

4.5.1

Determinismo (DET )

Na Figura 4.35 est ilustrada a distribuio dos valores da medida determinismo, DET (denida na seo 3.3.2 na pgina 37), para os 53 sinais de vozes saudveis (SDL) e 118 si-

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

73

(a)

(b)

Figura 4.33 Distribuies dos valores do maior raio para sinais de vozes (a) saudveis e (b) patolgicas para uma taxa de recorrncia menor ou igual a 1%.

nais de vozes patolgicas (PTL) utilizados nos experimentos, considerando cinco diferentes limitantes aplicados taxa de recorrncia: 1%, 2%, 3%, 4% e 5%. Na Tabela 4.26 esto apresentados os valores da mdia e do desvio padro do determinismo para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.26 Mdia e desvio padro para DET .
Medida DET REC 1% REC 2% REC 3% REC 4% REC 5% Tipo de Voz Saudvel Patolgica 88, 21 5, 68 60, 25 25, 18 92, 28 4, 24 71, 82 23, 03 93, 79 3, 72 77, 23 21, 14 94, 69 3, 38 80, 48 19, 33 95, 16 3, 15 82, 87 18, 11 Valor P P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001

Aps a realizao do teste no-paramtrico U de Mann-Whitney, os resultados revelaram que os grupos de vozes saudveis e patolgicas apresentam diferenas estatsticas signicativas para todos os limiares de taxa de recorrncia considerados (P < 0, 001). Na Tabela 4.27 esto apresentados os valores da mdia e do desvio padro da medida determinismo para os sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos. A m de testar as possveis diferenas estatsticas entre os quatro grupos de sinais de voz, foi realizado o teste de anlise de varincia ANOVA no paramtrico de Kruskal-Wallis. Segundo os resultados obtidos, existem diferenas estatsticas signicativas entre pelo menos dois dos grupos analisados, para todos os patamares da taxa de recorrncia considerados (P < 0, 001).

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

74

(a)

(b)

Figura 4.34 Distribuies dos valores do maior raio para sinais de vozes (a) saudveis e (b) patolgicas para uma taxa de recorrncia menor ou igual a 5%. Tabela 4.27 Mdia e desvio padro para DET - separao das patologias.
Medida DET REC 1% REC 2% REC 3% REC 4% REC 5% Saudvel 88, 21 5, 68 92, 28 4, 24 93, 79 3, 72 94, 69 3, 38 95, 16 3, 15 Tipo de Voz Paralisia Edema 52, 37 26, 83 67, 20 22, 45 64, 05 25, 00 77, 63 20, 53 70, 18 23, 57 82, 04 18, 37 74, 27 21, 90 84, 67 16, 61 76, 84 21, 08 86, 91 14, 68 Ndulo 66, 95 19, 89 81, 05 14, 09 86, 77 10, 87 89, 02 9, 30 91, 18 7, 32

Na Tabela 4.28 esto apresentados os resultados da anlise estatstica realizada visando a comparao dos valores da caracterstica DET obtidos para sinais de vozes saudveis (SDL), sinais de vozes afetados por paralisia (PRL), edema (EDM) e ndulos (NDL) nas pregas vocais.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

75

Figura 4.35 Distribuies dos valores de DET para sinais de vozes saudveis (SDL) e patolgicas (PTL). Tabela 4.28 Potencial estatstico da caracterstica DET na discriminao entre grupos de sinais de voz.
Medida DET REC 1% REC 2% REC 3% REC 4% REC 5% P < 0, 05 SDL x PRL P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001 Pares de Grupos de Sinais SDL x EDM SDL x NDL PRL x EDM PRL x NDL P < 0, 001 P < 0, 001 P = 0, 007 P = 0, 044 P < 0, 001 P < 0, 001 P = 0, 001 P = 0, 005 P < 0, 001 P < 0, 001 P = 0, 002 P = 0, 001 P < 0, 001 P < 0, 001 P = 0, 002 P = 0, 001 P < 0, 001 P < 0, 001 P = 0, 002 P = 0, 001 EDM x NDL P = 0, 897 P = 0, 744 P = 0, 442 P = 0, 390 P = 0, 297

A utilizao do teste de Mann-Whitney para uma comparao dois a dois entre os grupos, revelou diferenas estatsticas signicativas dos valores do determinismo entre o grupo de vozes saudveis e cada um dos grupos de vozes afetadas por patologias em todos os patamares da taxa de recorrncia. O mesmo fato ocorreu na comparao entre os grupos de vozes afetadas pelas patologias paralisia e edema e entre paralisia e ndulos. Entretanto, no foram observadas diferenas signicativas entre os grupos de vozes com edema e ndulos para qualquer patamar da taxa de recorrncia.

4.5.2

Comprimento Mximo das Linhas Diagonais (Lmax )

Na Figura 4.36 est ilustrada a distribuio dos valores do comprimento mximo das linhas diagonais, Lmax (denido na seo 3.3.4 na pgina 37), para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos, considerando cinco diferentes limitantes aplicados taxa de recorrncia: 1%, 2%, 3%, 4% e 5%.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

76

Figura 4.36 Distribuies dos valores de Lmax para sinais de vozes saudveis (SDL) e patolgicas (PTL).

Na Tabela 4.29 esto apresentados os valores da mdia e do desvio padro para o comprimento mximo das linhas diagonais dos sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.29 Mdia e desvio padro para Lmax .
Medida Lmax REC 1% REC 2% REC 3% REC 4% REC 5% Tipo de Voz Saudvel 466, 38 211, 80 938, 91 369, 98 1320, 75 573, 03 1779, 02 965, 48 2121, 04 1161, 18 Patolgica 97, 52 128, 63 185, 96 207, 34 329, 15 397, 90 523, 81 659, 56 830, 64 1049, 18 Valor P P < 0,001 P < 0,001 P < 0,001 P < 0,001 P < 0,001

Aps a realizao do teste no-paramtrico U de Mann-Whitney, os resultados revelaram que os grupos de vozes saudveis e patolgicas apresentam diferenas estatsticas signicativas para todos os limiares de taxa de recorrncia considerados (P < 0, 001). Na Tabela 4.30 esto apresentados os valores da mdia e do desvio padro do comprimento mximo das linhas diagonais para os sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos. A m de testar as possveis diferenas estatsticas entre os quatro grupos de sinais de voz, foi realizado o teste de anlise de varincia ANOVA no paramtrico de Kruskal-Wallis. Segundo os resultados obtidos, existem diferenas estatsticas signicativas entre pelo menos dois dos grupos analisados para todos os patamares da taxa de recorrncia considerados (P < 0, 001).

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

77

Tabela 4.30 Mdia e desvio padro para Lmax - separao das patologias.
Medida Lmax REC 1% REC 2% REC 3% REC 4% REC 5% Saudvel 466, 38 211, 80 938, 91 369, 98 1320, 75 573, 03 1779, 02 965, 48 2121, 04 1161, 18 Tipo de Voz Paralisia 71, 60 71, 02 127, 20 132, 73 202, 96 218, 89 333, 84 468, 69 518, 04 728, 26 Edema 140, 58 183, 90 265, 40 274, 61 457, 38 505, 01 729, 58 749, 20 1168, 78 1270, 35 Ndulo 69, 06 48, 88 166, 89 128, 27 394, 17 421, 67 589, 83 780, 99 940, 44 1040, 57

Na Tabela 4.31 esto apresentados os resultados da anlise estatstica realizada visando a comparao dos valores da caracterstica Lmax obtidos para sinais de vozes saudveis (SDL), sinais de vozes afetados por paralisia (PRL), edema (EDM) e ndulos (NDL) nas pregas vocais.
Tabela 4.31 Potencial estatstico da caracterstica Lmax na discriminao entre grupos de sinais de voz.
Medida Lmax REC 1% REC 2% REC 3% REC 4% REC 5% P < 0, 05 SDL x PRL P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001 Pares de Grupos de Sinais SDL x EDM SDL x NDL PRL x EDM PRL x NDL P < 0, 001 P < 0, 001 P = 0, 010 P = 0, 556 P < 0, 001 P < 0, 001 P = 0, 001 P = 0, 097 P < 0, 001 P < 0, 001 P = 0, 001 P = 0, 018 P < 0, 001 P < 0, 001 P = 0, 001 P = 0, 031 P < 0, 001 P < 0, 001 P = 0, 001 P = 0, 018 EDM x NDL P = 0, 132 P = 0, 201 P = 0, 802 P = 0, 676 P = 0, 548

A utilizao do teste de Mann-Whitney para uma comparao dois a dois entre os grupos, revelou diferenas signicativas dos valores de Lmax entre o grupo de vozes saudveis e cada um dos trs grupos de vozes patolgicas para todos os patamares da taxa de recorrncia. O mesmo fato ocorreu na discriminao entre os grupos com paralisia e com edema. Entretanto, no foram observadas diferenas signicativas entre os grupos de vozes com paralisia e com ndulos para REC 1% e REC 2%. A comparao entre os grupos de vozes com edema e com ndulos no apresentou diferenas estatsticas signicativas para qualquer limiar da taxa de recorrncia.

4.5.3

Entropia da Distribuio de Frequncias dos Comprimentos das Linhas Diagonais (ENTR)

Na Figura 4.37 est ilustrada a distribuio dos valores da entropia de Shannon da distribuio de frequncias dos comprimentos das linhas diagonais, ENTR (denida na seo 3.3.3 na pgina 37), para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos, considerando cinco diferentes limitantes aplicados taxa de recorrncia: 1%, 2%, 3%, 4% e 5%.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

78

Figura 4.37 Distribuies dos valores da medida entropia para sinais de vozes saudveis (SDL) e patolgicas (PTL).

Na Tabela 4.32 esto apresentados os valores da mdia e do desvio padro da entropia da distribuio de frequncias dos comprimentos das linhas diagonais para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.32 Mdia e desvio padro para ENTR.
Medida ENTR REC 1% REC 2% REC 3% REC 4% REC 5% Tipo de Voz Saudvel 3, 04 0, 32 3, 23 0, 43 3, 27 0, 52 3, 33 0, 58 3, 37 0, 58 Patolgica 1, 98 0, 81 2, 40 0, 83 2, 63 0, 82 2, 78 0, 81 2, 90 0, 80 Valor P P < 0,001 P < 0,001 P < 0,001 P < 0,001 P = 0,002

Como apresentado na Tabela 4.32, os resultados obtidos a partir da aplicao do teste no-paramtrico U de Mann-Whitney revelaram que os grupos de vozes saudveis e patolgicas apresentam diferenas estatsticas signicativas para todos os limiares de taxa de recorrncia considerados. Na Tabela 4.33 esto apresentados os valores da mdia e do desvio padro da medida de entropia da distribuio de frequncias dos comprimentos das linhas diagonais, para os sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

79

Tabela 4.33 Mdia e desvio padro para ENTR - separao das patologias.
Medida ENTR REC 1% REC 2% REC 3% REC 4% REC 5% Saudvel 3, 04 0, 32 3, 23 0, 43 3, 27 0, 52 3, 33 0, 58 3, 37 0, 58 Tipo de Voz Paralisia 1, 73 0, 84 2, 09 0, 85 2, 32 0, 86 2, 49 0, 85 2, 62 0, 85 Edema 2, 22 0, 76 2, 65 0, 77 2, 84 0, 74 2, 99 0, 74 3, 10 0, 72 Ndulo 2, 15 0, 65 2, 74 0, 56 3, 04 0, 54 3, 17 0, 52 3, 29 0, 51

A m de testar as possveis diferenas estatsticas entre os quatro grupos de sinais de voz, foi realizado o teste de anlise de varincia ANOVA no paramtrico de Kruskal-Wallis. Segundo os resultados obtidos, existem diferenas estatsticas signicativas entre pelo menos dois dos grupos analisados, para todos os patamares da taxa de recorrncia considerados (P < 0, 001). Na Tabela 4.34 esto apresentados os resultados da anlise estatstica realizada visando a comparao dos valores da caracterstica ENTR obtidos para sinais de vozes saudveis (SDL), sinais de vozes afetados por paralisia (PRL), edema (EDM) e ndulos (NDL) nas pregas vocais.
Tabela 4.34 Potencial estatstico da caracterstica ENTR na discriminao entre grupos de sinais de voz.
Medida ENTR REC 1% REC 2% REC 3% REC 4% REC 5% P < 0, 05 SDL x PRL P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001 Pares de Grupos de Sinais SDL x EDM SDL x NDL PRL x EDM PRL x NDL P < 0, 001 P < 0, 001 P = 0, 007 P = 0, 063 P < 0, 001 P = 0, 003 P = 0, 001 P = 0, 003 P = 0, 011 P = 0, 124 P = 0, 001 P = 0, 001 P = 0, 101 P = 0, 318 P = 0, 002 P = 0, 003 P = 0, 170 P = 0, 596 P = 0, 003 P = 0, 002 EDM x NDL P = 0, 740 P = 0, 873 P = 0, 342 P = 0, 579 P = 0, 548

A utilizao do teste de Mann-Whitney para uma comparao dois a dois entre os grupos, revelou diferenas signicativas dos valores da ENTR entre o grupo de vozes saudveis e o grupo de vozes com paralisia para todos os patamares da taxa de recorrncia. Entretanto, no houve diferenas signicativas entre os grupos de vozes saudveis e com edema para REC > 3%, nem entre os grupos de vozes saudveis e com ndulos para os casos em que REC > 2%. Considerando a comparao entre os grupos de vozes afetadas por patologias, os resultados apontaram diferenas signicativas entre os grupos de vozes com paralisia e com edema para todos os patamares da taxa de recorrncia. Na discriminao entre os grupos de vozes com paralisia e com ndulos no foram identicadas diferenas signicativas para REC 1%. A comparao entre os grupos de vozes com edema e com ndulos no apresentou diferenas estatsticas signicativas para qualquer limiar da taxa de recorrncia.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

80

4.5.4

Tendncia (TREND)

Na Figura 4.38 est ilustrada a distribuio dos valores da tendncia, TREND (denida na seo 3.3.5 na pgina 38), para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos, considerando cinco diferentes limitantes aplicados taxa de recorrncia: 1%, 2%, 3%, 4% e 5%.

Figura 4.38 Distribuies dos valores da medida Trend para sinais de vozes saudveis (SDL) e patolgicas (PTL).

Na Tabela 4.35 esto apresentados os valores da mdia e do desvio padro da medida tendncia para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.35 Mdia e desvio padro para TREND.
Medida TREND REC 1% REC 2% REC 3% REC 4% REC 5% Tipo de Voz Saudvel Patolgica 0, 113 0, 095 0, 064 0, 069 0, 114 0, 146 0, 097 0, 121 0, 094 0, 163 0, 107 0, 153 0, 076 0, 178 0, 112 0, 180 0, 066 0, 183 0, 115 0, 212 Valor P P = 0,001 P = 0,557 P = 0,272 P = 0,039 P = 0,019

Como apresentado na Tabela 4.35 os resultados obtidos a partir da aplicao do teste no-paramtrico U de Mann-Whitney revelaram que os grupos de vozes saudveis e patolgicas apresentam diferenas estatsticas signicativas apenas quando REC 1%, 4% e 5%. Na Tabela 4.36 esto apresentados os valores da mdia e do desvio padro da medida tendncia para os sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

81

Tabela 4.36 Mdia e desvio padro para TREND - separao das patologias.
Medida TREND REC 1% REC 2% REC 3% REC 4% REC 5% Saudvel 0, 113 0, 095 0, 114 0, 146 0.094 0, 163 0, 076 0, 178 0, 066 0, 183 Tipo de Voz Paralisia Edema 0, 068 0, 083 0, 059 0, 060 0, 107 0, 147 0, 081 0, 092 0, 125 0, 186 0, 084 0, 119 0, 136 0, 219 0, 086 0, 143 0, 145 0, 255 0, 083 0, 177 Ndulo 0, 066 0, 044 0, 105 0, 098 0, 111 0, 113 0, 108 0, 120 0, 104 0, 130

Na Tabela 4.37 esto apresentados os resultados obtidos, a partir da aplicao do teste de anlise de varincia ANOVA no paramtrico de Kruskal-Wallis, a m de testar as possveis diferenas estatsticas entre os quatro grupos de vozes. Segundo os resultados obtidos, existem diferenas estatsticas signicativas entre pelo menos dois dos grupos analisados, apenas quando REC 1%; nos demais casos no existem indcios de diferenas signicativas.
Tabela 4.37 Potencial estatstico da caracterstica ENTR na discriminao entre grupos de sinais de voz.
Medida TREND Valor-P P < 0, 05 Limiares da Taxa de Recorrncia REC 1% REC 2% REC 3% REC 4% REC 5% P = 0, 009 P = 0, 834 P = 0, 584 P = 0, 165 P = 0, 102

Na Tabela 4.38 esto apresentados os resultados da anlise estatstica realizada visando a comparao dos valores da caracterstica TREND obtidos para sinais de vozes saudveis (SDL), sinais de vozes afetados por paralisia (PRL), edema (EDM) e ndulos (NDL) nas pregas vocais, com REC 1%.
Tabela 4.38 Potencial estatstico da caracterstica ENTR na discriminao entre grupos de sinais de voz.
Medida TREND REC 1% P < 0, 05 SDL x PRL P < 0, 006 Pares de Grupos de Sinais SDL x EDM SDL x NDL PRL x EDM PRL x NDL P < 0, 003 P < 0, 081 P = 0, 925 P = 0, 485 EDM x NDL P = 0, 377

Assim, para REC 1%, a utilizao do teste de Mann-Whitney para uma comparao dois a dois entre os grupos, revelou diferenas signicativas dos valores de TREND entre o grupo de vozes saudveis e dois dos trs grupos de vozes patolgicas: saudvel x paralisia e saudvel x edema. Na comparao saudvel x ndulos, bem como na comparao entre os grupos de vozes afetadas por patologias, no foram reveladas diferenas estatisticamente signicativas.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

82

4.5.5

Laminaridade (LAM)

Na Figura 4.39 est ilustrada a distribuio dos valores da laminaridade, LAM (denida na seo 3.3.6 na pgina 39), para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos, considerando cinco diferentes limitantes aplicados taxa de recorrncia: 1%, 2%, 3%, 4% e 5%.

Figura 4.39 Distribuies dos valores da medida laminaridade para sinais de vozes saudveis (SDL) e patolgicas (PTL).

Na Tabela 4.39 esto apresentados os valores da mdia e do desvio padro da laminaridade para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.39 Mdia e desvio padro para LAM.
Medida LAM REC 1% REC 2% REC 3% REC 4% REC 5% Tipo de Voz Saudvel 55, 97 16, 42 81, 98 8, 25 90, 50 4, 91 94, 32 3, 23 95, 89 2, 41 Patolgica 60, 32 19, 46 75, 91 17, 83 82, 95 16, 60 85, 95 14, 93 88, 13 13, 99 Valor P P = 0,078 P = 0,213 P = 0,008 P < 0,001 P < 0,001

Como apresentado na Tabela 4.39 os resultados obtidos a partir da aplicao do teste no-paramtrico U de Mann-Whitney revelaram que os grupos de vozes saudveis e patolgicas apresentam diferenas estatsticas signicativas quando REC 3%, 4% e 5%. Por outro lado, quando REC 1% e REC 2% as diferenas apresentadas no foram estatsticas signicativas. Na Tabela 4.40 esto apresentados os valores da mdia e do desvio padro da medida laminaridade para os sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

83

Tabela 4.40 Mdia e desvio padro para LAM - separao das patologias.
Medida LAM REC 1% REC 2% REC 3% REC 4% REC 5% Saudvel 55, 97 16, 42 81, 98 8, 25 90, 50 4, 91 94, 32 3, 23 95, 89 2, 41 Tipo de Voz Paralisia 58, 42 21, 85 71, 73 20, 06 78, 26 18, 50 82, 12 16, 70 84, 24 16, 08 Edema 62, 12 18, 82 78, 79 16, 74 84, 88 15, 71 88, 15 14, 05 90, 38 12, 41 Ndulo 61, 63 12, 27 81, 48 8, 62 89, 20 7, 03 92, 11 6, 09 94, 37 4, 89

Na Tabela 4.41 esto apresentados os resultados obtidos, a partir da aplicao do teste de anlise de varincia ANOVA no paramtrico de Kruskal-Wallis, a m de testar as possveis diferenas estatsticas entre os quatro grupos de vozes. Segundo os resultados obtidos, existem diferenas estatsticas signicativas entre pelo menos dois dos grupos analisados, para os patamares da taxa de recorrncia REC 3%, 4% e 5%; nos demais casos no existem indcios de diferenas signicativas.
Tabela 4.41 Potencial estatstico da caracterstica LAM na discriminao entre grupos de sinais de voz.
Medida LAM Valor-P P < 0, 05 REC 1% P = 0, 295 Limiares da Taxa de Recorrncia REC 2% REC 3% REC 4% REC 5% P = 0, 062 P = 0, 001 P < 0, 001 P < 0, 001

Na Tabela 4.42 esto apresentados os resultados da aplicao do teste U de MannWhitney para uma comparao dois a dois entre os grupos de sinais nas situaes em que REC 3%, 4% e 5%. Na comparao entre o grupo de vozes saudveis e o grupo de vozes com paralisia foram observadas diferenas signicativas dos valores de LAM para os trs patamares. No caso da comparao saudvel x edema, houve diferena signicativa apenas para REC 5% e entre os grupos de sinais de vozes saudveis e com ndulos no foram reveladas diferenas signicativas para nenhum patamar da taxa de recorrncia. Considerando a comparao entre os grupos de vozes afetadas por patologias, os resultados apontaram diferenas signicativas entre os grupos paralisia x edema e paralisia x ndulos para os trs patamares da taxa de recorrncia. A comparao entre os grupos edema x ndulos no apresentou diferenas estatsticas signicativas para qualquer limiar da taxa de recorrncia.
Tabela 4.42 Potencial estatstico da caracterstica LAM na discriminao entre grupos de sinais de voz.
Medida LAM REC 3% REC 4% REC 5% P < 0, 05 SDL x PRL P < 0, 001 P < 0, 001 P < 0, 001 Pares de Grupos de Sinais SDL x EDM SDL x NDL PRL x EDM PRL x NDL P = 0, 327 P = 0, 792 P = 0, 013 P = 0, 015 P = 0, 060 P = 0, 383 P = 0, 005 P = 0, 005 P = 0, 023 P = 0, 615 P = 0, 004 P = 0, 001 EDM x NDL P = 0, 654 P = 0, 732 P = 0, 365

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

84

4.5.6

Comprimento Mximo das Linhas Verticais (Vmax )

Na Figura 4.40 est ilustrada a distribuio dos valores do comprimento mximo das linhas verticais, Vmax (denido na seo 3.3.8 na pgina 39), para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos, considerando cinco diferentes limitantes aplicados taxa de recorrncia: 1%, 2%, 3%, 4% e 5%.

Figura 4.40 Distribuies dos valores da medida Vmax para sinais de vozes saudveis (SDL) e patolgicas (PTL).

Na Tabela 4.43 esto apresentados os valores da mdia e do desvio padro do comprimento mximo da linhas verticais para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.43 Mdia e desvio padro para Vmax .
Medida Vmax REC 1% REC 2% REC 3% REC 4% REC 5% Tipo de Voz Saudvel Patolgica 6, 09 2, 58 10, 98 5, 14 9, 30 4, 33 16, 36 7, 68 12, 57 6, 64 20, 76 10, 18 15, 47 7, 76 24, 87 11, 57 18, 45 10, 39 29, 45 14, 22 Valor P P < 0,001 P < 0,001 P < 0,001 P < 0,001 P < 0,001

Aps a realizao do teste no-paramtrico U de Mann-Whitney, os resultados revelaram que os grupos de vozes saudveis e patolgicas apresentam diferenas estatsticas signicativas para todos os limiares de taxa de recorrncia considerados (P < 0, 001).

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

85

Na Tabela 4.44 esto apresentados os valores da mdia e do desvio padro do comprimento mximo da linhas verticais para os sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos.
Tabela 4.44 Mdia e desvio padro para Vmax - separao das patologias.
Medida Vmax REC 1% REC 2% REC 3% REC 4% REC 5% Saudvel 6, 09 2, 58 9, 30 4, 33 12, 57 6, 64 15, 47 7, 76 18, 45 10, 39 Tipo de Voz Paralisia Edema 11, 45 5, 13 11, 16 5, 47 17, 07 7, 67 16, 76 8, 08 21, 96 11, 40 20, 64 9, 31 26, 33 12, 11 24, 89 11, 94 31, 04 16, 11 29, 56 13, 35 Ndulo 9, 11 3, 97 13, 17 6, 07 17, 39 7, 68 20, 39 7, 66 24, 33 8, 35

A m de testar as possveis diferenas estatsticas entre os quatro grupos de vozes, foi realizado o teste de anlise de varincia ANOVA no paramtrico de Kruskal-Wallis. Segundo os resultados obtidos, existem diferenas estatsticas signicativas entre pelo menos dois dos grupos analisados, para todos os patamares da taxa de recorrncia considerados P < 0, 001. Na Tabela 4.45 esto apresentados os resultados da anlise estatstica realizada visando a comparao dos valores da caracterstica Vmax obtidos para sinais de vozes saudveis (SDL), sinais de vozes afetados por paralisia (PRL), edema (EDM) e ndulos (NDL) nas pregas vocais.
Tabela 4.45 Potencial estatstico da caracterstica Vmax na discriminao entre grupos de sinais de voz.
Medida Vmax REC 1% REC 2% REC 3% REC 4% REC 5% P < 0, 05 SDL x PRL P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001 P < 0, 001 Pares de Grupos de Sinais SDL x EDM SDL x NDL PRL x EDM PRL x NDL P < 0, 001 P = 0, 001 P = 0, 487 P = 0, 048 P < 0, 001 P = 0, 002 P = 0, 605 P = 0, 030 P < 0, 001 P = 0, 002 P = 0, 652 P = 0, 061 P < 0, 001 P = 0, 004 P = 0, 367 P = 0, 055 P < 0, 001 P = 0, 002 P = 0, 795 P = 0, 187 EDM x NDL P = 0, 179 P = 0, 121 P = 0, 173 P = 0, 259 P = 0, 226

A utilizao do teste U de Mann-Whitney para uma comparao dois a dois entre os grupos, revelou diferenas signicativas dos valores de Vmax entre o grupo de vozes saudveis e cada um dos trs grupos de vozes patolgicas, para todos os patamares da taxa de recorrncia. Considerando a comparao entre os grupos de vozes afetadas por patologias, os resultados apontaram diferenas signicativas entre os grupos paralisia x ndulos apenas nos casos em que REC 1% e REC 2%. A comparao entre os grupos paralisia x edema e edema x ndulos no apresentou diferenas estatsticas signicativas sob qualquer condio analisada.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

86

4.5.7

Tempo de Permanncia

Na Figura 4.41 est ilustrada a distribuio dos valores do tempo de permanncia em um estado, TT (denido na seo 3.3.7 na pgina 39), para os 53 sinais de vozes saudveis (SDL) e 118 sinais de vozes patolgicas (PTL) utilizados nos experimentos, considerando cinco diferentes limitantes aplicados taxa de recorrncia: 1%, 2%, 3%, 4% e 5%.

Figura 4.41 Distribuies dos valores da medida Traptime (TT ) para sinais de vozes saudveis (SDL) e patolgicas (PTL).

Na Tabela 4.46 esto apresentados os valores da mdia e do desvio padro do tempo de permanncia em um estado para os sinais de vozes saudveis e de vozes patolgicas analisados.
Tabela 4.46 Mdia e desvio padro para TT.
Medida TT REC 1% REC 2% REC 3% REC 4% REC 5% Tipo de Voz Saudvel 2, 38 0, 28 2, 98 0, 47 3, 60 0, 63 4, 20 0, 79 4, 66 0, 95 Patolgica 2, 69 0, 46 3, 30 0, 74 3, 87 0, 95 4, 33 1, 11 4, 86 1, 36 Valor P P < 0,001 P = 0,006 P = 0,078 P = 0,362 P = 0,274

Como apresentado na Tabela 4.46 os resultados obtidos a partir da aplicao do teste no-paramtrico U de Mann-Whitney revelaram que os grupos de vozes saudveis e patolgicas apresentam diferenas estatsticas signicativas, apenas quando REC 1% e REC 2% .

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

87

Na Tabela 4.47 esto apresentados os valores da mdia e do desvio padro para a medida do tempo de permanncia em um estado dos sinais de vozes saudveis e para os sinais de vozes patolgicas estraticados pelo tipo de patologia, ou seja, paralisia, edema e ndulos.
Tabela 4.47 Mdia e desvio padro para TT - separao das patologias.
Medida TT REC 1% REC 2% REC 3% REC 4% REC 5% Saudvel 2, 38 0, 28 2, 98 0, 47 3, 60 0, 63 4, 20 0, 79 4, 66 0, 95 Tipo de Voz Paralisia Edema 2, 69 0, 47 2, 74 0, 49 3, 23 0, 79 3, 42 0, 78 3, 70 1, 01 4, 00 0, 96 4, 12 1, 17 4, 57 1, 18 4, 50 1, 38 5, 17 1, 44 Ndulo 2, 56 0, 27 3, 24 0, 45 4, 02 0, 66 4, 53 0, 70 5, 15 0, 74

Na Tabela 4.48 esto apresentados os resultados obtidos, a partir da aplicao do teste de anlise de varincia ANOVA no paramtrico de Kruskal-Wallis, a m de testar as possveis diferenas estatsticas entre os quatro grupos de vozes. Segundo os resultados obtidos, existem diferenas estatsticas signicativas entre pelo menos dois dos grupos analisados, para os patamares da taxa de recorrncia REC 1% e REC 2%; nos demais casos no existem indcios de diferenas signicativas.
Tabela 4.48 Potencial estatstico da caracterstica TT na discriminao entre grupos de sinais de voz.
Medida TT Valor-P P < 0, 05 Limiares da Taxa de Recorrncia REC 1% REC 2% REC 3% REC 4% REC 5% P < 0, 001 P = 0, 015 P = 0, 078 P = 0, 103 P = 0, 103

Na Tabela 4.49 esto apresentados os resultados da aplicao do teste U de MannWhitney para uma comparao dois a dois entre os grupos de sinais nas situaes em que REC 1% e REC 2%.
Tabela 4.49 Potencial estatstico da caracterstica TT na discriminao entre grupos de sinais de voz.
Medida TT REC 1% REC 2% P < 0, 05 SDL x PRL P < 0, 001 P = 0, 131 Pares de Grupos de Sinais SDL x EDM SDL x NDL PRL x EDM PRL x NDL P < 0, 001 P = 0, 018 P = 0, 693 P = 0, 506 P = 0, 003 P = 0, 036 P = 0, 085 P = 0, 321 EDM x NDL P = 0, 330 P = 0, 533

A utilizao do teste U de Mann-Whitney para uma comparao dois a dois entre os grupos, revelou diferenas signicativas dos valores de TT entre os grupos saudvel x paralisia apenas para REC 1%; saudvel x edema e saudvel x ndulos para REC 1% e tambm quando REC 2%. Na comparao entre os grupos de vozes afetadas por patologias, os testes estatsticos no apontaram diferenas signicativas entre quaisquer dois grupos.

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

88

4.6 Resumo dos Resultados do Processo de Caracterizao Medidas de Quanticao de Recorrncia


Na Tabela 4.50 est apresentado o resumo dos resultados obtidos a partir de testes estatsticos realizados, visando identicar o potencial discriminativo de cada uma das medidas de quanticao de recorrncia avaliadas neste trabalho, na caracterizao de sinais de vozes saudveis e patolgicas sob diferentes taxas de recorrncia.
Tabela 4.50 Potencial discriminativo das medidas de quanticao de recorrncia.
Medidas SDL x PTL SDL x PRL SDL x EDM SDL x NDL PRL x EDM PRL x NDL EDM x NDL 1% Todas, exceto LAM Todas, exceto LAM Todas, exceto LAM Todas, exceto LAM e TREND DET, Lmax e ENTR DET e Vmax Taxa de Recorrncia (REC) 2% 3% 4% Todas, exceto Todas, exceto Todas, exceto LAM e TREND TREND e TT TT DET, Lmax , Todas, exceto Todas, exceto ENTR e Vmax TREND e TT TREND e TT Todas, exceto DET, Lmax , DET, Lmax LAM e TREND ENTR e Vmax e Vmax Todas, exceto DET, Lmax DET, Lmax , LAM e TREND e Vmax e Vmax DET, Lmax DET, Lmax , DET, Lmax , e ENTR ENTR e LAM ENTR e LAM DET, ENTR DET, Lmax , DET, Lmax , e Vmax ENTR e LAM ENTR e LAM

5% Todas, exceto TT Todas, exceto TREND e TT DET, Lmax , LAM e Vmax DET, Lmax e Vmax DET, Lmax , ENTR e LAM DET, Lmax , ENTR e LAM

Os experimentos computacionais realizados sugerem que, entre as medidas de quanticao de recorrncia avaliadas, a laminaridade e o tempo de permanncia em um estado oferecem, em potencial, uma capacidade de discriminao entre os grupos de sinais de vozes (saudveis e patolgicas) que depende sensivelmente da mxima taxa de recorrncia permitida (ou equivalentemente do maior raio). Os resultados encontrados mostram que para uma escolha do valor do raio que mantm uma taxa de recorrncia prxima (menor ou igual) a 2%, a medida de laminaridade no apresenta, em potencial, a capacidade de discriminar entre os dois grupos de sinais de voz analisados. Por outro lado, para a escolha do maior raio de forma que a taxa de recorrncia esteja prxima (ou acima) de 3%, a medida do tempo de permanncia em um estado no oferece diferenas estatsticas signicativas entre saudvel e patolgica. As demais medidas analisadas mostraram uma menor dependncia, em relao variao da taxa de recorrncia, no sentido de manter o potencial discriminativo entre esses dois grupos de sinais de voz. Observa-se que nenhuma das medidas apresenta potencial para discriminar entre vozes com edema e vozes afetadas por ndulos. A semelhana nos aspectos perceptuais e histolgicos

Caracterizao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

89

que diculta o diagnstico mdico para diferenciar essas patologias [49, 114], evidenciada nos resultados apresentados pelos testes estatsticos. Na discriminao entre as patologias de origem orgnica (edema e ndulos) e neurolgica (paralisia), as medidas oferecem potencial para discriminar entre paralisia e ndulos, bem como entre paralisia e edema. De uma forma geral, os resultados obtidos por meio da anlise estatstica baseada em testes de hipteses, sugerem que a utilizao da anlise dinmica no linear se mostra como uma tcnica promissora na tarefa de discriminao de sinais de vozes saudveis e vozes patolgicas. A anlise de desempenho da classicao dos sinais de vozes entre saudveis e patolgicos apresenta no captulo a seguir.

C APTULO 5

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

5.1 Introduo
Neste captulo so apresentados os resultados obtidos do processo de classicao de sinais de vozes saudveis e patolgicas realizado a m de investigar o potencial discriminativo de um conjunto de medidas da anlise no linear (MNL), das medidas de quanticao de recorrncia (MQR), bem como da combinao de ambos os conjuntos (MNL e MQR). O objetivo detectar a presena de desordens vocais causadas pelas patologias edema, paralisia e ndulos nas pregas vocais. Para esse m so utilizadas as seguintes medidas da anlise no linear: O mximo expoente de Lyapunov (1 ), o primeiro mnimo da funo de informao mtua mdia (FMMI ), a entropia de Shannon (H1 ), a entropia de Tsallis (Hq ), o expoente de Hurst (H ), a entropia aproximada (ApEn), a dimenso de correlao (D2 ) e a entropia de correlao (K2 ). As medidas de quanticao de recorrncia utilizadas so: A taxa de recorrncia (REC), o determinismo (DET ), o comprimento mximo das estruturas diagonais (Lmax ), a entropia da distribuio das linhas diagonais (ENTR), a tendncia (TREND), a laminaridade (LAM ), o comprimento mximo das estrututras verticiais (Vmax ) e o comprimento mdio das linhas verticais ou tempo de permanncia (TT ). Em um teste de laboratrio para deteco de uma doena, com os possveis resultados sendo positivo ou negativo, podem-se obter erros de preciso ou mesmo de interpretao. Quando o resultado for positivo, o indivduo pode ter a doena (verdadeiro positivo - VP) ou pode no t-la (falso positivo - FP). Da mesma forma, quando o resultado for negativo, o indivduo pode no ter a doena (verdadeiro negativo - VN) como pode t-la (falso negativo - FN). Na Tabela 5.1 dada a matriz de confuso que fornece as possveis situaes encontradas em um teste deste tipo.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

91

Para saber quo precisa a classicao, trs medidas so comumente utilizadas: acurcia, sensibilidade e especicidade. A acurcia mede a taxa de classicao correta global do teste, ou seja, a capacidade do teste de identicar corretamente quando h e quando no h presena da doena. A sensibilidade mede a capacidade do teste em identicar corretamente a doena entre aqueles que a possuem, ou seja, o quo sensvel o teste. A especicidade mede a capacidade do teste em excluir corretamente aqueles que no possuem a doena, ou seja, o quo especco o teste.
Tabela 5.1 Matriz de confuso em um teste de deteco da presena/ausncia de doena.
Resultado Positivo Negativo Doena Presente Verdadeiro Positivo (VP) Falso Negativo (FN) Ausente Falso Positivo (FP) Verdadeiro Negativo (VN)

A Acurcia denida como a relao do nmero de casos corretamente classicados e o nmero total de sinais analisados: VP +VN . (5.1) V P + V N + FP + FN A Sensibilidade a frao dos que obtiveram resposta positiva no teste entre aqueles que possuem a doena: VP Sensibilidade = . (5.2) V P + FN A Especicidade a frao dos que obtiveram resposta negativa no teste entre aqueles que no possuem a doena: Acura cia = Especif icidade = VN . V N + FP (5.3)

Um bom teste deve possuir alm de um alto valor para a acurcia, um alto valor para a sensibilidade e tambm para a especicidade, pois ele identicar corretamente aqueles que tm a doena e aqueles que no a tm. Os experimentos computacionais realizados neste trabalho utilizaram um total de 171 sinais de voz da vogal sustentada /ah/, sendo: 118 sinais de vozes patolgicas (45 de pacientes apresentando edema, 55 pacientes com paralisia e 18 com ndulos nas pregas vocais) e 53 pacientes com vozes saudveis. A m de se obter um bom classicador, recomendvel usar o mximo possvel de dados para o treinamento do modelo. Por outro lado, para se obter um boa estimativa de erro recomendvel usar o mximo possvel dos dados na etapa de teste [115]. Desse modo, visando utilizar a maior quantidade de dados possvel em ambas as fases do processo de classicao, criada uma partio aleatria para denir os conjuntos de treinamento e teste para a validao do modelo estatstico usando a validao cruzada com k subconjuntos (Cross-Validation k-fold) estraticada.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

92

O mtodo de validao cruzada com k subconjuntos consiste em dividir o conjunto total de dados em k subconjuntos mutuamente exclusivos aproximadamente do mesmo tamanho e, a partir disto, um desses subconjuntos utilizado para teste e os k-1 restantes so utilizados para estimao dos parmetros. Este processo realizado k vezes alternando o subconjunto de teste. A cada uma das k iteraes so obtidas as medidas de desempenho (Acurcia, Sensibilidade e Especicidade) sobre os erros e acertos da predio e ao nal de todas as iteraes, calculados a mdia e o o desvio padro, obtendo assim uma estimao da capacidade do modelo de representar o processo gerador dos dados. O termo "estraticada"signica que todos os grupos envolvidos no processo de classicao estaro representados, de forma proporcional, nos conjuntos de teste e de treino. Nesta pesquisa utilizado um valor de k igual a 10 no processo de validao cruzada. Segundo Witten et al. [115], extensivos testes sobre vrios conjuntos de dados usando diferentes tcnicas de aprendizado automtico, tm mostrado que k = 10 o nmero de subconjuntos ("folds") que tem apresentado as melhores estimativas de erro, alm de existir algumas evidncias tericas, embora no conclusivas, que sugerem esse valor. Por isso, a validao cruzada com 10 subconjuntos tem se tornado padro em termos prticos [116]. A classicao dos sinais realizada por meio do mtodo da anlise de discriminante considerando dois tipos de funes: linear (LDA - Linear Discriminant Analysis) e quadrtica (QDA - Quadratic Discriminant Analysis). Os mtodos de discriminao so muito afetados pela natureza das matrizes de covarincias dos grupos. No mtodo de discriminao linear, ou mtodo de Fisher assumido a igualdade das matrizes de covarincia para todos os grupos. Quando a hiptese de homogeneidade da covarincia dentro dos grupos violada, a anlise de discriminao quadrtica recomendada. Entretanto, ambos os mtodos supem a hiptese da distribuio normal multivariada para os dados dentro dos grupos, caracterizada pelo vetor mdia e a matriz covarincia para cada grupo. Apenas os resultados que ofereceram as melhores taxas de classicao, em termos de acurcia mdia, esto apresentados nas sees seguintes. Inicialmente, analisado o desempenho de classicao considerando apenas dois grupos de sinais: um de vozes patolgicas - formado conjuntamente por vozes com edema, paralisia ou ndulos - e o outro de vozes saudveis. Posteriormente, analisado o desempenho de classicao entre cada dois dos quatro diferentes grupos (saudvel paralisia, saudvel edema, saudvel ndulos, paralisia edema, paralisia ndulos e edema ndulos). A avaliao de desempenho na classicao dos sinais entre os grupos realizada considerando-se o poder individual de cada uma das medidas consideradas (MNL e MQR), como tambm de todas as combinaes possveis entre essas medidas. Aps identicar, entre as caractersticas analisadas, aquelas que fornecem as melhores taxas de classicao entre os diferentes grupos de sinais de vozes considerados, so avaliados os efeitos do uso de vetores hbridos, formados pela combinao das caractersticas MNL e MQR e por coecientes extrados da anlise de predio linear (LPC - Linear Predictive Coding).

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

93

5.2 Classicao de Vozes Saudveis versus Patolgicas


Nesta seo so apresentados os resultados obtidos da classicao entre os sinais de vozes saudveis e patolgicas. Os sinais de vozes patolgicas compreendem, neste caso, os sinais de todas as patologias (edema, paralisia e ndulos) agrupadas numa mesma classe.

5.2.1

Caractersticas Avaliadas Individualmente

Os resultados do processo de classicao utilizando cada caracterstica de forma individual esto apresentados nas Tabelas 5.2 e 5.3. I - Medidas da Anlise No Linear (MNL) Na Tabela 5.2 esto apresentados os resultados das medidas de desempenho referentes aplicao das medidas de anlise no linear utilizadas de forma individual na classicao entre sinais de vozes saudveis e vozes patolgicas (Saudvel x Patolgica), por meio da funo discriminante quadrtica (QDA).
Tabela 5.2 Taxas de classicao (%) Saudvel x Patolgica - MNL avaliadas individualmente (QDA)
Medidas Acurcia Sensibilidade 1 FMMI H1 Hq H 87,09 8,26 92,6712,35 ApEn 56,609,39 D2 K2 54,5111,50 62,558,03 60,8511,62 62,6112,88 79,3615,06 52,887,12

44,7715,42 59,1710,93 51,8218,53 53,4818,42 84,858,65

37,6816,76 71,9620,38 30,7116,10 83,0013,74 89,0012,38 83,009,99

Especicidade 75,3319,70 70,0013,05 81,3312,39 83,339,94 acurcia mdia mxima

Como pode ser observado, a medida do expoente de Hurst (H ) apresentou a maior taxa de acurcia mdia do classicador. Alm disso, essa mesma caracterstica ofereceu o melhor desempenho nos critrios de sensibilidade mdia e especicidade mdia. II - Medidas de Quanticao de Recorrncia (MQR) Na Tabela 5.3 esto apresentados os resultados das medidas de desempenho referentes aplicao das medidas de quanticao de recorrncia utilizadas de forma individual na classicao entre vozes saudveis e vozes patolgicas, por meio da funo discriminante quadrtica (QDA).
Tabela 5.3 Taxas de classicao (%) Saudvel x Patolgica - MQR avaliadas individualmente (QDA)
Medidas Acurcia Sensibilidade DET 76,6311,35 69,3916,57 Lmax 91,27 6,21 95,835,89 81,0012,38 ENTR 80,755,96 75,538,91 92,679,53 TREND 71,3712,13 83,7115,15 43,6713,56 LAM 51,5014,47 46,7420,80 62,3318,06 Vmax 66,708,14 55,8310,19 91,3312,09 TT 53,2010,41 42,3510,95 77,3322,43

Especicidade 92,0010,33 acurcia mdia mxima

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

94

Os resultados apresentados na Tabela 5.3 mostram que o comprimento mximo das linhas diagonais (Lmax ) oferece a maior taxa de acurcia mdia, como tambm o melhor desempenho na sensibilidade do classicador. Por outro lado, a medida de entropia (ENTR) apresenta melhor resultado no critrio de especicidade.

5.2.2

Caractersticas Avaliadas de Forma Combinada

A combinao das caractersticas visa aumentar a quantidade de informao fornecida ao classicador, no intuito de melhorar as taxas de classicao. Para isso, foram avaliadas as combinaes entre as medidas da anlise no linear (MNL), entre as medidas de recorrncia (MQR) e tambm entre todas as caractersticas desses dois conjuntos (MNL e MQR). I - Medidas da Anlise No Linear (MNL) Na Figura 5.1 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas da anlise no linear investigadas, bem como de todas as combinaes possveis entre elas, na classicao entre vozes saudveis e vozes patolgicas.

Figura 5.1 Acurcia Mdia Mxima - Saudvel x Patolgica (MNL)

Como pode ser observado no grco apresentado na Figura 5.1, o maior valor atingido pela acurcia mdia mxima pode ser obtido pela combinao de quatro medidas entre as oito empregadas (usando QDA). Uma acurcia mdia mxima de valor igual a 96,035,75% foi encontrada na combinao das seguintes medidas: entropia de Shannon (H1 ), entropia de Tsallis (Hq ), expoente de Hurst (H ) e dimenso de correlao (D2 ). Uma sensibilidade mdia de 94,467,17% e uma especicidade mdia de 98,006,32% foram encontradas para este mesmo conjunto de caractersticas.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

95

II - Medidas de Quanticao de Recorrncia (MQR) Na Figura 5.2 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas de quanticao de recorrncia investigadas, bem como de todas as combinaes possveis entre elas, na classicao entre sinais de vozes saudveis e patolgicas.

Figura 5.2 Acurcia Mdia Mxima - Saudvel x Patolgica (MQR)

No caso da combinao das medidas de recorrncia, o maior valor encontrado para a acurcia mdia mxima foi de 92,486,49%, para o conjunto das quatro medidas: Lmax , ENTR, LAM e Vmax (usando LDA). Para este mesmo conjunto de caractersticas foi encontrado um valor mdio de 93,266,60% para a sensibilidade e um valor mdio de 90,6712,65% para a especicidade. Entretanto, como pode ser observado no grco apresentado na Figura 5.2, desempenho semelhante em termos de acurcia mdia pode ser obtido por diferentes combinaes de apenas trs medidas, entre as oito consideradas, ou seja, DET, Lmax e Vmax (92,356,82%) ou Lmax , ENTR e TT (92,357,87%). III - Medidas da Anlise No Linear e Medidas de Quanticao de Recorrncia Na Figura 5.3 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual de todas as medidas dos conjuntos MNL e MQR, bem como de todas as combinaes possveis entre elas, na classicao entre vozes saudveis e vozes patolgicas. O maior valor encontrado para a acurcia mdia mxima foi de 98,272,79%, para o conjunto das seis medidas: entropia de Shannon (H1 ), entropia de Tsallis (Hq ), expoente de Hurst (H ), DET, LAM e TT (usando QDA). Para este mesmo conjunto de caractersticas foi encontrado um valor mdio de 97,504,03% para a sensibilidade e a taxa mxima de 100% para a especicidade mdia.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

96

Figura 5.3 Acurcia Mdia Mxima - Saudvel x Patolgica (MNL e MQR)

Como pode ser observado no grco apresentado na Figura 5.3, desempenho semelhante ao apresentado pela combinao de seis caractersticas, em termos de acurcia mdia, pode ser obtido por meio da combinao de apenas cinco medidas: FMMI, entropia de Shannon (H1 ), entropia de Tsallis (H1 ), expoente de Hurst (H ) e ENTR. Neste caso, o valor da acurcia mdia mxima foi de 98,242,84%. A sensibilidade e a especicidade apresentaram valores mdios iguais ao caso da combinao com seis medidas.

5.3 Classicao de Vozes Saudveis versus Vozes com Edema nas Pregas Vocais
Nesta seo so apresentados os resultados da classicao entre sinais de vozes saudveis e vozes afetadas por edema nas pregas vocais.

5.3.1

Caractersticas Avaliadas Individualmente

Os resultados do processo de classicao utilizando cada caracterstica de forma individual esto apresentados nas Tabelas 5.4 e 5.5. I - Medidas da Anlise No Linear (MNL) Na Tabela 5.4 esto apresentados os resultados das medidas de desempenho referentes utilizao das medidas de anlise no linear na classicao entre sinais de vozes saudveis e vozes com edema por meio da funo discriminante linear (LDA). Os melhores resultados encontrados mostram desempenhos praticamente idnticos, em termos de acurcia mdia, das caractersticas expoente de Hurst (H ) e dimenso de correlao D2 . Por outro lado, enquanto o expoente de Hurst apresenta os melhores resultados para a

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

97

medida de sensibilidade, a dimenso de correlao a caracterstica que fornece resultados superiores no critrio especicidade.
Tabela 5.4 Taxas de classicao (%) Saudvel x Edema - MNL avaliadas individualmente (LDA)
Medidas Acurcia Sensibilidade 1 FMMI H1 Hq H ApEn 67,9211,14 D2 85,97 11,67 K2 56,8115,76 51,6722,84 59,6721,46 62,1117,93 57,8911,48 69,5614,01 69,5612,32 85,788,33

53,5034,08 65,5021,27 58,5024,27 63,0026,27 84,5010,92 61,6733,38 73,3326,29

Especicidade 68,0020,14 53,0027,42 79,6716,21 75,6715,56 86,6715,40 71,0014,99 92,6712,35 acurcia mdia mxima

II - Medidas de Quanticao de Recorrncia (MQR) Na Tabela 5.5 esto apresentados os resultados das medidas de desempenho referentes aplicao das medidas de quanticao de recorrncia na classicao entre vozes saudveis e vozes com edema por meio da funo discriminante linear (LDA).
Tabela 5.5 Taxas de classicao (%) Saudvel x Edema - MQR avaliadas individualmente (LDA)
Medidas Acurcia Sensibilidade DET 78,7812,87 62,0025,84 Lmax 82,78 10,69 92,0019,32 76,3318,62 ENTR 80,8915,17 71,0031,16 89,0020,48 TREND 65,2214,50 73,0023,36 58,0020,68 LAM 57,2213,25 67,5021,63 48,3320,08 Vmax 73,4413,93 57,5025,41 86,6713,24 TT 65,1120,00 55,0027,39 73,3321,49

Especicidade 92,3313,70 acurcia mdia mxima

Os resultados apresentados na Tabelas 5.5 mostram que a maior taxa de acurcia mdia foi obtida a partir da caracterstica Lmax . A utilizao desta mesma caracterstica tambm ofereceu o melhor desempenho na sensibilidade do classicador. Por outro lado, a caracterstica DET apresentou melhor desempenho no critrio especicidade.

5.3.2

Caractersticas Avaliadas de Forma Combinada

Nesta seo so apresentados os resultados dos experimentos em que foram avaliadas as combinaes entre as medidas da anlise no linear, entre as medidas de recorrncia e tambm entre todas as caractersticas desses dois conjuntos, com o objetivo de classicar os sinais de vozes saudveis e com edema nas pregas vocais. I - Medidas da Anlise No Linear (MNL) Na Figura 5.4 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas da anlise no linear (MNL), bem como de todas as combinaes possveis entre elas, na classicao de vozes saudveis e vozes afetadas por edema. O maior valor da acurcia mdia mxima, igual a 98,753,95%, foi obtido usando a anlise disciminante linear a partir da combinao de cinco caractersticas: entropia de Shannon

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

98

(H1 ), entropia de Tsallis (Hq ), expoente de Hurst (H ), dimenso de correlao (D2 ) e entropia de correlao (K2 ). Para este mesmo conjunto de caractersticas foi vericado um valor de sensibilidade mdia igual a 96,6710,54% e uma taxa de especicidade mdia de 100%.

Figura 5.4 Acurcia Mdia Mxima - Saudvel x Edema (MNL)

II - Medidas de Quanticao de Recorrncia (MQR) Na Figura 5.5 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas de quanticao de recorrncia investigadas, bem como de todas as combinaes possveis entre elas, na classicao entre sinais de vozes saudveis e vozes afetadas por edema.

Figura 5.5 Acurcia Mdia Mxima - Saudvel x Edema (MQR)

O maior valor da acurcia mdia mxima, igual a 91,787,96%, foi obtido usando a anlise disciminante linear com a combinao de cinco caractersticas: DET, Lmax , ENTR,

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

99

Vmax e TT. Para este mesmo conjunto de caractersticas foi vericado um valor de sensibilidade mdia igual a 89,0011,74% e uma especicidade mdia de 94,009,66%. III - Medidas da Anlise No Linear e Medidas de Quanticao de Recorrncia Na Figura 5.6 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual de todas as medidas dos conjuntos das MNL e MQR, bem como de todas as combinaes possveis entre elas, na classicao entre sinais de vozes saudveis e vozes com edema.

Figura 5.6 Acurcia Mdia Mxima - Saudvel x Edema (MNL e MQR)

No caso da combinao de todas as caractersticas, a m de classicar as vozes em saudveis ou afetadas por edema, o maior valor encontrado para a acurcia mdia mxima foi de 98,753,95%, para o conjunto das cinco medidas: entropia de Shannon (H1 ), entropia de Tsallis (Hq ), expoente de Hurst (H ), dimenso de correlao (D2 ) e entropia de correlao (K2 ), usando LDA. Para este mesmo conjunto de caractersticas foi encontrado um valor mdio de 96,6710,54% para a sensibilidade e para a especicidade mdia a taxa mxima de 100%.

5.4 Classicao de Vozes Saudveis versus Vozes com Paralisia nas Pregas Vocais
Nesta seo so apresentados os resultados da classicao entre sinais de vozes saudveis e vozes afetadas por paralisia nas pregas vocais.

5.4.1

Caractersticas Avaliadas Individualmente

Os resultados do processo de classicao utilizando cada caracterstica de forma individual esto apresentados nas Tabelas 5.6 e 5.7.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

100

I - Medidas da Anlise No Linear (MNL) Na Tabela 5.6 esto apresentados os resultados das medidas de desempenho referentes utilizao das medidas de anlise no linear na classicao de vozes saudveis e vozes com paralisia por meio da funo discriminante quadrtica (QDA). Os melhores resultados encontrados mostram desempenhos praticamente idnticos, em termos de acurcia mdia, das caractersticas expoente de Hurst (H ) e dimenso de correlao (D2 ). Em relao as medidas de sensibilidade e de especicidade, o expoente de Hurst a caracterstica que forneceu resultados superiores.
Tabela 5.6 Taxas de classicao (%) Saudvel x Paralisia - MNL avaliadas individualmente (QDA)
Medidas Acurcia Sensibilidade 1 FMMI H1 Hq 68,5510,71 H 88,09 10,52 ApEn D2 K2 58,5513,97 68,6414,12 65,828,48 69,2918,88 87,5011,79 61,9616,75 46,6731,23 76,6726,29 45,0030,48 81,0018,19 92,6712,35 69,6722,74

42,6717,34 67,0011,49 53,0011,60 58,3314,76 82,0015,81

Especicidade 76,3318,62 69,6722,74 79,0014,06 79,0016,43 94,009,66 acurcia mdia mxima

II - Medidas de Quanticao de Recorrncia (MQR) Na Tabela 5.7 esto apresentados os resultados das medidas de desempenho referentes aplicao das medidas de quanticao de recorrncia na classicao entre vozes saudveis e vozes afetadas por paralisia por meio da funo discriminante quadrtica (QDA).
Tabela 5.7 Taxas de classicao (%) Saudvel x Paralisia - MQR avaliadas individualmente (QDA)
Medidas Acurcia Sensibilidade DET 85,184,77 75,6715,56 Lmax 92,64 7,20 94,678,64 90,3313,92 ENTR 88,096,10 82,3313,70 94,339,17 TREND 65,5513,54 79,3311,74 51,3322,29 LAM 60,4515,00 49,6723,44 71,6716,57 Vmax 78,9110,32 67,0014,86 91,0012,38 TT 61,3619,19 44,0025,08 79,6722,58

Especicidade 94,0013,50 acurcia mdia mxima

Os resultados encontrados mostram que a maior taxa de acurcia mdia foi obtida a partir da caracterstica Lmax . A utilizao desta mesma caracterstica oferece, tambm, o melhor desempenho para o critrio de sensibilidade. Por outro lado, as caractersticas DET e ENTR apresentaram as maiores taxas no critrio especicidade.

5.4.2

Caractersticas Avaliadas de Forma Combinada

Nesta seo so apresentados os resultados dos experimentos em que foram avaliadas as combinaes entre as medidas da anlise no linear (MNL), entre as medidas de recorrncia (MQR) e tambm entre ambas (MNL e MQR), com o objetivo de classicar os sinais de vozes saudveis e com paralisia nas pregas vocais.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

101

I - Medidas da Anlise No Linear (MNL) Na Figura 5.7 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas da anlise no linear investigadas, bem como de todas as combinaes possveis entre elas, na classicao de vozes saudveis e com paralisia. Como pode ser observado, o melhor desempenho do classicador, em termos de acurcia mdia mxima, pode ser obtido com a combinao de quatro caractersticas, usando (QDA). Dois diferentes conjuntos apresentaram o valor de acurcia mdia mxima igual a 97,505,27%. Esses conjuntos so formados pelas caractersticas: FMMI, expoente de Hurst (H ), dimenso de correlao (D2 ) e, alm dessas, em um deles aparece a entropia de Shannon (H1 ) e no outro a entropia de Tsallis (Hq ). Para os dois conjuntos foi vericado um valor de sensibilidade mdia igual a 93,3314,05% e uma taxa de especicidade mdia de 100%.

Figura 5.7 Acurcia Mdia Mxima - Saudvel x Paralisia (MNL)

II - Medidas de Quanticao de Recorrncia (MQR) Na Figura 5.8 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas de quanticao de recorrncia investigadas, bem como de todas as combinaes possveis entre elas, na classicao entre sinais de vozes saudveis e com paralisia. Como pode ser observado a partir do grco apresentado na Figura 5.8 o maior valor para a acurcia mdia mxima ocorre a partir da combinao de cinco medidas de recorrncia. Um valor mximo de 95,454,79% foi obtido do conjunto das medidas: DET, Lmax , ENTR, Vmax e TT. Para este mesmo conjunto de caractersticas a sensibilidade mdia atingiu o valor de 92,679,53% e a especicidade mdia o valor de 98,335,27%.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

102

Figura 5.8 Acurcia Mdia Mxima - Saudvel x Paralisia (MQR)

III - Medidas da Anlise No Linear e Medidas de Quanticao de Recorrncia Na Figura 5.9 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual de todas as caractersticas dos conjuntos MNL e MQR, bem como de todas as combinaes possveis entre elas, na classicao entre vozes saudveis e vozes afetadas por paralisia.

Figura 5.9 Acurcia Mdia Mxima - Saudvel x Paralisia (MNL e MQR)

Como pode ser observado a partir do grco mostrado na Figura 5.9, a taxa de acurcia mdia mxima atingiu o maior valor possvel a partir da combinao de apenas trs caractersticas. Dois diferentes conjuntos com trs caractersticas apresentaram a taxa de sucesso mxima de 100% para as medidas de desempenho utilizadas. Ambos so formados pelas caractersticas: FMMI e expoente de Hurst; alm dessas, em um deles aparece o DET e no outro a ENTR.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

103

5.5 Classicao de Vozes Saudveis versus Vozes com Ndulos nas Pregas Vocais
Nesta seo so apresentados os resultados da classicao entre sinais de vozes saudveis e vozes afetadas por ndulos nas pregas vocais.

5.5.1

Caractersticas Avaliadas Individualmente

Os resultados do processo de classicao utilizando cada caracterstica de forma individual esto apresentados nas Tabelas 5.8 e 5.9. I - Medidas da Anlise No Linear (MNL) Na Tabela 5.8 esto apresentados os resultados das medidas de desempenho referentes utilizao das medidas de anlise no linear na classicao entre vozes saudveis e vozes afetadas por ndulos vocais, por meio da funo discriminante linear (LDA).
Tabela 5.8 Taxas de classicao (%) Saudvel x Ndulo - MNL avaliadas individualmente (LDA)
Medidas Acurcia Sensibilidade
acurcia

FMMI

H1

Hq

ApEn

D2

K2

60,7113,98 51,9614,15 74,4617,70 73,0418,53 94,29 7,38 50,0047,14 60,0031,62 60,0031,62 60,0031,62 95,0015,81

65,9519,57 84,2917,10 66,1916,41 75,0026,35 75,0042,49 75,0035,36 66,3325,65 86,3313,37 64,0016,76

Especicidade 64,3321,08 49,3314,04 79,3320,95 77,3321,82 94,339,17 mdia mxima

Apresentando desempenhos de classicao idnticos para LDA e QDA, o expoente de Hurst a caracterstica que ofereceu os melhores resultados para as trs medidas de desempenho. II - Medidas de Quanticao de Recorrncia (MQR) Na Tabela 5.9 esto apresentados os resultados das medidas de desempenho referentes aplicao das medidas de quanticao de recorrncia na discriminao entre vozes saudveis e vozes afetadas por ndulos, por meio da funo discriminante quadrtica (QDA).
Tabela 5.9 Taxas de classicao (%) Saudvel x Ndulo - MQR avaliadas individualmente (QDA)
Medidas Acurcia Sensibilidade DET 84,6410,11 65,0024,15 Lmax 93,04 7,36 95,0015,81 92,679,53 ENTR 87,1414,21 80,0025,82 90,3313,92 TREND 56,4317,96 95,0015,81 43,3319,88 LAM 53,7516,72 80,0025,82 44,6717,79 Vmax 75,8911,94 50,0040,82 84,3318,33 TT 63,2121,69 65,0033,75 63,0026,03

Especicidade 92,679,53 acurcia mdia mxima

O maior valor para a acurcia mdia foi obtido com a utilizao da caracterstica Lmax . A maior taxa da medida de sensibilidade foi encontrada com o uso de duas diferentes caracte-

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

104

rsticas Lmax e TREND. Por outro lado, o maior valor para a especicidade mdia foi obtido tambm com o uso de duas caractersticas DET e Lmax .

5.5.2

Caractersticas Avaliadas de Forma Combinada

Nesta seo so apresentados os resultados dos experimentos em que foram avaliadas as combinaes entre as medidas da anlise no linear (MNL), entre as medidas de recorrncia (MQR) e tambm entre todas as caractersticas dos dois conjuntos (MNL e MQR), com o objetivo de discriminar entre os sinais de vozes saudveis e os sinais com ndulos nas pregas vocais. I - Medidas da Anlise No Linear (MNL) Na Figura 5.10 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas da anlise no linear (MNL), bem como de todas as combinaes possveis entre elas, na discriminao entre vozes saudveis e vozes afetadas por ndulos. Como pode ser observado, o maior valor da acurcia mdia mxima pode ser obtido com a combinao de apenas trs caractersticas, usando LDA. Tais caractersticas so: as entropias de Shannon (H1 ) e de Tsallis (Hq ) e o expoente de Hurst (H ). Neste caso, a acurcia mdia mxima atingiu o valor de 98,574,52%, a sensibilidade mdia o valor de 95,0015,81% e a especicidade a taxa mxima de 100%.

Figura 5.10 Acurcia Mdia Mxima - Saudvel x Ndulo (MNL)

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

105

II - Medidas de Quanticao de Recorrncia (MQR) Na Figura 5.11 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas de quanticao de recorrncia (MQR), bem como de todas as combinaes possveis entre elas, na classicao entre vozes saudveis e vozes com ndulos.

Figura 5.11 Acurcia Mdia Mxima - Saudvel x Ndulo (MQR)

Como pode ser observado a partir do grco apresentado na Figura 5.11 o maior valor para a acurcia mdia mxima ocorre a partir da combinao de apenas duas medidas de recorrncia. Um valor mximo de 95,716,90% foi obtido na combinao de quadro diferentes conjuntos de caractersticas, envolvendo em todos eles a medida Lmax . As outras caractersticas foram DET, ENTR, LAM e TT. Em todos esses casos a sensibilidade mdia atingiu o valor de 95,0015,81% e a especicidade mdia o valor de 96,008,43%. III - Medidas da Anlise No Linear e Medidas de Quanticao de Recorrncia Na Figura 5.12 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das caractersticas dos grupos MNL e MQR, bem como de todas as combinaes possveis entre elas, na classicao entre vozes saudveis e vozes afetadas por ndulos nas pregas vocais. Dois diferentes conjuntos formados por cinco caractersticas apresentaram o maior valor encontrado para a acurcia mdia mxima, usando QDA. Em ambos os conjuntos esto presentes as caractersticas: expoente de Hurst (H ), DET e LAM ; Alm dessas, em um deles aparecem FMMI e ENTR e no outro as entropias de Shannon (H1 ) e de Tsallis (Hq ). Para tais conjuntos, a acurcia mxima foi de 98,753,95%, a sensibilidade mdia de 95,0015,81% e especicidade mdia de 100%.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

106

Figura 5.12 Acurcia Mdia Mxima - Saudvel x Ndulo (MNL e MQR)

5.6 Classicao de Vozes Patolgicas - Paralisia versus Edema


Nesta seo so apresentados os resultados da classicao entre sinais de vozes afetadas por paralisia e vozes com edema nas pregas vocais.

5.6.1

Caractersticas Avaliadas Individualmente

Os resultados do processo de classicao utilizando cada caracterstica de forma individual esto apresentados nas Tabelas 5.10 e 5.11. I - Medidas da Anlise No Linear (MNL) Na Tabela 5.10 esto apresentados os resultados das medidas de desempenho referentes utilizao das medidas de anlise no linear (MNL) na discriminao entre sinais de vozes afetadas por paralisia e vozes afetadas por edema, por meio da funo discriminante linear (LDA).
Tabela 5.10 Taxas de classicao (%) Paralisia x Edema - MNL avaliadas individualmente (LDA)
Medidas Acurcia Sensibilidade
acurcia

FMMI

H1

Hq

ApEn

D2

K2

41,0011,97 64,00 18,38 52,0019,32 52,0019,32 59,0014,49 57,3319,17 54,6724,10 52,6721,93 30,0019,86 61,5028,29 45,0026,67 47,0028,60 58,0019,75 61,6724,91 58,3330,68 52,5024,23 56,6719,12 54,6719,76 61,0022,88 51,6730,88 53,3331,23 51,6735,53

Especicidade 49,0010,78 67,0016,81 mdia mxima

Como pode ser observado na Tabela 5.10, os maiores valores encontrados para a acurcia mdia e para a especicidade mdia foram obtidos com o uso do primeiro mnimo da funo de informao mtua (FMMI ). No caso da medida de sensibilidade mdia as caractersticas (FMMI ) e a entropia aproximada (ApEn) apresentaram desempenhos semelhantes.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

107

II - Medidas de Quanticao de Recorrncia (MQR) Na Tabela 5.11 esto apresentados os resultados das medidas de desempenho referentes aplicao das medidas de quanticao de recorrncia (MQR) na classicao entre vozes afetadas por paralisia e vozes afetadas por edema, por meio da funo discriminante linear (LDA).
Tabela 5.11 Taxas de classicao (%) Paralisia x Edema - MQR avaliadas individualmente (LDA)
Medidas Acurcia Sensibilidade DET 63,00 18,29 77,1430,24 Lmax 63,00 17,67 44,7121,54 72,8229,70 ENTR 57,0018,29 61,2120,90 47,9629,01 TREND 46,0020,66 55,6221,00 41,9527,96 LAM 55,0015,81 64,3129,54 45,0523,87 Vmax 49,009,94 59,9530,42 41,5415,85 TT 52,0012,29 42,7128,87 57,5526,40

Especicidade 48,3229,03 acurcia mdia mxima

As caractersticas DET e Lmax apresentaram desempenhos praticamente idnticos, em termos dos valores de acurcia mdia mxima. O melhor resultado relativo sensibilidade mdia foi obtido com o uso da medida DET e a especicidade mdia alcanou taxa mais alta por meio do uso de Lmax .

5.6.2

Caractersticas Avaliadas de Forma Combinada

Nesta seo so apresentados os resultados dos experimentos em que foram avaliadas as combinaes entre as medidas da anlise no linear (MNL), entre as medidas de recorrncia (MQR) e entre as caractersticas desses dois conjuntos (MNL e MQR), com o objetivo de classicar os sinais de vozes afetadas por paralisia e vozes com edema nas pregas vocais. I - Medidas da Anlise No Linear (MNL)

Figura 5.13 Acurcia Mdia Mxima - Paralisia x Edema (MNL)

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

108

Na Figura 5.13 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas da anlise no linear (MNL), bem como de todas as combinaes possveis entre elas, na discriminao entre os sinais de vozes com paralisia e vozes com edema, por meio da funo discriminante quadrtica (QDA). O maior valor para a acurcia mdia mxima foi de 77,0020,39%, obtido com a combinao de seis caractersticas, 1 , FMMI, Hq , ApEn, D2 e K2 . A medida de sensibilidade mdia alcanou 74,1726,19% e a especicidade mdia o valor mximo de 81,6725,40% para esse mesmo conjunto de caractersticas. II - Medidas de Quanticao de Recorrncia (MQR) Na Figura 5.14 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas de quanticao de recorrncia (MQR), bem como de todas as combinaes possveis entre elas, na classicao entre vozes afetadas por paralisia e vozes com edema, por meio da funo discriminante linear (LDA).

Figura 5.14 Acurcia Mdia Mxima - Paralisia x Edema (MQR)

O maior valor da acurcia mdia mxima foi obtido por trs diferentes conjuntos com a combinao de trs caractersticas. Na combinao das caractersticas DET, Lmax e TREND a acurcia mxima foi de 68,0011,35%. Para esta mesma combinao foi atingido o melhor valor para a sensibilidade, 75,0020,00%. Em outra combinao: DET, LAM e TT, com acurcia mxima de 68,0016,19%, foi obtida o melhor valor para a especicidade mdia de 72,3320,43% e na terceira combinao: DET, TREND e LAM, acurcia mdia mxima foi de 68,0014,76%.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

109

III - Medidas da Anlise No Linear e Medidas de Quanticao de Recorrncia Na Figura 5.15 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das caractersticas referentes s medidas MNL e MQR, bem como de todas as combinaes possveis entre elas, na classicao de sinais de vozes afetadas por paralisia e de vozes com edema nas pregas vocais, por meio da funo discriminante quadrtica (QDA).

Figura 5.15 Acurcia Mdia Mxima - Paralisia x Edema (MNL e MQR)

Como pode ser observado a partir do grco mostrado na Figura 5.15, o maior valor para a acurcia mdia mxima foi obtido na combinao de oito caractersticas: 1 , ApEn, D2 , K2 , DET, ENTR, TREND e TT. Para este conjunto foi obtida uma acurcia mdia mxima de 84,3313,52%, uma sensibilidade mdia igual a 86,6717,21% e especicidade mdia de 81,6725,40%.

5.7 Classicao de Vozes Patolgicas - Paralisia versus Ndulo


Nesta seo so apresentados os resultados da classicao entre sinais de vozes afetadas por paralisia e vozes com ndulos nas pregas vocais.

5.7.1

Caractersticas Avaliadas Individualmente

Os resultados do processo de classicao utilizando cada caracterstica de forma individual esto apresentados nas Tabelas 5.12-5.13.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

110

I - Medidas da Anlise No Linear (MNL) Na Tabela 5.12 esto apresentados os resultados das medidas de desempenho referentes utilizao das medidas de anlise no linear (MNL) na classicao entre sinais de vozes afetadas por paralisia e vozes com ndulos, por meio da funo discriminante linear (LDA).
Tabela 5.12 Taxas de classicao (%) Paralisia x Ndulo - MNL avaliadas individualmente (LDA)
Medidas Acurcia Sensibilidade 1 52,3223,34 FMMI 66,43 23,87 H1 Hq H ApEn D2 K2 55,8917,74 49,6415,65 38,3920,29 58,0017,51 64,0025,03 63,5026,67 60,0039,44 45,0043,78 30,0042,16 70,0042,16 75,0042,49 75,0042,49 56,3320,03 51,3320,32 39,3322,38 48,3321,44 58,3325,15 55,0035,18

60,0045,95 65,0033,75

Especicidade 50,6721,99 68,3326,49 acurcia mdia mxima

O primeiro mnimo da funo de informao mtua (FMMI ) a caracterstica que apresentou os maiores valores para as medidas de acurcia mdia e especidade mdia. O maior valor para a sensibilidade mdia foi obtido por meio da dimenso de correlao (D2 ) e, tambm, com o uso da entropia de correlao (K2 ). II - Medidas de Quanticao de Recorrncia (MQR) Na Tabela 5.13 esto apresentados os resultados das medidas de desempenho referentes aplicao das medidas de quanticao de recorrncia (MQR) na classicao entre sinais de vozes afetadas por paralisia e vozes com ndulos, por meio da funo discriminante linear (LDA).
Tabela 5.13 Taxas de classicao (%) Paralisia x Ndulo - MQR avaliadas individualmente (LDA)
Medidas Acurcia Sensibilidade DET 55,0021,95 65,0041,16 Lmax 39,8213,10 23,3325,09 43,3319,12 ENTR 51,0724,47 56,6743,89 51,0025,09 TREND 36,3111,40 46,6737,52 34,0017,55 LAM 50,3622,03 65,0041,16 47,3325,03 Vmax 55,18 10,86 73,3337,02 48,679,19 TT 49,4618,79 53,3344,31 48,0019,58

Especicidade 52,6724,88 acurcia mdia mxima

O comprimento mximo das estruturas verticais (Vmax ) e o determinismo (DET ) apresentaram desempenho semelhante, no caso dos maiores valores para a acurcia mdia. O melhor desempenho para a sensibilidade mdia foi registrado com uso de Vmax e o maior valor para especicidade mdia foi encontrado com a caracterstica DET.

5.7.2

Caractersticas Avaliadas de Forma Combinada

Nesta seo so apresentados os resultados dos experimentos em que foram avaliadas as combinaes entre as medidas da anlise no linear (MNL), entre as medidas de recorrncia (MQR) e tambm entre todas as caractersticas de ambos os conjuntos (MNL e MQR), com o objetivo de classicar os sinais de vozes afetadas por paralisia e com ndulos nas pregas vocais, por meio da funo discriminante quadrtica (QDA).

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

111

I - Medidas da Anlise No Linear (MNL) Na Figura 5.16 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas da anlise no linear (MNL), bem como de todas as combinaes possveis entre elas, na classicao entre sinais de vozes afetadas por paralisia e vozes com ndulos. Como pode ser observado no grco apresentado na Figura 5.16, o maior valor para a acurcia mdia mxima foi obtido com a combinao de cinco caractersticas: 1 , H, ApEn, D2 e K2 . Para esse conjunto de caractersticas o valor da acurcia mxima foi de 86,0015,42%; a medida de sensibilidade mdia alcanou 65,0041,16% e a especicidade mdia o valor mximo de 96,6710,54%.

Figura 5.16 Acurcia Mdia Mxima - Paralisia x Ndulo (MNL)

II - Medidas de Quanticao de Recorrncia (MQR) Na Figura 5.17 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas de quanticao de recorrncia investigadas, bem como de todas as combinaes possveis entre elas, na classicao entre sinais de vozes afetadas por paralisia e vozes com ndulos. Como pode ser observado no grco apresentado na Figura 5.17, o maior valor para a acurcia mdia mxima foi obtido com a combinao de apenas duas caractersticas, usando QDA. Tal conjunto formado pelas medidas: DET e LAM e apresentou valor mximo de acurcia mdia igual a 75,7116,46%; sensibilidade mdia igual a 6547,43% e especicidade mdia de 81,2419,99%.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

112

Figura 5.17 Acurcia Mdia Mxima - Paralisia x Ndulo (MQR)

III - Medidas da Anlise No Linear e Medidas de Quanticao de Recorrncia Na Figura 5.18 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual de todas as caractersticas dos conjuntos MNL e MQR, bem como de todas as combinaes possveis entre elas, na classicao de sinais de vozes afetadas por paralisia e de vozes com ndulos nas pregas vocais.

Figura 5.18 Acurcia Mdia Mxima - Paralisia x Ndulo (MNL e MQR)

O conjunto com o menor nmero de caractersticas que atingiu o maior valor para acurcia mdia mxima composto por seis medidas: 1 , H, ApEn, K2 , ENTR e TT, usando QDA. Para esse conjunto de caractersticas, a acurcia foi de 88,0017,35%, a sensibilidade atingiu 75,0042,49% e a especicidade foi de 96,6710,54%.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

113

5.8 Classicao de Vozes Patolgicas - Edema versus Ndulo


Nesta seo so apresentados os resultados da classicao entre sinais de vozes afetadas por edema e vozes com ndulos nas pregas vocais.

5.8.1

Caractersticas Avaliadas Individualmente

Os resultados do processo de classicao utilizando cada caracterstica de forma individual esto apresentados nas Tabelas 5.14-5.15. I - Medidas da Anlise No Linear (MNL) Na Tabela 5.14 esto apresentados os resultados das medidas de desempenho referentes utilizao das medidas de anlise no linear (MNL) na classicao entre sinais de vozes afetadas por edema e vozes com ndulos por meio da funo discriminante linear (LDA).
Tabela 5.14 Taxas de classicao (%) Edema x Ndulo - MNL avaliadas individualmente (LDA)
Medidas Acurcia Sensibilidade 1 FMMI H1 Hq H ApEn D2 65,00 19,00 K2 59,0027,37 65,0047,43 55,8323,59 52,8621,32 60,0016,56 39,7613,89 39,7613,89 57,6218,81 52,0019,47

50,0040,82 45,0049,72 30,0042,16 20,0034,96 55,0043,78 60,0045,95 70,0042,16

Especicidade 53,0022,39 63,5022,49 42,0020,98 47,0022,39 58,5023,46 47,5018,45 60,0021,08 acurcia mdia mxima

A dimenso de correlao (D2 ) a caracterstica que apresentou os maiores valores para as medidas de acurcia mdia e sensibilidade mdia. O maior valor para a especicidade mdia foi obtido por meio da caracterstica FMMI. II - Medidas de Quanticao de Recorrncia (MQR) Na Tabela 5.15 esto apresentados os resultados das medidas de desempenho referentes aplicao das medidas de quanticao de recorrncia (MQR) na classicao entre sinais de vozes afetadas por edema e vozes com ndulos, por meio da funo discriminante linear (LDA).

Tabela 5.15 Taxas de classicao (%) Edema x Ndulo - MQR avaliadas individualmente (LDA)
Medidas Acurcia Sensibilidade DET 39,2921,77 23,3334,43 Lmax 55,24 16,64 91,6718,00 41,5024,27 ENTR 45,2418,10 36,6742,16 49,0028,07 TREND 51,6718,75 43,3343,89 56,0028,94 LAM 44,2920,27 26,6737,02 52,0030,20 Vmax 51,4327,38 66,6740,82 46,5029,73 TT 53,1023,62 66,6740,82 48,5020,96

Especicidade 48,5036,21 acurcia mdia mxima

O comprimento mximo das linhas diagonais (Lmax ) a caracterstica que apresentou os maiores valores para as medidas de acurcia mdia e sensibilidade mdia. Por outro lado, o uso da caracterstica TREND apresentou o maior valor para a especicidade mdia.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

114

5.8.2

Caractersticas Avaliadas de Forma Combinada

Nesta seo so apresentados os resultados dos experimentos em que foram avaliadas as combinaes entre as medidas da anlise no linear (MNL), entre as medidas de quanticao recorrncia (MQR) e tambm entre todas as caractersticas desses dois conjuntos (MNL e MQR), com o objetivo de classicar os sinais de vozes afetadas por edema e com ndulos nas pregas vocais. I - Medidas da Anlise No Linear (MNL) Na Figura 5.19 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas da anlise no linear (MNL), bem como de todas as combinaes possveis entre elas, na classicao entre sinais de vozes afetadas por edema e vozes com ndulos, por meio da anlise discriminante quadrtica (QDA).

Figura 5.19 Acurcia Mdia Mxima - Edema x Ndulo (MNL)

Como pode ser observado no grco apresentado na Figura 5.19, o maior valor para a acurcia mdia mxima foi obtido com a combinao de seis caractersticas: 1 , FMMI, H1 , Hq , H e D2 . Para esse conjunto de caractersticas o valor da acurcia mdia mxima foi de 76,0013,29%, a medida de sensibilidade mdia alcanou 55,0036,89% e a especicidade mdia o valor mximo de 86,6717,21%. II - Medidas de Quanticao de Recorrncia (MQR) Na Figura 5.20 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual das medidas de quanticao de recorrncia (MQR), bem como de todas as combinaes possveis entre elas, na classicao entre sinais de vozes afetadas por edema e vozes com ndulos, por meio da anlise discriminante linear (LDA).

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

115

Figura 5.20 Acurcia Mdia Mxima - Edema x Ndulo (MQR)

Como pode ser observado no grco apresentado na Figura 5.20, o maior valor para a acurcia mdia mxima, igual a 63,1013,89%, foi obtido com a combinao de trs caractersticas: Lmax , TREND e Vmax . Para esse mesmo conjunto de caractersticas, o melhor valor para a sensibilidade mdia foi de 81,6724,15% e para a especicidade mdia de 58,0019, 75%. III - Medidas da Anlise No Linear e Medidas de Quanticao de Recorrncia Na Figura 5.21 esto representados os valores da acurcia mdia mxima determinados a partir da avaliao individual de todas as caractersticas dos conjuntos MNL e MQR, bem como de todas as combinaes possveis entre elas, na classicao entre sinais de vozes afetadas por edema e de vozes com ndulos nas pregas vocais, por meio da anlise discriminante quadrtica (QDA).

Figura 5.21 Acurcia Mdia Mxima - Edema x Ndulo (MNL e MQR)

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

116

Como pode ser observado a partir do grco mostrado na Figura 5.21, o maior valor para a acurcia mdia mxima foi obtido na combinao de oito caractersticas: 1 , H1 , Hq , H, ApEn, D2 , Lmax e ENTR, para o qual obteve-se acurcia de 82,509,50%; sensibilidade de 55,0043,78% e especicidade de 93,3314,50%.

5.9 Intervalos de Conana para a Mdia


Muito embora a mdia da amostra seja til como um estimador no tendencioso da mdia da populao, no existe maneira de expressar o grau de acurcia de um estimador por ponto. De fato, matematicamente falando, a probabilidade de que a mdia da amostra seja exatamente correta como um estimador nula. Um intervalo de conana para a mdia um intervalo estimado, construdo com respeito mdia da amostra, pelo qual pode ser especicada a probabilidade de o intervalo incluir o valor da mdia da populao. O grau de conana, associado com um intervalo de conana, indica a percentagem de tais intervalos que incluiriam o parmetro que se est estimando [117]. O uso da distribuio normal na estimao da mdia populacional garantido para qualquer grande amostra (tipicamente maior ou igual a 30), sendo-o para uma pequena amostra (menor que 30), somente se a populao for normalmente distribuda e o desvio padro da populaco conhecido. No caso em que a amostra pequena e a populao normalmente distribuda, mas o desvio padro da populao desconhecido, os valores so distribudos de acordo com a distribuio t de Student [117].

5.9.1

A Desigualdade de Chebyshev

Quando a amostra pequena (menor que 30) e se supe que a populao no normalmente distribuda, nem a distribuio normal de probabilidade, nem a distribuio t de Student podem ser usadas na construo de um intervalo de conana [117]. Contudo, um teorema geral desenvolvido pelo matemtico russo Chebyshev estabelece que, a probabilidade de que a mdia da amostra esteja dentro de k unidades de erro padro da mdia da populao dada por 1 , (5.4) k2 em que x a mdia amostral, a mdia populacional e sx o erro padro da amostra. A expresso 5.4 geralmente referida como a desigualdade de Chebyshev. A desigualdade de Chebyshev , de fato, raramente usada na construo de intervalos de conana para a mdia, mas o nico mtodo apropriado, dada uma populao decididamente no normal e uma amostra pequena [117]. Ao usar a desigualdade de Chebyshev na estimao por intervalo, iguala-se o fator (1 1/k 2 ) ao grau de conana desejado, resolve-se para k, construindo-se, ento, o intervalo de conana utilizando a mdia da amostra como termo central. Os intervalos de conana P (|x | ksx ) 1

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

117

mais frequentemente utilizados so os de 90%, 95% e 99%. No caso desta pesquisa foi adotado um nvel de conana de 95%, dessa forma, o valor calculado para o parmetro k foi de 4,47.

5.10 Resumo dos Resultados do Processo de Classicao


Na Tabela 5.16 so apresentados os intervalos de conana para a acurcia, construdos a partir dos resultados obtidos nos testes de validao cruzada com 10 iteraes e utilizando a desigualdade de Chebychev. So mostrados os resultados nos casos em que a classicao foi realizada considerando-se o desempenho das caractersticas de forma individual (INDIV ), bem como a partir da combinao de caractersticas (COMBO). Neste caso, os resultados apresentados indicam a combinao feita com o menor nmero de caractersticas que atingiu o maior valor de acurcia mdia mxima.
Tabela 5.16 Intervalos de conana para a acurcia do sistema de classicao dos sinais de voz analisados (nvel de conana de 95%).
Classicao SDL x PTL MNL INDIV COMBO [75,41%;98,77%] [87,90%; 100%] H H1 , Hq , H e D2 (QDA) (QDA) [69,47%; 100%] [93,17%; 100%] D2 H1 , Hq , H, D2 e K2 (LDA) (LDA) [73,22%; 100%] [90,05%; 100%] H FMMI, H, D2 e H1 ou Hq (QDA) (QDA) [83,86%; 100%] [92,18%; 100%] H H1 , Hq e H MQR INDIV [82,49%; 100%] Lmax (QDA) [67,67%; 97,89%] Lmax (LDA) [82,46%; 100%] Lmax (QDA) [82,64%; 100%] Lmax COMBO [83,31%; 100%] Lmax , ENTR, LAM e Vmax (LDA) [80,53%; 100%] DET, Lmax , ENTR, Vmax e TT (LDA) [88,68%, 100%] DET, Lmax , ENTR Vmax e TT (QDA) [89,08%, 100%] Lmax e DET ou ENTR ou LAM ou TT (QDA) [51,96%; 84,04%](3) [45,11%; 90,89](4) [47,14; 88,86](5) (3) DET, L max , TREND (4) DET, LAM e TT (5) DET, TREND e LAM (LDA) [52,44%; 98,98%] DET e LAM (QDA) [43,47%; 82,73%] Lmax , TREND e Vmax (LDA) MNL e MQR COMBO [94,33%; 100%] H1 , Hq , H, DET, LAM e TT (QDA) [93,17%; 100%] H1 , Hq , H, D2 e K2 (LDA) 100% FMMI, H e DET ou ENTR (QDA) [93,17%; 100%] H, DET, LAM com FMMI e ENTR ou com H1 e Hq (QDA) [65,22%; 100%]

SDL x EDM

SDL x PRL

SDL x NDL

PRL x EDM

(LDA e QDA) [38,02%; 89,98%]

(LDA) [48,18%; 100%]

(QDA) [38,02%; 87,98%](1) [37,15%; 88,85%](2)


(1) L max (2) DET

FMMI

1 , FMMI, Hq , ApEn, D2 e K2 (QDA) [64,20%; 100%] 1 , H, ApEn, D2 e K2 (QDA) [57,21%; 94,79%] 1 , FMMI, H1 , H q , H e D2 (QDA)

PRL x NDL

(LDA) [32,69%; 100%] FMMI (LDA) [38,14%; 91,86%] D2

(LDA) [39,83%; 70,53%] Vmax (LDA) [31,72%; 78,76%] Lmax

EDM x NDL

(LDA)

(LDA)

1 , ApEn, D2 , K2 , DET, ENTR TREND e TT (QDA) [63,48%; 100%] 1 , H, ApEn, K2 , ENTR e TT (QDA) [69,07%; 95,93%] 1 , H1 , Hq , ApEn, D2 , H Lmax e ENTR (QDA)

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

118

Pode ser observado, a partir dos resultados apresentados na Tabela 5.16, a grande diculdade em se discriminar entre as patologias avaliadas usando as medidas consideradas (MNL e MQR). Diante disso, investigado na prxima seo os efeitos no processo de classicao entre os diferentes grupos de sinais de vozes, do uso de vetores hbridos obtidos da combinao das caractersticas dos conjuntos MNL e MQR com coecientes extrados na anlise de predio linear.

5.11 Combinando Anlise Linear e Anlise No Linear


Visando avaliar os efeitos da utilizao simultnea de caractersticas extradas da anlise linear e da anlise no linear nas taxas de classicao entre sinais de vozes saudveis e vozes patolgicas, e entre sinais de vozes apresentando diferentes patologias, foram considerados vetores hbridos, formados pela combinao de caractersticas dos conjuntos MNL e MQR e vetores de coecientes obtidos por meio da anlise LPC - Codicao por Predio Linear. A predio linear usada intensivamente em sistemas de codicao de voz [118]. Ela usa uma combinao linear de amostras passadas do sinal para construir uma previso para o valor que melhor se aproxima das novas entradas. Assim, para um sinal s(n) tem-se que
k=p k=1

sp (n) =

ak s(n k ),

(5.5)

fornece o valor previsto do sinal no instante n. Em que p a ordem do preditor e os coecientes ak so chamados de coecientes de predio linear (LPC) e devem ser escolhidos de modo a aproximar sp (n) de s(n). Neste trabalho de pesquisa os coecientes LPC foram calculados por meio do mtodo da autocorrelao [119]. Inicialmente investigado o potencial discriminativo dos coecientes LPC obtidos a partir de preditores de diferentes ordens (8, 12, 16, 20, 24, 28 e 32) na classicao entre as diferentes classes de sinais consideradas. Em seguida, so avaliados os efeitos do processo de classicao considerando-se a utilizao de vetores hbridos, formados pela combinao dos coecientes LPC e as caractersticas que apresentaram os melhores valores de acurcia, de forma individual e combinada, conforme apresentado na Tabela 5.16.

5.11.1 Classicao Saudvel x Patolgica


De acordo com os resultados apresentados na Tabela 5.16, a medida de quanticao de recorrncia Lmax a caracterstica que apresentou, entre todas as avaliadas (MNL e MQR) de maneira individual, o maior valor de acurcia mdia na classicao entre sinais de vozes saudveis e sinais de vozes patolgicas.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

119

Na Tabela 5.17 esto apresentados os resultados das medidas de desempenho referentes combinao de Lmax com os vetores de coecientes LPC na classicao entre sinais de vozes saudveis e sinais de vozes patolgicas, por meio da funo discriminante linear (LDA).
Tabela 5.17 Taxas de classicao (%) Saudvel x Patolgica - LPC e Lmax (LDA)
Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 94,790,59 92,832,02 12 94,850,99 93,462,34 95,470,80 16 95,770,69 96,601,04 95,391,12 20 96,080,87 96,161,55 96,041,07 24 96,12 0,75 96,232,03 96,071,08 28 95,691,18 95,851,86 95,621,19 32 95,900,67 96,731,56 95,531,19

Especicidade 95,670,97 acurcia mdia mxima

Na Figura 5.22 esto representados os valores da acurcia mdia determinados a partir da avaliao individual da caracterstica Lmax , da anlise LPC e da combinao dessas caractersticas na classicao entre sinais de vozes saudveis e de vozes patolgicas.

Figura 5.22 Acurcia Mdia - Saudvel x Patolgica

Como pode ser observado, o uso de vetores hbridos formados pela combinao da medida Lmax e coecientes LPC resultou em um aumento signicativo nos valores da acurcia do sistema de classicao. Por exemplo, o valor de 94,790,59% (Tabela 5.17) obtido para a acurcia mdia com o uso do vetor hbrido formado por Lmax e oito coecientes LPC est em torno de seis pontos percentuais acima do melhor resultado obtido usando apenas anlise LPC com 28 coecientes (88,411,47%) e trs pontos percentuais acima do maior valor de acurcia mdia obtida com o uso apenas de Lmax (91,276,21%). Ainda de acordo com os resultados mostrados na Tabela 5.16, a combinao de caractersticas H1 , Hq , H, DET, LAM e TT foi a que apresentou o maior valor para a acurcia mdia na classicao entre sinais de vozes saudveis e vozes patolgicas. Na Tabela 5.18 esto apresentados os resultados das medidas de desempenho referentes combinao das caractersticas H1 , Hq , H, DET, LAM e TT com os vetores de coecientes LPC, por meio da funo discriminante linear (LDA).

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

120

Tabela 5.18 Taxas de classicao (%) Saudvel x Patolgica - LPC+MNL+MQR (LDA)


Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 97,400,66 98,111,19 12 97,190,71 98,051,20 96,800,94 16 97,390,64 98,810,86 96,750,98 20 97,660,52 98,740,59 97,170,74 24 97,560,69 98,431,20 97,170,69 28 97,641,08 99,180,79 96,951,52 32 98,11 0,43 99,940,20 97,280,58

Especicidade 97,090,92 acurcia mdia mxima

Na Figura 5.23 esto apresentados os valores mdios da acurcia obtidos na combinao das caractersticas das MNL e MQR, bem como os obtidos pela anlise LPC e tambm pela combinao dos coecientes LPC e esse conjunto de caractersticas.

Figura 5.23 Acurcia Mdia - Saudvel x Patolgica

Como pode ser observado, o valor mximo da acurcia mdia apresentado na Tabela 5.18 foi de 98,110,43%, obtido com o acrscimo de 32 coecientes LPC combinao das caractersticas das MNL e MQR. Assim, pode-se concluir que a formao dos vetores hbridos no contribuiu para uma melhora signicativa, em termos da acurcia mdia, em relao ao obtido apenas com a combinao das caractersticas MNL e MQR, ou seja, 98,272,79%.

5.11.2 Classicao Saudvel x Edema


De acordo com os resultados apresentados na Tabela 5.16, a dimenso de correlao (D2 ) a caracterstica que apresentou o maior valor de acurcia mdia na classicao entre sinais de vozes saudveis e sinais de vozes afetadas por edema nas pregas vocais. Na Tabela 5.19 esto apresentados os resultados das medidas de desempenho referentes combinao de D2 com os vetores de coecientes LPC na classicao entre sinais de vozes saudveis e sinais de vozes afetadas por edema, por meio da funo discriminante quadrtica (QDA).

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

121

Tabela 5.19 Taxas de classicao (%) Saudvel x Edema - LPC e D2 (QDA)


Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 93,892,06 95,281,97 12 96,431,15 97,360,93 94,842,77 16 97,381,22 98,181,71 96,021,68 20 98,370,82 98,931,03 97,421,26 24 98,610,94 98,991,12 97,961,79 28 98,850,80 99,370,66 97,961,56 32 99,05 0,65 99,560,67 98,171,61

Especicidade 91,513,42 acurcia mdia mxima

Na Figura 5.24 esto representados os valores da acurcia mdia determinados a partir da avaliao individual da caracterstica D2 , da anlise LPC e da combinao dessas caractersticas na classicao entre sinais de vozes saudveis e de vozes afetadas por edema.

Figura 5.24 Acurcia Mdia - Saudvel x Edema

possvel observar um ganho em torno de oito pontos percentuais na taxa de acurcia mdia no caso da combinao de D2 com oito coecientes LPC, em relao classicaco utilizando apenas a caracterstica D2 . Alm disso, uma acurcia mdia acima de 98% foi obtida com o uso de vetores hbridos contendo a partir de 20 coecientes da anlise LPC. O valor mximo da acurcia mdia foi de 99,050,65% com o uso de 32 coecientes LPC combinados com D2 . Ainda de acordo com os resultados mostrados na Tabela 5.16, a combinao das caractersticas H1 , Hq , H, D2 e K2 foi a que apresentou o maior valor para a acurcia mdia na classicao entre sinais de vozes saudveis e vozes afetadas por edema. Na Tabela 5.20 esto apresentados os resultados das medidas de desempenho referentes combinao desse conjunto de caractersticas com os vetores de coecientes LPC, por meio da funo discriminante quadrtica (QDA). Na Figura 5.25 esto apresentados os valores mdios da acurcia obtidos na combinao das caractersticas dos conjuntos MNL e MQR, bem como os obtidos pela anlise LPC e ainda pela combinao dos coecientes LPC e esse conjunto de medidas.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

122

Tabela 5.20 Taxas de classicao (%) Saudvel x Edema - LPC+MNL+MQR (QDA)


Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 97,300,95 98,111,29 12 98,170,50 99,310,63 96,241,04 16 98,690,82 99,870,27 96,672,24 20 99,090,65 100 97,531,76 24 99,440,60 99,810,30 98,821,56 28 99,680,36 99,940,20 99,251,02 32 99,72 0,27 99,940,20 99,350,75

Especicidade 95,911,81 acurcia mdia mxima

Figura 5.25 Acurcia Mdia - Saudvel x Edema

Como pode ser observado, h um ganho com uso de vetores hbridos a partir de 20 coecientes LPC. A acurcia mdia atinge um valor mximo de 99,720,27% com o uso de 32 coecientes LPC e o conjunto das caractersticas H1 , Hq , H, D2 e K2 .

5.11.3 Classicao Saudvel x Paralisia


De acordo com os resultados apresentados na Tabela 5.16, a medida de quanticao de recorrncia Lmax a caracterstica que apresentou o maior valor de acurcia mdia na classicao entre sinais de vozes saudveis e sinais de vozes com paralisia. Na Tabela 5.21 esto apresentados os resultados das medidas de desempenho referentes combinao da caracterstica Lmax com os vetores de coecientes LPC na classicao entre sinais de vozes saudveis e sinais de vozes com paralisia, por meio da funo discriminante linear (LDA).
Tabela 5.21 Taxas de classicao (%) Saudvel x Paralisia - LPC e Lmax (LDA)
Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 97,090,67 96,791,31 12 97,280,73 97,421,24 97,141,22 16 97,311,01 97,671,48 96,961,68 20 97,400,88 97,671,07 97,141,59 24 97,74 1,10 98,551,07 96,961,80 28 97,280,52 97,231,16 97,330,91 32 97,530,80 96,670,94 97,391,31

Especicidade 97,391,11 acurcia mdia mxima

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

123

Na Figura 5.26 esto representados os valores da acurcia mdia determinados a partir da avaliao individual da caracterstica Lmax , da anlise LPC e da combinao dessas caractersticas na classicao entre sinais de vozes saudveis e de vozes com paralisia. Como pode ser observado, o uso de vetores hbridos oferece uma melhora siginicativa na acurcia mdia do processo de classicao, em torno de cinco pontos percentuais para o caso do uso de oito coecientes LPC, em relao classicao realizada apenas com a caracterstica Lmax .

Figura 5.26 Acurcia Mdia - Saudvel x Paralisia

Ainda de acordo com os resultados mostrados na Tabela 5.16, as combinaes das caractersticas FMMI e H com DET ou com ENTR apresentaram a taxa mxima de 100% para a acurcia mdia na classicao entre sinais de vozes saudveis e vozes afetadas por paralisia.

5.11.4 Classicao Saudvel x Ndulo


De acordo com os resultados apresentados na Tabela 5.16, o expoente de Hurst (H ) a caracterstica que apresentou o maior valor de acurcia mdia na classicao entre sinais de vozes saudveis e sinais de vozes com ndulos. Na Tabela 5.22 esto apresentados os resultados das medidas de desempenho referentes combinao do expoente de Hurst com os vetores de coecientes LPC na classicao entre sinais de vozes saudveis e sinais de vozes com ndulos, por meio da funo discriminante quadrtica (QDA).
Tabela 5.22 Taxas de classicao (%) Saudvel x Ndulo - LPC e H (QDA)
Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 94,511,57 93,332,16 12 95,920,91 95,531,61 97,042,50 16 98,081,37 97,801,71 98,891,29 20 99,72 0,40 99,870,27 99,261,56 24 99,620,62 99,750,61 99,260,96 28 99,340,50 99,430,55 99,071,31 32 99,670,39 99,750,44 99,440,89

Especicidade 97,961,84 acurcia mdia mxima

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

124

Pode ser observado que com o uso de vetores hbridos formados pela combinao do expoente de Hurst (H ) com 20 coecientes LPC a acurcia mdia atingiu um valor de 99,720,40%. Este resultado cerca de cinco pontos percentuais acima do resultado obtido apenas com o uso de H (94,297,38%) e est acima, inclusive, do melhor resultado encontrado utilizando combinaes dos conjuntos MNL e MQR (98,75%3,95%). Na Figura 5.27 esto representados os valores da acurcia mdia determinados a partir da avaliao individual da caracterstica H, da anlise LPC e da combinao dessas caractersticas na classicao entre sinais de vozes saudveis e de vozes com ndulos.

Figura 5.27 Acurcia Mdia - Saudvel x Ndulo

Ainda de acordo com os resultados mostrados na Tabela 5.16, as combinaes das caractersticas H, DET e LAM com FMMI e ENTR ou com H1 e Hq foram as que apresentaram os melhores valores para a acurcia mdia na classicao entre sinais de vozes saudveis e vozes afetadas por ndulos. Na Tabela 5.23 esto apresentados os resultados das medidas de desempenho referentes combinao do conjunto de caractersticas H, DET, LAM, FMMI e ENTR com os vetores de coecientes LPC.
Tabela 5.23 Taxas de classicao (%) Saudvel x Ndulo - LPC+MNL+MQR (QDA)
Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 99,530,38 99,430,55 12 99,720,45 100 98,891,79 16 99,860,23 100 99,440,89 20 99,95 0,15 100 99,810,59 24 99,860,23 100 99,440,89 28 99,95 0,15 100 99,810,59 32 99,910,20 100 99,630,78

Especicidade 99,810,59 acurcia mdia mxima

Na Figura 5.28 esto apresentados os valores mdios da acurcia obtidos na combinao das caractersticas H, DET, LAM, FMMI e ENTR, bem como os obtidos pela anlise LPC e ainda pela combinao dos coecientes LPC e esse conjunto de caractersticas. Como pode ser observado a combinao das cinco caractersticas com o acrscimo de 12 coecientes LPC

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

125

Figura 5.28 Acurcia Mdia - Saudvel x Ndulo

apresentou resultado idntico ao encontrado com o uso combinado de H com 20 coecientes LPC (Tabela 5.22). A acurcia mdia atingiu o valor de 99,950,15% com o uso combinado das caractersticas H, DET, LAM, FMMI e ENTR e 20 coecientes LPC.

5.11.5 Classicao Paralisia x Edema


De acordo com os resultados apresentados na Tabela 5.16, o primeiro mnimo da funo de informao mtua mdia FMMI a caracterstica que apresentou o maior valor de acurcia mdia na classicao entre sinais de vozes com paralisia e sinais de vozes com edema. Na Tabela 5.24 esto apresentados os resultados das medidas de desempenho referentes combinao da caracterstica FMMI com os vetores de coecientes LPC na classicao entre sinais de vozes com paralisia e sinais de vozes com edema, por meio da funo discriminante quadrtica (QDA).
Tabela 5.24 Taxas de classicao (%) Paralisia x Edema - LPC e FMMI (QDA)
Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 76,432,56 69,194,83 12 80,842,32 75,994,03 86,742,22 16 83,742,80 78,423,65 90,223,74 20 88,411,67 86,022,05 91,332,59 24 92,751,54 94,291,55 90,893,53 28 93,861,78 92,342,00 95,701,77 32 94,52 1,30 93,372,08 95,932,16

Especicidade 85,263,17 acurcia mdia mxima

Na Figura 5.29 esto representados os valores da acurcia mdia determinados a partir da avaliao individual da caracterstica H, da anlise LPC e da combinao dessas caractersticas na classicao entre sinais de vozes com paralisia e de vozes com edema. Como pode ser observado, o acrscimo dos coefcientes LPC oferece um alto ganho em relao ao resultado da classicao quando se usa apenas a caracterstica H. Entretanto, o valor

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

126

Figura 5.29 Acurcia Mdia - Paralisia x Edema

mximo observado para acurcia mxima ca abaixo de 95%, ou seja, em torno do mesmo valor obtido usando apenas a anlise LPC com 32 coecientes. De acordo com os resultados mostrados na Tabela 5.16, a combinao de caractersticas 1 , ApEn, D2 , K2 , DET, ENTR, Trend e TT foi a que apresentou o maior valor para a acurcia mdia na classicao entre sinais de vozes afetadas por paralisia e vozes afetadas por edema. Na Tabela 5.25 esto apresentados os resultados das medidas de desempenho referentes combinao conjunto de caractersticas 1 , ApEn, D2 , K2 , DET, ENTR, Trend e TT com os vetores de coecientes LPC, por meio da funo discriminante quadrtica (QDA).
Tabela 5.25 Taxas de classicao (%) Paralisia x Edema - LPC+MNL+MQR (QDA)
Medidas Acurcia Sensibilidade
acurcia

Nmero de coecientes LPC 8 96,321,29 95,132,48 12 97,951,33 97,312,52 98,491,26 16 99,420,73 99,620,62 99,251,14 20 99,88 0,25 99,740,54 100 24 99,820,39 99,740,81 99,890,34 28 99,770,56 99,620,87 99,890,34 32 99,470,43 99,360,91 99,570,56

Especicidade 97,312,04 mdia mxima

Na Figura 5.30 esto apresentados os valores mdios da acurcia obtidos na combinao das caractersticas das MNL e MQR, bem como os obtidos pela anlise LPC e ainda pela combinao dos coecientes LPC e esse conjunto de caractersticas. Como pode ser observado, o uso de vetores hbridos formados pela combinao das caractersticas 1 , ApEn, D2 , K2 , DET, ENTR, Trend e TT com oito coecientes LPC apresenta ganho em torno de 12 pontos percentuais na taxa de acurcia mdia, em relao ao resultado obtido usando apenas as medidas dos conjuntos MNL e MQR. A acurcia mdia mxima atinge 99,880,25% quando a combinao feita com 20 coecientes LPC.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

127

Figura 5.30 Acurcia Mdia - Paralisia x Edema

5.11.6 Classicao Paralisia x Ndulo


De acordo com os resultados apresentados na Tabela 5.16, o primeiro mnimo da funo de informao mtua mdia FMMI a caracterstica que apresentou o maior valor de acurcia mdia na classicao entre sinais de vozes com paralisia e sinais de vozes com ndulos. Na Tabela 5.26 esto apresentados os resultados das medidas de desempenho referentes combinao da caracterstica FMMI com os vetores de coecientes LPC na classicao entre esses dois grupos de sinais por meio da funo discriminante quadrtica (QDA).
Tabela 5.26 Taxas de classicao (%) Paralisia x Ndulo - LPC e D2 (QDA)
Medidas Acurcia Sensibilidade
acurcia

Nmero de coecientes LPC 8 85,263,04 81,883,90 12 91,722,35 90,152,95 96,482,95 16 94,651,53 93,862,12 97,041,79 20 96,981,38 97,021,42 96,852,48 24 98,630,86 98,970,81 97,592,15 28 98,90 0,54 99,210,41 97,961,62 32 98,080,71 98,361,00 97,222,66

Especicidade 95,563,05 mdia mxima

Na Figura 5.31 esto representados os valores da acurcia mdia determinados a partir da avaliao individual da caracterstica FMMI, da anlise LPC e da combinao dessas caractersticas na classicao entre sinais de vozes com paralisia e de vozes com ndulos. Como pode ser notado, o uso de vetores hbridos oferece alto ganho no processo de classicao quando comparado aos resultados obtidos com o uso individual da caracterstica FMMI. Por outro lado, pode-se observar a partir da Figura 5.31 que o ganho da combinao diminui consideravelmente, em relao ao oferecido pela anlise LPC, com o aumento do nmero de coecientes. Ainda de acordo com os resultados mostrados na Tabela 5.16, a combinao de caractersticas 1 , H, ApEn, K2 , ENTR e TT foi a que apresentou o maior valor para a acurcia mdia

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

128

Figura 5.31 Acurcia Mdia - Paralisia x Ndulo

na classicao entre sinais de vozes afetadas por paralisia e vozes afetadas por ndulos nas pregas vocais. Na Tabela 5.27 esto apresentados os resultados das medidas de desempenho referentes combinao das caractersticas 1 , H, ApEn, K2 , ENTR e TT com os vetores de coecientes LPC, por meio da funo discriminante quadrtica (QDA).
Tabela 5.27 Taxas de classicao (%) Paralisia x Ndulo - LPC+MNL+MQR (QDA)
Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 99,110,81 99,870,41 12 99,271,05 99,740,54 98,442,11 16 99,510,57 100 98,671,55 20 99,760,39 100 99,331,07 24 99,760,39 100 99,331,07 28 99,840,51 100 99,561,41 32 99,92 0,26 100 99,780,70

Especicidade 97,781,81 acurcia mdia mxima

Na Figura 5.32 esto apresentados os valores mdios da acurcia obtidos na combinao das caractersticas das MNL e MQR, bem como os obtidos pela anlise LPC e ainda pela combinao dos coecientes LPC e esse conjunto de caractersticas. Como pode ser observado, a acurcia mdia j atinge valores acima de 99% com o uso de vetores hbridos formados pelo conjunto 1 , H, ApEn, K2 , ENTR e TT e oito coecientes LPC. O maior valor obtido para a acurcia mdia foi de 99,920,26% quando a combinao das caractersticas dos conjuntos MNL e MQR feita com 32 coecientes LPC.

5.11.7 Classicao Edema x Ndulo


De acordo com os resultados apresentados na Tabela 5.16, a dimenso de correlao (D2 ) a caracterstica que apresentou o maior valor de acurcia mdia na classicao entre sinais de vozes com paralisia e sinais de vozes com ndulos.

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

129

Figura 5.32 Acurcia Mdia - Paralisia x Ndulo

Na Tabela 5.28 esto apresentados os resultados das medidas de desempenho referentes combinao de D2 com os vetores de coecientes LPC na classicao entre sinais de vozes com paralisia e sinais de vozes com ndulos, por meio da funo discriminante quadrtica (QDA).
Tabela 5.28 Taxas de classicao (%) Edema x Ndulo - LPC e D2 (QDA)
Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 79,784,33 75,386,01 12 88,702,74 87,744,09 90,675,42 16 92,322,00 92,152,49 92,673,64 20 97,461,33 98,171,44 96,002,04 24 97,321,08 97,740,79 96,444,08 28 98,70 1,22 99,350,91 97,332,73 32 85,652,60 90,543,61 75,567,91

Especicidade 88,894,80 acurcia mdia mxima

Na Figura 5.33 esto representados os valores da acurcia mdia determinados a partir da avaliao individual da caracterstica H, da anlise LPC e da combinao dessas caractersticas na classicao entre sinais de vozes com paralisia e de vozes com ndulos. Como pode ser obervado, a combinao de H com a os resultados da anlise LPC apresentou alto ganho na taxa de acurcia do classicador. O maior valor para a acurcia mdia foi de 98,701,22 para a combinao com 28 coecientes LPC. De acordo com os resultados mostrados na Tabela 5.16, a combinao de caractersticas 1 , H1 , Hq , ApEn, D2 , Lmax e ENTR foi a que apresentou o maior valor para a acurcia mdia na classicao entre sinais de vozes afetadas por edema e vozes afetadas por ndulos nas pregas vocais. Na Tabela 5.29 esto apresentados os resultados das medidas de desempenho referentes combinao do conjunto de caractersticas 1 , H1 , Hq , ApEn, D2 , Lmax e ENTR com os vetores de coecientes LPC, por meio da funo discriminante quadrtica (QDA). Na Figura 5.34 esto apresentados os valores mdios da acurcia obtidos na combinao das caractersticas das MNL e MQR, bem como os obtidos pela anlise LPC e ainda pela

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

130

Figura 5.33 Acurcia Mdia - Edema x Ndulo Tabela 5.29 Taxas de classicao (%) Edema x Ndulo - LPC+MNL+MQR (QDA)
Medidas Acurcia Sensibilidade Nmero de coecientes LPC 8 98,910,92 99,030,94 12 99,130,75 99,890,34 97,562,45 16 99,570,51 100 98,671,55 20 99,420,75 100 98,222,30 24 99,86 0,31 100 99,560,94 28 99,780,35 100 99,331,07 32 98,990,85 98,821,18 99,331,07

Especicidade 98,671,87 acurcia mdia mxima

combinao dos coecientes LPC e esse conjunto de caractersticas. Como pode ser observado, no caso da combinao das medidas MNL e MQR com 8 coecientes LPC, a acurcia mdia do classicador atingiu 98,910,92%. Este resultado est cerca de 16 pontos percentuais acima do valor mximo obtido sem a incluso dos coecientes LPC. O valor mximo para a acurcia mdia foi de 99,860,31% com o uso de 24 coecientes LPC.

Figura 5.34 Acurcia Mdia - Edema x Ndulo

Classicao de Sinais de Voz Usando Medidas da Anlise No Linear e Medidas de Recorrncia

131

5.12 Discusso
A anlise dos resultados encontrados na classicao realizada com as caractersticas de forma individual mostra que as medidas de quanticao de recorrncia (MQR) apresentaram resultados relativamente superiores aos obtidos com a utilizao das medidas da anlise no linear (MNL) para o caso da classicao entre sinais de vozes saudveis e vozes com paralisia nas pregas vocais. Em contrapartida, a situao oposta nos casos de discriminao entre os sinais de vozes saudveis e afetadas por edema, ou na classicao entre os sinais com as patologias paralisia e ndulos, ou ainda, no caso edema versus ndulos. Os desempenhos das caractersticas de ambos os grupos (MNL e MQR) podem ser considerados equivalentes nos casos da discriminao entre os grupos de vozes saudveis e afetados por ndulos ou no caso da classicao paralisia versus edema. Ainda em relao ao desempenho de cada caracterstica individual na tarefa de discriminar dois a dois os diversos grupos de sinais de vozes avaliados, possvel notar a predominncia de trs medidas: expoente de Hurst, dimenso de correlao e do primeiro mnimo da funo de informao mtua, para o caso das medidas da anlise no linear (MNL). Por outro lado, em relao as medidas de quanticao de recorrncia (MQR), a caracterstica referente medida do comprimento mximo das linhas diagonais responsvel pelo melhor desempenho na maioria dos testes realizados. Como j esperado, a combinao adequada de caractersticas apresentou resultados superiores na taxa de sucesso do sistema de classicao, em relao ao uso de qualquer caracterstica avaliada de forma individual. Entretanto, o aumento do ganho revelado nas medidas de desempenho no diretamente proporcional ao nmero de caractersticas envolvidas na combinao. Por exemplo, em nenhum dos casos avaliados a combinao de todas as caractersticas resultou na mxima taxa de classicao encontrada. Da, a importncia de se buscar a combinao adequada entre as caractersticas a m de se obter o melhor desempenho do classicador. A partir dos resultados apurados, possvel observar que a combinao, entre elas, das medidas de anlise no linear (MNL) avaliadas apresenta resultados superiores, em termos de acurcia mdia, aos obtidos com a combinao das medidas de quanticao de recorrncia (MQR). Por outro lado, a combinao das caractersticas de ambos os conjuntos (MNL e MQR) oferece ganho signicativo no desempenho do sistema de classicao para a maioria dos casos analisados. Em relao utilizao de vetores hbridos, formados pela combinao de medidas dos conjuntos MNL e MQR e por coecientes extrados da anlise LPC, os resultados mostram que houve ganho na maioria dos casos analisados. Principalmente, nos casos de discriminao entre sinais de vozes afetados por diferentes patologias.

C APTULO 6

Trabalhos Correlatos e Estado da Arte


Neste captulo, so apresentados os resultados de vrios trabalhos encontrados na literatura que utilizam a anlise no linear, seja na caracterizao dos sons da fala, seja na discriminao de vozes patolgicas.

6.1 Caracterizao dos Sons da Fala


Martnez et al. [120] fazem uso do maior expoente de Lyapunov como estimativa da quantidade de caos presente no sistema de produo da fala para uma variedade de sons sonoros da Lngua Espanhola. Os resultados obtidos mostram a presena de um expoente de Lyapunov mximo positivo em todos os sinais considerados, conrmando, segundo os autores, a natureza catica desses sinais de voz. Em seu trabalho de Tese, Petry [28] utiliza medidas de invariantes dinmicas no lineares para desenvolver um sistema de reconhecimento automtico de locutor. As invariantes dinmicas consideradas so: dimenso fractal, dimenso de correlao e maior expoente de Lyapunov. O desempenho do sistema proposto, incluindo as medidas das invariantes no lineares, comparado com o desempenho apresentado por um sistema de referncia (sistema-base) composto por vetores formados com 16 coecientes mel-cepstrais. O sistema proposto apresenta uma reduo de 17,65% na taxa de erro igual (EER) em relao ao sistema de referncia. Pitsikalis et al. [121] investigaram o uso da anlise dinmica no linear em sinais de voz para a classicao de fonemas isolados, por meio da extrao das medidas invariantes: dimenses fractais generalizadas e expoentes de Lyapunov, obtendo uma taxa de sucesso de 78%. Por outro lado, como medida de comparao, foi realizado outro processo de classicao com um vetor por fonema, composto por 12 coecientes cepstrais, obtendo-se 67% de taxa de sucesso na classicao dos fonemas. Lindgren et al. [122] e Johnson et al. [123] realizaram experimentos de reconhecimento de fonemas isolados, distribudos em 39 classes, usando caractersticas extradas do espao de fase reconstrudo (expoentes de Lyapunov e dimenso de correlao). Os resultados obtidos

Trabalhos Correlatos e Estado da Arte

133

caram entorno de 75% da acurcia obtida com o uso de um sistema de referncia baseado em coecientes mel-cepstrais. Fazendo-se uso de uma combinao de ambos os mtodos, a acurcia do processo de classicao aumentou cerca de 5%.

6.2 Anlise No Linear de Vozes Saudveis e Patolgicas


Alguns dos trabalhos referenciados a seguir so baseados em resultados de testes estatsticos, ou seja, apenas sugerem o potencial discriminativo das medidas de dinmica no linear sem, contudo, levar a efeito um processo efetivo de classicao entre os grupos analisados. Titze et al. [61] encontraram que a dimenso de correlao de um sujeito disfnico com polipose mais alta que a de um sujeito saudvel. Kakita e Okamoto [124] encontraram que o valor mdio da dimenso de correlao de dezessete sujeitos disfnicos foi superior ao de oito sujeitos saudveis, o que sugere que vozes perceptualmente roucas tem dinmica mais complexa que vozes saudveis. Hertrich et al. [125] encontraram que os sinais eletrogrcos da glote de pessoas com doena de Parkinson e doenas cerebrais tm signicativamente maiores dimenses fractais que os sinais eletrogrcos da glote de sujeitos saudveis. Giovanni et al. [126] encontraram diferenas estatisticamente signicativas (P = 0,031) no valor do maior expoente de Lyapunov entre um grupo formado por 12 sinais de vozes saudveis e um grupo de 26 pacientes com paralisia unilateral das pregas vocais. Jiang e Zhang [76] empregaram mtodos de dinmica no linear para descrever a complexidade da voz entres locutores com vozes saudveis e pessoas apresentando plipos vocais como patologia da voz. Os resultados demonstram como caracterstica uma dinmica de baixa dimenso, tanto no caso da voz saudvel como na voz patolgica (D2 < 3). Alm disso, a anlise da dimenso de correlao indica diferenas estatsticas signicativas entre os dois grupos. A mdia e o desvio padro de D2 das amostras dos sinais de vozes saudveis so mais baixas que das amostras dos sinais de vozes patolgicas. Em outro trabalho, Zhang e Jiang [127] utilizaram um total de 122 sinais de voz, referentes vogal sustentada /ah/, derivados de vozes patolgicas de pacientes com doena de Parkinson, ndulos e plipos vocais, paralisia da laringe e com cncer de origem epitelial. Os sinais foram separados em trs grupos segundo a classicao sugerida por Titze [8]. Os resultados baseados em testes estatsticos sugerem que a dimenso de correlao potencialmente discrimina os trs tipos de sinais. Torres et al. [82] utilizaram diferentes medidas de complexidade a m de caracterizar os sinais de vozes patolgicas. Foi realizado um estudo comparativo da complexidade destes sinais com a de sinais de vozes saudveis. As medidas utilizadas foram: a medida de complexidade de Ziv-Lempel, a entropia de Shannon, a entropia de Tsallis, a entropia relativa de Kullback e suas derivadas (a entropia generalizada e o divergente). Os experimentos foram realizados considerando a estraticao das vozes em relao ao gnero. Os resultados de testes estatsticos

Trabalhos Correlatos e Estado da Arte

134

mostram que as medidas utilizadas no oferecem o mesmo potencial discriminativo para ambos os sexos. A entropia de Shannon e a medida de complexidade de Ziv-Lempel no apresentaram diferenas estatisticamente signicativas em nenhum dos casos. A entropia de Tsallis e as entropias derivadas da entropia relativa apresentaram diferenas estatisticamente para ambos os grupos (P < 0,001). A entropia relativa apresentou diferenas signicativas apenas no caso do grupo de vozes masculinas. Jiang et al [6] realizaram um estudo comparativo entre a anlise dinmica no linear (dimenso de correlao) e anlise de perturbao (jitter e shimmer) em termos dos efeitos do comprimento do sinal analisado, taxa de amostragem e nvel de rudo. Nos experimentos foram usadas vogais sustentadas de vozes saudveis e de vozes afetadas por patologias na laringe. Segundo os autores, as grandes variaes nos valores das medidas de perturbao para os casos dos sinais aperidicos e caticos tornam inapropriado o uso dessas medidas para anlise de tais sinais. Em contrapartida, a anlise dinmica no linear pode quanticar sinais caticos. Alm disso, a dimenso de correlao oferece uma medida de anlise mais convel para sinais quase peridicos de menor comprimento, taxa de amostragem mais baixa e maiores nveis de rudo. Em outro estudo, Aghazadeh et al. [128] investigaram o uso de duas medidas no lineares para quanticar a complexidade da voz e na discriminao entre vozes saudveis e patolgicas: a entropia aproximada e um parmetro de escala proporcional ao expoente de Hurst. Segundo os autores, as medidas avaliadas mostram ser ferramentas efetivas de classicao. El-Imam e Elwakil [129] utilizam a anlise de quanticao de recorrncia (% determinismo) e a entropia espcio-temporal para analisar sinais de voz e caracterizar sons voclicos sonoros e nasais (precedendo /m/ e /n/). Segundo os resultados obtidos, as medidas avaliadas potencialmente discriminam os dois tipos de sinais. Little et al. [45] utilizam uma medida baseada na ideia de recorrncia (RPDE - entropia da densidade de probabilidade de recorrncia) combinada com um fator de escala fractal (autosimilaridade) para classicar vozes saudveis versus vozes patolgicas. Os resultados obtidos, utilizando anlise discriminante quadrtica, apontam para uma acurcia de 91,8% 2%. Como parmetro de comparao, os autores realizaram diferentes combinaes (duas a duas) envolvendo algumas medidas de perturbao tradicionais, obtendo nestes casos taxas de classicao inferiores s encontradas com o mtodo proposto (jitter e shimmer, 81,4% 3,9%; shimmer e HNR (Relao harmnico-rudo), 80,7% 4% e jitter e HNR, 76,4% 4,8%). Zhang e Jiang [130] investigam as caractersticas de vogais faladas de forma contnua e de forma sustentada de locutores com vozes saudveis e pacientes com patologias da laringe. Foram usados mtodos de perturbao (incluindo jitter e shimmer), relao sinal-rudo (SNR), e mtodos de dinmica no linear (dimenso de correlao e entropia de segunda ordem). Os resultados obtidos mostraram que em todos os casos estudados, ou seja, fala contnua, sustentada, saudvel e/ou patolgica, os sinais de voz tm caractersticas dinmicas de baixa dimenso. Alm disso, para as vogais sustentadas, a anlise de jitter, shimmer, dimenso de correlao, e entropia de segunda ordem revelaram diferenas signicativas entre vozes saudveis e patol-

Trabalhos Correlatos e Estado da Arte

135

gicas. Por outro lado, para voz contnua, jitter e shimmer no discriminaram, estatisticamente, vozes saudveis de patolgicas, porm uma diferena signicativa foi encontrada para a SNR (Relao sinal-rudo), dimenso de correlao, e entropia de segunda-ordem. Em outro trabalho, Falco et al. [111] apresentam um estudo sobre a aplicao da entropia de Shannon, entropia relativa e a entropia de Tsallis para a classicao automtica de voz saudvel ou patolgica, com edema, cistos, ndulos nas cordas vocais e paralisia dos nervos larngeos. Segundo os resultados encontrados a entropia de Tsallis mostrou-se mais robusta na separao de vozes saudveis e patolgicas sendo, no geral, o modelo mais eciente, pois apresenta uma maior probabilidade de correta deteco da patologia. Porm, a entropia relativa se revelou mais precisa na correta rejeio da presena de patologias, ou seja, apresenta um melhor diagnstico de vozes saudveis, com o menor ndice de falsos positivos. Os resultados para a entropia de Shannon tambm foram signicativos, principalmente no correto diagnstico da presena de patologias. Segundo a avaliao dos autores, os resultados obtidos mostram que o uso da entropia para diagnosticar a presena de patologias nas dobras vocais bastante interessante e promissor. As medidas de entropia utilizadas no se mostraram ecazes na separao dos diferentes tipos de patologia abordados. Vaziri et al. [131] fazem uso do expoente de Hurst para efeito de classicao entre vozes saudveis e vozes patolgicas. Os resultados encontrados, utilizando anlise discriminante linear (LDA), apresentam diferentes taxas de acurcia dependendo do mtodo utilizado para estimao do parmetro de Hurst, ou seja, 95% com o uso do mtodo da varincia agregada e 95,24% para o mtodo R/S. Henrquez et al. [32] investigam a possibilidade de se quanticar a qualidade da voz (saudvel ou patolgica) por meio do uso de seis medidas no lineares, so elas: as entropias de Rnyi de primeira e segunda ordem, a entropia de correlao (ou entropia de segunda ordem), a dimenso de correlao, a entropia de Shannon e o valor do primeiro mnimo da funo de informao mtua. A m de se vericar a utilidade dessas medidas so usados dois bancos de dados: um banco de dados no comercial, composto de quatro diferentes tipos de qualidade da voz (voz saudvel e trs nveis de vozes patolgicas - alta, mdia e baixa severidade) de acordo com o parmetro do grau de rouquido (Grade of hoarseness), o (G) da escala GRBAS; e um banco de dados comercial, "MEEI Voice Disorders", composto de dois nveis de qualidade vocal (vozes saudveis e vozes patolgicas). Para um classicador baseado em redes neurais MLP (Multi-Layer Perceptron) e usando todas as caractersticas combinadas, a taxa global de sucesso de um sistema de classicao foi de 82,47% (banco de dados no-comercial) e a do outro 99,69% (banco de dados MEEI). Segundo os autores, a diferena entre as taxas de classicao obtidas a partir dos dois bancos de dados deve-se ao fato da no existncia, no banco de dados MEEI, de vozes patolgicas de baixa severidade. Em outro trabalho, Vaziri et al. [30] faz uso da medidas de dinmica no linear: dimenso de correlao, maior expoente de Lyapunov, entropia aproximada, dimenso fractal, medida de complexidade de Ziv-Lempel, bem como duas medidas clssicas de perturbao: o

Trabalhos Correlatos e Estado da Arte

136

quociente de perturbao de amplitude (APQ - Amplitude Perturbation Quotient) e o quociente de perturbao de pitch (PPQ - Pitch Perturbation Quotient), na tarefa de diagnstico da qualidade da voz. Nos experimentos foram analisados 51 sinais de vozes saudveis e 112 sinais de vozes afetadas por patologias nas pregas vocais. Utilizando um classicador baseado em SVM (Support Vector Machine) os resultados encontrados revelam as seguintes taxas de classicao: dimenso de correlao, 94,44% ; maior expoente de Lyapunov, 88,89%; Ziv-Lempel, 88,80%; dimenso fractal, 87,85%; entropia aproximada, 79,78%, PPQ, 73,33% e APQ, 71,12%. Segundo os autores, isto signica que a dimenso de correlao e o maior expoente de Lyapunov podem ser usados como um mtodo convel no diagnstico clnico de patologias na laringe e em outras aplicaes na rea. Em um trabalho mais recente, Chai et al. [29] observaram que a dimenso de correlao de sinais de voz de pessoas fumantes apresenta valores superiores aos valores dessa medida com vozes de pessoas no-fumantes (P < 0,001). Arias-Londono et al. [44] utilizam a combinao de dois classicadores para realizar a discriminao entre vozes saudveis e vozes patolgicas. Em um dos classicadores usado um conjunto de onze caractersticas derivadas da anlise no linear. Duas dessas caractersticas so baseadas nas medidas da teoria do caos (o maior expoente de Lyapunov e a dimenso de correlao), duas so baseadas na anlise de recorrncia (RPDE) e de auto-similaridade, e as demais so diferentes estimaes da entropia. O outro classicador utiliza as informaes extradas de mtodos clssicos de parametrizao (parmetros de rudo e coecientes mel-cepstrais). A combinao dos dois classicadores e a utilizao do classicador SVM gerou uma taxa de classicao global (acurcia) de 98,23% 0,01%. A seguir so apresentados alguns trabalhos, dentre vrios existentes, que esto no mesmo contexto desta pesquisa, porm que utilizam tcnicas baseadas em medidas de perturbao ou no modelo linear de produo da fala. Godino et al. [21] sugerem que a deteco de desordens vocais pode ser realizada usando vetores formados pela combinao de coecientes cepstrais na escala mel (MFCC - mel frequency cepstral coefcients), mais a sua primeira derivada (delta mel-cepstrais) e a energia de cada segmento do sinal analisado. Nos experimentos so utilizados 53 sinais de vozes saudveis e 173 sinais de voz com uma larga faixa de anomalias nas pregas vocais. A classicao feita com o uso de modelos de misturas gaussianas (GMM - Gaussian mixture models) que fornecem uma deciso sobre a presena ou ausncia da patologia para cada segmento do sinal. O melhor resultado de classicao foi obtido com o uso de 24 MFCC e um modelo de 6 misturas gaussianas, com uma taxa mxima de acurcia de 94,07% 3,28%. Em seu trabalho de Tese, Costa [19] apresenta um estudo sobre a discriminao da patologia edema na pregas vocais. A patologia caraterizada utilizando-se anlise por predio linear (LPC), anlise cepstral e mel-cepstral. Para a estimao dos coecientes cepstrais, utilizada uma abordagem paramtrica derivada da anlise por predio linear e para os mel-cepstrais uma abordagem no paramtrica, baseada na transformada rpida de Fourier. Para cada tipo de

Trabalhos Correlatos e Estado da Arte

137

parmetro, foram extrados 12 coecientes. A classicao realizada em duas etapas: uma pr-classicao, em que utilizada a medida de distncia do mnimo erro mdio quadrtico para o clculo dos valores de distoro, a partir da a voz classicada como patolgica ou no-patolgica, de acordo com um limiar pr-estabelecido, que proporcione a melhor separao entre as classes; na fase nal utiliza-se uma modelagem paramtrica por meio de Modelos de Markov Escondidos (HMM-Hidden Markov Models) [132]. Nessa pesquisa, foram utilizados 53 arquivos de vozes normais, disponveis na base de dados da Kay Elemetrics [60], 44 sinais de vozes afetados por edema nas pregas vocais e 23 sinais com outras patologias da laringe como ndulos, cistos, e paralisia nas pregas vocais. Os resultados indicam os coecientes provenientes da anlise LPC como sendo os que obtiveram melhores valores de acurcia no processo de classicao, tendo sido obtido, na fase nal de classicao, a taxa mxima de 100% na discriminao entre sinais de vozes saudveis e vozes afetadas por edema e de 96% na discriminao entre sinais de vozes com edema e vozes com outras patologias (ndulos, cistos e paralisia). Fonseca e Pereira [133] utilizaram uma abordagem baseada na anlise wavelet para avaliar diferenas no jitter de 71 sinais de voz, sendo 30 saudveis, 25 de pacientes com ndulos e 16 de pacientes com edema de Reinke. Os resultados obtidos a partir do classicador SVM para a discriminao entre os diferentes grupos de sinais apresentaram as seguintes taxas mximas de acurcia: saudvel versus patolgica, 88,20%; saudvel versus edema, 85,30%; saudvel versus ndulos, 90,10% e ndulos versus edema 82,40%. Wang et al. [17] utilizaram um subconjunto da base de dados da Kay Elemetrics [60] composto por 53 sinais de vozes saudveis e 173 sinais de vozes afetadas por diversas patologias nas pregas vocais. Nesse trabalho utilizada anlise mel-cepstral para extrao de vetores de dimenso 16 como entrada para um classicador baseado na combinao de um modelo com 16 misturas Gaussianas e SVM (GMM-SVM). Os resultados indicam que um sinal da vogal sustentada /ah/ pode ser classicado como sendo de uma voz saudvel ou patolgica com uma acurcia de 96,1%2,51%.

C APTULO 7

Concluses e Sugestes

7.1 Introduo
Muito embora mtodos de anlise de sinais de voz baseados no modelo linear de produo da fala apresentem, ainda, um campo aberto para a pesquisa em diversas aplicaes que envolvem o processamento digital de sinais como, por exemplo, codicao, reconhecimento de fala e de locutor e discriminao entre sinais de vozes saudveis e patolgicas, outras abordagens tm sido investigadas para esses mesmos ns. A anlise baseada na teoria dos sistemas dinmicos no lineares e na teoria do caos tem oferecido caminhos alternativos para a extrao de informaes do sistema de produo da fala a partir da sada desse sistema representado por meio de uma srie temporal (sinal de voz). Tratando-se particularmente da discriminao de vozes patolgicas por meio do uso de tcnicas de processamento digital de sinais, objeto desta pesquisa, o estudo fundamentado na busca de caractersticas que possam representar, de forma eciente, sinais de vozes obtidos de locutores saudveis, isto , sem apresentarem patologias na laringe - mais especicamente nas pregas vocais - e sinais de vozes oriundos de indivduos com algum tipo de patologia larngea. Neste captulo so apresentadas de forma resumida as principais etapas do procedimento experimental, alm dos aspectos mais relevantes dos resultados obtidos e, por m, sugestes para trabalhos futuros.

7.2 Sumrio da Pesquisa


Neste trabalho foram realizados experimentos computacionais (simulaes) reunindo um conjunto de oito medidas decorrentes da anlise no linear e da teoria do caos que, via de regra, so abordadas de forma fragmentada na literatura. O potencial discriminativo de cada uma dessas medidas avaliado, primeiro, por meio de testes estatsticos, e posteriormente, como caractersticas (de forma individual e combinada) nos processos de classicao. Alm desse

Concluses e Sugestes

139

conjunto de medidas, outro conjunto apresentado e avaliado no contexto da discriminao de vozes patolgicas, sendo formado por oito medidas de quanticao de recorrncia. So apresentados a seguir os procedimentos realizados durante a fase de obteno dos resultados desta pesquisa. 1. Determinao dos parmetros de imerso (passo de reconstruo e dimenso de imerso mnima) para cada um dos 171 sinais de voz analisados, sendo 53 sinais de vozes saudveis e 118 sinais de vozes afetadas por patologias larngeas (paralisia, edema e ndulos nas pregas vocais); 2. Caracterizao acstica dos sinais de vozes saudveis e patolgicas por meio da extrao das invariantes relativas Teoria do Caos e outras medidas da anlise no linear: Dimenso de Correlao (D2 ); Maior Expoente de Lyapunov (1 ); Entropia de Correlao (K2 ); Entropia de Shannon (H1 ); Entropia de Tsallis (Hq ); Entropia Aproximada (ApEn); Expoente de Hurst (H ). 3. Investigao do potencial discriminativo das medidas de dinmica no linear (MNL) por meio da anlise estatstica com a realizao de testes de hipteses; 4. Caracterizao acstica dos sinais de vozes saudveis e patolgicas por meio da extrao das medidas de quanticao de recorrncia (MQR): Taxa de recorrncia (REC); Determinismo (DET ); Comprimento mximo das estruturas diagonais (Lmax ); Entropia da distribuio de frequncias dos comprimentos das linhas diagonais (ENTR); Tendncia (TREND); Laminaridade (LAM ); Comprimento mdio das estruturas verticais (TT ); Comprimento mximo das estruturas verticais (Vmax ). 5. Investigao do potencial discriminativo das medidas de quanticao de recorrncia (MQR) por meio da anlise estatstica com a realizao de testes de hipteses;

Concluses e Sugestes

140

6. Classicao entre sinais de vozes saudveis e patolgicas (paralisia, edema e ndulos como um s grupo) utilizando as medidas de anlise no linear (MNL) e as medidas de quanticao de recorrncia (MQR), de forma individual e combinada, com os classicadores de discriminante linear (LDA) e de discriminante quadrtica (QDA); 7. Classicao entre vozes saudveis e vozes afetadas por cada uma das patologias consideradas individualmente (edema, paralisia e ndulos) usando as medidas convencionais de anlise no linear, de forma individual e combinada, com os classicadores LDA e QDA; 8. Discriminao de vozes afetadas por diferentes patologias (edema versus paralisia, edema versus ndulos e paralisia versus edema) usando as medidas de anlise no linear (MNL) e as medidas de quanticao de recorrncia (MQR), de forma individual e combinada, com os classicadores LDA e QDA; 9. Utilizao de vetores hbridos formados pelas medidas de anlise no linear (MNL), medidas de quanticao de recorrncia (MQR) e coecentes de predio linear (anlise LPC) para a classicao entre vozes saudveis e patolgicas (paralisia, edema e ndulos), considerando as patologias como um s grupo e tambm em trs diferentes grupos de patologias especcas; 10. Utilizao de vetores hbridos formados pelas medidas de anlise no linear (MNL), medidas de quanticao de recorrncia (MQR) e coecentes de predio linear (anlise LPC) para a discriminao entre sinais de vozes afetadas por diferentes patologias (edema versus paralisia, edema versus ndulos e paralisia versus edema). A m de avaliar o desempenho do sistema proposto, foi aplicada a tcnica de validao cruzada (Cross-Validation k-fold) nas etapas de treino/classicao, com a diviso do conjunto de caractersticas em 10 subconjuntos mutuamente exclusivos.

7.3 Aspectos Relevantes dos Resultados


Os resultados obtidos por meio dos processos de classicao sugerem que, de um modo geral, as medidas investigadas podem ser utilizadas de forma ecaz na construo de sistemas de discriminao automtica de patologias larngeas. Foi observado, contudo, que cada patologia apresenta particularidades que requerem diferentes conjuntos de caractersticas para representar as desordens vocais a ela associadas, permitindo a discriminao entre patologias, ou entre vozes patolgicas e vozes saudveis. Neste trabalho, foi possvel identicar, entre as medidas avaliadas, as combinaes de caractersticas que oferecem melhor desempenho nos processos de classicao.

Concluses e Sugestes

141

Outro ponto de relevncia foi a vericao de que a combinao de medidas da anlise linear (especicamente os coeciente LPC) e de anlise no linear, por meio do uso de vetores hbridos, oferece melhoras signicativas no desempenho do classicador, notadamente no caso da discriminao entre grupos de vozes afetadas por diferentes patologias. A partir dos experimentos realizados com o uso de duas diferentes funes discriminante (linear e quadrtica), foi possvel observar a inuncia do classicador no desempenho nal do processo de classicao. A anlise discriminate quadrtica (QDA) apresentou, na maioria dos casos analisados, taxas de classicao superiores s obtidas com o uso da anlise discriminate linear (LDA), sobretudo, quando feita a combinao de caractersticas de diferentes conjuntos de medidas (medidas das anlises linear e no linear).

7.4 Contribuies da Pesquisa


As medidas de anlise dinmica no linear empregadas neste trabalho vem sendo utilizadas h algum tempo, embora de forma esparsa, no intuito de servir como base para sistemas que buscam discriminar sinais de vozes saudveis e de vozes patolgicas. Nesse sentido, um fato relevante desta pesquisa a caracterizao e a identicao do potencial individual das MNL e de conjuntos formados pela combinao dessas medidas, que oferecem o melhor desempenho na classicao entre sinais de vozes saudveis e patolgicas, bem como entre sinais de vozes saudveis e algumas patologias especcas (paralisia, edema e ndulos). Adicionalmente, introduzido, para esta aplicao, um novo conjunto de medidas - as medidas de quanticao de recorrncia (MQR). Estas medidas apresentam desempenho equivalente a diversas outras medidas utilizadas para o mesmo m, mas com o mrito de serem obtidas a partir de algoritmos relativamente simples. Importante tambm destacar o uso de vetores hbridos, formados a partir da combinao adequada das caractersticas dos conjuntos MNL e MQR com vetores extrados da anlise LPC, com resultados signicativos na capacidade de discriminao entre as patologias consideradas neste trabalho.

7.5 Sugestes para Trabalhos Futuros


Embora os resultados obtidos nesta pesquisa possam ser, de uma forma geral, considerados relevantes, so apresentadas, a seguir, algumas sugestes que podero oferecer melhorias no processo que se refere classicao de vozes patolgicas, bem como, na utilizao das medidas estudas em outras aplicaes na rea do processamento digital de sinais de voz. 1. Utilizao das medidas de recorrncia calculadas a partir da segmentao dos sinais de voz;

Concluses e Sugestes

142

2. Vericao da ecincia no processo de classicao a partir do uso da combinao das medidas de quanticao de recorrncia e medidas de perturbao (como jitter e shimmer) e da anlise linear (e.g., coecientes Mel Cepstrais e suas derivadas); 3. Utilizao de classicadores mais sosticados, como por exemplo, SVM, GMM e redes neurais; 4. Investigao do uso de tcnicas de reduo de dimensionalidade (e.g., PCA, RelaoF e o discriminante de Fisher) que possam minimizar o nmero de caractersticas que compem os vetores usados no processo de classicao sem, contudo, apresentar perda signicativa de desempenho; 5. Aplicao das medidas de recorrncia na discriminao de outras patologias; 6. Avaliao do desempenho das medidas no processo de classicao aps a separao por gnero dos locutores e grau de severidade das patologias; 7. Construo de uma base de dados composta, por exemplo, por vozes de professores para avaliao e um pr-diagnstico relativo presena de possveis patologias nas pregas vocais; Alm disso, pode ser investigada a aplicao das medidas de recorrncia em sistemas de reconhecimento de fala e de locutor.

Referncias Bibliogrcas
[1] J. Deller, J. Proakis, and J. Hansen, Discrete-time Processing of Speech Signals. WileyIEEE Press, 2000. [2] A. F. Dalley, Dynamic human anatomy, verso 2.0, (cd-rom, institutional edition), Lippincott Williams and Wilkins. [3] M. Lucian Sulica. (2011) Reinkes edema. Voice medicine. [Online]. Available: http://www.voicemedicine.com/reinkes_edema.htm [4] M. Behlau, Voz, O Livro do Especialista, E. Revinter, Ed., 2001, vol. I. [5] M. James P. Thomas, March 2010. [Online]. Available: http://www.voicedoctor.net/ media/photo/mucosal/reinke/reinke_m.jpg [6] J. Jiang, Y. Zhang, and C. McGilligan, Chaos in voice, from modeling to measurement, Journal of Voice, vol. 20, no. 1, pp. 217, 2006. [7] J. C. Stemple, L. Glaze, and B. Klaben, Clinical Voice Pathology - Theory and Management, 4th ed. Plural Publishing, 2010. [8] I. Titze, Workshop on acoustic voice analysis: Summary statement. National Center for Voice and Speech, 1995. [9] G. Fant, Speech acoustics and phonetics. Springer, 2004, vol. 24. [10] S. B. Davis, Acoustic characteristics of normal and pathological voices, Speech and Language: Advances in Basic Research and Practice, vol. 1, pp. 271335, 1979. [11] F. Quek, M. Harper, Y. Haciahmetoglou, L.Chen, and L. O. Raming, Speech pauses and gestural holds in parkinsons disease, in Proc. of International Conference on Spoken Language Processing, 2002, pp. 24852488. [12] L. Cummings, Clinical linguistics. Edinburgh Univ Pr, 2008. [13] C. A. Arajo, Cuidados com a voz, Revista Associao Mdica Brasileira, p. 48:24., 2004.

144 [14] A. Barbosa-Branco and M. Romariz, Doenas das cordas vocais e sua relao com o trabalho, Comum Cinc Sade, vol. 17, no. 1, pp. 3745, 2006. [15] L. Rabiner and R. Schafer, Digital processing of speech signals. glewood Cliffs, NJ, 1978, vol. 100. Prentice-hall En-

[16] R. K. Balasubramanium, J. S. Bhat, S. F. III, and R. R. III, Cepstral analysis of voice in unilateral adductor vocal fold palsy, Journal of Voice, vol. 25, no. 3, pp. 326329, 2011. [17] X. Wang, J. Zhang, and Y. Yan, Discrimination between pathological and normal voices using gmm-svm approach, Journal of Voice, vol. 25, pp. 3843, 2011. [18] B. R. Kumar, J. Bhat, and N. Prasad, Cepstral analysis of voice in persons with vocal nodules, Journal of Voice, vol. 24(6), pp. 651653, 2010. [19] S. L. do Nascimento Cunha Costa, Anlise Acstica Baseada no Modelo Linear de Produo da Fala para Discriminao de Vozes Patolgicas. Tese de doutorado, UFCG Universidade Federal de Campina Grande, 2008. [20] J. Fechine, Reconhecimento Automtico de Identidade Vocal Utilizando Modelagem Hbrida: Paramtrica e Estatstica. Tese de doutorado, Universidade Federal da Paraba, Campina Grande, Brasil, 2000. [21] J. I. Godino-Llorente, P. Gomes-Vilda, and M. Blanco-Velasco, Dimensionality reduction of a pathological voice quality assessment system based on gaussian mixture models and short-term cepstral parameters, IEEE Transactions on Biomedical Engineering, vol. 53(10), pp. 19431953, 2006. [22] E. Fonseca, R. Guido, A. Silvestre, and J. Pereira, Discrete wavelet transform and support vector machine applied to pathological voice signals identication, Seventh IEEE International Symposium on Multimedia, pp. 785789, 2005. [23] M. Bahoura and C. Pelletier, Respiratory sounds classication using cepstral analysis and gaussian mixture models, in Engineering in Medicine and Biology Society, 2004. IEMBS04. 26th Annual International Conference of the IEEE, vol. 1. IEEE, 2004, pp. 912. [24] C. Adnene, B. Lamia, and M. Mounir, Analysis of pathological voices by speech processing, in Signal Processing and Its Applications, 2003. Proceedings. Seventh International Symposium on, vol. 1. IEEE, 2003, pp. 365367. [25] M. de Oliveira Rosa, Laringe Digital. Tese de doutorado, Escola de Engenharia de So Carlos da Universidade de So Paulo, 2002.

145 [26] A. Kumar and S. K. Mullick, Nonlinear dynamical analysis of speech, Journal of Acoustical Society of America, vol. 100, No. 1, pp. 615629, 1996. [27] I. Kokkinos and P. Maragos, Nonlinear speech analysis using models for chaotic systems, Speech and Audio Processing, IEEE Transactions on, vol. 13, no. 6, pp. 1098 1109, 2005. [28] A. Petry, Reconhecimento Automtico de Locutor Utilizando Medidas de Invariantes Dinmicas No-Lineares. Tese de doutorado, Universidade Federal do Rio Grande do Sul, 2002. [29] L. Chai, A. Sprecher, Y. Zhang, Y. Liang, H. Chen, and J. Jiang, Perturbation and nonlinear dynamic analysis of adult male smokers, Journal of Voice, vol. 25(3), pp. 342347, 2011. [30] G. Vaziri, F. Almasganj, and R. Behroozmand, Pathological assessment of patients speech signals using nonlinear dynamical analysis, Computers in Biology and Medicine, vol. 40, no. 1, pp. 5463, 2010. [31] S. Awan, N. Roy, and J. Jiang, Nonlinear dynamic analysis of disordered voice: The relationship between the correlation dimension (d2) and pre-/post-treatment change in perceived dysphonia severity, Journal of Voice, vol. 24(3), no. 3, pp. 285293, 2010. [32] P. Henrquez, J. B. Alonso, M. A. Ferrer, C. M. Travieso, J. I. Godino-Llorente, and F. D. de Maria, Characterization of healthy and pathological voice through measures based on nonlinear dynamics, IEEE Transactions on Audio, Speech, and Language Processing, vol. 17, no. 6, pp. 11861195, August 2009. [33] J. P. Eckmann, S. O. Kamphorst, and D.Ruelle, Recurrence plots of dynamical systems, Europhys. Letters, vol. 4(9), pp. 973977, 1987. [34] C. L. Webber-Jr. and J. P. Zbilut, Dynamical assessment of physiological systems and states using recurrence plot strategies, J. Appl. Physiol., vol. 76, pp. 965973, 1994. [35] A. Schmied and M. Descarreaux, Reliability of emg determinism to detect changes in motor unit synchrony and coherence during submaximal contraction, Journal of neuroscience methods, vol. 196(2), pp. 238246, 2011. [36] U. R. Acharya, S. V. Sree, S. Chattopadhyay, W. Yu, and P. Ang, Application of recurrence quantication analysis for the automated identication of epileptic eeg signals, International Journal of Neural Systems, vol. 21, no. 3, pp. 199211, 2011. [37] M. Aboofazeli and Z. Moussavi, Comparison of recurrence plot features of swallowing and breath sounds, Chaos, Solitons & Fractals, vol. 37, no. 2, pp. 454464, 2008.

146 [38] J. Zbilut, N. Thomasson, and C. Webber, Recurrence quantication analysis as a tool for nonlinear exploration of nonstationary cardiac signals, Medical engineering & physics, vol. 24, no. 1, pp. 5360, 2002. [39] V. Cermak, L. Bodri, and J. Safanda, Tidal modulation of temperature oscillations monitored in borehole yaxcopoil-1 (yucatn, mexico), Earth and Planetary Science Letters, vol. 282, no. 1-4, pp. 131139, 2009. [40] J. A. Bastos and J. Caiado, Recurrence quantication analysis of global stock markets, Physica A: Statistical Mechanics and its Applications, vol. 390(7), pp. 13151325, 2011. [41] F. Palmieri and U. Fiore, A nonlinear, recurrence-based approach to trafc classication, Computer Networks, vol. 53, no. 6, pp. 761773, 2009. [42] J. Menezes and G. Barreto, Long-term time series prediction with the narx network: An empirical evaluation, Neurocomputing, vol. 71, no. 16, pp. 33353343, 2008. [43] M. Little, D. Costello, and M. Harries, Objective dysphonia quantication in vocal fold paralysis: comparing nonlinear with classical measures, Journal of Voice, vol. 25, no. 1, pp. 2131, 2011. [44] J. Arias-Londono, J. Godino-Llorente, N. Senz-Lechn, V. Osma-Ruiz, and G. Castellanos-Dominguez, Automatic detection of pathological voices using complexity measures, noise parameters, and mel-cepstral coefcients. IEEE Transactions on bio-medical engineering, vol. 58, no. 2, pp. 370379, 2011. [45] M. Little, P. McSharry, S. Roberts, D. Costello, and I. Moroz, Exploiting nonlinear recurrence and fractal scaling properties for voice disorder detection, BioMedical Engineering OnLine, vol. 6, no. 1, p. 23, 2007. [46] S. Zitta, Anlise perceptivo-auditiva e acstica em mulheres com ndulos vocais, Dissertao de Mestrado, Centro Federal de Educaoo Tecnolgica do Paran, 2010. [47] M. Hirano and K. Sato, Histological Color Atlas of the Human Larynx. Group, 1993. Singular Pub.

[48] B. Benjamin, Cirurgia Endolarngea, E. Revinter, Ed., Rio de Janeiro, 2000. [49] I. Kuhl, Manual Prtico de Laringologia, E. da Universidade UFRGS, Ed., Porto Alegre, 1982. [50] A. Parraga, Aplicao da transformada wavelet packet na anlise e classicao de sinais de vozes patolgicas, Dissertao de Mestrado, Universidade Federal do Rio Grande do Sul, 2002.

147 [51] H. M. Teager, Some observations on oral air ow during phonation, Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 28, no. 5, pp. 599601, 1980. [52] H. M. Teager and S. M. Teager, A phenomenological model for vowel production in the vocal tract, in Speech Science: Recent Advances, R. G. Daniloff, Ed. San Diego, CA: College-Hill Press, 1985, ch. 3, pp. 73109. [53] H. M. Teager, Evidence for nonlinear sound production mechanisms in the vocal tract, in Speech Production and Speech Modelling, W. J. Hardcastle and A. Marchal, Eds. Boston, MA: Kluwer Academic, 1990, pp. 241261. [54] T. Schreiber and A. Schmitz, Surrogate time series, Physica D: Nonlinear Phenomena, vol. 142, no. 3, pp. 346382, 2000. [55] I. Tokuda, T. Miyano, and K. Aihara, Surrogate analysis for detecting nonlinear dynamics in normal vowels, The Journal of the Acoustical Society of America, vol. 110, p. 3207, 2001. [56] M. Little, Biomechanically informed nonlinear speech signal processing, Ph.D. dissertation, University of Oxford, 2006. [57] J. Theiler, S. Eubank, A. Longtin, B. Galdrikian, and J. Doyne Farmer, Testing for nonlinearity in time series: the method of surrogate data, Physica D: Nonlinear Phenomena, vol. 58, no. 1, pp. 7794, 1992. [58] L. E. V. da Silva, Ferramentas computacionais na anlise da variabilidade da frequncia cardaca atravs do paradigma no extensivo no estudo de cardiopatias. Dissertao de mestrado, USP - Universidade de So Paulo, 2010. [59] W. Fisher, G. Doddington, and K. Goudie-Marshall, The darpa speech recognition research database: specications and status, in Proc. DARPA Workshop on Speech Recognition, 1986, pp. 9399. [60] K. Elemetrics, Kay Elemetrics Corp. Disordered Voice Database, Model 4337, 03 Ed., 1994. [61] I. Titze, R. Baken, and H. Herzel, Evidence of chaos in vocal fold vibration, pp. 143 188, 1993. [62] Y. Zhang, C. McGilligan, L. Zhou, M. Vig, and J. Jiang, Nonlinear dynamic analysis of voices before and after surgical excision of vocal polyps, The Journal of the Acoustical Society of America, vol. 115, p. 2270, 2004. [63] M. Savi, Chaos and order in biomedical rhythms, Journal of the Brazilian Society of Mechanical Sciences and Engineering, vol. 27, no. 2, pp. 157169, 2005.

148 [64] H. Kantz and T. Schreiber, Nonlinear time series analysis. vol. 7. Cambridge Univ Pr, 2004,

[65] G. Kubin, Nonlinear processing of speech, Speech coding and synthesis, pp. 557610, 1995. [66] M. Savi, Dinmica no-linear e caos. Editora E-papers, 2006.

[67] N. Fiedler-Ferrara and C. P. C. Prado, Caos - uma Introduo. Editora Edgard Blcher, 1994. [68] F. Takens, Detecting strange attractors in turbulence, Dynamical systems and turbulence, Warwick 1980, pp. 366381, 1981. [69] N. Packard, J. Crutcheld, J. Farmer, and R. Shaw, Geometry from a time series, Physical Review Letters, vol. 45, no. 9, pp. 712716, 1980. [70] A. Fraser and H. Swinney, Independent coordinates for strange attractors from mutual information, Physical Review A, vol. 33, no. 2, p. 1134, 1986. [71] F. Hausdorff, Der wertvorrat einer bilinearform, Mathematische Zeitschrift, vol. 3, pp. 314316, 1919. [72] M. Kennel, R. Brown, and H. Abarbanel, Determining embedding dimension for phasespace reconstruction using a geometrical construction, Physical review A, vol. 45, no. 6, p. 3403, 1992. [73] A. Wolf, J. Swift, H. Swinney, and J. Vastano, Determining lyapunov exponents from a time series, Physica D: Nonlinear Phenomena, vol. 16, no. 3, pp. 285317, 1985. [74] H. Kantz, A robust method to estimate the maximal lyapunov exponent of a time series, Physics Letters A, vol. 185, no. 1, pp. 7787, 1994. [75] W. Steeb, W. Steeb, Y. Hardy, and R. Stoop, The nonlinear workbook: chaos, fractals, cellular automata, neural networks, genetic algorithms, gene expression programming, support vector machine, wavelets, hidden Markov models, fuzzy logic with CC++, Java and Symbolic C++ programs. World Scientic Pub Co Inc, 2005. [76] J. Jiang and Y. Zhang, Nonlinear dynamic analysis of speech from pathological subjects, Electronics Letters, vol. 38, no. 6, pp. 294295, 2002. [77] J. Farmer, E. Ott, and J. Yorke, The dimension of chaotic attractors, Physica D: Nonlinear Phenomena, vol. 7, no. 1-3, pp. 153180, 1983. [78] S. Strogatz, Nonlinear dynamics and chaos: With applications to physics, biology, chemistry, and engineering. Westview Pr, 1994.

149 [79] L. H. A. Monteiro, Sistemas Dinmicos. Livraria da Fsica, 2006.

[80] P. Grassberger and I. Procaccia, Measuring the strangeness of strange attractors, Physica D: Nonlinear Phenomena, vol. 9, no. 1-2, pp. 189208, 1983. [81] C. Shannon, A mathematical theory of communication, ACM Sigmobile Mobile Computing and Communications Review, vol. 5, no. 1, pp. 355, 2001. [82] M. Torres, L. Gamero, H. Runer, C. Martnez, D. Milone, and G. Schlotthauer, Study of complexity in normal and pathological speech signals, in Engineering in Medicine and Biology Society, 2003. Proceedings of the 25th Annual International Conference of the IEEE, vol. 3. IEEE, 2003, pp. 23392342. [83] A. Rnyi, On measures of entropy and information, in Fourth Berkeley Symposium on Mathematical Statistics and Probability, 1961, pp. 547561. [84] J. Arias-Londoo, J. Godino-Llorente, G. Castellanos-Dominguez, N. Senz-Lechn, and V. Osma-Ruiz, Complexity analysis of pathological voices by means of hidden markov entropy measurements, in Engineering in Medicine and Biology Society, 2009. EMBC 2009. Annual International Conference of the IEEE. IEEE, 2009, pp. 2248 2251. [85] S. Pincus, Approximate entropy as a measure of system complexity, Proceedings of the National Academy of Sciences, vol. 88, no. 6, p. 2297, 1991. [86] C. Chakrabarti and K. De, Boltzmann-gibbs entropy: axiomatic characterization and application, International Journal of Mathematics and Mathematical Sciences, vol. 23, no. 4, pp. 243251, 2000. [87] C. Tsallis, Possible generalization of boltzmann-gibbs statistics, Journal of statistical physics, vol. 52, no. 1, pp. 479487, 1988. [88] A. Tavares, Aspectos matemticos da entropia. Dissertao de mestrado, Universidade de Aveiro, Portugal, 2003. [89] H. Hurst, Long-term storage capacity of reservoirs, Trans. Amer. Soc. Civil Eng., vol. 116, pp. 770808, 1951. [90] J. Beran, Statistics for Long-Memory Processes. Chapman & Hall, 1994. [91] M. Taqqu, V. Teverovsky, and W. Willinger, Estimators for long-range dependence: An empirical study, Fractals, vol. 3, no. 4, pp. 785788, 1995. [92] N. Marwan, Encounters with neighbours - current developments of concepts based on recurrence plots and their applications, Ph.D. dissertation, University of Potsdam, 2003.

150 [93] A. Behrman and R. Baken, Correlation dimension of electroglottographic data from healthy and pathologic subjects, The Journal of the Acoustical Society of America, vol. 102, p. 2371, 1997. [94] N. Marwan and J. Kurths, Line structure in recurrence plots, Physics Letters A, vol. 336, pp. 349357, 2004. [95] J. P. Zbilut and C. L. Webber-Jr., Embeddings and delays as derived from quantication of recurrence plots, Physics Letters A, vol. 171 (3-4), pp. 199203, 1992. [96] C. Webber Jr and J. Zbilut, Recurrence quantications: Feature extractions from recurrence plots, Int. J. Bifurcation and Chaos, vol. 17, pp. 34673475, 2007. [97] S. Siegel and N. J. C. Jr., Estatstica No-Paramtrica para Cincias do Comportamento, 2nd ed. Artmed, 2006. [98] D. C. Montgomery and G. C. Runger, Applied statistics and probability for engineers, 3rd ed. Wiley, 2003. [99] R. Larson and B. Farber, Estatstica Aplicada, 4th ed. Pearson Prentice Hall, 2010.

[100] N. Senz-Lechn, J. Godino-Llorente, V. Osma-Ruiz, and P. Gmez-Vilda, Methodological issues in the development of automatic systems for voice pathology detection, Biomedical Signal Processing and Control, vol. 1, no. 2, pp. 120128, 2006. [101] S. Hadjitodorov and P. Mitev, A computer system for acoustic analysis of pathological voices and laryngeal diseases screening, Medical engineering & physics, vol. 24, no. 6, pp. 419429, 2002. [102] V. Parsa and D. Jamieson, Identication of pathological voices using glottal noise measures, Journal of speech, language, and hearing research, vol. 43, no. 2, pp. 469485, 2000. [103] R. Hegger, H. Kantz, and T. Schreiber, Practical implementation of nonlinear time series methods: The tisean package, Chaos, vol. 9, no. 2, pp. 413435, 1999. [104] E. Kononov, Visual recurrence analysis 4.9, 2006, software disponvel em http://nonlinear.110mb.com/vra/. [105] C. L. Webber-Jr. (2009, June) Recurrence quantication analysis, v. 13.1. Software package disponvel em http://homepages.luc.edu/ cwebber/. [Online]. Available: http://homepages.luc.edu/~cwebber/ [106] N. Marwan. (2010, Jan) Cross recurrence plot toolbox, v. 5.15, r(28.5). Software disponvel em http://www.agnld.uni-potsdam.de/ marwan/toolbox/. [Online]. Available: http://www.agnld.uni-potsdam.de/~marwan/toolbox/

151 [107] P. Scalassara, Utilizao de Medidas de Previsibilidade em Sinais de Voz para Discriminao de Patologias da Laringe. Tese de doutorado, Escola de Engenharia de So Carlos da Universidade de So Paulo, 2009. [108] E. G. Souza, Caracterizaao de Sistemas Dinmicos Atravs de Grcos de Recorrncia. Dissertao de mestrado, Universidade Federal do Paran, 2008. [109] G. H. Erbano, Anlise de Sries de Tempo Financeiras - Uma Aplicao da Teoria do Caos em Finanas Empricas. Dissertao de mestrado, Escola de Administrao de Empresas de So Paulo-Fundao Getulio Vargas, So Paulo, 2004. [110] V. T. Motta and P. F. de Oliveira Filho, Spss: anlise de dados biomdicos, 2009. [111] H. Falco, S. Correia, S. Costa, J. Fechine, and B. Aguiar Neto, O uso da entropia na discriminao de vozes patolgicas, in Anais do 210 Congresso Brasileiro de Engenharia Biomdica. Salvador: Sociedade Brasileira de Engenharia Biomdica, 2008, pp. 15991602. [112] M. B. Kennel, R. Brown, and H. D. I. Abarbanel, Determining embedding dimension for phase-space reconstruction using a geometrical construction, Phy, vol. 45 (6), pp. 34033411, 1992. [113] C. L. Webber-Jr. and J. P. Zbilut, Recurrence quantication analysis of nonlinear dynamical systems, in Tutorials in Contemporary Nonlinear Methods for the Behavioral Sciences, M. A. Riley and G. C. V. Orden, Eds., 2005. [Online]. Available: http://www.nsf.gov/sbe/bcs/pac/nmbs/nmbs.jsp [114] E. Melo, L. Brito, O. Brasil, M. Behlau, and D. Melo, Incidncia de leses larngeas no neoplsicas em pacientes com queixas vocais, Revista Brasileira de Otorrinolaringologia, vol. 67, no. 6, pp. 788794, 2001. [115] I. Witten, E. Frank, and M. Hall, Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, 2011. [116] R. Kohavi, A study of cross-validation and bootstrap for accuracy estimation and model selection, in International joint Conference on articial intelligence, vol. 14, 1995, pp. 11371145. [117] L. J. Kazmier, Estatstica Aplicada Economia e Administrao. Brasil, So Paulo, 1982. McGraw-Hill do

[118] O. Hersent, D. Guide, and J.-P. Petit, Telefonia IP: Comunicao multimdia baseada em pacotes. Pearson Education do Brasil, So Paulo, 2002.

152 [119] D. Oshaughnessy, Speech communications: human and machine. 2000. Universities press,

[120] F. Martinez, A. Guillamon, J. Alcaraz, and M. Alcaraz, Detection of chaotic behaviour in speech signals using the largest lyapunov exponent, in Digital Signal Processing, 14th International Conference on DSP, vol. 1. IEEE, 2002, pp. 317320. [121] V. Pitsikalis, I. Kokkinos, and P. Maragos, Nonlinear analysis of speech signals: Generalized dimensions and lyapunov exponents, in Proc. of Eurospeech. Citeseer, 2003. [122] A. Lindgren, M. Johnson, and R. Povinelli, Speech recognition using reconstructed phase space features, in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP03), 2003, vol. 1. IEEE, 2003, pp. 663. [123] M. Johnson, R. Povinelli, A. Lindgren, J. Ye, X. Liu, and K. Indrebo, Time-domain isolated phoneme classication using reconstructed phase spaces, IEEE Transactions on Speech and Audio Processing, vol. 13, no. 4, pp. 458466, 2005. [124] Y. Kakita and H. Okamoto, Visualizing the characteristics of vocal uctuation from the viewpoint of chaos: an attempt toward qualitative quantication, Vocal Fold PhysiologyVoice Quality Control. San Diego, CA: Singular Publishing Group, pp. 235 248, 1995. [125] I. Hertrich, W. Lutzenberger, S. Spieker, and H. Ackermann, Fractal dimension of sustained vowel productions in neurological dysphonias: An acoustic and electroglottographic analysis, The Journal of the Acoustical Society of America, vol. 102, p. 652, 1997. [126] A. Giovanni, M. Ouaknine, and J. Triglia, Determination of largest lyapunov exponents of vocal signal: Application to unilateral laryngeal paralysis, Journal of Voice, vol. 13, no. 3, pp. 341354, 1999. [127] Y. Zhang and J. Jiang, Nonlinear dynamic analysis in signal typing of pathological human voices, Electronics Letters, vol. 39, no. 13, pp. 10211023, 2003. [128] B. S. Aghazadeh, H. Khadivi, and M. Nikkhah-Bahrami, Nonlinear analysis and classication of vocal disorders, in Proceedings of 29th Annual International Conference of the IEEE EMBS, August 2007, pp. 61996202. [129] Y. A. El-Imam and A. S. Elwakil, Applying recurrence quantication and spectral analysis to represent nasalization in speech signals, in Proceedings of the 7th WSEAS International Conference on Multimedia Systems & Signal Processing, April 2007, pp. 129132. [130] Y. Zhang and J. J. Jiang, Acoustic analyses of sustained and running voices from patients with laryngeal pathologies, Journal of Voice, vol. 22, no. 1, pp. 19, January 2008.

153 [131] G. Vaziri, F. Almasganj, and M. Jenabi, On the fractal self-similarity of laryngeal pathologies detection: The estimation of hurst parameter, in Information Technology and Applications in Biomedicine, 2008. ITAB 2008. International Conference on. IEEE, 2008, pp. 383386. [132] L. R. Rabiner, A tutorial on hidden markov models and selected applications in speech recognition, Proceedings of the IEEE, vol. 77, no. 2, pp. 257286, 1989. [133] E. S. Fonseca and J. C. Pereira, Normal versus pathological voice signals, IEEE EMB Magazine, pp. 4448, 2009.

You might also like